你在什麼時候會用圖搜圖?
當你感到語言蒼白無力的時候。
你在掃街的時候,突然發現某撩妹達人穿了一身炫酷的T恤。
你收到朋友送來的生猛紅酒,好奇這到底是百年窖藏還是山寨葡萄糖。
你在編輯文案的時候,一張非常適合的圖片卻掛著水印,你需要一個清晰的版本(請支持正版。。。)
以圖搜圖就像一個「痒痒撓」,能夠到文字搜索難以企及的癢點。這讓我們對這種搜索方式的結果抱有很高的期待。它讓很多人能透過網際網路的森林,感受到若隱若現的人工智慧靈魂。這可能正是人們對這種技術好奇的原因。
【圖像識別的應用場景】
和這種技術為伴十多年的陳杰博士,是博雲視覺的CEO。他帶領北大團隊研發的圖像識別技術如今被用在百度和微信的圖像搜索和圖像識別場景中。他為雷鋒網詳細介紹了圖像識別的一個重要門派——基於尺度空間理論的視覺搜索。
【陳杰】
視覺的秘密人的視覺原理很簡單:物體反射自然光在眼中成像。
如果面前是一面巨大的白牆,你很難看出其中的細節。但是如果在牆面上畫了一隻鳥,你一眼就可以分辨出來。
你之所以能看到眼前這個鳥,是因為你的視覺認為它是一個「斑點」。通俗來講,就是某個東西和周圍的物體產生了反差。
陳杰如此解釋視覺的原理。
所以在你的眼中,眼前的場景是由一些「刺激點」組成的。這些便是圖像的「特徵點」。而如果機器能夠和人一樣準確地識別兩張圖片中相同的「特徵點」,就可以實現以圖搜圖這種高科技了。
但對於人眼來說易如反掌的刺激點,怎麼用機器語言記錄呢?
陳杰告訴雷鋒網,在機器眼中,每一個特徵點都會被記錄為描述性的數據,這些數據包括像素矩陣,顏色、紋理、梯度、形狀分布等
在博雲視覺的算法中,每張圖片會被提取1000個左右的特徵點,而這些特徵數據的大小約為 2Kb-4Kb。
雖然背後的算法極其精細,但是粗略來說,對資料庫中的每張照片提取特徵之後,圖像搜索就可以開始了。
用戶提交搜索的查詢圖片,系統會自動提取圖片上的特徵點,再用特徵點和資料庫中的圖片特徵做對比,兩個圖片的特徵點匹配越多,系統就認為兩張圖片最為相似。於是,用戶會得到一個
按照相似度排序的搜索結果列表。
陳杰說,「一般兩張圖片擁有10個匹配的特徵點,我們就可以認為他們是相似圖片。」
警察叔叔的利器一般童鞋可能想不到,這個高科技解放了警察叔叔。
對於重大案件來說,嫌疑人的汽車往往是破案的重要線索。於是如何從數以億計的監控圖像中找出某個特定汽車,成為了警察叔叔的噩夢。
陳杰告訴雷鋒網,在和某地公安的聯合實驗中,在搜索結果的前200位中,包含了正確結果的90%。也就是說:如果目標共出現在50張圖片中,那麼在前200位結果中包含45個。
【利用監控圖片搜索指定汽車】
「增強現實」的工具但是,一輛車一定是以各個角度和姿態出現在監控圖像中,那麼識別系統為什麼可以做出相對準確的識別呢?
陳杰表示,使用這種技術做圖像識別,需要面對三個重要的幹擾因素:
光照由於同一個物體在不同光線下,特徵點的像素呈現出的數據會有很大的差異。所以好的算法必須能夠排除光線的幹擾,提取物特徵點最基礎的信息。但是不可否認,在極端弱光(例如黑夜)或者極端複雜光線(例如酒吧)下,特徵的辨識力會降低。
幾何變換一輛汽車從各個角度來看,有很大的區別。根據物體的拍攝角度不同,特徵信息一定會發生變化。然而人眼仍然能夠識別出兩個不同角度的圖像是同一物體。對於機器識別系統來說,則需要根據不同的角度變換進行計算,這樣就能儘可能做到物體平移、旋轉等幾何變換之後依然可以進行準確匹配。
距離如果物體在畫面中位置過遠,就會變得更小,這樣圖像上的細節就會大量丟失。這樣的話,一張近視圖和遠視圖就很難被機器認定為相似。為了解決這個問題,陳杰和團隊採用了一種基於尺度空間理論的方法:將每張圖片以不同的量級進行高斯模糊,這個動作是為了模擬人眼在不同距離看到的物體。在這些模糊圖片進行特徵提取和比對,就可以匹配距離鏡頭不同距離的同一物體。
解決了「距離」這個棘手的問題,這種圖像識別的方法就可以完美地應用在增強現實的遊戲中。在這種情況下,應用場景往往是預設而且固定的,所以遊戲的提供商可以把真實的場景通過拍攝不同角度和遠近的照片,然後錄入資料庫。玩家在進行遊戲的時候,會佩戴帶有攝像頭的眼鏡,這種情況下,圖像識別系統就可以對玩家眼中的「景物」和資料庫中的圖片匹配,理解玩家的具體位置,從而在眼鏡中加入各種奇幻的特效
蕾絲邊的福音你知道蕾絲嗎?我自己都沒有想到這個技術可以用於蕾絲製造行業。
陳杰說。
有一個專門做蕾絲花紋搜尋引擎的團隊找到陳杰,告訴他一個行業的痛點:蕾絲生產廠家經常生產一些特定的類似花紋,尋求買家。但是蕾絲的花紋通常根本無法用人類的語言來形容,所以經常可以看到有人在微信群裡發很多圖片,詢問是否有人需要這個樣式;對於買家來說,他們也會發圖片,並且詢問是否有人有這樣的花紋。
這種情況下這個蕾絲花紋搜尋引擎就出現了,它對接了買家和賣家。這種搜尋引擎,需要的恰恰是這種圖像識別技術。
【蕾絲搜尋引擎】
以驢找驢vs以驢找馬圖像識別同樣可以拯救紅酒控。
陳杰告訴雷鋒網(公眾號:雷鋒網),博雲視覺服務的客戶中,就有一個專門幫用戶識別酒標的 App。「這個團隊擁有一個巨大的酒標資料庫。可以通過拍照搜索的方式,獲得很多奇特紅酒的詳細信息。」
尋找酒標是尺度空間理論圖像識別的典型應用方式。因為它符合一個一個規則:在資料庫中找到完全相同的圖片/物體。用通俗的話來說,就是「以驢找驢」。而在我們的搜索需求中, 還存在一種「以驢找馬」的需求,它的目的是搜索相似圖片/物體。
【各類紅酒標】
陳杰告訴雷鋒網,以驢找馬這種需求,目前更多地使用區別於「尺度空間理論識別」的「機器學習」的技術路線,這也是普通人更熟悉的一種技術。
機器學習,主要原理是給一個運算力強大的計算機群學習大量的數據,然後讓機器提取出這一類素材的內部規律,用這類規律幫人類工作。例如不久前戰敗李世石的阿法狗,使用的就是機器學習的方式。
【以驢找驢的搜索方式,可以更好地發現完全一致的圖像結果】
這種技術在資源充足的情況下,後期會出現驚人的能力。但是它需要兩個重要的因素:
1、用來「餵養」系統的巨大數據樣本
2、超高的計算能力,超長的計算時間,超大的存儲空間。
「這種技術就像火箭發射,需要足夠的燃料(數據)和強大的發動機(計算機性能)」陳杰說,
所以在很多場景中, 「尺度空間識別」和「機器學習識別」需要結合起來,才能產生最優的效果。
有一點確定無疑,那就是隨著圖像識別領域的技術爆發,這種「解癢」的技術究竟可以用來解決很多具體的問題。正如「蕾絲邊問題」一樣,在很多情況下,沒有人會把這種技術和具體的問題聯繫起來。
或者說:對科技的魔力,我們仍然懵然無知。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。