近日,搜狗瀏覽器對外宣布成功實現了12306圖形驗證碼的自動識別,用戶藉此可以實現全自動搶票的體驗。據悉,搜狗瀏覽器之所以成為市面上首款、也是唯一一款實現了新版12306驗證碼自動識別的瀏覽器軟體,正是藉助了深厚的搜狗識圖搜索技術積澱,和強大的大數據處理能力, 打出了「OCR技術+圖像分類技術」相結合的組合拳。
與以往的文字、數字驗證輸入不同,中國鐵路客戶服務中心(12306)推出的新版圖形驗證碼,要求用戶在填寫好登錄名和密碼之後,需要根據文字提示,識別並點擊驗證圖片中的對應選項,只有準確地選取圖形驗證碼才能登陸成功。由於識別難度較大,該方式一經推出,隨即引發不少網友吐槽:買火車票前,還得先測智商?
該驗證系統推出後,雖然不少搶票軟體聲稱不受影響,但選圖仍需用戶手動操作完成,事實上新版圖形驗證碼對於搶票軟體而言,著實帶來了一道難題。通常,該類軟體會藉助光學字符識別技術(簡稱:OCR技術),支持自動驗證碼輸入,為用戶節省登錄時間,提高搶票效率。而對於此前12306的文字、數字驗證碼來說,OCR技術更為適用。而12306推出新版圖形驗證碼以後,僅憑OCR技術來解決新問題,就顯得有些「捉襟見肘」了。
究其原因,首先需要了解OCR其背後的技術原理。通常,OCR識別包括預處理、二值化、去噪、傾斜校正、字符切割、字符識別、後處理等幾個步驟。簡言之,通過捕捉圖像並識別文字,OCR技術使得電腦可以像人一樣閱讀。
而12306新舉措,使得驗證碼輸入由傳統相對簡單的字母數字識別輸入,升級為用戶需要根據描述文字從候選多張圖片中勾選對應類別的一個選擇過程。也就是說,12306新驗證碼識別由原來的填空題,升級為多選題,由於答案的個數是不確定的,可以說變成了一個不定項選擇題。那麼,這一問題就不難理解了,原本基於文字就能獲得較高識別率的OCR技術,卻無法解決候選圖片的類別判定,因此就不能破解新版圖形驗證碼。
針對這一難題,搜狗識圖搜索率先提出解決方案,打出「OCR技術+圖像分類技術」相結合的組合拳,加之以搜狗深度學習技術和大數據分析處理功力,實現了對12306新版圖形驗證碼的自動識別。
在OCR技術的基礎上,搜狗識圖搜索更進一步,借用了圖像分類的思想,首先將經過變形處理的描述文字圖像通過OCR技術識別成文本,再通過圖像分類技術,對於多張候選圖像識別出其分類信息,然後將文本和分類信息進行自動匹配,從而實現驗證碼的自動識別過程。這樣,憑藉「OCR技術+圖像分類」這套組合拳,搜狗識圖搜索就完成了圖像識別最為關鍵的第一步,有效解決了OCR技術無法實現圖像識別的問題。
當然,在初步識別圖像的基礎上,想要準確地選取圖形驗證碼,還需要提高識別精度。目前,搜狗識圖搜索對於大部分的12306圖形驗證碼能夠實現自動破解,其圖像識別精度在該技術領域,已經達到了國內領先水平。
而取得這一成績的背後,依靠的正是搜狗深度學習技術和大數據積累。目前,伴隨網際網路科技高速發展,「深度學習」這一被機器學習大師Hinton等人於2006年提出的新概念,其覆蓋領域愈來愈廣泛,它通過多層次的學習而得到對於原始數據的不同抽象層度的表示,進而提高分類和預測等任務的準確性。此次,搜狗識圖搜索成功將其應用於圖像識別領域,通過模擬人認知圖片的過程,多層次地模擬和學習,大幅提高了圖片分類和識別的準確性。截至目前,搜狗深度學習技術已經積累千萬量級的模擬訓練數據,達到了行業領先水平。
另一方面,搜狗面向全網圖像標註而積累的大數據,也同樣起到了非常重要的作用。如果說,深度學習技術是急先鋒的角色,那麼大數據則是充實補給的後方陣地,對於深度學習而言,需要大量數據,正如康奈爾大學創意機器人實驗室主任胡迪.利普森所言,深度學習極度「數據饑渴」,如果它們得到越多的數據,就學習得越快越好。」目前,搜狗全網圖像標資料庫已經沉澱了數千萬量級的數據,而這也為搜狗圖像識別精度大幅提升奠定了堅持基礎,並使其實現圖形驗證碼識別真正成為可能。