搜狗識圖搜索實現12306圖形驗證碼自動識別

2021-01-05 環球網

近日,搜狗瀏覽器對外宣布成功實現了12306圖形驗證碼的自動識別,用戶藉此可以實現全自動搶票的體驗。據悉,搜狗瀏覽器之所以成為市面上首款、也是唯一一款實現了新版12306驗證碼自動識別的瀏覽器軟體,正是藉助了深厚的搜狗識圖搜索技術積澱,和強大的大數據處理能力, 打出了「OCR技術+圖像分類技術」相結合的組合拳。

與以往的文字、數字驗證輸入不同,中國鐵路客戶服務中心(12306)推出的新版圖形驗證碼,要求用戶在填寫好登錄名和密碼之後,需要根據文字提示,識別並點擊驗證圖片中的對應選項,只有準確地選取圖形驗證碼才能登陸成功。由於識別難度較大,該方式一經推出,隨即引發不少網友吐槽:買火車票前,還得先測智商?

該驗證系統推出後,雖然不少搶票軟體聲稱不受影響,但選圖仍需用戶手動操作完成,事實上新版圖形驗證碼對於搶票軟體而言,著實帶來了一道難題。通常,該類軟體會藉助光學字符識別技術(簡稱:OCR技術),支持自動驗證碼輸入,為用戶節省登錄時間,提高搶票效率。而對於此前12306的文字、數字驗證碼來說,OCR技術更為適用。而12306推出新版圖形驗證碼以後,僅憑OCR技術來解決新問題,就顯得有些「捉襟見肘」了。

究其原因,首先需要了解OCR其背後的技術原理。通常,OCR識別包括預處理、二值化、去噪、傾斜校正、字符切割、字符識別、後處理等幾個步驟。簡言之,通過捕捉圖像並識別文字,OCR技術使得電腦可以像人一樣閱讀。

而12306新舉措,使得驗證碼輸入由傳統相對簡單的字母數字識別輸入,升級為用戶需要根據描述文字從候選多張圖片中勾選對應類別的一個選擇過程。也就是說,12306新驗證碼識別由原來的填空題,升級為多選題,由於答案的個數是不確定的,可以說變成了一個不定項選擇題。那麼,這一問題就不難理解了,原本基於文字就能獲得較高識別率的OCR技術,卻無法解決候選圖片的類別判定,因此就不能破解新版圖形驗證碼。

針對這一難題,搜狗識圖搜索率先提出解決方案,打出「OCR技術+圖像分類技術」相結合的組合拳,加之以搜狗深度學習技術和大數據分析處理功力,實現了對12306新版圖形驗證碼的自動識別。

在OCR技術的基礎上,搜狗識圖搜索更進一步,借用了圖像分類的思想,首先將經過變形處理的描述文字圖像通過OCR技術識別成文本,再通過圖像分類技術,對於多張候選圖像識別出其分類信息,然後將文本和分類信息進行自動匹配,從而實現驗證碼的自動識別過程。這樣,憑藉「OCR技術+圖像分類」這套組合拳,搜狗識圖搜索就完成了圖像識別最為關鍵的第一步,有效解決了OCR技術無法實現圖像識別的問題。

當然,在初步識別圖像的基礎上,想要準確地選取圖形驗證碼,還需要提高識別精度。目前,搜狗識圖搜索對於大部分的12306圖形驗證碼能夠實現自動破解,其圖像識別精度在該技術領域,已經達到了國內領先水平。

而取得這一成績的背後,依靠的正是搜狗深度學習技術和大數據積累。目前,伴隨網際網路科技高速發展,「深度學習」這一被機器學習大師Hinton等人於2006年提出的新概念,其覆蓋領域愈來愈廣泛,它通過多層次的學習而得到對於原始數據的不同抽象層度的表示,進而提高分類和預測等任務的準確性。此次,搜狗識圖搜索成功將其應用於圖像識別領域,通過模擬人認知圖片的過程,多層次地模擬和學習,大幅提高了圖片分類和識別的準確性。截至目前,搜狗深度學習技術已經積累千萬量級的模擬訓練數據,達到了行業領先水平。

另一方面,搜狗面向全網圖像標註而積累的大數據,也同樣起到了非常重要的作用。如果說,深度學習技術是急先鋒的角色,那麼大數據則是充實補給的後方陣地,對於深度學習而言,需要大量數據,正如康奈爾大學創意機器人實驗室主任胡迪.利普森所言,深度學習極度「數據饑渴」,如果它們得到越多的數據,就學習得越快越好。」目前,搜狗全網圖像標資料庫已經沉澱了數千萬量級的數據,而這也為搜狗圖像識別精度大幅提升奠定了堅持基礎,並使其實現圖形驗證碼識別真正成為可能。

相關焦點

  • 搜狗識圖搜索打出「組合拳」 率先實現12306圖形驗證碼自動識別
    搜狗識圖搜索打出「組合拳」 率先實現12306圖形驗證碼自動識別 近日,搜狗瀏覽器對外宣布成功實現了12306圖形驗證碼的自動識別,用戶藉此可以實現全自動搶票的體驗。
  • 謹防愛心被利用搜狗「識圖搜索」識別真偽
    在地震發生後幾日裡,億萬網友通過搜索尋人、微博、貼吧等多種方式,參與到抗震救災的行動中。然而網友們積極傳遞正能量同時,依然有個別人,通過網絡製造或傳播不實消息,給大家帶來許多誤解,造成資源浪費和惡劣影響。 一直以來網際網路圖片都存在真偽識別難度大的問題,容易發生烏龍事件,而搜狗「識圖搜索」則是針對該問題而推出的解決方案。
  • 12306官方:「識別明星臉」驗證碼系PS偽造
    針對網友近日關於「網購火車票驗證碼難辨認」的吐槽,鐵總運輸局相關人員昨天回應,12306購票系統並沒有網傳的「識別明星臉」驗證碼,每分鐘的正確識讀率約70%。目前,技術部門正對驗證碼圖庫進行類別優化,將提高圖片清晰度,剔除一些辨識度不高的圖片。
  • 搜狗搜索事業部總經理:從識圖搜索談未來大勢
    第二,隨著新興媒體的誕生,像微博,對識圖搜索的需求越來越大,用戶想知道要加的這個人是不是真實的那個人,包括北京下暴雨網上出現了大量通過PS出來的虛假圖片,還有動車事故也有很多虛假的圖片,廣大網友難辨真偽,所以要增加辨別能力,識圖技術就可以辨別事情的真偽。此外,我們也考慮到了搜狗的優勢,識圖能夠更加便捷,搜狗通過跟瀏覽器結合,用戶使用識圖越來越方便。
  • 搜狗推出「識圖搜索」 效仿谷歌以圖搜圖
    經過近半年的獨立研發和緊張籌備,搜狗圖片搜索昨日正式推出了具備以圖搜圖功能的新產品——識圖搜索,可通過上傳圖片等方式搜索找到相似其他圖片。 據了解,普通的圖片搜索,是通過輸入文本關鍵詞的形式搜索圖片資源,搜狗識圖搜索能實現以圖搜圖,即通過上傳圖片、滑鼠拖拽、滑鼠選圖、輸入圖片URL
  • 網友喊話12306:我有百度識圖 請儘管放馬過來
    百度旗下素來低調的深度學習實驗室怎麼也沒有料到,自己基於圖像識別和檢索技術開發的一項頗為高冷的圖像識別工具,近日會因為鐵道部12306高難度的驗證碼而贏得大批網友推崇。最近幾天,一組鐵道部購票系統12306高難度圖片驗證碼刷爆了整個朋友圈。
  • 搜狗CEO王小川:識圖搜索與網絡打假
    下圖大望路被淹,實際上是2004年7月10日新華社記者拍攝的蓮花橋被王小川:這次多張「造假」圖片的造假曝光,在網上搜索到7萬多篇的報導,而背後能夠快速識別和首發揭露這個造假的,是搜狗的員工,用的就是當時將要發布的打假利器,搜狗識圖:http://t.cn/aEYOm8。網友:請問開發識圖搜索的原因是什麼?
  • 開創中文網際網路讀圖時代 搜狗發布識圖搜索
    經過近半年的獨立研發和緊張籌備,搜狗圖片搜索(http://pic.sogou.com/)於今年8月15日正式推出了具備以圖搜圖功能的新產品——識圖搜索。同時,依託強大的客戶端積澱,搜狗高速瀏覽器也在同期開發了「識圖」擴展程序,二者結合,將為中文網際網路用戶帶來前所未有的新穎體驗。
  • 搜狗圖片搜索與小米手機深度合作 攜手為用戶帶來AI識圖新體驗
    日前,搜狗圖片搜索宣布與小米手機達成深度合作,在小米MIX 2S、小米6X、小米8等三款旗艦手機的AI圖像識別功能—「智能識物」中,為用戶帶來優質的「識圖」新體驗,也再一次展現了搜狗搜索在人工智慧技術及跨界賦能方面的超強實力。
  • 12306回應:無「明星臉」驗證碼 將改進圖形辨識度
    針對近日網友吐槽的12306鐵路購票系統,今日上午,中國鐵道科學研究院電子計算技術研究所副所長朱建生受訪表示,12306購票系統沒有所謂"識別明星臉"的"奇葩"驗證碼。對於圖形驗證碼辨識度不高等問題,朱建生稱目前正在對圖庫進行優化。
  • 搜狗效仿谷歌推識圖搜索功能 可實現以圖搜圖
    搜狗推「識圖搜索」功能(騰訊科技配圖)騰訊科技訊(樂天)8月16日消息,經過近半年的獨立研發和緊張籌備,搜狗圖片搜索昨日正式推出了具備以圖搜圖功能的新產品——識圖搜索,可通過上傳圖片等方式搜索找到相似其他圖片。
  • 拯救狗盲症,搜狗圖片搜索一步精準識狗
    搜狗圖片搜索新推出的「識狗」功能可為你輕鬆解決這些難題,基於領先的人工智慧技術,只要圖片中有狗狗,搜狗圖片搜索就可自動識別並標識出狗狗的品種,並為用戶提供詳細的犬種介紹。(圖:搜狗圖片搜索對照片中的狗狗進行識別)無論是網上看到的圖片,還是現場拍攝到的照片,也無論是否包含人物或是其它元素,只要圖中能較清晰地呈現狗狗的臉部,搜狗圖片搜索均可識別出含有狗狗
  • 這太猛了,Chrome自動識別網站驗證碼?
    相信很多童鞋們在上網時一定見過以下這種驗證碼,國內不少網站論壇都接入了此類驗證碼。小高第一次看到的是崩潰的,讓我選小汽車,明明只有2,5,6圖有出現汽車,點完驗證後提示錯誤,我是左看右看實在看不出哪還有小汽車了。
  • 「搜狗識圖」時代 如何保護好自己?
    近期搜狐公司旗下搜尋引擎搜狗正式推出了以圖搜圖功能的新產品——搜狗識圖,可通過上傳圖片等方式搜索找到相似其他圖片。傳統搜尋引擎是通過輸入文本關鍵詞的形式搜索圖片資源,而搜狗識圖搜索能實現以圖搜圖,即通過上傳圖片、滑鼠拖拽、滑鼠選圖、輸入圖片URL地址等多種方式搜索,找到網際網路上與這張圖片相似的其他圖片,並且利用圖片識別技術,進一步分析圖片內容的主題,找到與這張圖片同主題的其他圖片。
  • 這太好了,Chrome可以自動識別網站驗證碼
    ,國內不少網站論壇都接入了此類驗證碼。  不禁讓小高想起了以前的12306驗證碼,可比這個良心多了,好歹12306隻有6張圖,這個居然有9張圖。  更加意外的是它居然是由Google開發的驗證碼系統,說好的「不作惡」呢?  難道每次遇到這種耍聰明的驗證碼只能比眼力嗎?
  • 鐵路總公司回應12306驗證碼」吐槽」:將優化圖片清晰度
    其中圖定旅客列車3048對,春運增開旅客列車440對。  此外,除了今年已開通合福高鐵、滬昆高鐵貴州東段、哈齊客專等多條客專外,年底前全國還將開通津保客專、金溫線、丹大線、贛瑞龍線、海南環島高鐵、南昆客專南百段、成渝高鐵等一批新線路,也將豐富旅客出行的選擇,緩解購票難。  圖形驗證碼如何更便民?
  • 12306驗證碼被指難以識別 鐵總:將剔除錯誤率較高圖片
    12月15日將迎來第二個搶票高峰,法晚記者上午從鐵路總公司獲悉,12306將對圖形驗證碼中的圖片的清晰度和解析度進行調整。主要是根據後臺統計出來,大家反映最多和錯誤率較高的,將從圖片中剔除。
  • 12306驗證碼一次輸入正確的僅8%,最難認的是這三個
    昨天,360瀏覽器宣布他們攻破了12306的圖形驗證碼,並首次公布了一組12306驗證碼大數據。數據顯示,圖形碼的數量已經多達581種,按照要輸入兩個關鍵詞的登錄規則,用戶將有機會嘗試336980道不同驗證碼題目的機會,而一次性輸入正確的僅為8%。
  • Web滲透測試——驗證碼自動識別工具
    、漢字、算式等,這些字符往往都不太清晰,主要是為了增加識別難度,避免被軟體自動識別。,並且是提供非常重要服務的網站,其中最具代表性的就是12306網站上購買火車票是需要輸入的驗證碼,曾經受到許多網友的吐槽,充分體現了一句話:「能夠多次欺騙購票者的驗證碼,才是最安全的驗證碼。」
  • 黃牛新「神器」:「打碼平臺」軟體破解12306圖形驗證碼
    雖然12306推出圖形驗證碼防範「黃牛」,但不少火車票代購者仍能靠「搶票軟體+打碼網站」的組合替人撿漏兒賺取佣金。通過某種方式可以跳過登錄和提交訂單時的圖形驗證關卡,從而「秒搶」退票。  黃牛用軟體破解驗證碼這種說法有誇大的成分的。黃牛使用的這種軟體其實有一個專業的說法,叫「打碼平臺」。