重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

2020-12-09 澎湃新聞

原創 Synced 機器之心

機器之心原創

作者:力琴

小小詞典筆為何讓人「上癮」?機器之心試圖通過採訪,了解有道詞典筆背後從 0 到 1 的工程實踐。

距離有道詞典筆 2 代發布的 1 年 3 個月之後,網易有道又推出了一款全新的有道詞典 3,區別在於,將查詞體驗從掃描的交互方式直接簡化到點一下就一秒鐘完成查詞。

網易有道產品負責人吳迎暉拿著全新的詞典筆在現場做演示,無論是當天刊發的中國日報英文版、紙質書籍,還是護手霜、藥盒,都可以快速點查陌生單詞。「『快速點查』是讓你上癮的一個功能。」他說。

當天發布會的產品體驗區,這款詞典筆很快引起了參會者的注意,人群熙熙攘攘地聚在體驗區周圍,迫不及待想要一睹詞典筆究竟是什麼樣。

當我拿起詞典筆想要找單詞點讀時,下意識直接將筆頭指向單詞的偏中間位置,很多未使用過有道詞典筆的參會者幾乎都犯了同樣的操作錯誤,導致識別出來的單詞大部分是不全的。

後來這種操作被現場工作人員指正,並被告知需要將筆頭垂直放在所要識別單詞的首個字母前面,才可以順利完成點查。屢試體驗碰壁,在掌握合適方法之後,我很快產生了上癮查詞的感覺。

在英語學習場景當中,輔助查詞的產品就有電子詞典、點讀筆、點讀機等。與這些傳統產品不同的是,有道詞典筆更依賴於人工智慧,用技術解決場景需求。只不過,關於這款小小詞典筆背後的技術與工程實踐很少認真被討論。

作為一家技術驅動產品的教育科技公司,藉助有道詞典等產品的 8 億 + 用戶,有道詞典筆可以獲得大規模文本、OCR 圖像和語言的真實數據。自詞典筆自 2017 年推出開始,與之相應的工程也在不斷更新與迭代。

小小詞典筆為何讓人「上癮」?機器之心試圖通過採訪,了解有道詞典筆背後從 0 到 1 的工程實踐。

01 一件冒險的事情

「『超快點查』是吳迎暉的個人主意。」網易有道 CEO 周楓說。「他想到這個主意的時候,整個團隊都很興奮。」

超快點查是有道詞典筆 3 的一大亮點,這將查詞體驗從掃描的交互方式直接簡化到點一下就完成查詞。

吳迎暉表示這個創新功能來自於對用戶的洞察。實際上,從有道詞典筆 1 代推出至今,產品團隊幾乎每天都能收到各種各樣用戶的反饋,這些反饋都指向一個核心問題,究竟如何更有效率。

他的點子立即點撥了團隊的所有人,於是可視化互動點讀也出來了。有道詞典筆 3 的互動點讀功能面向低年齡段兒童,將日常繪本實現動畫效果,繪本還設有互動答題,可實現一句一跟讀,AI 打分。尤其對於有孩子的用戶而言,既要買詞典,又要給孩子買點讀產品,因此有道想做一款覆蓋所有點讀場景的智能化產品,用速度換取效率,給用戶提供價值。

功能非常吸引人,但如何就需求和場景改設計、驗證,挑戰很大。「這個挺冒險的,萬一不成功,坑的是整個團隊。」有道詞典筆的解決辦法是加入超感光學系統,用視覺辦法解決點讀。

關於超感光學系統,有道官方的解釋是:它兼容了 OCR(光學字符識別)與 OID(光學辨識碼)兩大 AI 技術的自動判斷與識別,可同時識別紅外光與可見光。

超感光學系統有非常大的廣角,使其能夠識別文字的區域更大,這構成了 「超快點查」 的基礎條件。

「雖然這個功能非常實用且吸引人,但對算法挑戰非常大。」網易有道首席科學家段亦濤說。廣角鏡頭成像會產生畸變,另外,超感光學系統筆頭也會導致光照不均。兩者都會造成識別困難。

「在此條件下做 AI 模型是很難的事,業界沒有現成的參考方案。」

實際上,無論是點查還是可視化點讀,所採用的 OCR、OID 技術並不稀奇,難點在於,需要用算法挑戰不可控環境下的識別;在有限的硬體條件下,集成不同產品和模塊組合。

02 一年零三個月的改變:從模型到框架

為了解決畸變、光照不均等問題,有道開發了新的方案與模型,優化從圖像採集、檢測及識別的全過程。

直觀而言,筆頭的廣角鏡頭會在短時間內採集圖像,而圖像是畸變的,在識別之前需要將畸變圖像轉換成無畸變圖像。

為此,有道預設了理想條件圖像到實際採集圖像的變換關係,包括廣角鏡頭的徑向畸變和傾斜角度的投影畸變。

在點查功能觸發後,有道使用預設的變化參數,修正圖像的畸變;然後使用閾值化圖像技術對陰影進行補償。

所採集圖像經去畸變、去陰影后,再進行圖像增強,得到完整且可識別的圖像。隨後 OCR 負責 「看懂」 圖像識別文字,TTS 負責詞和句子的讀音。整個過程在抬筆間就能完成,實現「超快點查」。

用戶可以用詞典筆在不同的場景識別不同的文字,比如化妝品的說明書、醫藥物品曲面等等。詞典筆二代推出後,有道意識到用戶對密集、彎曲、背景幹擾等掃描場景下對模型準確率有更高的期待,因此,部署了更為精細的像素級別檢測模型。

有道將圖像上的每個像素位置進行前景文字和背景的分類,使用局部特徵回歸行高等位置信息,將所掃描的中心文字連接並組合成行,切分成用於識別的文本行。新的檢測網絡模型可將密集、彎曲的文字從各類複雜背景中檢測出來。

在 「檢測與識別」 的框架上,有道還增加了糾正模塊,用於將特殊字體、形近字、背景幹擾造成的誤識別進行糾正。

基於有道海量的語言數據積累,有道針對詞典筆學習場景構建了 N-gram 語言模型。

在訓練階段,有道使用語料庫及對應圖像數據同時訓練識別模型和語言模型;在推理階段,識別模型的解碼能力易受字體和背景幹擾,輸出 「錯誤」 的識別結果。

例如圖中所示的 「bredkfast」,原是錯誤拼寫。但在語言模型的加持下,「錯誤」 的預測概率將會被抑制,由語言模型輸出的轉移概率作用在解碼階段,將更加符合語言規範的結果 「breakfast」 輸出。

03 離線側端的底層工程

相較於詞典筆 2 代,詞典筆 3 代在不聯網的情況下,翻譯引擎速度提升了 20%,平均的識別準確率達到了 98.3%,最高的準確率能達到 99%。

這些數據的體現,都要歸功於詞典筆內置的離線 OCR 和翻譯模型。詞典筆中的離線模型都是從線上模型演化而來,為了保證用戶體驗效果,都需要在端上進行推斷。

點讀筆的運行流程是先要掃描文字,再進行翻譯、查詞,離線模型當中就包含視覺模型和翻譯模型。段亦濤表示,這些模型跟詞典筆 2 代相比都有了升級。

筆頭廣角鏡頭的設計,給圖像識別帶來視覺畸變上的麻煩,因此,在視覺模型方面,有道做了檢測和識別的模型的升級,並將 NLP 也融合到視覺模型中,可以幫助識別糾錯。

圖像識別後是翻譯環節。翻譯模型方面,有道做了語言的適配和優化,讓翻譯更加智能。由於翻譯模型的輸入是視覺識別模型的輸出,不可避免會出現類似標點符號、形近字等錯誤。為此,在識別模型本身具備一定糾錯能力的情況下,有道還為翻譯模型做了一些容錯的處理。

這些針對離線模型所做的優化,對詞典筆底層的算力及內存提出了挑戰。為了保證在給定算力的情況下實時運行,有道在模型上做了大量的優化。這些方法跟機器之心了解到的,針對詞典筆 2 代離線模型的做法大致相同,將模型壓縮滲透在訓練、預測各個階段。

有道還採用了模型裁剪、參數共享、知識蒸餾等辦法降低模型大小。通過這些方面的優化,保證在不影響性能的情況下降低對運算資源的依賴,並對結果做更加精準地預測。

除了針對模型的優化與精簡外,有道自研了離線推理框架,從以下幾個方面優化推理性能:

底層計算:手寫 ARM NEON 彙編級優化,運行 Winograd 卷積算法,網絡層合併;

數據管理:重新設計數據排布,高效向量化,支持 FP32/FP16/INT8;

異構平臺:多核並行計算,支持 CPU/GPU,模型可以一鍵轉換,自動裁剪;

在新計算引擎的支持下,整個鏈路的計算速度提升 20%。

「整個優化是從模型、框架、工程等各個層面全方位的升級。」段亦濤認為。

04 智能硬體的新變量

在升級詞典筆視覺點讀業務的同時,有道也在給其他業務提供視覺技術的支持。段亦濤向機器之心表示,有道有面向 B 端學校的項目,當中有一款硬體產品叫做有道智能學習終端,可以用於識別和收集錯題。對視覺技術的要求極大。

隨著人工智慧技術對學習、教學場景的重塑日趨成熟,有道在技術方面也逐漸深入。網易有道在智能硬體相關的技術研發投入了很大的力量,在包括計算機視覺、自然語言處理、語音技術、高性能計算和異構計算,以及硬體研發方面都有深厚的積累。

目前重技術的智能硬體產品成為網易有道最為重要的業務版圖。在第三季度財報中,智能硬體為有道貢獻 1.631 億元,同比增長 289.3%,首次超過廣告業務。有道的學習型智能硬體正在爆發其巨大的商業變現潛力。

與此同時,諸如字節跳動、科大訊飛、搜狗等公司也在教育智能硬體市場展現其巨大的野心。對用戶及教育企業而言,教育智能硬體能夠有效彌補 PC 或 APP 端的交互體驗、數據採集的不足,並有利於緩解獲客成本,提高用戶留存率。

究其各家的智能硬體產品,因切入的場景不同,教育硬體產品形態各異。無論是基於怎樣的技術細節及基礎,關鍵在於都需要結合用戶需求,將場景做透,在此基礎上,AI 能力、產品能力及內容缺一不可。

當下,有道詞典筆憑藉在技術、產品及內容上的優勢已經成為萬眾矚目的硬體產品。以後,有道詞典筆會成為可複製的硬體嗎?面對機器之心的提問,段亦濤表示,「好的東西肯定會有人模仿,至少我們的先發優勢強。如果別人沒有做過這個東西,一定會付出時間的代價。我們只要做到跑得比別人快。」

網易 CEO 丁磊曾在網易有道上市,及網易在港二次上市之時,向全國英語老師免費贈送有道詞典筆,至少在這個環節,有道詞典筆已經先搶下用戶認知,讓用戶體驗小小詞典筆背後神奇的 AI 力量。

對於現在市場上推出的智能硬體產品,段亦濤有自己的理解,他拒絕從工具功能性角度解讀,而是有更長遠的認知。

「在真實學習場景中,學生需要在物理世界裡留痕,因此任何智能工具,包括軟硬體,都無法顛覆原有的學習過程。我們可以做到的是,通過智能硬體介入學生學習的物理世界中,讓學習行為更加高效。同時通過獲得學習過程中的數位化數據,逐步建立趨於成熟的數位化教學體系。」

從數位化角度看,網易有道是一家重算法的以技術驅動的教育科技公司。即使是百分之一的算法和框架優化,都能轉化為巨大的商業與教育價值。每一小步突破,就是重構教育的一大步。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com喜歡此內容的人還喜歡

原標題:《重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐》

閱讀原文

相關焦點

  • 兩大AI技術集於一身,有道詞典筆3從0到1的飛躍
    趁著有道詞典筆的迅猛勢頭,他們也在加速產品迭代。時隔數月之後,12月1日,他們又推出了售價1199元(專業版售價1499元)有道詞典筆3,新品雖然在外觀上延續了之前的經典設計,僅將屏幕拓展為2.97英寸,但在體驗後發現,有道詞典筆3在一些功能和技術創新上則都讓人眼前一亮。
  • 英語學習利器:一款詞典筆的模型創新與工程實踐
    當然,這支筆背後的技術不止這些,ASR(語音識別)和 NLU(自然語言理解)等技術也幫助其實現了在線的語音助手問答功能。這樣集成了視覺、語言、語音系統的詞典筆,才是機器學習幫助英語學習的優秀範例。那麼小小的設備上,怎樣才能集成圖像識別和翻譯的離線模型,怎樣才能在準確和速度間做權衡以提供最好的使用體驗?
  • 從0到1到無窮,vivo大規模機器學習實踐
    【IT168評論】相信大家都對IT大廠的機器學習應用的建設很感興趣,如果有技術大咖們能夠從零開始和大家詳細分享一下他們大規模機器學習實踐,是不是一件再好不過的事情了。2017年10月19日-21日,由IT168主辦的第九屆系統架構師大會,就邀請到了vivo網際網路算法團隊負責人李珂和我們分享vivo從0到1再到無窮的機器學習實踐。▲vivo網際網路算法團隊負責人 李珂機器學習算法在vivo落地的時候,李珂團隊遇到了所有初創團隊都會遇到的問題——人少坑多技術弱。
  • 四項AI技術加身,高科技文具阿爾法蛋詞典筆Q3開售
    同時應用了在文檔分析和識別國際會議(ICDAR)舉辦的CROHME挑戰賽和ReCTS測評任務中,一舉刷新世界記錄的圖像識別技術,不僅識別速度快、每秒可達到120幀圖像識別,只要對著單詞和句子輕輕一掃,不到1秒就能輕鬆實現查詞和翻譯。此外,識別準確度也很高,對於字符、單字、多行文本等都適用,能夠作出準確的顯示和翻譯。
  • DataFunCon:2020大數據、AI的最新技術實踐
    鑽石贊助:阿里雲開發者社區、網易大數據鉑金贊助:騰訊大數據、微眾AI舉辦日期:7月25-26日,9:30-18:0018年中,加入閱文集團,擔任集團智能總體負責人,負責包括推薦,搜索,用戶畫像,內容理解等方向。期間從0到1建設了集團的智能技術體系,並且在各條業務線取得突破:通過智能風控解決公司審核人效和外露風險;通過推薦分發使得公司的主要產品轉化率成倍提升;完成用戶畫像和內容理解從0到1的統一建設,奠定集團智能的基礎能力。
  • 參賽者的商業故事:自動駕駛落地已到臨界點,這些領跑者一步步走到...
    10 月 26 日下午到 10 月 27 日上午,2018全球智能駕駛峰會,圍繞「智能駕駛的關鍵核心技術應用」,19位來自產學研的嘉賓將分享他們的行業實踐與經驗。目前,安智以毫米波雷達入手,產品線已覆蓋基於 77GHz 毫米波雷達、單目多功能攝像頭以及多傳感器融合技術的一體化 ADAS 系統方案,可實現 L0-L1 級車規級自動駕駛。做智能駕駛系統,需要仰望星空來思考,更需要腳踏實地來實踐。那麼安智汽車在智能駕駛系統產業化過程中的思考和實踐有哪些?
  • 機器人技術Robotics 2.0(1):AI重新定義機器人
    人工智慧開啟了新一代機器人技術Robotics 2.0,最大改變是從原先人工編寫程序而來的自動化,邁向了真正的自主學習。 本文將嘗試揭開人工智慧(AI)應用的神秘面紗,協助讀者了解AI機器人將如何影響我們的未來,並釐清我們常常聽到,但卻著墨不多、甚至根本尚未全然理解的主題。
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    ai的核心問題是如何「產生」,不管是imagenet還是svd,都是一種「訓練」過程,這種練習的價值基於特徵提取完成後對目標的預測。那麼這些特徵能不能「產生」呢?根據經驗,是的。學習的方式可以參考:可以參考一下阿里的ai翻譯技術!在ai技術的未來是翻譯機還是翻譯官?阿里技術專家李天龍表示,「翻譯領域的ai很早就在做了,其實我們是始於語言智能的概念,在那個時候還有參會人,北京的全球翻譯這些事情,雖然進展不大,但是是個好的機會。」
  • NumPy、AI基礎設施可微分編程、技術實踐,這是一場開發者的盛會
    在開發者日下午的主單元中,機器之心從開發者最關心的技術話題出發,邀請到了多位大牛做主題演講,內容覆蓋程式語言、開發工具、技術創新與落地實踐等等。賈揚清:構建研究到產品 AI 基礎設施的經驗賈揚清是知名的人工智慧青年學者之一。
  • 從實驗室到落地,汽車銷售線索評級AI實戰
    事實證明,這些信息對後續AI建模工作的開展幫助極大,決定了一個數據科學項目如何真正落地並指導業務實踐。 針對「AI模型對於經銷商的業務價值」這個問題,通過調研發現,不同經銷商的網銷現狀差異很大,有的經銷商線索量大,而人力資源不足,每天都存在不少線索無法落實跟進;而有的經銷商線索量小,當日下發的線索都可以及時處理完。
  • 「AI簡史」從1950到2020
    作者:熱愛研究的 來源:學術頭條 本文經授權轉載自學術頭條( ID: SciTouTiao),轉載請聯繫出處 通常來說,人工智慧(Artificial Intelligence)是研究、開發用於模擬、延伸和擴展人智能的理論、方法、技術及應用系統的一門新技術科學
  • 廣東高校攻關「卡脖子」核心技術,如何從0到1再到無窮大
    今年全國兩會上,國務院政府工作報告首次提出高職院校實施擴招,而廣東落地有聲,提出今年省財政對省屬公辦高職院校新增學位給予綜合補助,確保按質按量完成國家下達我省的高職擴招任務。   深圳職業技術學院作為全國職業院校的佼佼者,為社會輸送了近10萬名高素質技術技能型人才,其中9成畢業生留在深圳工作,成為推動當地經濟社會發展的重要力量。
  • 環境工程英語詞典
    環境工程英語詞典 學習辦公 大小: 53.3 MB
  • 百度雲發布ABC3.0 打造「最落地」的AI行業解決方案
    大會現場,百度雲公布ABC的3.0版本,相比以往,百度雲ABC3.0更強調AI能力的落地、大數據的安全與雲計算的先進性。經過兩年快速發展,百度雲的行業版圖已經覆蓋農業、工業製造業、金融服務業等領域。本次大會,農企龍頭中化農業、國內最大鋼鐵企業寶武集團、新能源汽車翹楚北汽集團等悉數到場,與百度雲一同見證「最落地」的AI應用與行業解決方案。
  • 綠維文旅:重新認識旅遊策劃
    經過旅遊業數十載的發展實踐,「規劃先行」已經成為國家部委、地方政府和各類旅遊企業的共識。然而,旅遊策劃的概念與重要性卻常常被業界忽略。綠維文旅認為,科學、富有創意的旅遊策劃方案能夠為旅遊項目的開發運營提供發展藍圖與落地指導,是引領一個區域形成旅遊核心吸引力的關鍵指南。
  • 有道詞典推出全新AI技術 一鍵自動批改英語作文
    【環球網科技綜合報導 記者 樊俊卿】據搜狐網4月8日報導,網易旗下產品有道詞典推出全新AI技術,通過人工智慧自動批改英語作文。有道詞典表示,推出這一功能是希望能夠為各個學段的學生提供作文水平檢測的幫助,從而快速提升英語寫作能力。
  • 巨穎:閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地...
    所謂機器閱讀理解,是指讓機器通過閱讀文本,回答內容相關的問題,其中涉及到的理解、推理、摘要等複雜技術,對機器而言頗具挑戰。近日,在雷鋒網 AI 研習社公開課上,追一科技語義算法研究員巨穎作為 CMRC2018 中文機器閱讀理解比賽的冠軍團隊成員之一,將為大家剖析機器閱讀理解的關鍵知識點,並結合追一的實踐經驗,分享如何從數據、模型、訓練角度提升模型性能,探討 AI 時代閱讀理解技術的產品化落地:http://www.mooc.ai/open/course/596?
  • 網易有道詞典V3.0發布 新增多語種詞典
    網易科技訊 12月18日消息,網易有道於近日推出了有道詞典3.0測試版,新增的「多語種詞典」和結合「指點技術」的增強屏幕取詞令有道詞典的實用性和易用性都大幅提升。日常使用中,無論是進行多語種翻譯,還是需要查詢詞彙的相關內容,有道詞典都能成為值得信賴的好幫手。
  • 從場景落地,到改變交通網絡,自動駕駛到底如何定義未來,這10位大牛...
    中科院自動化所複雜系統管理與控制國家重點實驗室主任、中國自動化學會副理事長兼秘書長、青島智能產業技術研究院院長王飛躍、採埃孚中國投資有限公司工程技術中心總監綦平、Mobileye中國區總監Boaz Sacks、偉世通自動駕駛首席架構師王凱 、深圳市城市交通規劃設計研究中心車聯網項目主管 劉琪、Roadstar.ai 創始人兼CEO 佟顯喬、安波福電氣分配系統亞太中心產品工程總監 、應用工程總監餘寧、
  • 平面設計-AI軟體認識
    對於初學者來說,需要認識AI這款軟體,基礎常用的都有哪些功能需要設置和調整?RGB-網頁設計CMYK-印刷用AI做設計,不同階段進行保存,輸出後不能更改顏色。頁面的放大及縮小alt+ ctrl+alt- ctrl-視圖-隱藏定界框視圖-顯示定界框空格鍵-抓手工具屏幕顯示ctrl +0