重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

2020-12-09 澎湃新聞

原創 Synced 機器之心

機器之心原創

作者：力琴

小小詞典筆為何讓人「上癮」？機器之心試圖通過採訪，了解有道詞典筆背後從 0 到 1 的工程實踐。

距離有道詞典筆 2 代發布的 1 年 3 個月之後，網易有道又推出了一款全新的有道詞典 3，區別在於，將查詞體驗從掃描的交互方式直接簡化到點一下就一秒鐘完成查詞。

網易有道產品負責人吳迎暉拿著全新的詞典筆在現場做演示，無論是當天刊發的中國日報英文版、紙質書籍，還是護手霜、藥盒，都可以快速點查陌生單詞。「『快速點查』是讓你上癮的一個功能。」他說。

當天發布會的產品體驗區，這款詞典筆很快引起了參會者的注意，人群熙熙攘攘地聚在體驗區周圍，迫不及待想要一睹詞典筆究竟是什麼樣。

當我拿起詞典筆想要找單詞點讀時，下意識直接將筆頭指向單詞的偏中間位置，很多未使用過有道詞典筆的參會者幾乎都犯了同樣的操作錯誤，導致識別出來的單詞大部分是不全的。

後來這種操作被現場工作人員指正，並被告知需要將筆頭垂直放在所要識別單詞的首個字母前面，才可以順利完成點查。屢試體驗碰壁，在掌握合適方法之後，我很快產生了上癮查詞的感覺。

在英語學習場景當中，輔助查詞的產品就有電子詞典、點讀筆、點讀機等。與這些傳統產品不同的是，有道詞典筆更依賴於人工智慧，用技術解決場景需求。只不過，關於這款小小詞典筆背後的技術與工程實踐很少認真被討論。

作為一家技術驅動產品的教育科技公司，藉助有道詞典等產品的 8 億 + 用戶，有道詞典筆可以獲得大規模文本、OCR 圖像和語言的真實數據。自詞典筆自 2017 年推出開始，與之相應的工程也在不斷更新與迭代。

小小詞典筆為何讓人「上癮」？機器之心試圖通過採訪，了解有道詞典筆背後從 0 到 1 的工程實踐。

01 一件冒險的事情

「『超快點查』是吳迎暉的個人主意。」網易有道 CEO 周楓說。「他想到這個主意的時候，整個團隊都很興奮。」

超快點查是有道詞典筆 3 的一大亮點，這將查詞體驗從掃描的交互方式直接簡化到點一下就完成查詞。

吳迎暉表示這個創新功能來自於對用戶的洞察。實際上，從有道詞典筆 1 代推出至今，產品團隊幾乎每天都能收到各種各樣用戶的反饋，這些反饋都指向一個核心問題，究竟如何更有效率。

他的點子立即點撥了團隊的所有人，於是可視化互動點讀也出來了。有道詞典筆 3 的互動點讀功能面向低年齡段兒童，將日常繪本實現動畫效果，繪本還設有互動答題，可實現一句一跟讀，AI 打分。尤其對於有孩子的用戶而言，既要買詞典，又要給孩子買點讀產品，因此有道想做一款覆蓋所有點讀場景的智能化產品，用速度換取效率，給用戶提供價值。

功能非常吸引人，但如何就需求和場景改設計、驗證，挑戰很大。「這個挺冒險的，萬一不成功，坑的是整個團隊。」有道詞典筆的解決辦法是加入超感光學系統，用視覺辦法解決點讀。

關於超感光學系統，有道官方的解釋是：它兼容了 OCR（光學字符識別）與 OID（光學辨識碼）兩大 AI 技術的自動判斷與識別，可同時識別紅外光與可見光。

超感光學系統有非常大的廣角，使其能夠識別文字的區域更大，這構成了「超快點查」的基礎條件。

「雖然這個功能非常實用且吸引人，但對算法挑戰非常大。」網易有道首席科學家段亦濤說。廣角鏡頭成像會產生畸變，另外，超感光學系統筆頭也會導致光照不均。兩者都會造成識別困難。

「在此條件下做 AI 模型是很難的事，業界沒有現成的參考方案。」

實際上，無論是點查還是可視化點讀，所採用的 OCR、OID 技術並不稀奇，難點在於，需要用算法挑戰不可控環境下的識別；在有限的硬體條件下，集成不同產品和模塊組合。

02 一年零三個月的改變：從模型到框架

為了解決畸變、光照不均等問題，有道開發了新的方案與模型，優化從圖像採集、檢測及識別的全過程。

直觀而言，筆頭的廣角鏡頭會在短時間內採集圖像，而圖像是畸變的，在識別之前需要將畸變圖像轉換成無畸變圖像。

為此，有道預設了理想條件圖像到實際採集圖像的變換關係，包括廣角鏡頭的徑向畸變和傾斜角度的投影畸變。

在點查功能觸發後，有道使用預設的變化參數，修正圖像的畸變；然後使用閾值化圖像技術對陰影進行補償。

所採集圖像經去畸變、去陰影后，再進行圖像增強，得到完整且可識別的圖像。隨後 OCR 負責「看懂」圖像識別文字，TTS 負責詞和句子的讀音。整個過程在抬筆間就能完成，實現「超快點查」。

用戶可以用詞典筆在不同的場景識別不同的文字，比如化妝品的說明書、醫藥物品曲面等等。詞典筆二代推出後，有道意識到用戶對密集、彎曲、背景幹擾等掃描場景下對模型準確率有更高的期待，因此，部署了更為精細的像素級別檢測模型。

有道將圖像上的每個像素位置進行前景文字和背景的分類，使用局部特徵回歸行高等位置信息，將所掃描的中心文字連接並組合成行，切分成用於識別的文本行。新的檢測網絡模型可將密集、彎曲的文字從各類複雜背景中檢測出來。

在「檢測與識別」的框架上，有道還增加了糾正模塊，用於將特殊字體、形近字、背景幹擾造成的誤識別進行糾正。

基於有道海量的語言數據積累，有道針對詞典筆學習場景構建了 N-gram 語言模型。

在訓練階段，有道使用語料庫及對應圖像數據同時訓練識別模型和語言模型；在推理階段，識別模型的解碼能力易受字體和背景幹擾，輸出「錯誤」的識別結果。

例如圖中所示的「bredkfast」，原是錯誤拼寫。但在語言模型的加持下，「錯誤」的預測概率將會被抑制，由語言模型輸出的轉移概率作用在解碼階段，將更加符合語言規範的結果「breakfast」輸出。

03 離線側端的底層工程

相較於詞典筆 2 代，詞典筆 3 代在不聯網的情況下，翻譯引擎速度提升了 20%，平均的識別準確率達到了 98.3%，最高的準確率能達到 99%。

這些數據的體現，都要歸功於詞典筆內置的離線 OCR 和翻譯模型。詞典筆中的離線模型都是從線上模型演化而來，為了保證用戶體驗效果，都需要在端上進行推斷。

點讀筆的運行流程是先要掃描文字，再進行翻譯、查詞，離線模型當中就包含視覺模型和翻譯模型。段亦濤表示，這些模型跟詞典筆 2 代相比都有了升級。

筆頭廣角鏡頭的設計，給圖像識別帶來視覺畸變上的麻煩，因此，在視覺模型方面，有道做了檢測和識別的模型的升級，並將 NLP 也融合到視覺模型中，可以幫助識別糾錯。

圖像識別後是翻譯環節。翻譯模型方面，有道做了語言的適配和優化，讓翻譯更加智能。由於翻譯模型的輸入是視覺識別模型的輸出，不可避免會出現類似標點符號、形近字等錯誤。為此，在識別模型本身具備一定糾錯能力的情況下，有道還為翻譯模型做了一些容錯的處理。

這些針對離線模型所做的優化，對詞典筆底層的算力及內存提出了挑戰。為了保證在給定算力的情況下實時運行，有道在模型上做了大量的優化。這些方法跟機器之心了解到的，針對詞典筆 2 代離線模型的做法大致相同，將模型壓縮滲透在訓練、預測各個階段。

有道還採用了模型裁剪、參數共享、知識蒸餾等辦法降低模型大小。通過這些方面的優化，保證在不影響性能的情況下降低對運算資源的依賴，並對結果做更加精準地預測。

除了針對模型的優化與精簡外，有道自研了離線推理框架，從以下幾個方面優化推理性能：

底層計算：手寫 ARM NEON 彙編級優化，運行 Winograd 卷積算法，網絡層合併；

數據管理：重新設計數據排布，高效向量化，支持 FP32/FP16/INT8；

異構平臺：多核並行計算，支持 CPU/GPU，模型可以一鍵轉換，自動裁剪；

在新計算引擎的支持下，整個鏈路的計算速度提升 20%。

「整個優化是從模型、框架、工程等各個層面全方位的升級。」段亦濤認為。

04 智能硬體的新變量

在升級詞典筆視覺點讀業務的同時，有道也在給其他業務提供視覺技術的支持。段亦濤向機器之心表示，有道有面向 B 端學校的項目，當中有一款硬體產品叫做有道智能學習終端，可以用於識別和收集錯題。對視覺技術的要求極大。

隨著人工智慧技術對學習、教學場景的重塑日趨成熟，有道在技術方面也逐漸深入。網易有道在智能硬體相關的技術研發投入了很大的力量，在包括計算機視覺、自然語言處理、語音技術、高性能計算和異構計算，以及硬體研發方面都有深厚的積累。

目前重技術的智能硬體產品成為網易有道最為重要的業務版圖。在第三季度財報中，智能硬體為有道貢獻 1.631 億元，同比增長 289.3%，首次超過廣告業務。有道的學習型智能硬體正在爆發其巨大的商業變現潛力。

與此同時，諸如字節跳動、科大訊飛、搜狗等公司也在教育智能硬體市場展現其巨大的野心。對用戶及教育企業而言，教育智能硬體能夠有效彌補 PC 或 APP 端的交互體驗、數據採集的不足，並有利於緩解獲客成本，提高用戶留存率。

究其各家的智能硬體產品，因切入的場景不同，教育硬體產品形態各異。無論是基於怎樣的技術細節及基礎，關鍵在於都需要結合用戶需求，將場景做透，在此基礎上，AI 能力、產品能力及內容缺一不可。

當下，有道詞典筆憑藉在技術、產品及內容上的優勢已經成為萬眾矚目的硬體產品。以後，有道詞典筆會成為可複製的硬體嗎？面對機器之心的提問，段亦濤表示，「好的東西肯定會有人模仿，至少我們的先發優勢強。如果別人沒有做過這個東西，一定會付出時間的代價。我們只要做到跑得比別人快。」

網易 CEO 丁磊曾在網易有道上市，及網易在港二次上市之時，向全國英語老師免費贈送有道詞典筆，至少在這個環節，有道詞典筆已經先搶下用戶認知，讓用戶體驗小小詞典筆背後神奇的 AI 力量。

對於現在市場上推出的智能硬體產品，段亦濤有自己的理解，他拒絕從工具功能性角度解讀，而是有更長遠的認知。

「在真實學習場景中，學生需要在物理世界裡留痕，因此任何智能工具，包括軟硬體，都無法顛覆原有的學習過程。我們可以做到的是，通過智能硬體介入學生學習的物理世界中，讓學習行為更加高效。同時通過獲得學習過程中的數位化數據，逐步建立趨於成熟的數位化教學體系。」

從數位化角度看，網易有道是一家重算法的以技術驅動的教育科技公司。即使是百分之一的算法和框架優化，都能轉化為巨大的商業與教育價值。每一小步突破，就是重構教育的一大步。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：content@jiqizhixin.com喜歡此內容的人還喜歡

原標題：《重新認識AI落地，從小小詞典筆看技術從0到1的工程實踐》

閱讀原文

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

相關焦點

兩大AI技術集於一身,有道詞典筆3從0到1的飛躍

英語學習利器:一款詞典筆的模型創新與工程實踐

從0到1到無窮,vivo大規模機器學習實踐

四項AI技術加身,高科技文具阿爾法蛋詞典筆Q3開售

DataFunCon:2020大數據、AI的最新技術實踐

參賽者的商業故事:自動駕駛落地已到臨界點,這些領跑者一步步走到...

機器人技術Robotics 2.0(1):AI重新定義機器人

對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?

NumPy、AI基礎設施可微分編程、技術實踐,這是一場開發者的盛會

從實驗室到落地,汽車銷售線索評級AI實戰

「AI簡史」從1950到2020

廣東高校攻關「卡脖子」核心技術,如何從0到1再到無窮大

環境工程英語詞典

百度雲發布ABC3.0 打造「最落地」的AI行業解決方案

綠維文旅:重新認識旅遊策劃

有道詞典推出全新AI技術一鍵自動批改英語作文

巨穎:閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地...

網易有道詞典V3.0發布新增多語種詞典

從場景落地,到改變交通網絡,自動駕駛到底如何定義未來,這10位大牛...

平面設計-AI軟體認識

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

相關焦點

兩大AI技術集於一身,有道詞典筆3從0到1的飛躍

英語學習利器:一款詞典筆的模型創新與工程實踐

從0到1到無窮,vivo大規模機器學習實踐

四項AI技術加身,高科技文具阿爾法蛋詞典筆Q3開售

DataFunCon:2020大數據、AI的最新技術實踐

參賽者的商業故事:自動駕駛落地已到臨界點,這些領跑者一步步走到...

機器人技術Robotics 2.0(1):AI重新定義機器人

對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?

NumPy、AI基礎設施可微分編程、技術實踐,這是一場開發者的盛會

從實驗室到落地,汽車銷售線索評級AI實戰

「AI簡史」從1950到2020

廣東高校攻關「卡脖子」核心技術,如何從0到1再到無窮大

環境工程英語詞典

百度雲發布ABC3.0 打造「最落地」的AI行業解決方案

綠維文旅:重新認識旅遊策劃

有道詞典推出全新AI技術 一鍵自動批改英語作文

巨穎:閱讀理解進階三部曲——關鍵知識、模型性能提升、產品化落地...

網易有道詞典V3.0發布 新增多語種詞典

從場景落地,到改變交通網絡,自動駕駛到底如何定義未來,這10位大牛...

平面設計-AI軟體認識

有道詞典推出全新AI技術一鍵自動批改英語作文

網易有道詞典V3.0發布新增多語種詞典