提起科大訊飛,人們總津津樂道於「讓機器能聽會說」的先進智能語音技術。其實除此之外,科大訊飛的「攻城獅們」也一直致力於讓機器「能看會認」。
近日,科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室,以顯著優勢獲得ICFHR 2020
OffRaSHME數學公式識別挑戰賽冠軍。這是科大訊飛繼ICPR 2018 MTWI圖文識別挑戰賽上獲得三項冠軍、ICDAR 2019
CROHME數學公式識別挑戰賽上獲得兩項冠軍後,在複雜版面文檔圖像識別理解方向上所取得的又一佳績,再次展現科大訊飛在相關領域的技術先進性。
離線手寫數學公式識別(官方數據)榜單
離線手寫數學公式識別(外源數據)榜單
備註:「Correct」表示公式識別的句正確率,「」和分別表示整條公式中允許出現1處和2處錯誤的識別的句正確率
技術頂天,掌握圖文識別「金字塔」級別難題「解法」
此次OffRaSHME(Offline Recognition and Spotting of Handwritten Mathematical
Expressions)數學公式識別挑戰賽由ICFHR 2020(International Conference on Frontiers of
Handwriting
Recognition)舉辦,參賽隊伍包括韓國三星、東京農工大學、華南理工大學、中山大學等多家常年深耕文檔分析理解領域的研究機構。
相比於常規的圖文識別,對數學公式的識別難度和技術挑戰往往更高。本次OffRaSHME官方比賽任務為「離線手寫數學公式識別」,該任務相比ICDAR 2019
CROHME的離線手寫公式識別任務,難度再度升級,有以下三大難點:
公式結構 複雜, 尤其是各種結構的嵌套 :
難以辨別的形近字符 , 如 X 和 x , Z 和 2 , 和 r :
本次比賽添加了很多非常規符號的組合 , 容易和公式混淆 :
難度雖高,但這樣的任務對於科大訊飛來說並不算陌生。
基於在手寫數學公式識別領域深耕多年的技術積累,科大訊飛從基於上下文無關文法的傳統數學公式方法到創新性地提出基於 LaTeX 建模的 Encoder-Decoder 識別算法 ,其中,LaTeX作為最常用的數學公式表達之一,研究人員將數學公式識別問題看作圖像到LaTeX序列的翻譯問題,藉助注意力機制實現更精準的端到端識別能力,該方案在2019
CROHME中一舉打敗了常年佔據CROHME冠軍地位的MyScript。
而針對數學公式識別中最難的複雜結構嵌套問題,科大訊飛提出了基於樹形結構信息建模的 Encoder-Decoder 識別算法 ,這種算法在複雜公式結構嵌套上更具泛化能力。針對形近符號區分難度大的問題,科大訊飛提出使用基於 LaTeX 語言模型的數據增強策略 ,利用數學公式的樹形結構表達,合理地拆分分解數學公式,並利用這些公式訓練LaTeX語言模型,最後使用語言模型增強出合理的、符合上下文語義關聯的數據,該策略可以很大程度上緩解形近符號識別困難的問題。
通過以上多項技術能力的綜合運用,此次科大訊飛以顯著優勢拿下了此次任務難度極高的數學公式識別挑戰賽冠軍,證明了其在數學公式識別領域的技術先進性;在實際應用中,學生作業試卷文檔存在版面結構複雜、書寫風格差異顯著等難點問題,這一系統將為其提供更為豐富有效的解決方案。
通過多項技術能力的綜合運用,在「能看會認」上,科大訊飛做得更好了!不僅能識別更複雜的數學公式,還能做到「中文+數學公式」混合搭配的內容識別,此後將在更多A.I.產品中應用。
https://v.qq.com/x/page/s3080uld0xk.html
應用立地 , 打造 「能看會認」的 A.I. 產品
在數學公式識別比賽之外,近期科大訊飛還在另一項自然場景的文字檢測分割識別的相關技術成果在ICDAR ReCTS(Reading Challenge on
Reading Chinese Text on
Signboard)評測任務取得顯著突破,刷新單字識別、文本行識別、文本行檢測和端到端識別全部四項榜單世界記錄,使得系統在解決複雜場景下文字檢測和識別的難題中更為遊刃有餘。
這些成績並非一簇而就。
事實上,科大訊飛在圖文識別領域已有多年核心技術積累,擁有自主智慧財產權,並伴隨著每次技術迭代,產品都迎來大規模更新升級,更好滿足用戶在多個場景下使用需求。
2015年,輕量級的 卷積神經網絡 首次在手機設備上使用,使得在線手寫字符識別任務上取得突破性進展。依託此項技術,訊飛輸入法 用戶手寫輸入體驗感顯著提升。
2016年,CNN-HMM 框架 在文本行識別任務中得到成功應用,該套系統無需進行文本行切分等規則化的複雜版面分析,有效避免切分帶來的錯誤,使得篇章級的中、英文手寫文檔識別效果達到人工相當水平。依託此項技術,科大訊飛智能輔助評卷系統能夠對語文作文、英語作文、英語翻譯、數學填空、英語填空等題型進行輔助評卷,應用全國多省市的中高考,累計處理題卡數量過億張。
2018年,基於注意力機制的 Encoder - Decoder 模型 在自然場景文字識別任務上大放異彩,融合語言模型進行端到端訓練,使得拍照模糊的文字也能通過語言模型「聯想」而被正確識別。依託此項技術,在訊飛翻譯機 中,對複雜場景下的多種字體也能一拍即譯,讓拍照翻譯更清晰更準確,能夠滿足更多消費者在國外旅遊、購物的場景應用需求。
今年,在數學公式識別任務的諸多關鍵技術上繼續突破,相關核心技術也將應用在訊飛 智能 學習機 等產品中,幫助用戶精確地進行大數據學情分析,找到知識點的薄弱項,實現「個性化精準學」,幫助廣大同學提升學習效率、鞏固學習效果。
在技術應用的過程中,手寫圖文識別也與智能語音等關鍵技術深度融合,讓大家切實感受到技術進步帶來的高效、便利性。如「出口成章,躍然紙上」的訊飛智能辦公本 ,可以實現語音直接搜索手寫筆記內容,「一句話找到手寫筆記」,滿足用戶在更多筆記場景下的記錄、寫作、搜索、多端同步需求,有效提高辦公效率。
在即將到來的618年中大促中,還有更多產品將和大家見面,大家可以進一步、零距離體驗這些新技術。
堅守人工智慧道路21年,科大訊飛不斷攀越技術高峰,在智能語音、計算機視覺、自然語言理解等技術領域摘得一項又一項桂冠,但這並不是終點。科大訊飛將始終秉承「頂天立地」的技術信仰,打造一件件「能聽會說」、「能看會認」、「能理解會思考」的人工智慧產品,用人工智慧點亮人間煙火。