拯救「手癌」:騰訊新聞推出中文糾錯算法能力

2021-01-11 騰訊網

資訊生產的門檻,確實越來越低了;可要寫出「快準狠」的稿子,也真的越來越難了。內容生產的坑有千千萬,這其中,要數讓用戶怒點負反饋、狂扣編輯雞腿的「錯別字」最讓人頭疼。

為了揪出惱人的「錯別字」,鵝廠的寫稿機器人Dreamwriter再拓展能力項,想用AI算法加持採編小夥伴的工作。本期全媒派(ID:quanmeipai)採訪了項目幕後團隊,探秘這套AI糾錯算法究竟如何治癒編輯部「手癌」。

AI算法進行中文糾錯,到底有多牛?

想讓計算機進行中文糾錯,可不像人類在語文考試中火眼金睛用筆「捉蟲」那麼簡單。

從拼寫檢查說起:英文領域如何應用

點擊播放 GIF 0.0M

你應該對微軟Word文檔的紅綠波浪線不陌生,它就是最常見的拼寫檢查應用之一。1993年,微軟的Word 6.0上線自動拼寫更正的功能,到今天已經有25年的歷史。可以說,在英文拼寫檢查領域,人們的實踐早就取得了不錯的成績,無論是搜索工具還是文檔處理軟體,英文錯誤的識別總是又快又準的。

細究英文的拼寫錯誤,大致可以分為兩類:

一類是英文單詞拼寫不合法(Non-Word Errors),造成錯誤的「詞」在詞典裡沒有對應的單詞(Word),比如把artificial拼成artificel;

還有一類是單詞拼寫合法,但在語境中錯誤(Real-Word Errors),比如把be interested in寫成be interest in。與拼寫不合法相比,這類錯誤更難被糾正。

前者一般使用上下文無關(Context-Independent Methods)的方法解決,後者則通常使用上下文相關(Context-Dependent Methods)的方法識別。

#視頻:算法如何識別拼寫錯誤?來源:NBC

中文糾錯有多複雜?

在中文領域,糾錯仍然是一道險關,因為很多中文的錯誤情況並不會在英文語境中發生。這是因為,英文是輸入單個字母,組成詞彙和句子,沒有「輸入法」的概念,最小處理單元是一個「單詞」;而對於中文而言,我們依賴輸入法來打字,而計算機顯示的漢字字形都是預先設置好的,不會存在字形「無中生有」的情況,因此糾錯處理單元針對的中文「詞」,相當於英語的「詞組(Phrase)」。

中文語境出現的錯誤,錯法往往千奇百怪:有輸入法聯想錯誤導致輸入其他同音詞,由此出現的搭配不當;有發音不準導致拼音輸錯;還有形近字、幾乎約定俗成的錯字等等,很難有成熟的規律一網打盡。漢語的表達主觀且多樣,如果沒有海量語料來訓練模型,則試驗很難取得成效。

因此,可以說,漢語的「捉蟲」難度要大大高於英語。

鵝廠勘誤算法能力全透視

從今年春節後啟動,到六月份在騰訊新聞CMS系統全量上線、實現新聞各資訊品類全覆蓋,Dreamwriter的勘誤算法能力可謂歷盡了九九八十一難。這是騰訊新聞自研的人工智慧算法模型,收錄權威字典資料作為基礎儲備,並利用強大的深度學習算法,通過編輯反饋自我提升、根據上下文語義解析自我修正,實現錯別字的勘誤和糾正。

CMS反饋界面

從技術到產品,項目組投入大量精力不斷判錯、糾錯,進而優化模型,才實現了現階段較為成熟、理想的效果。

在模型雛形階段,因為不斷報錯,團隊成員也對試驗方向是否正確產生了懷疑。市面上幾乎沒有可參考競品,這條路就得獨立摸索。

核心攻堅點:根據上下文,判別搭配錯誤

在項目開發過程中,最難突破的是對上下文語法及搭配錯誤的判別,這需要經過數以億計的數據語料去訓練模型。只有不斷調試,機器才能夠對新聞的語法表達建立概念。

相較於傳統糾錯,該方法以最先進的AI算法為核心,通過海量語料對深度學習模型進行訓練,使模型能夠對多方面錯誤進行校正。

核心算法以深度學習為基礎,構建多個不同的模型,每個模型都從獨有的方面理解語義。模型通過語料進行學習,對語義的理解將深入到字和詞。算法核心技術將多種深度學習模型進行融合,多模型共同決策。當語句中出現錯誤,模型會發現該錯誤與上下文的匹配程度較低,因而觸發報警,並給出正確的寫法。

「比如我們判斷字寫對還是寫錯,其實基本的思路是寫錯的情況出現得比較少,出現的概率低。有些情況比較簡單,像高考常考的那一類,錯法很常見,比如說『彬彬有禮』寫成『杉杉』,這類問題用目前常見的錯別字算法都可以解決。」項目技術人員解釋道,「而我們這套算法的亮點,主要是通過判斷上下文語境,來識別搭配錯誤。我們會利用前後兩個詞,來預測中間這個詞出現的概率。如果說中間這個詞出現的概率非常低,跟它相近的一些詞出現的概率比較高,我們就認為它很有可能是寫錯了的。」

「還有一些非常規的錯誤,我們也能識別出來。比如上次報了一個『飛機率落』的case,把『摔』的提手旁漏了,這個錯法很罕見,但機器也識別出來了。」

技術人員還舉了一些例子,比如:

《這就是鐵甲》鄭爽成鐵甲女超能手,成功在經理人中脫引->脫穎而出

一群羅威納犬寶寶打架,場面感忍->感人無法控自->控制

你有一封信:失憶男字->男子尋找不存在的女孩,沒想到真找到了!

真·機器學習

這套算法能力的開發過程還有一個特點,就是自始至終沒有使用人工來進行智能數據標註。

技術人員介紹道:「一般來說,做這種糾錯算法需要很多人來進行數據標註,告訴機器它是什麼、不是什麼,都需要人工去標註,這是非常耗費人力的。我們這次沒有用人工標註,直接讓機器拿語料學習。」

算法能力迭代ing

目前,這套糾錯算法已能識別多種類型,包括同音字、近義字、易錯字及上下文語境搭配錯誤,識別準確率達90%以上,應用於騰訊新聞圖文、視頻等場景。此外,它還擁有「舉一反三」的超強大腦,不僅可以識別錯誤,還可以通過快速記錄對錯誤的反饋和幹預,自我迭代,將算法能力調試得更加精準。

現在,這套算法還在不斷的學習進化。在信息爆炸的今天,新聞的更新速度異常迅速,「神馬」、「菊外人」等新名詞層出不窮,算法也可以通過語料的積累,快速實現對這類熱門新詞的覆蓋。

未來展望:更多能力+開放合作

目前,團隊希望繼續優化模型,拔高整體水平;另外要做好通用能力,將算法以工具的形式來服務更多受眾。

算法能力項拓展

現有的算法能力雖然相當了不起,但對於漏字、多字和更複雜的病句卻暫時無能為力。技術人員坦言,這也是未來努力突破的一個方向。比如「我正在在看書」和「我正在書」,前者多了一個「在」字,後者漏了動詞「看」字,看似簡單的錯誤,如何通過AI來「查漏補缺」,是亟待攻克的難題。

除了糾錯本身,團隊還有更大的野心。產品經理介紹道,「糾錯只是目前算法能力的一個方向,更多的技術也在陸續開放中,希望能夠賦能更多合作夥伴。」

開放合作,解放「手癌」

「我們做這個算法能力的初衷是,不僅能夠應用於騰訊新聞『捉蟲』,還能惠及更多媒體從業者,幫助大家高效勘誤、少犯錯。」該項目的產品經理介紹道,「雖然這個能力的實現是很漫長且需要不斷更新的過程,但是為了能給予用戶純淨清朗的文字環境,我們認為還是很有意義的。」

現在,團隊正在著手搭建可供對外使用的應用展示平臺,十分歡迎更多有這類需求的媒體和個人,來使用鵝廠的算法工具,希望一來可以幫助大家發現並解決工作中存在的問題,二來通過吸收更多真實的「養料」,幫助AI更聰明更智能,未來識別更精準。

談及AI,人們往往聞之色變,唯恐因其入侵取代了自己的位置。而作為內容生產者的我們,完全可以合理利用AI,去負擔那些產出投入比低的工作,降低內容管理中的風險。在技術迅速變革的大潮之中,聰明地利用技術,加強人類不可替代的核心能力,才是媒體人減輕工作焦慮感的至上法則。

其他參考資料:

· Who Made That Autocorrect?

作者:Daniel Engber 來源:The New York Times Magazine

· Chinese Spell Checking Based on Noisy Channel Model

作者:Hsun-wen Chiu, Jian-cheng Wu, Jason S. Chang

· A New Benchmark and Evaluation Schema for Chinese Typo Detection andCorrection?

作者:Dingmin Wang, Gabriel PuiCheong Fung,

Maxime Debosschere, Shichao Dong, Jia Zhu, Kam-Fai Wong

相關焦點

  • 騰訊新聞推出中文糾錯算法能力,從此AI拯救「手癌」不是夢
    為了揪出惱人的「錯別字」,鵝廠的寫稿機器人Dreamwriter再拓展能力項,想用AI算法加持採編小夥伴的工作。本期全媒派(ID:quanmeipai)採訪了項目幕後團隊,探秘這套AI糾錯算法究竟如何治癒編輯部「手癌」。
  • 騰訊的內容算法是如何工作的?-虎嗅網
    近期,騰訊PCG新聞產品技術部算法中心李彪應邀來到騰訊媒體研究院作內部分享,詳細梳理了算法應用產品場景,以下為部分內容實錄。今天我跟大家分享的主題是算法賦能的內容處理和分發,重點講一下內容處理。開始之前,先介紹一下算法在騰訊新聞的應用場景。
  • 基於Transformer增強架構的中文語法糾錯
    論文名稱:基於Transformer增強架構的中文語法糾錯論文作者:王辰成,楊麟兒,王瑩瑩,杜永萍,楊爾弘發表於:第十八屆中國計算語言學大會(CCL 2019)語法糾錯(Grammatical Error Correction, GEC)任務,旨在利用自然語言處理技術,自動識別並糾正非中文母語學習者書寫的文本中所包含的語法錯誤,拼寫錯誤,語序錯誤
  • 騰訊SNG量子實驗室進入籌備倒計時,港中文張勝譽教授出任負責人兼...
    雷鋒網 AI 科技評論消息,12 月 28 日,香港中文大學計算機系任副教授張勝譽正式以騰訊量子實驗室負責人、傑出科學家的身份現身由騰訊 SNG 主辦的 TSAIC 大會。現在張勝譽在香港中文大學計算機系任副教授,研究方向包括量子計算,算法設計和計算複雜性分析,以及人工智慧基礎研究。
  • 騰訊推出「騰訊民漢翻譯」小程序 支持維語、藏語與中文互譯
    站長之家(ChinaZ.com) 4月30日 消息:今日,騰訊宣布正式推出「騰訊民漢翻譯」小程序,該小程序目前支持維語、藏語(衛藏藏、安多藏、康巴藏)與中文的互翻。據介紹,「騰訊民漢翻譯」小程序實現了「實時語音識別+標點斷句+翻譯+語音合成」的首創。
  • 騰訊工程師提議用中文索引算法創建DNA搜尋引擎
    多數研究人員使用的是BLAST或FASTA算法,它們本質上逐一比較每個基因組。現在中國第三大搜尋引擎、騰訊旗下搜搜(SOSO.com)的一位計算機科學家王亮(Wang Liang)提出應用中文索引算法去檢索生物信息。
  • 基於seq2seq模型的中文糾錯任務
    本文首先對中文糾錯任務進行詳細的梳理, 包括錯誤的來源、目前的處理方法、相關的公開競賽、數據源等;第二,由於缺 少大規模公開的數據集,本文涉及顯示人工構造大規模糾錯數據集的算法;第三, 本文將深度學子中的 seq2seq 模型引入,處理中文糾錯任務,在基本的模型基礎 上引入 attention 機制(包括諸多變種)以及多任務學習的理念,嘗試多種組合, 並最終在構造數據集上 GLEU 評分達到了 0.75
  • 【SDCC 2015現場】算法實踐論壇(上):網易、京東、騰訊的算法優化...
    圖:算法實踐論壇現場SDCC大會第三天上午9:30,算法實踐論壇由宜信大數據創新中心數據科學家 項亮擔任主持,在對所有演講嘉賓進行介紹後,本次論壇正式開始現場詳解如何通過基於搜索用戶日誌挖掘、基於Query短語權重的相似性糾錯等Query優化手段實現RPM上升,「精確」召回更多廣告,提升單次點擊價格。
  • 海量新聞信息處理中的中文分詞算法研究
    點擊進入人民網獎學金專題 ●2012年度「人民網優秀論文獎」獲獎名單揭曉 2012年度「人民網優秀論文獎」獲獎名單10月30日揭曉,北京郵電大學計算機學院劉健、於淼同學的作品《海量新聞信息處理中的中文分詞算法研究
  • 2020騰訊ConTech大會:2021年騰訊新聞將全面升級內容生態計劃
    此次大會以「好奇心睜開眼睛」為主題,騰訊副總裁陳國紅、全球暢銷書《槍炮、病菌與鋼鐵》、《劇變》作家傑瑞德戴蒙德、全球暢銷書《灰犀牛》作家米歇爾沃克、中國疾病控制中心傳染病前首席科學家曾光、奧運會冠軍鄧亞萍、著名神經生物學家路飛、嫦娥一號會上,騰訊副總裁陳國紅、騰訊新聞運營總經理黃晨霞和騰訊新聞產品總經理馮濤分別從內容生態系統的用戶需求、內容運營和技術支持三個角度介紹了去年騰訊新聞的發現和成績
  • 中文文本錯別字檢測以及自動糾錯
    向AI轉型的程式設計師都關注了這個號👇👇👇機器學習AI算法工程代碼及運行教程 獲取:關注微信公眾號 datayx  然後回復  糾錯  即可獲取。1.《美團機器學習實踐》_美團算法團隊.pdf《深度學習入門:基於Python的理論與實現》高清中文PDF+源碼特徵提取與圖像處理(第二版).pdfpython就業班學習視頻,從入門到實戰項目2019最新《PyTorch
  • 騰訊新聞發布 ConTech 背後:爭奪內容變革期新紅利
    當騰訊新聞的ConTech智能內容生產引擎青雲系統成功啟動,它每天都在參與生產1000條視頻;智能寫作系統可以24小時在天氣、體育等領域不間斷寫作。此外,騰訊新聞開發的一款錯誤檢測和識別模型,每天可以處理來自騰訊新聞內外的糾錯請求達101萬篇。 為了推動內容行業和人工智慧的融合,騰訊新聞過去進行了很多嘗試。
  • 搜狗翻譯推出 AI 寫作助手:可對英文作文糾錯和潤色
    IT之家6月17日消息 根據搜狗翻譯現已推出了一款AI寫作助手,官方稱通過藉助先進的人工智慧算法對英文作文進行實時語法和拼寫糾錯,並提供專業的語句潤色優化建議。據介紹,搜狗翻譯App的「作文批改」功能,AI寫作助手便可針對用戶輸入的作文內容,指出寫作中基礎的語法或拼寫等錯誤,提供8種經AI算法優化後的語句潤色升級方式。用戶還能利用批改前後對照功能,通過「輸入-反饋-修正-對比」的良性循環方式,科學、高效的提升寫作能力。
  • 發中文文章才能畢業,能拯救大學生的中文寫作能力嗎?
    圳論評論員 姚龍華中國科學技術大學光學工程博士點最近立了個新規:「從今年入學的博士生開始,必須發一篇中文文章或論文才能畢業,哪怕在媒體或雜誌上發一篇科普文章,甚至科技新聞報導都可以,但你不能沒有。即使發再多很好的英文論文,也不行。」
  • 防假新聞,谷歌設置事實核查標籤_全媒派_騰訊新聞
    然而,在Facebook解散」熱門話題」團隊,採用機器算法抓取頭條新聞之後不過三天,就爆出了假新聞的烏龍事件。機器算法或許尚不及人們預期的智能?在假新聞層出不窮的今天,專業的事實核查機構也隨之興起。如何讓這些探尋事實真相的報導不被信息海洋淹沒?
  • 搜狗翻譯推出國內首個AI寫作助手 高效提升英語寫作能力
    近日,搜狗翻譯推出國內首個AI寫作助手,通過藉助先進的人工智慧算法對英文作文進行實時語法和拼寫糾錯,並提供專業的語句潤色優化建議,從「糾錯」到「潤色」,一站式解決英語寫作常見難題。以AI寫作助手為代表,搜狗翻譯正不斷探索高效的英語學習方式,推動外語學習智能化。
  • 內容處理和分發中的算法應用探究
    近期,騰訊PCG新聞產品技術部算法中心李彪應邀來到騰訊媒體研究院作內部分享,詳細梳理了算法應用產品場景,以下為部分內容實錄。今天我跟大家分享的主題是算法賦能的內容處理和分發,重點講一下內容處理。開始之前,先介紹一下算法在騰訊新聞的應用場景。
  • 騰訊在泰國推出WeTV,將提供泰語配音版中文原創內容
    6月17日消息,據國外媒體報導,騰訊日前在泰國推出了視頻流媒體服務WeTV,以拓展東南亞市場。這也是騰訊首次在海外市場推出該服務。  WeTV將提供來自騰訊企鵝影視的泰國配音的中文原創內容,以及與當地合作夥伴創建的內容。  騰訊企鵝影視的高級副總裁Jeff Han表示,鑑於騰訊當前在泰國的用戶群,使得泰國成為其進入東南亞市場的第一個適合的目標。
  • 騰訊新聞 HD
    騰訊新聞 HD簡介 騰訊新聞HD-是騰訊公司為iPad用戶精心打造的一款7x24小時、全方位、及時報導的新聞應用。
  • 騰訊新聞想讓大家「開眼界」
    騰訊在試圖用眼界來解決算法的弊端去年的騰訊ConTech大會講的是人機協同,內容共生,我理解的是找到算法和人工之間的平衡。而今年的騰訊ConTech大會,則是讓騰訊新聞的品牌主張從事實派延伸到了打開眼界的概念,在後算法時代,打開眼界成為一種新的驅動力。我認為這個洞察很精準。