百度聯合發布全球最大中文自然語言處理數據共建計劃「千言」

2020-12-14 金融界

來源：證券時報網

在8月25日舉行的百度大腦語言與知識技術峰會上，百度集團副總裁吳甜和百度技術委員會主席吳華分別發布百度語言與知識技術系列產品和數據集共建計劃，推出5款產品的新發布，全面加速AI技術大規模應用。

自然語言理解（NLP）素有「人工智慧皇冠上的明珠」盛譽，這也意味著語言與知識等認知層面的技術突破將進一步促進AI深入發展。語言與知識技術是人工智慧認知能力的核心。2010年，百度成立自然語言處理部，在前瞻技術與產業格局上實現引領和創新。十年來，百度大腦語言與知識技術獲得包括國家科技進步獎在內的20多個獎項，30多項國際競賽冠軍，發表學術論文超過300篇，申請專利2000多項。

百度CTO王海峰介紹，知識圖譜是機器認知世界的重要基礎，百度已經打造了世界上最大規模知識圖譜，擁有超過50億實體和5500億事實，並在不斷演進和更新。百度知識圖譜應用於各行各業，每天的調用次數超過400億次。同時，在融入知識的基礎上，語言理解能力不斷增強。基於預訓練技術的成功經驗，百度還提出基於多流機制的語言生成預訓練技術，兼顧詞、短語等不同粒度的語義信息，提升生成效果。

同日，百度集團副總裁吳甜接續發布語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新產品，同時發布了6項升級，包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。

據悉，百度推出的語義理解技術與平臺文心，基於深度學習平臺飛槳打造，依託語義理解核心技術，集成預訓練模型、全面的NLP算法集、端到端開發套件和平臺，提供一站式NLP開發與服務，讓開發者更簡單、高效地定製企業級NLP模型。全新發布的智能文檔分析平臺TextMind，基於OCR、NLP技術，以文檔解析為核心能力，支持文檔對比與文檔審核，具備「多快好省」的核心優勢，促進企業辦公智能升級。

百度大腦智能創作平臺針對媒體應用場景再升級，全新推出智能策劃、智能採編、智能審校三大媒體場景方案，進一步助力媒體人更快、更好地創作。智能對話定製與服務平臺UNIT升級3大特性：更智能的任務式對話理解、極致便捷的表格問答和融合通用的新對話引擎。此次UNIT全新升級的三大能力，將進一步降低任務式對話、智能問答的定製成本，並融合通用對話能力，提升交互體驗。

同時，百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃——千言，解決數據稀缺問題。千言一期由來自國內11家高校和企業的數據資源研發者共同建設，已涵蓋開放域對話、閱讀理解等7大任務，20餘個中文開源數據集。

百度技術委員會主席吳華表示，「未來我們希望有更多的數據集作者能夠參與共建千言，共同推動中文信息處理技術的進步，建設世界範圍的中文信息處理影響力。我們計劃在未來3年，面向20多個任務，收集和建設不少於100個中文自然語言處理數據集，覆蓋語言與知識技術全部領域。」

相關焦點

中文自然語言處理數據共建讓機器讀懂「千言」

中文作為最優美、最複雜的語言，其自然語言的數據共建將幫助機器讀懂「千言」，開拓人工智慧領域無限的遐想空間。　　機器認知需依賴知識圖譜　　「知識圖譜是機器認知世界的重要基礎。」在剛剛結束的以「掌握知識、理解語言、擁有智能」為主題的百度大腦語言與知識技術峰會上，百度CTO王海峰解讀了語言與知識技術的發展歷程與最新成果，與產學研各界分享技術及產業發展趨勢和展望。　　基於最大的搜索平臺的數據優勢，百度打造了世界上最大規模的知識圖譜，擁有超過50億實體和5500億事實，並在不斷演進和更新。該知識圖譜應用於各行各業，每天的調用次數超過400億次。
百度發布「千言」計劃未來3年共建100個NLP數據集

8月25日百度大腦語言與知識技術峰會在線上召開，百度聯合中國計算機學會、中國中文信息學會共同發布「千言」數據共建計劃。
降本增效、工業級應用,百度語言與知識新品劍指產業智能化

8月25日，以「掌握知識、理解語言、擁有智能」為主題的百度大腦語言與知識技術峰會舉行，百度CTO王海峰發表主旨演講，解讀百度語言與知識技術的發展歷程與最新成果，與產學研各界分享技術及產業發展趨勢和展望，百度集團副總裁吳甜和百度技術委員會主席吳華分別發布百度語言與知識技術系列產品和數據集共建計劃，重磅推出5款產品的新發布，全面加速AI技術大規模應用。
自然語言處理學術會議AACL線上召開聚焦亞太地區NLP技術進展

（百度CTO王海峰出任AACL創始主席）以語言和知識為研究對象的自然語言處理技術素有人工智慧皇冠上的明珠之稱。近年來，國內產學研各界在自然語言處理研究方面進步顯著，此次AACL會議從組委會成員、投稿地區分布，到參會嘉賓也都充滿著「中國元素」。
百度語言與知識技術最全「導覽」

語言與知識技術的重要性不容小覷。在回顧完百度語言與知識技術的進程以及最新進展，王海峰引出了峰會中其他三大亮點，首先是百度語言與知識產品的重磅發布和全新升級，其次是數據共建和算力共享計劃，最後是百度NLP「十年十人」的發布，進一步為技術和社會進步做出更大貢獻!
觀潮百度NLP十年:語言知識全布局,5款產品新發布、2大計劃

5 款產品新發布、2 大計劃除了這些技術的總結和展望之外，在這次活動中，百度還一口氣發布了文心、TextMind、AI 同傳會議解決方案 3 款新產品，智能創作平臺面向媒體的 3 個場景方案，智能對話定製與服務平臺 UNIT 的 3 項全新升級以及數據共建和算力共享計劃。
AACL2020「中國元素」滿滿百度王海峰組織發起、吳華任聯合主席

同時，按照ACL年會慣例，此次亞太分會年會與第十屆國際自然語言處理聯席會議（International Joint Conference on Natural Language Processing, IJCNLP）聯合召開。會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖，圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。
中文自然語言處理數據集:ChineseNLPCorpus

點擊上方「MLNLP」，選擇「星標」公眾號重磅乾貨，第一時間送達推薦一個Github項目：ChineseNLPCorpus，該項目收集了一批中文自然語言處理數據集的相關連結，可以用來練手，點擊閱讀原文可以直達該項目連結：https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集，平時做做實驗的材料。
百度發布即時翻譯「神器」突破自然語言處理重大難關

這是自然語言處理方面的重大技術突破，將對機器即時筆譯和口譯的發展起到極大地推動作用。機器同傳利用語音識別技術自動識別演講者的講話內容，將語音轉化為文字，然後調用機器翻譯引擎，將文字翻譯為目標語言，顯示在大屏幕或者通過語音合成播放出來。
中文自然語言處理數據集:ChineseNLPCorpus(附連結)

本文為你推薦中文自然語言處理數據集。推薦一個Github項目：ChineseNLPCorpus，該項目收集了一批中文自然語言處理數據集的相關連結，可以用來練手，點擊閱讀原文可以直達該項目連結：https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集，平時做做實驗的材料。歡迎補充提交合併。
中文自然語言處理相關資料集合指南

HanLP (Java)SnowNLP (Python) Python library for processing Chinese textYaYaNLP (Python) 純python編寫的中文自然語言處理包，取名於「牙牙學語」小明NLP (Python) 輕量級中文自然語言處理工具DeepNLP (Python) Deep
Awesome-Chinese-NLP:中文自然語言處理相關資料

HanLP (Java)SnowNLP (Python) Python library for processing Chinese textYaYaNLP (Python) 純python編寫的中文自然語言處理包，取名於「牙牙學語」小明NLP (Python) 輕量級中文自然語言處理工具DeepNLP (Python) Deep
中文自然語言處理雲平臺訊飛語言云

2014年11月28日，由科大訊飛和哈爾濱工業大學聯合推出的全球首個中文自然語言處理雲服務平臺「哈工大訊飛語言云」正式發布。作為科大訊飛現有智能語音交互技術服務平臺--「訊飛語音雲」的重要拓展，該「語言云」將與「語音雲」一起為廣大網際網路及移動網際網路的開發者提供從語音到語言的全面的、頂級的、一站式的核心技術服務支撐。
CCF大數據與計算智能大賽全球啟動!圍繞百度飛槳首設自主平臺賽道

10月13日，2020 CCF 大數據與計算智能大賽（CCF BDCI）面向全球同步啟動。大賽由中國計算機學會主辦，迄今成功舉辦七屆的CCF BDCI大賽已成為大數據與人工智慧領域最具影響力的賽事之一。值得關注的是，本屆大賽在原有賽道外，首度設立了全新的自主平臺賽道，部分賽題由百度飛槳作為指定深度學習平臺為選手提供技術支持。同時，百度和清華大學在算法賽道貢獻了千言：多技能對話賽題。
2019 自然語言處理前沿論壇成功舉辦,百度 NLP 技術全揭秘

，由百度聯合中國計算機學會中文信息技術專委會、中國中文信息學會青工委舉辦的「2019 自然語言處理前沿論壇」上，來自百度和各大高校的嘉賓們分享了關於 NLP 技術研究的心得體會。現在，百度的最新研究是提出了知識增強的語義表示模型 ERNIE 並發布了基於 PaddlePaddle 的開原始碼與模型。框架包括基於海量百科、新聞、對話多源數據訓練，雙向多層 Transformer的語義建模模型，融合併強化中文詞、實體等先驗語義知識學習，多階段知識學習。在
AI皇冠上的明珠:人工智慧自然語言處理技術

近幾年，全球範圍內越來越多的政府和企業組織逐漸認識到人工智慧在經濟和戰略上的重要性，並從國家戰略和商業活動上涉足人工智慧，並藉助其推進自身的智能化、產業化進程。在人工智慧出現之前，機器能夠自動處理少量結構化的數據。
CLUE發布第一個原生中文自然語言推理數據集

，是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數據集。OCNLI包含5萬餘訓練數據，3千驗證數據及3千測試數據。我們將提供訓練與驗證集的數據及標籤。測試數據僅提供數據，不提供標籤。OCNLI為中文語言理解基準測評（CLUE benchmark）的一部分。
最全中文自然語言處理數據集、平臺和工具整理

資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集，中文數據集平臺和NLP工具等。維基百科維基百科會定時將語料庫打包發布：數據處理博客 https://dumps.wikimedia.org/zhwiki/ 百度百科只能自己爬，爬取得連結：https://pan.baidu.com
中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT模型

近日，哈工大訊飛聯合實驗室發布了基於全詞覆蓋的中文 BERT 預訓練模型，該模型在多個中文數據集上，取得了當前中文預訓練模型的最佳水平，部分效果甚至超過了原版 BERT、ERNIE等中文預訓練模型。。這一新的模型資源，極大地推動了中文自然語言處理的研究發展，彌補了之前該研究模型在中文自然語言處理上的空缺。

百度聯合發布全球最大中文自然語言處理數據共建計劃「千言」

相關焦點

中文自然語言處理數據共建讓機器讀懂「千言」

百度發布「千言」計劃 未來3年共建100個NLP數據集

降本增效、工業級應用,百度語言與知識新品劍指產業智能化

自然語言處理學術會議AACL線上召開 聚焦亞太地區NLP技術進展

百度語言與知識技術最全「導覽」

觀潮百度NLP十年:語言知識全布局,5款產品新發布、2大計劃

AACL2020「中國元素」滿滿 百度王海峰組織發起、吳華任聯合主席

中文自然語言處理數據集:ChineseNLPCorpus

百度發布即時翻譯「神器」 突破自然語言處理重大難關

中文自然語言處理數據集:ChineseNLPCorpus(附連結)

中文自然語言處理相關資料集合指南

Awesome-Chinese-NLP:中文自然語言處理相關資料

中文自然語言處理雲平臺 訊飛語言云

CCF大數據與計算智能大賽全球啟動!圍繞百度飛槳首設自主平臺賽道

2019 自然語言處理前沿論壇成功舉辦,百度 NLP 技術全揭秘

AI皇冠上的明珠:人工智慧自然語言處理技術

CLUE發布第一個原生中文自然語言推理數據集

最全中文自然語言處理數據集、平臺和工具整理

中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT模型

百度發布「千言」計劃未來3年共建100個NLP數據集

自然語言處理學術會議AACL線上召開聚焦亞太地區NLP技術進展

AACL2020「中國元素」滿滿百度王海峰組織發起、吳華任聯合主席

百度發布即時翻譯「神器」突破自然語言處理重大難關

中文自然語言處理雲平臺訊飛語言云