百度聯合發布全球最大中文自然語言處理數據共建計劃「千言」

2020-12-26 金融界

來源:證券時報網

在8月25日舉行的百度大腦語言與知識技術峰會上,百度集團副總裁吳甜和百度技術委員會主席吳華分別發布百度語言與知識技術系列產品和數據集共建計劃,推出5款產品的新發布,全面加速AI技術大規模應用。

自然語言理解(NLP)素有「人工智慧皇冠上的明珠」盛譽,這也意味著語言與知識等認知層面的技術突破將進一步促進AI深入發展。語言與知識技術是人工智慧認知能力的核心。2010年,百度成立自然語言處理部,在前瞻技術與產業格局上實現引領和創新。十年來,百度大腦語言與知識技術獲得包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。

百度CTO王海峰介紹,知識圖譜是機器認知世界的重要基礎,百度已經打造了世界上最大規模知識圖譜,擁有超過50億實體和5500億事實,並在不斷演進和更新。百度知識圖譜應用於各行各業,每天的調用次數超過400億次。同時,在融入知識的基礎上,語言理解能力不斷增強。基於預訓練技術的成功經驗,百度還提出基於多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息,提升生成效果。

同日,百度集團副總裁吳甜接續發布語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新產品,同時發布了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。

據悉,百度推出的語義理解技術與平臺文心,基於深度學習平臺飛槳打造,依託語義理解核心技術,集成預訓練模型、全面的NLP算法集、端到端開發套件和平臺,提供一站式NLP開發與服務,讓開發者更簡單、高效地定製企業級NLP模型。全新發布的智能文檔分析平臺TextMind,基於OCR、NLP技術,以文檔解析為核心能力,支持文檔對比與文檔審核,具備「多快好省」的核心優勢,促進企業辦公智能升級。

百度大腦智能創作平臺針對媒體應用場景再升級,全新推出智能策劃、智能採編、智能審校三大媒體場景方案,進一步助力媒體人更快、更好地創作。智能對話定製與服務平臺UNIT升級3大特性:更智能的任務式對話理解、極致便捷的表格問答和融合通用的新對話引擎。此次UNIT全新升級的三大能力,將進一步降低任務式對話、智能問答的定製成本,並融合通用對話能力,提升交互體驗。

同時,百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃——千言,解決數據稀缺問題。千言一期由來自國內11家高校和企業的數據資源研發者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20餘個中文開源數據集。

百度技術委員會主席吳華表示,「未來我們希望有更多的數據集作者能夠參與共建千言,共同推動中文信息處理技術的進步,建設世界範圍的中文信息處理影響力。我們計劃在未來3年,面向20多個任務,收集和建設不少於100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。」

相關焦點

  • 百度發布「千言」計劃 未來3年共建100個NLP數據集
    8月25日百度大腦語言與知識技術峰會在線上召開,百度聯合中國計算機學會、中國中文信息學會共同發布「千言」數據共建計劃。同時,百度技術委員會主席吳華發布了算力共享計劃,希望通過數據集的共建與算力的共享,與學界、產業界共同推進技術進步。
  • AACL2020「中國元素」滿滿 百度王海峰組織發起、吳華任聯合主席
    同時,按照ACL年會慣例,此次亞太分會年會與第十屆國際自然語言處理聯席會議(International Joint Conference on Natural Language Processing,IJCNLP)聯合召開。會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。
  • 說中文實時翻譯外語 百度手機輸入法打破語言限制
    據悉,該版本支持全球28種語言互譯,用戶無需切換至翻譯APP,在輸入法面板中就可以直接翻譯,還能實現中文實時翻譯外語上屏,讓查單詞、外語聊天更容易,輕鬆打破語言結界。快捷翻譯:無需切換APP,支持28種語言互譯近年來,出國留學、遊玩的人數不斷增長,外國來華人數也日益增多,外語在日常工作和生活中的作用越發凸顯。
  • 翻譯機器人可"領會"使用意圖 河南首個自然語言處理實驗室發布新成果
    驚人的口才和語言自主學習能力讓全世界所折服,儼然成為人工智慧領域中的網紅。當然,伴隨著Sophia的走紅,自然語言處理這一人工智慧領域中的分支課題也逐漸走進人們的視野,成為近年來人工智慧領域中最火熱的研究課題。自然語言處理簡稱「NLP」, 它是以實現人與計算機之間用自然語言進行有效通信的各種理論和方法為主要研究對象。
  • 2020啟智開發者大會開幕 百度飛槳正式發布「OpenI-星辰PPSIG共建...
    百度飛槳全面參與,並承辦深度學習專場,展現了飛槳的最新技術進展及成果。  AITISA聯盟秘書長、啟智社區技術委員會主席黃鐵軍表示:OpenI啟智社區是由新一代人工智慧產業技術創新戰略聯盟組織產學研用通力協作共建共享的開源軟硬體開放數據超級社區,旨在促進人工智慧產業健康快速發展及其在社會經濟各領域的廣泛應用,為世界貢獻中國開源力量。
  • 語言的圖形化表達|百度「中文搜索」設計更美
    ACL會議是自然語言處理與計算語言學領域最高級別的學術會議,其宗旨是促進計算語言學領域內的國際學術交流。 我們的設計團隊通過視覺設計的呈現形式,為公司這次與會設計了主視覺,提升了百度自然語言處理部門在國際上的影響力和美譽度。
  • 百度飛槳全新發布「大航海」計劃,5億資源重磅加碼高校人才培養
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 一文速覽百度飛漿八大全新發布與升級 | WAVE SUMMIT2020
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦WAVE SUMMIT 2020在北京盛大舉行。峰會上,百度首席技術官王海峰及研究團隊向開發者們展示了飛漿八大全新發布與升級,包括:,飛槳硬體生態路線圖以及攜手全球開發者開啟「大航海」計劃。
  • 百度聯合谷歌主辦同傳學術講習班 創新技術+產品助力跨語言交流
    近日,自然語言處理頂級學術會議之一EMNLP 2020在線上舉行。EMNLP由國際計算語言學學會(ACL)旗下SIGDAT組織,會議涵蓋語義理解、文本理解、信息提取、信息檢索和機器翻譯等主題。會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。(EMNLP2020同聲傳譯學術報告會)同聲傳譯一直都被學界和工業界廣泛認為是自然語言處理最難的問題之一。
  • 百度、谷歌、斯坦福、哈佛聯合發布的MLperf將加速全球AI發展!
    5月2日(美國西部時間),在紐約人工智慧大會上,百度、谷歌、史丹福大學、哈佛大學等多家企業和高校聯合發布了一套用於測量和提高機器學習軟硬體性能的國際基準 MLPerf。MLPerf 一套用于衡量機器學習軟硬體速度的基準,主要用來測量訓練不同深度神經網絡所需要的時間,這些神經網絡所執行的任務包括物體識別、語言翻譯以及下圍棋等。基準所統計的相關數據將為 AI 基礎研究和行業應用提供重要參考,例如幫助算法工程師優化模型,協助硬體廠商提高產品性能等,從而促進 AI 的長期突破和創新。
  • 詞條總量遠超英文維基百科,百度百科打造最大中文百科全書
    2019年過去,百度百科顯示其收錄的詞條正式邁過1600萬大關,達到1640萬條。相較之下,維基百科英文版收錄590餘萬個詞條,中文版僅收錄近108萬詞條,在單一語言詞條總量方面,百度百科已大幅領先維基百科,是後者的近3倍。作為全球最大的中文百科全書,百度百科創造了一個涵蓋各領域知識的中文信息收集平臺,滿足各行各業人們對知識的需求。
  • AI雲服務市場成績單出爐:百度智能雲自然語言處理第一
    那非百度智能雲莫屬了。7月14日,全球權威諮詢機構IDC最新發布的《中國人工智慧雲服務市場研究報告(2019)》顯示,百度智能雲不僅在整體調用量和市場份額兩個方面均名列第一,在AI產品數量上也是最多的,領先阿里雲、騰訊雲、AWS和華為雲等國內外雲廠商,可謂是風光無限。那麼,IDC的報告都考了哪些"科目"呢?
  • 哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員
    哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員 哈工大訊飛聯合實 發表於 2020-12-26 09:49:26 哈工大訊飛聯合實驗室發布的中文
  • 一文速覽百度飛槳八大全新發布與升級 | WAVE SUMMIT+2020
    智能數據服務升級,飛槳硬體生態路線圖以及攜手全球開發者開啟「大航海」計劃。最後,馬豔軍正式對外發布了飛槳硬體生態路線圖。從今年5月份發布了硬體生態圈共建的計劃以來,百度已經與20家晶片硬體企業達成了合作,目前正在適配和已經完成適配的晶片和IP型號已達29種,這在國產晶片支持上面佔據了絕對的領先優勢。飛槳企業版,讓開發更便捷飛槳企業版也帶來了最新升級。
  • 百度飛槳全景圖上新,重磅發布PaddleHelix螺旋槳生物計算平臺
    12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉辦。百度飛槳作為國內開源最早、技術領先、功能完備的產業級深度學習平臺,繼520峰會之後,持續發布前沿產業洞察,重磅技術升級和開源生態成果。
  • 同時掌握96門語言,多項世界突破,百度發布預訓練模型ERNIE-M
    機器之心報導機器之心編輯部2021 年伊始,百度在自然語言處理領域取得最新突破,發布多語言預訓練模型 ERNIE-M。ERNIE-M 通過對 96 門語言的學習,使得一個模型能同時理解 96 種語言,該項技術在 5 類典型跨語言理解任務上刷新世界最好效果。
  • Gartner發布最新報告 百度入圍全球AI翻譯服務代表企業
    近日,全球權威的技術研究與諮詢機構Gartner發布最新報告《Market Guide for AI-Enabled Translation Services》,百度憑藉在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商。
  • 自然語言處理暢談之機器翻譯技術發展歷程
    據統計,世界上大約有6000多種語言,但很多語言已經接近絕跡。利用計算機軟體實現不同語言之間的智能翻譯,成為了人工智慧領域的一個夢想。也有人稱機器翻譯是自然語言處理領域的皇冠明珠,只有解決了語言分析的所有難題,才能真正攻破機器翻譯這座堡壘。
  • 自然語言處理的應用前景
    其子類別包括自然語言生成(NLG)(計算機自行創建通信的能力)和自然語言理解(NLU)(理解俚語、錯誤發音、拼寫錯誤以及其他語言變體的能力)。 自然語言處理(NLP)的工作原理 自然語言處理通過機器學習(ML)進行。機器學習系統像其他任何形式的數據一樣存儲單詞及其組合方式。