中文摘要數據集匯總

2021-03-02 AINLP

筆者之前開源了一個帶有超詳細中文注釋的GPT2新聞標題生成項目。詳細介紹見上一篇文章:超詳細中文注釋的GPT2新聞標題生成項目。

項目Github連結如下:https://github.com/liucongg/GPT2-NewsTitle。

近期,對該項目進行了更新,從網上收集數據,將清華新聞數據、搜狗新聞數據等新聞數據集,以及開源的一些摘要數據進行整理清洗,構建一個較完善的中文摘要數據集(其實很多數據的官方連結都已經失效,筆者也是找了很久數據,問了一些朋友,才要到)。

數據集清洗時,僅進行了簡單的規則清洗。例如:清洗htlm標記、去除多餘空字符、去除圖片標記等。

下面是,各個數據集的基本介紹,數據下載地址見上面的Github。

數據集介紹

1、清華新聞(THUCNews)數據:

清華新聞(THUCNews)數據是清華大學自然語言處理實驗室整理,根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成,在原始新浪新聞分類體系的基礎上,重新整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂。

利用其正文與標題,可以構成新聞標題生成數據。整理後數據信息如下:

總數量:830749個樣本;

標題:平均字數 19,字數標準差 4,最大字數 48,最小數字  4;

正文:平均字數 892,字數標準差 1012,最大字數 78796,最小數字  31。

2、搜狗新聞(SogouCS)數據:

搜狗新聞(SogouCS)數據是搜狗實驗室整理,來自搜狐新聞2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,提供了URL和正文信息。

利用其正文與標題,可以構成新聞標題生成數據。整理後數據信息如下:

總數量:1245835個樣本;

標題:平均字數 17,字數標準差 7,最大字數 40,最小數字 4;

正文:平均字數 494,字數標準差 439,最大字數 2046,最小數字 31。

3、nlpcc2017摘要數據:

nlpcc2017摘要數據是2017年NLPCC比賽Task3任務的數據集。整理後數據信息如下:

總數量:50000個樣本;

摘要:平均字數 44,字數標準差 9,最大字數128,最小數字 17;

正文:平均字數 990,字數標準差 1049,最大字數 22312,最小數字 52。

4、中文科學文獻csl摘要數據:

計算機領域的論文摘要和標題數據,可用於短文本摘要生成。整理後數據信息如下:

總數量:3500個樣本;

標題:平均字數 18,字數標準差 4,最大字數41,最小數字 6;

正文:平均字數 200,字數標準差 63,最大字數 631,最小數字 41。

5、教育培訓行業摘要數據:

教育培訓行業摘要數據是github作者wonderfulsuccess整理,數據主要由教育培訓行業主流垂直媒體的歷史文章(截止到2018年6月5日)組成。主要是為訓練抽象式模型而整理,每條數據有summary(摘要)和text(正文),兩個欄位,Summary欄位均為作者標註。

整理後數據信息如下:

總數量:24423個樣本;

摘要:平均字數 52,字數標準差 38,最大字數 255,最小數字 4;

正文:平均字數 2016,字數標準差 1768,最大字數 36058,最小數字 33。

6、lcsts摘要數據:

lcsts摘要數據是哈爾濱工業大學整理,基於新聞媒體在微博上發布的新聞摘要創建了該數據集,每篇短文約100個字符,每篇摘要約20個字符。

整理後數據信息如下:

總數量:2108915個樣本;

摘要:平均字數 18,字數標準差 5,最大字數 30,最小數字 4;

正文:平均字數 104,字數標準差 10,最大字數 152,最小數字 69。

7、神策杯2018摘要數據:

神策杯2018摘要數據是「神策杯」2018高校算法大師賽的比賽數據,整理後數據信息如下:

總數量:108089個樣本;

摘要:平均字數 24,字數標準差 6,最大字數 72,最小數字 4;

正文:平均字數 1055,字數標準差 979,最大字數 25020,最小數字  31。

8、萬方摘要數據:

萬方摘要數據是github作者EachenKuang整理,數據是從萬方資料庫爬取的文獻摘要數據。

整理後數據信息如下:

總數量:3590個樣本;

摘要:平均字數 30,字數標準差 23,最大字數 171,最小數字  4;

正文:平均字數 295,字數標準差 257,最大字數 2501,最小數字  32。

9、微信公眾號摘要數據:

微信公眾號摘要數據是github作者nonamestreet整理,從網絡抓取的微信公眾號的文章。

整理後數據信息如下:

總數量:712826個樣本;

標題:平均字數 22,字數標準差 11,最大字數 4984,最小數字  4;

正文:平均字數 1499,字數標準差 1754,最大字數 34665,最小數字  107。

10、微博數據:

數據來源於新浪微博,由He Zhengfang大佬整理,整理後數據信息如下:

總數量:450295個樣本;

標題:平均字數 18,字數標準差 5,最大字數  95,最小數字  4;

正文:平均字數 123,字數標準差 30,最大字數 1873,最小數字  100。

11、news2016zh新聞數據:

news2016zh新聞數據是 CLUEbenchmark整理,包含了250萬篇新聞。新聞來源涵蓋了6.3萬個媒體。

整理後數據信息如下:

總數量:2317427個樣本;

標題:平均字數 20,字數標準差 6,最大字數  196,最小數字  4;

正文:平均字數 1250,字數標準差 1735,最大字數 356749,最小數字  31。

總結

筆者整理不易,認為有幫助的同學可以star一下Github,關注我一波~~~

由於微信平臺算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。星標具體步驟為:

(1)點擊頁面最上方"AINLP",進入公眾號主頁。

(2)點擊右上角的小點點,在彈出頁面點擊「設為星標」,就可以啦。

感謝支持,比心

進群請添加AINLP小助手微信 AINLPer(id: ainlper),備註NLP技術交流

推薦閱讀

這個NLP工具,玩得根本停不下來

徵稿啟示| 200元稿費+5000DBC(價值20個小時GPU算力)

完結撒花!李宏毅老師深度學習與人類語言處理課程視頻及課件(附下載)

從數據到模型,你可能需要1篇詳實的pytorch踩坑指南

如何讓Bert在finetune小數據集時更「穩」一點

模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法

文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化

Node2Vec 論文+代碼筆記

模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結

中文命名實體識別工具(NER)哪家強?

學自然語言處理,其實更應該學好英語

史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

關於AINLP

AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLPer(id:ainlper),備註工作/研究方向+加群目的。

閱讀至此了,分享、點讚、在看三選一吧🙏

相關焦點

  • NLP、KG相關數據集匯總
    NLP語料是按照中文和外語,以及不同task來進行分類。帶索引的匯總可以在文章最後列出的repo中獲取。 數據使用範圍、授權請參考原始發布源(如果有的話),如有侵權,請聯繫我刪除。有的數據源(網站、論文)提供了多語語料,為避免重複,只在中文或外語對應章節列出(比如翻譯)。
  • 中文醫療NLP領域 數據集,論文 ,知識圖譜,語料,工具包
    中文評測數據集中文醫學知識圖譜英文數據集相關論文中文醫療領域語料醫學embedding開源工具包工業級產品/解決方案blog分享友情連結Yidu-S4K:醫渡雲結構化4K數據集數據集描述:Yidu-S4K 數據集源自CCKS 2019 評測任務一,即「面向中文電子病歷的命名實體識別」的數據集,包括兩個子任務:1)醫療命名實體識別:由於國內沒有公開可獲得的面向中文電子病歷醫療實體識別數據集,本年度保留了醫療命名實體識別任務,對2017年度數據集做了修訂,並隨任務一同發布。本子任務的數據集包括訓練集和測試集。
  • CLUE發布第一個原生中文自然語言推理數據集
    OCNLI(Original Chinese Natural Language Inference),原生/原創中文自然語言推理數據集
  • 中文自然語言處理開放任務介紹、數據集、當前最佳結果分享
    本文整理了中文自然語言處理相關開放任務,詳細任務說明,數據集,相關評價指標,以及當前最佳結果整理。涉及指代消歧 ,對話狀態管理,情緒分類,實體連結 ,實體標註 (Entity Tagging),語言模型 ,機器翻譯 ,詞性標註 ,問答,關係抽取等任務。
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    該論文提出了一種基於篇章片段抽取的中文閱讀理解數據集,也是由哈工大訊飛聯合實驗室承辦的第二屆「訊飛杯」中文機器閱讀理解評測(CMRC 2018)使用的數據。第二屆CCL「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2018)由中國中文信息學會計算語言學專委會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名,於2018年10月19日在湖南長沙圓滿落幕。
  • 資源 | 百萬級字符:清華大學提出中文自然文本數據集CTW
    近日,清華大學與騰訊共同推出了中文自然文本數據集(Chinese Text in the Wild,CTW)——一個超大的街景圖片中文文本數據集,為訓練先進的深度學習模型奠定了基礎。目前,該數據集包含 32,285 張圖像和 1,018,402 個中文字符,規模遠超此前的同類數據集。研究人員表示,未來還將在此數據集之上推出基於業內最先進模型的評測基準。
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • 數據堂開源1505小時中文普通話語音數據集
    5月20日,數據堂推出AI數據開源計劃,面向高校和學術機構等非商業組織群體,首次開源的數據集為:1505小時中文普通話語音數據集。  該數據集的錄音內容,由6408名來自中國不同地區的錄音人參與錄製,有超過30萬條口語化句子。句準確率達98%以上。
  • 慧科訊業AI實驗室競技國際自然語言處理與中文計算大會文本摘要技術奪冠
    慧科訊業(Wisers)奪冠的自動文本摘要技術使用人工智慧(AI)與自然語言處理(NLP)技術,支持中英文跨語言自動文章摘要,採用無監督式摘要生成技術,不依賴於訓練數據,可勝任各類文本的自動摘要。 該技術包含兩個重要模塊。
  • 中文自然語言處理數據集:ChineseNLPCorpus
    ,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。
  • 目錄與摘要 | 《中文信息學報》18年第9期
    針對網際網路新聞事件報導的動態演化、動態關聯和信息重複等特點,該文提出了一種基於局部—全局主題關係的演化式摘要方法,該方法將新聞事件劃分為多個不同的子主題,在考慮時間演化的基礎上同時考慮子主題之間的主題演化,最後將新聞標題作為摘要輸出。實驗結果表明,該方法是有效的,並且在以新聞標題作為輸入輸出時,和當前主流的多文檔摘要和演化摘要方法相比,在Rouge評價指標上有顯著提高。
  • 最全的中文語言處理數據集、平臺和工具!
    資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平臺和NLP工具等。/tree/master/NER/renMinRiBao    2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3    MSRA微軟亞洲研究院數據集    5 萬多條中文命名實體識別標註數據(包括地點、機構、人物)
  • 創新工場論文入選ACL 2020,中文分詞性能刷新五大數據集
    中選文章闡述了中文分組和詞性標註這一底層級別的技術應用迎來嶄新突破,將該領域近年來廣泛使用的各數據集上的性能全部刷至新高,在工業界也有著非常可觀的應用前景。中文分組向前邁進了一小步 人類自然習得的諸多能力對計算機而言,就像魔法一樣神奇,讓魔法在計算語言世界成為現實有重重困難。
  • 中文自然語言處理數據集:ChineseNLPCorpus(附連結)
    本文為你推薦中文自然語言處理數據集。推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。歡迎補充提交合併。
  • 論文的基本結構——中文摘要
    由此看來,摘要對編者、文獻資料庫和檢索系統以及讀者都是十分重要的。一篇質量高的論文必須附有一篇高水平的摘要。摘要寫得好,才會引起編者、審者、讀者的興趣。如果摘要寫得不好,論文的內容無論水平多高,也可能無人理睬。
  • 中文NLP熱點|AMBERT模型在CLUE等數據集上獲卓越表現
    研究團隊已經在一些中文和英文的基準數據集(包括 CLUE、GLUE、SQuAD 和 RACE)上進行了實驗。實驗結果表明,AMBERT 的性能幾乎在所有情況下都優於現有的最佳性能模型。尤其是對於中文而言,AMBERT 的提升效果顯著。在構成上,AMBERT 具有兩個編碼器。
  • 最全中文自然語言處理數據集、平臺和工具整理
    資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平臺和NLP工具等。/tree/master/NER/renMinRiBao    2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3    MSRA微軟亞洲研究院數據集    5 萬多條中文命名實體識別標註數據(包括地點、機構、人物)    https
  • nature中文摘要 7 May 2015
    「nature中文摘要」欄目現已在《環球科學》官網「nature專區」上線。
  • AAAI 2017|新加坡信息通信研究院:主動視頻摘要生成-通過與用戶的在線交互定製摘要
    我們在常用的UTEgo數據集中評估AVS。我們還引入了一個用GoogleGlass記錄的定製視頻摘要(CSumm)的新數據集。結果表明,AVS在可用性和質量之間達到了極好的折中。在41%的視頻中,AVS優於所有的測試基線,包括手動生成摘要。另外,當在視頻中查找特定的事件時,AVS在詢問用戶六個問題之後提供了一個比其他所有基準高的平均滿意度。
  • 谷歌推出數據集搜尋引擎,可支持中文搜索
    今日,谷歌推出新的數據集搜索(Dataset Search)產品,希望幫助研究人員、記者和其他用戶更輕易地獲得這些數據。這一工具還提供以公開標準呈現的數據,從而幫用戶清楚地了解這些信息的創建者、數據的收集途徑以及數據的用途。此外該工具還支持包括中文在內的多種語言進行搜索。