筆者之前開源了一個帶有超詳細中文注釋的GPT2新聞標題生成項目。詳細介紹見上一篇文章:超詳細中文注釋的GPT2新聞標題生成項目。
項目Github連結如下:https://github.com/liucongg/GPT2-NewsTitle。
近期,對該項目進行了更新,從網上收集數據,將清華新聞數據、搜狗新聞數據等新聞數據集,以及開源的一些摘要數據進行整理清洗,構建一個較完善的中文摘要數據集(其實很多數據的官方連結都已經失效,筆者也是找了很久數據,問了一些朋友,才要到)。
數據集清洗時,僅進行了簡單的規則清洗。例如:清洗htlm標記、去除多餘空字符、去除圖片標記等。
下面是,各個數據集的基本介紹,數據下載地址見上面的Github。
數據集介紹
1、清華新聞(THUCNews)數據:
清華新聞(THUCNews)數據是清華大學自然語言處理實驗室整理,根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成,在原始新浪新聞分類體系的基礎上,重新整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂。
利用其正文與標題,可以構成新聞標題生成數據。整理後數據信息如下:
總數量:830749個樣本;
標題:平均字數 19,字數標準差 4,最大字數 48,最小數字 4;
正文:平均字數 892,字數標準差 1012,最大字數 78796,最小數字 31。
2、搜狗新聞(SogouCS)數據:
搜狗新聞(SogouCS)數據是搜狗實驗室整理,來自搜狐新聞2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,提供了URL和正文信息。
利用其正文與標題,可以構成新聞標題生成數據。整理後數據信息如下:
總數量:1245835個樣本;
標題:平均字數 17,字數標準差 7,最大字數 40,最小數字 4;
正文:平均字數 494,字數標準差 439,最大字數 2046,最小數字 31。
3、nlpcc2017摘要數據:
nlpcc2017摘要數據是2017年NLPCC比賽Task3任務的數據集。整理後數據信息如下:
總數量:50000個樣本;
摘要:平均字數 44,字數標準差 9,最大字數128,最小數字 17;
正文:平均字數 990,字數標準差 1049,最大字數 22312,最小數字 52。
4、中文科學文獻csl摘要數據:
計算機領域的論文摘要和標題數據,可用於短文本摘要生成。整理後數據信息如下:
總數量:3500個樣本;
標題:平均字數 18,字數標準差 4,最大字數41,最小數字 6;
正文:平均字數 200,字數標準差 63,最大字數 631,最小數字 41。
5、教育培訓行業摘要數據:
教育培訓行業摘要數據是github作者wonderfulsuccess整理,數據主要由教育培訓行業主流垂直媒體的歷史文章(截止到2018年6月5日)組成。主要是為訓練抽象式模型而整理,每條數據有summary(摘要)和text(正文),兩個欄位,Summary欄位均為作者標註。
整理後數據信息如下:
總數量:24423個樣本;
摘要:平均字數 52,字數標準差 38,最大字數 255,最小數字 4;
正文:平均字數 2016,字數標準差 1768,最大字數 36058,最小數字 33。
6、lcsts摘要數據:
lcsts摘要數據是哈爾濱工業大學整理,基於新聞媒體在微博上發布的新聞摘要創建了該數據集,每篇短文約100個字符,每篇摘要約20個字符。
整理後數據信息如下:
總數量:2108915個樣本;
摘要:平均字數 18,字數標準差 5,最大字數 30,最小數字 4;
正文:平均字數 104,字數標準差 10,最大字數 152,最小數字 69。
7、神策杯2018摘要數據:
神策杯2018摘要數據是「神策杯」2018高校算法大師賽的比賽數據,整理後數據信息如下:
總數量:108089個樣本;
摘要:平均字數 24,字數標準差 6,最大字數 72,最小數字 4;
正文:平均字數 1055,字數標準差 979,最大字數 25020,最小數字 31。
8、萬方摘要數據:
萬方摘要數據是github作者EachenKuang整理,數據是從萬方資料庫爬取的文獻摘要數據。
整理後數據信息如下:
總數量:3590個樣本;
摘要:平均字數 30,字數標準差 23,最大字數 171,最小數字 4;
正文:平均字數 295,字數標準差 257,最大字數 2501,最小數字 32。
9、微信公眾號摘要數據:
微信公眾號摘要數據是github作者nonamestreet整理,從網絡抓取的微信公眾號的文章。
整理後數據信息如下:
總數量:712826個樣本;
標題:平均字數 22,字數標準差 11,最大字數 4984,最小數字 4;
正文:平均字數 1499,字數標準差 1754,最大字數 34665,最小數字 107。
10、微博數據:
數據來源於新浪微博,由He Zhengfang大佬整理,整理後數據信息如下:
總數量:450295個樣本;
標題:平均字數 18,字數標準差 5,最大字數 95,最小數字 4;
正文:平均字數 123,字數標準差 30,最大字數 1873,最小數字 100。
11、news2016zh新聞數據:
news2016zh新聞數據是 CLUEbenchmark整理,包含了250萬篇新聞。新聞來源涵蓋了6.3萬個媒體。
整理後數據信息如下:
總數量:2317427個樣本;
標題:平均字數 20,字數標準差 6,最大字數 196,最小數字 4;
正文:平均字數 1250,字數標準差 1735,最大字數 356749,最小數字 31。
總結
筆者整理不易,認為有幫助的同學可以star一下Github,關注我一波~~~
由於微信平臺算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。星標具體步驟為:
(1)點擊頁面最上方"AINLP",進入公眾號主頁。
(2)點擊右上角的小點點,在彈出頁面點擊「設為星標」,就可以啦。
感謝支持,比心。
進群請添加AINLP小助手微信 AINLPer(id: ainlper),備註NLP技術交流推薦閱讀
這個NLP工具,玩得根本停不下來
徵稿啟示| 200元稿費+5000DBC(價值20個小時GPU算力)
完結撒花!李宏毅老師深度學習與人類語言處理課程視頻及課件(附下載)
從數據到模型,你可能需要1篇詳實的pytorch踩坑指南
如何讓Bert在finetune小數據集時更「穩」一點
模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法
文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化
Node2Vec 論文+代碼筆記
模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結
中文命名實體識別工具(NER)哪家強?
學自然語言處理,其實更應該學好英語
史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用
關於AINLP
AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLPer(id:ainlper),備註工作/研究方向+加群目的。
閱讀至此了,分享、點讚、在看三選一吧🙏