在過去的兩年間,Python一路高歌猛進,成功竄上「最火程式語言」的寶座。驚奇的是使用Python最多的人群其實不是程式設計師,而是數據科學家,尤其是社會科學家,涵蓋的學科有經濟學、管理學、會計學、社會學、傳播學、新聞學等等。
大數據時代到來,網絡數據正成為潛在寶藏,大量商業信息、社會信息以文本等非結構化、異構型數據格式存儲於網頁中。非計算機專業背景的人也可藉助機器學習、人工智慧等方法進行研究。使用網絡世界數據進行研究,面臨兩大難點:
• 數據的大規模自動獲取
• 文本數據(非結構化數據)的處理與分析
數據獲取需要藉助Python程式語言設計網絡爬蟲,而獲得的數據中有相當比例數據是非結構化數據,這就需要文本數據分析技術。本次課程參照已發表的社科類的文章,希望幫助大家解決文本分析這最難的兩大難點。課程設計的初衷是用最少的時間讓大家學到最有用的知識點,降低學習難度。希望學習完本課程後能讓各位結合研究需要對自己學科內的文本分析有一個全面深刻的了解,方便各位開展後續研究。
鄧旭東(大鄧):哈爾濱工業大學(HIT)管理學院信息管理系統方向博士。曾在多所大學分享數據採集和文本分析,運營【公眾號:大鄧和他的Python】主要分享Python、爬蟲、文本分析、機器學習等相關內容。
· 時間:2021年2月27-28日(鄧旭東Python)
· 地點:釘釘APP(線上直播)
· 授課方式:
Python3.7.5
· 每天6小時(8:30—11:30;14;00—17:00)+30分鐘答疑
· 價格:
2000/人
· 優惠政策:
皮皮俠數據會員可享受9折優惠!
參與對象
高等院校經管專業青年老師和研究生。
報名時間
從即日起
報名諮詢
掃碼添加微信,拉你進諮詢群
繳費方式
支持公務卡、可開發票。
皮皮俠資料庫會員服務
掃描下方二維碼報名支付費用
千萬級中文公開免費聊天語料數據分享
該庫是對目前市面上已有的開源中文聊天語料的搜集和系統化整理工作
該庫搜集了包含
· chatterbot
· 豆瓣多輪
· PTT八卦語料
· 青雲語料
· 電視劇對白語料
· 貼吧論壇回帖語料
· 微博語料
· 小黃雞語料
共8個公開閒聊常用語料和簡訊,白鷺時代問答等語料。
並對8個常見語料的數據進行了統一化規整和處理,達到直接可以粗略使用的目的。
使用該項目,即可對所有的聊天語料進行一次性的處理和統一下載,不需要到處自己去搜集下載和分別處理各種不同的格式。
環境
python3
處理過程
將各個來源的語料按照其原格式進行提取,提取後進行繁體字轉換,然後統一變成一輪一輪的對話。
數據來源及說明
使用方法
將解壓後的raw_chat_corpus文件夾放到當前目錄下 目錄結構為
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
執行命令即可
python main.py
或者
python3 main.py
生成結果
每個來源的語料分別生成一個獨立的*.tsv文件,都放在新生成的clean_chat_corpus文件夾下。
生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer
query \t answer
結果的使用
這個就根據每個人不同的情況自主使用即可。
獲取方式
1.轉發推送保留半個小時
2.發送截圖到數據皮皮俠公眾號後臺,並回復「語料」即可獲取連結