(中華人民共和國網絡安全法,第二十七條 任何個人和組織不得從事非法侵入他人網絡、幹擾他人網絡正常功能、竊取網絡數據等危害網絡安全的活動;不得提供專門用於從事侵入網絡、幹擾網絡正常功能及防護措施、竊取網絡數據等危害網絡安全活動的程序、工具;明知他人從事危害網絡安全的活動的,不得為其提供技術支持、廣告推廣、支付結算等幫助。)
下面列舉一下從哪裡可以獲取數據?網址連結都驗證過,沒有問題。一、數據來源:1.1、政府網站國家統計局官網
http://www.stats.gov.cn/ 國民經濟核算數據
中國統計信息網:
http://www.tjcn.org/
工業和信息化部:
http://www.miit.gov.cn有關工業運行及信息化相關數據
中國網際網路信息中心:
http://www.cnnic.net.cn/負責國家網絡基礎資源的運行管理和服務,承擔國家網絡基礎資源的技術研發並保障安全,開展網際網路發展研究並提供諮詢
中國信通院:http://www.caict.ac.cn/kxyj/qwfb/qwsj/針對網際網路多個行業的發展趨勢,發布白皮書,角度較為宏觀
中國網際網路數據平臺:http://www.cnidp.cn/提供全國各地區網際網路發展報告、基礎數據及研究分析報告,數據及報告偏向學術性研究
中國人民銀行
http://www.pbc.gov.cn/中國金融市場政策及運行相關數據。
銀監會
http://www.cbrc.gov.cn銀行金融相關數據。
中國海關
http://www.customs.gov.cn中國進出口相關數據。
國家知識產權局
http://www.sipo.gov.cn專利相關查詢。
中國證監會
http://www.csrc.gov.cn相關政策及招股書披露平臺,以及擬上市公司排隊每周披露。
巨潮信息網
http://www.cninfo.com.cn/中國資本市場指定披露平臺,上市公司相關年報、季報及公告披露信息。
上海證券交易所
http://www.sse.com.cn/其中研究出版欄目中有些研究報告。
深圳證券交易所
http://www.szse.cn/其中研究/刊物中有研究報告。
全國中小企業股份轉讓系統(新三板)
http://www.neeq.com.cn/新三板掛牌公司的轉讓及信息披露。
香港證券交易所
http://www.hkexnews.hk/index_c.htm
臺灣證券交易所
http://www.tse.com.tw/ch/index.php
新加坡證券交易所
http://www.sgx.com/
紐約證券交易所
http://www.nyse.com
納斯達克證券交易所
http://www.nasdaq.com
經濟合作與發展組織(OECD):
http://www.oecd.org/
國際貨幣基金組織(IMF):
https://www.imf.org/
1.2、網際網路資訊網站:艾瑞網:http://www.iresearch.cn/ 專注於網絡媒體、電子商務、網路遊戲、無線增值等新經濟領域,深入研究和了解消費者行為
虎嗅網:http://wwww.huxiu.com/
36kr:http://36kr.com/
易觀智庫:http://www.199it.com/199IT 權威的網際網路數據平臺,涵蓋戰略新興產業、電商網際網路、共享經濟、社交營銷、移動網際網路以及其他網際網路服務的數據及分析報告
CBNDdata:https://www.cbndata.com/report?page=2 以阿里巴巴的商業資料庫為基礎,輸出產業經濟分析報告
QuestMobile:https://www.questmobile.com.cn/ 周期性地發布一些關於APP的研究報告
阿里研究院:http://www.aliresearch.com/cn/presentation 阿里旗下/發布研究電商等方向趨勢的數據報告,內容多與阿里相關
360研究報告:https://zt.360.cn/report/360 旗下/移動、PC、網站、企業、詐騙等安全領域的研究
清博大數據:http://www.gsdata.cn/ 提供微信、微博、頭條榜單數據,各種研究報告、數據報告、輿情報告及行業熱點
中研網數據https://www.chinairn.com/data/ 提供醫療、房產、製造業、服務業、零售消費、車輛等全行業數據
中國報告大廳http://www.chinabgao.com/ 提供各行各業的基礎數據、調查報告、分析報告、預測報告,種類豐富
Awesome Public Datasets:
https://github.com/awesomedata/awesome-public-datasets Github公共數據搜集項目,自然科學、社會科學覆蓋較面,包含各個細分領域的資料庫資源。
藝恩數據:https://www.endata.com.cn/BoxOffice/index.html 國內領先的數據智能服務商
京東大數據研究院 https://research.jd.com/
阿里研究院 http://www.aliresearch.com/cn/index
滴滴AI開發平臺 http://ai.didiglobal.com/
1.3、指數網站:百度指數
http://index.baidu.com/v2/index.html#/ 提供關鍵詞搜索趨勢、洞察網民興趣和需求、監測輿情動向、定位受眾特徵,支持關鍵詞對比,簡單的熱門關鍵詞推薦。缺點:不支持熱點和關鍵詞排名,只能對已知的關鍵詞進行搜索分析。
頭條指數
https://trendinsight.oceanengine.com/index 頭條指數致力於用數據服務個人和機構,提供豐富及時的數據維度。支持關鍵詞對比,簡單的熱門關鍵詞推薦。提供熱點事件查詢和各行業的數據報告。缺點:熱點事件和行業數據報告時效性較差,沒有熱點和關鍵詞排行,可挖掘性較差。
搜狗指數
http://index.sogou.com/ 以搜狗搜索海量網民行為數據為基礎的數據分析統計平臺,類似於百度指數,搜狗指數的特色就是除了關鍵詞搜索熱度外,還有關鍵詞的微信熱度。
360趨勢
https://trends.so.com 以360產品海量用戶數據為基礎的大數據展示平臺,可通過搜索關鍵詞,快速獲取熱度趨勢、理解用戶真實需求、了解關鍵字搜索的人群屬性。
愛奇藝指數:
http://index.iqiyi.com/ 愛奇藝內容熱度,基於海量用戶觀看、互動、分享行為等數據,綜合評估用戶的反饋情況,充分展示內容的熱度變化,分地域市場表現盡在掌控。特色:主要針對視頻資源進行搜索和分析。
1.4、行業網站:百川諮詢
http://www.baiinfo.com 百川資訊是專業的大宗原料信息供應商,目前網站涉及鋼鐵、冶金原料、鐵合金、有色金屬、石油、化工、煤化工、化肥、煤炭、磷化工、塑料、橡膠、氯鹼、機電、家電、建材、農業、汽車、紙品、廢舊物資、聚氨酯、矽、化纖、醫藥化工等24大產業
生意社
http://www.100ppi.com/ 主要跟蹤與國民經濟相關的大宗商品、基礎原料的產業動向與市場狀況,分析、預測商品的價格走勢,研究宏觀經濟與大宗商品的關係及行業、企業、產品的發展問題
中國化工網
http://china.chemnet.com/ 建有國內最大的化工專業資料庫,內含40多個國家和地區的2萬多個化工站點,含25000多家化工企業,20多萬條化工產品記錄
中金網
http://www.metalsinfo.com/news/ 黃金、白銀、外匯、股票、基金、原油等財經資訊行情
1.5、金融&交通數據同花順數據中心:
http://data.10jqka.com.cn/提供股票債券等金融數據
和訊數據:
http://data.hexun.com/提供各種股票、基金、外匯、債券等實時數據,有付費,有免費
金融界:
http://www.jrj.com.cn/提供股市、融資等各種資金流向數據,以及豐富的財報和研報
東方財富網數據中心:
http://data.eastmoney.com/提供多國的股票、財稅、行業、消費等大量豐富的
高德交通
https://trp.autonavi.com/index.do 中國主要城市交通健康榜
百度地圖慧眼
http://renqi.map.baidu.com/ 於海量時空大數據,結合人工智慧技術,百度地圖慧眼面向不同行業提供人口挖掘、客群分析、出行研究、位置評估等從宏觀到微觀的人、地、物研究。
關於python金融數據接口:
AkShare
AkShare 是基於 Python 的開源金融數據接口庫,目的是實現對股票,期貨,期權,基金,債券,外匯等金融產品和另類數據從數據採集,數據清洗到數據下載的工具,滿足金融數據科學家,數據科學愛好者在數據獲取方面的需求。
官網:
https://www.akshare.xyz/zh_CN/latest/
github網址
https://github.com/jindaxiang/akshare
Tushare
Tushare是一個免費、開源的python財經數據接口包。主要實現對股票等金融數據從數據採集、清洗加工 到 數據存儲的過程
http://tushare.org/
1.6、學術資料庫&科學研究中國知網:
https://www.cnki.net/國內最大學術資料庫,包括期刊、學位論文、統計年鑑等
萬方數據:
http://www.wanfangdata.com.cn/index.html僅次於中國知網,包括期刊、學位論文等
人大複印資料:
http://ipub.exuezhe.com/index.html期刊、論文等
維普網:
http://www.cqvip.com/期刊、論文等
EBSCO:
https://www.ebsco.com/較全的一個資料庫,內包含較多的商業數據
Elsevier:
https://www.sciencedirect.com/學術文章全,更新速度快
國家氣象科學數據中心:
http://www.cma.gov.cn/2011qxfw/2011qsjgx/
美國國家氣候數據中心
https://www.ncdc.noaa.gov/
中國水土保持生態建設網
http://www.swcc.org.cn/
國家青藏高原科學數據中心
http://westdc.westgis.ac.cn/zh-hans/
對地觀測數據共享計劃
http://ids.ceode.ac.cn/index.aspx
中國科學院資源環境科學與數據中心
http://www.resdc.cn/
國家地球系統科學數據中心
http://www.geodata.cn/
中國科技資源共享網| 國家高能物理科學數據中心| 國家基因組科學數據中心| 國家微生物科學數據中心| 國家空間科學數據中心| 國家天文科學數據中心|
國家對地觀測科學數據中心| 國家極地科學數據中心| 國家青藏高原科學數據中心| 國家生態科學數據中心| 國家冰川凍土沙漠科學數據中心| 國家計量科學數據中心|
國家材料腐蝕與防護科學數據中心| 國家人口健康科學數據中心| 國家基礎學科公共科學數據中心| 國家農業科學數據中心| 國家林業和草原科學數據中心|
國家氣象科學數據中心| 國家地震科學數據中心| 國家海洋科學數據中心
國家重要野生植物種質資源庫| 國家作物種質資源庫| 國家園藝種質資源庫| 國家熱帶植物種質資源庫| 國家林業和草原種質資源庫| 國家家養動物種質資源庫| 國家水生生物種質資源庫| 國家海洋水產種質資源庫| 國家淡水水產種質資源庫| 國家寄生蟲資源庫| 國家菌種資源庫| 國家病原微生物資源庫| 國家病毒資源庫| 國家人類生殖和健康資源庫| 國家發育和功能人腦組織資源庫| 國家健康和疾病人腦組織資源庫| 國家幹細胞資源庫| 國家幹細胞轉化資源庫| 國家植物標本資源庫| 國家動物標本資源庫| 國家巖礦化石標本資源庫| 國家標準物質資源庫| 國家生物醫學實驗細胞資源庫| 國家模式與特色實驗細胞資源庫| 國家嚙齒類實驗動物資源庫| 國家鼠和兔類實驗動物資源庫| 國家非人靈長類實驗動物資源庫| 國家禽類實驗動物資源庫| 國家犬類實驗動物資源庫| 國家遺傳工程小鼠資源庫| 國家人類疾病動物模型資源庫
二、學習數據集以上是一些公開的數據,但是還有一類數據,屬於數據集,專門用來機器學習,訓練模型用。
2.1、scikit-learn數據集https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
MNIST數據集
http://yann.lecun.com/exdb/mnist/
MNIST(Mixed National Institute of Standards andTechnology database)數據集大家可以說是耳熟能詳。可以說是每個入門深度學習的人都會使用MNIST進行實驗。作為領域內最早的一個大型數據集,MNIST於1998年由Yann LeCun等人設計構建。MNIST數據集包括60000個示例的訓練集以及10000個示例的測試集,每個手寫數字的大小均為28*28。
導入mnist模塊
from tensorflow.keras.datasets import mnist
導入數據
(x_train,y_train), (x_test, y_test) = mnist.load_data()
輸出數據維度
print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)
CIFAR-10
相較於MNIST和Fashion MNIST的灰度圖像,CIFAR-10數據集由10個類的60000個32*32彩色圖像組成,每個類有6000個圖像。有50000個訓練圖像和10000個測試圖像。
CIFAR-10是由Hinton的學生Alex Krizhevsky(AlexNet的作者)和Ilya Sutskever 整理的一個用於識別普適物體的彩色圖像數據集。一共包含10個類別的RGB彩色圖片:飛機(airplane)、汽車(automobile)、鳥類(bird)、貓(cat)、鹿(deer)、狗(dog)、蛙類(frog)、馬(horse)、船(ship)和卡車(truck)
https://www.cs.toronto.edu/~kriz/cifar.html
導入cifar10模塊
from tensorflow.keras.datasets import cifar10
讀取數據
(x_train,y_train), (x_test, y_test) = cifar10.load_data()
輸出數據維度
print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)
CIFAR-100
CIFAR-100可以看作是CIFAR-10的擴大版,CIFAR-100將類別擴大到100個類,每個類包含了600張圖像,分別有500張訓練圖像和100張測試圖像。CIFAR-100的100個類被分為20個大類,每個大類又有一定數量的小類,大類和大類之間區分度較高,但小類之間有些圖像具有較高的相似度,這對於分類模型來說會更具挑戰性。
CIFAR-100數據集地址為https://www.cs.toronto.edu/~kriz/cifar.html
導入cifar100模塊
from tensorflow.keras.datasets import cifar100
導入數據
(x_train,y_train), (x_test, y_test) = cifar100.load_data()
輸出數據維度
print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)
ImageNet
ImageNet圖像數據集是在2009年由斯坦福的李飛飛主導的一個項目形成的一個數據集。李飛飛在CVPR2009上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,之後從2010年開始基於ImageNet數據集的7屆ILSVRC大賽,這使得ImageNet極大的推動了深度學習和計算機視覺的發展。
目前ImageNet中總共有14197122張圖像,分為21841個類別,數據官網地址為:http://www.image-net.org/
下載方法:
https://zhuanlan.zhihu.com/p/42696535
COCO
COCO數據集是微軟在ImageNet和PASCAL VOC數據集標註上的基礎上產生的,主要是用於圖像分類、檢測和分割等任務。COCO全稱為Common Objects in Context,2014年微軟在ECCV Workshops裡發表了Microsoft COCO: Common Objects in Context。文章中說明了COCO數據集以場景理解為目標,主要從複雜的日常場景中截取,圖像中的目標通過精確的分割進行位置的標定。COCO包括91個類別目標,其中有82個類別的數據量都超過了5000張。
COCO數據集主頁地址為http://cocodataset.org/#home。
IMDB
IMDB本身是一家在線收集各種電影信息的網站,跟國內的豆瓣較為類似,用戶可以在上面發表對電影的影評。IMDB數據集是斯坦福整理的一套用於情感分析的IMDB電影評論二分類數據集,包含了25000個訓練樣本和25000個測試樣本,所有影評被標記為正面和負面兩種評價
IMDB數據集地址為https://www.imdb.com/interfaces/
導入imdb模塊
from tensorflow.keras.datasets import imdb
導入數據
(x_train,y_train), (x_test, y_test) = imdb.load_data()
輸出數據維度
print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)
Wikitext
WikiText 英語詞庫數據(The WikiText Long Term Dependency Language ModelingDataset)是由Salesforce MetaMind 策劃的包含1億個詞彙的大型語言建模語料庫。這些詞彙都是從維基百科一些經典文章中提取得到,包括WikiText-103和WikiText-2兩個版本,其中WikiText-2是WikiText-103的一個子集,常用於測試小型數據集的語言模型訓練效果。值得一提的是,WikiText保持了產生每個詞彙的原始文章,非常適用於長時依賴的大文本建模問題。
WikiText數據集地址為https://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-datase
2.3、中文NLP數據集https://github.com/brightmart/nlp_chinese_corpus
https://github.com/fighting41love/funNLP
https://github.com/luge-ai/luge-ai/
NLP 數據集囊括了 NER、QA、情感分析、文本分類、文本分配、文本摘要、機器翻譯、知識圖譜、語料庫以及閱讀理解等 10 大類共 142 個數據集。
具體而言,對於每一個數據集,項目作者都提供了數據集名稱、更新時間、數據集提供者、說明、關鍵字、類別以及論文地址等幾方面的信息。
https://www.cluebenchmarks.com/index.html
https://github.com/CLUEbenchmark/CLUEDatasetSearch
最全中華古詩詞數據集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞
https://github.com/chinese-poetry/chinese-poetry
搜狗實驗室提供了一些高質量的中文文本數據集,時間比較早,多為2012年以前的數據。
https://www.sogou.com/labs/resource/list_pingce.php
中科大自然語言處理與信息檢索共享平臺
http://www.nlpir.org/?action-category-catid-28
中文語料小數據
包含了中文命名實體識別、中文關係識別、中文閱讀理解等一些小量數據。
https://github.com/crownpku/Small-Chinese-Corpus
騰訊人工智慧實驗室自然語言處理研究室
https://ai.tencent.com/ailab/nlp/zh/index.html
NLP工具
THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標註功能。
HanLP:https://github.com/hankcs/HanLP
穿越世界上最大的多語言種語料庫,HanLP2.1支持包括簡繁中英日俄法德內部的104種語言上的10種聯合任務:分詞(粗分,細分2個標準,強制,合併,校正3種字典模式),詞性標註(PKU,863,CTB,UD四套詞性規範),命名實體識別(PKU,MSRA,OntoNotes三套規範),依存句法分析(SD,UD規範),成分法分析,語義依存分析(SemEval16,DM,PAS,PSD四套規範),語義角色標註,詞幹提取,詞法語法特徵提取,抽象意義(AMR)。
哈工大LTP:https://github.com/HIT-SCIR/ltp
LTP(語言技術平臺)提供了多種中文自然語言處理工具,用戶可以使用這些工具針對中文文本進行分詞,詞性標註,句法分析等等工作
NLPIR :https://github.com/NLPIR-team/NLPIR
NLPIR存放了NLPIR大數據語義增強分析平臺的相關的文件
jieba :https://github.com/yanyiwu/cppjieba
結巴"中文分詞的C++版本
https://github.com/fxsjy/jieba
結巴的python版本
2.4、競賽數據集Kaggle
https://www.kaggle.com/datasets
Kaggle入門
https://www.zhihu.com/question/23987009/answer/203051669
天池數據集
官網:
https://tianchi.aliyun.com/dataset/
天池公眾號對自家的數據集分類
https://mp.weixin.qq.com/s?__biz=MzAwNjM1ODkxNQ==&mid=2650897358&idx=1&sn=d8bf967d4e101a1f003fde36af9aba48&chksm=80fb4922b78cc0344d62099b00ffbd668363d5c887913e8cc728151deb5d50443ddedb392c96&mpshare=1&scene=1&srcid=0208EJ1LXikdUKbcqOWPSJu0&sharer_sharetime=1612778894008&sharer_shareid=7df8b0b4332433342f08c8a3f127d515&exportkey=Az1X9GIjbG8uj5%2FUeKHny7U%3D&pass_ticket=mcM2iPFX4Iw9sDwkbBtKOw5DhHf%2Buv85owSj4fSDe8TrILvj22UlJGu9Tv7b%2Bb%2BW&wx_header=0#rd
在這裡多說幾句關於計算機競賽
LeetCode
https://leetcode-cn.com/contest/
是全球最早的 OJ(Online Judge) 之一,力扣上的題目偏求職面試風格,題目難度分簡單、中等、困難三個等級。去 FLAG 或者 BAT 面試的小夥伴有可能遇到力扣中的原題
KDD CUP
SIGKDD 是數據挖掘領域的頂會,從 1997 年開始,每年都會舉辦國際知識發現和數據挖掘競賽(KDD CUP),在數據挖掘領域,這個比賽的含金量相當高,可以說是目前是數據挖掘領域最有影響力的賽事之一。
https://www.kdd.org/kdd2020/kdd-cup
2.5、數據集匯總列表https://zhuanlan.zhihu.com/p/46834868
https://github.com/niderhoff/nlp-datasets
https://elitedatascience.com/datasets
https://www.datasetlist.com/
寫在最後,數據源千千萬萬肯定不可能都匯總全面,這個需要後期多積累,對於一些機器學習深度學習的數據集這裡整理得不算完善,應該按照圖形、音頻數據集分類,一邊學習一邊整理吧,歡迎大家關注我的公眾號。