從哪裡獲取數據?

2021-02-15 細說數據

因為白天要工作，所以只能用一些下班時間寫點文章，既然想維護公眾號，就得多產出，還是得寫點有用的東西，於是乎打算從最簡單的入手，逐步深入，首先數據分析肯定要有數據，看了這麼多文章匯總的數據感覺依然不是很齊全，於是決定自己動手匯總一份儘量全的數據源。今天要解決的問題是從哪裡獲取數據？首先說明一點，公開數據可以免費引用，但是最好有標明來處，一個好的習慣是非常有必要的。但是非法獲取他人數據屬於犯罪行為，見相關法律。

（中華人民共和國網絡安全法，第二十七條任何個人和組織不得從事非法侵入他人網絡、幹擾他人網絡正常功能、竊取網絡數據等危害網絡安全的活動；不得提供專門用於從事侵入網絡、幹擾網絡正常功能及防護措施、竊取網絡數據等危害網絡安全活動的程序、工具；明知他人從事危害網絡安全的活動的，不得為其提供技術支持、廣告推廣、支付結算等幫助。）

下面列舉一下從哪裡可以獲取數據？網址連結都驗證過，沒有問題。一、數據來源：1.1、政府網站

國家統計局官網

http://www.stats.gov.cn/ 國民經濟核算數據

中國統計信息網：

http://www.tjcn.org/

工業和信息化部：

http://www.miit.gov.cn有關工業運行及信息化相關數據

中國網際網路信息中心：

http://www.cnnic.net.cn/負責國家網絡基礎資源的運行管理和服務，承擔國家網絡基礎資源的技術研發並保障安全，開展網際網路發展研究並提供諮詢

中國信通院：http://www.caict.ac.cn/kxyj/qwfb/qwsj/針對網際網路多個行業的發展趨勢，發布白皮書，角度較為宏觀

中國網際網路數據平臺：http://www.cnidp.cn/提供全國各地區網際網路發展報告、基礎數據及研究分析報告，數據及報告偏向學術性研究

中國人民銀行

http://www.pbc.gov.cn/中國金融市場政策及運行相關數據。

銀監會

http://www.cbrc.gov.cn銀行金融相關數據。

中國海關

http://www.customs.gov.cn中國進出口相關數據。

國家知識產權局

http://www.sipo.gov.cn專利相關查詢。

中國證監會

http://www.csrc.gov.cn相關政策及招股書披露平臺，以及擬上市公司排隊每周披露。

巨潮信息網

http://www.cninfo.com.cn/中國資本市場指定披露平臺，上市公司相關年報、季報及公告披露信息。

上海證券交易所

http://www.sse.com.cn/其中研究出版欄目中有些研究報告。

深圳證券交易所

http://www.szse.cn/其中研究/刊物中有研究報告。

全國中小企業股份轉讓系統（新三板）

http://www.neeq.com.cn/新三板掛牌公司的轉讓及信息披露。

香港證券交易所

http://www.hkexnews.hk/index_c.htm

臺灣證券交易所

http://www.tse.com.tw/ch/index.php

新加坡證券交易所

http://www.sgx.com/

紐約證券交易所

http://www.nyse.com

納斯達克證券交易所

http://www.nasdaq.com

經濟合作與發展組織（OECD）：

http://www.oecd.org/

國際貨幣基金組織（IMF）：

https://www.imf.org/

1.2、網際網路資訊網站：

艾瑞網：http://www.iresearch.cn/ 專注於網絡媒體、電子商務、網路遊戲、無線增值等新經濟領域，深入研究和了解消費者行為

虎嗅網：http://wwww.huxiu.com/

36kr：http://36kr.com/

易觀智庫：http://www.199it.com/199IT 權威的網際網路數據平臺，涵蓋戰略新興產業、電商網際網路、共享經濟、社交營銷、移動網際網路以及其他網際網路服務的數據及分析報告

CBNDdata：https://www.cbndata.com/report?page=2 以阿里巴巴的商業資料庫為基礎，輸出產業經濟分析報告

QuestMobile：https://www.questmobile.com.cn/ 周期性地發布一些關於APP的研究報告

阿里研究院：http://www.aliresearch.com/cn/presentation 阿里旗下/發布研究電商等方向趨勢的數據報告，內容多與阿里相關

360研究報告：https://zt.360.cn/report/360 旗下/移動、PC、網站、企業、詐騙等安全領域的研究

清博大數據：http://www.gsdata.cn/ 提供微信、微博、頭條榜單數據，各種研究報告、數據報告、輿情報告及行業熱點

中研網數據https://www.chinairn.com/data/ 提供醫療、房產、製造業、服務業、零售消費、車輛等全行業數據

中國報告大廳http://www.chinabgao.com/ 提供各行各業的基礎數據、調查報告、分析報告、預測報告，種類豐富

Awesome Public Datasets：

https://github.com/awesomedata/awesome-public-datasets Github公共數據搜集項目，自然科學、社會科學覆蓋較面，包含各個細分領域的資料庫資源。

藝恩數據：https://www.endata.com.cn/BoxOffice/index.html 國內領先的數據智能服務商

京東大數據研究院 https://research.jd.com/

阿里研究院 http://www.aliresearch.com/cn/index

滴滴AI開發平臺 http://ai.didiglobal.com/

1.3、指數網站：

百度指數

http://index.baidu.com/v2/index.html#/ 提供關鍵詞搜索趨勢、洞察網民興趣和需求、監測輿情動向、定位受眾特徵，支持關鍵詞對比，簡單的熱門關鍵詞推薦。缺點：不支持熱點和關鍵詞排名，只能對已知的關鍵詞進行搜索分析。

頭條指數

https://trendinsight.oceanengine.com/index 頭條指數致力於用數據服務個人和機構，提供豐富及時的數據維度。支持關鍵詞對比，簡單的熱門關鍵詞推薦。提供熱點事件查詢和各行業的數據報告。缺點：熱點事件和行業數據報告時效性較差，沒有熱點和關鍵詞排行，可挖掘性較差。

搜狗指數

http://index.sogou.com/ 以搜狗搜索海量網民行為數據為基礎的數據分析統計平臺，類似於百度指數，搜狗指數的特色就是除了關鍵詞搜索熱度外，還有關鍵詞的微信熱度。

360趨勢

https://trends.so.com 以360產品海量用戶數據為基礎的大數據展示平臺，可通過搜索關鍵詞，快速獲取熱度趨勢、理解用戶真實需求、了解關鍵字搜索的人群屬性。

愛奇藝指數：

http://index.iqiyi.com/ 愛奇藝內容熱度，基於海量用戶觀看、互動、分享行為等數據，綜合評估用戶的反饋情況，充分展示內容的熱度變化，分地域市場表現盡在掌控。特色：主要針對視頻資源進行搜索和分析。

1.4、行業網站：

百川諮詢

http://www.baiinfo.com 百川資訊是專業的大宗原料信息供應商，目前網站涉及鋼鐵、冶金原料、鐵合金、有色金屬、石油、化工、煤化工、化肥、煤炭、磷化工、塑料、橡膠、氯鹼、機電、家電、建材、農業、汽車、紙品、廢舊物資、聚氨酯、矽、化纖、醫藥化工等24大產業

生意社

http://www.100ppi.com/ 主要跟蹤與國民經濟相關的大宗商品、基礎原料的產業動向與市場狀況，分析、預測商品的價格走勢，研究宏觀經濟與大宗商品的關係及行業、企業、產品的發展問題

中國化工網

http://china.chemnet.com/ 建有國內最大的化工專業資料庫，內含40多個國家和地區的2萬多個化工站點，含25000多家化工企業，20多萬條化工產品記錄

中金網

http://www.metalsinfo.com/news/ 黃金、白銀、外匯、股票、基金、原油等財經資訊行情

1.5、金融&交通數據

同花順數據中心：

http://data.10jqka.com.cn/提供股票債券等金融數據

和訊數據：

http://data.hexun.com/提供各種股票、基金、外匯、債券等實時數據，有付費，有免費

金融界：

http://www.jrj.com.cn/提供股市、融資等各種資金流向數據，以及豐富的財報和研報

東方財富網數據中心：

http://data.eastmoney.com/提供多國的股票、財稅、行業、消費等大量豐富的

高德交通

https://trp.autonavi.com/index.do 中國主要城市交通健康榜

百度地圖慧眼

http://renqi.map.baidu.com/ 於海量時空大數據，結合人工智慧技術，百度地圖慧眼面向不同行業提供人口挖掘、客群分析、出行研究、位置評估等從宏觀到微觀的人、地、物研究。

關於python金融數據接口：

AkShare

AkShare 是基於 Python 的開源金融數據接口庫，目的是實現對股票，期貨，期權，基金，債券，外匯等金融產品和另類數據從數據採集，數據清洗到數據下載的工具，滿足金融數據科學家，數據科學愛好者在數據獲取方面的需求。

官網：

https://www.akshare.xyz/zh_CN/latest/

github網址

https://github.com/jindaxiang/akshare

Tushare

Tushare是一個免費、開源的python財經數據接口包。主要實現對股票等金融數據從數據採集、清洗加工到數據存儲的過程

http://tushare.org/

1.6、學術資料庫&科學研究

中國知網：

https://www.cnki.net/國內最大學術資料庫，包括期刊、學位論文、統計年鑑等

萬方數據：

http://www.wanfangdata.com.cn/index.html僅次於中國知網，包括期刊、學位論文等

人大複印資料：

http://ipub.exuezhe.com/index.html期刊、論文等

維普網：

http://www.cqvip.com/期刊、論文等

EBSCO：

https://www.ebsco.com/較全的一個資料庫，內包含較多的商業數據

Elsevier：

https://www.sciencedirect.com/學術文章全，更新速度快

國家氣象科學數據中心：

http://www.cma.gov.cn/2011qxfw/2011qsjgx/

美國國家氣候數據中心

https://www.ncdc.noaa.gov/

中國水土保持生態建設網

http://www.swcc.org.cn/

國家青藏高原科學數據中心

http://westdc.westgis.ac.cn/zh-hans/

對地觀測數據共享計劃

http://ids.ceode.ac.cn/index.aspx

中國科學院資源環境科學與數據中心

http://www.resdc.cn/

國家地球系統科學數據中心

http://www.geodata.cn/

國家氣象科學數據中心| 國家地震科學數據中心| 國家海洋科學數據中心

二、學習數據集

以上是一些公開的數據，但是還有一類數據，屬於數據集，專門用來機器學習，訓練模型用。

2.1、scikit-learn數據集

https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

2.2、經典數據集

MNIST數據集

http://yann.lecun.com/exdb/mnist/

MNIST（Mixed National Institute of Standards andTechnology database）數據集大家可以說是耳熟能詳。可以說是每個入門深度學習的人都會使用MNIST進行實驗。作為領域內最早的一個大型數據集，MNIST於1998年由Yann LeCun等人設計構建。MNIST數據集包括60000個示例的訓練集以及10000個示例的測試集，每個手寫數字的大小均為28*28。

導入mnist模塊

from tensorflow.keras.datasets import mnist

導入數據

(x_train,y_train), (x_test, y_test) = mnist.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

CIFAR-10

相較於MNIST和Fashion MNIST的灰度圖像，CIFAR-10數據集由10個類的60000個32*32彩色圖像組成，每個類有6000個圖像。有50000個訓練圖像和10000個測試圖像。

CIFAR-10是由Hinton的學生Alex Krizhevsky(AlexNet的作者)和Ilya Sutskever 整理的一個用於識別普適物體的彩色圖像數據集。一共包含10個類別的RGB彩色圖片：飛機（airplane）、汽車（automobile）、鳥類（bird）、貓（cat）、鹿（deer）、狗（dog）、蛙類（frog）、馬（horse）、船（ship）和卡車（truck）

https://www.cs.toronto.edu/~kriz/cifar.html

導入cifar10模塊

from tensorflow.keras.datasets import cifar10

讀取數據

(x_train,y_train), (x_test, y_test) = cifar10.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

CIFAR-100

CIFAR-100可以看作是CIFAR-10的擴大版，CIFAR-100將類別擴大到100個類，每個類包含了600張圖像，分別有500張訓練圖像和100張測試圖像。CIFAR-100的100個類被分為20個大類，每個大類又有一定數量的小類，大類和大類之間區分度較高，但小類之間有些圖像具有較高的相似度，這對於分類模型來說會更具挑戰性。

CIFAR-100數據集地址為https://www.cs.toronto.edu/~kriz/cifar.html

導入cifar100模塊

from tensorflow.keras.datasets import cifar100

導入數據

(x_train,y_train), (x_test, y_test) = cifar100.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

ImageNet

ImageNet圖像數據集是在2009年由斯坦福的李飛飛主導的一個項目形成的一個數據集。李飛飛在CVPR2009上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文，之後從2010年開始基於ImageNet數據集的7屆ILSVRC大賽，這使得ImageNet極大的推動了深度學習和計算機視覺的發展。

目前ImageNet中總共有14197122張圖像，分為21841個類別，數據官網地址為：http://www.image-net.org/

下載方法：

https://zhuanlan.zhihu.com/p/42696535

COCO

COCO數據集是微軟在ImageNet和PASCAL VOC數據集標註上的基礎上產生的，主要是用於圖像分類、檢測和分割等任務。COCO全稱為Common Objects in Context，2014年微軟在ECCV Workshops裡發表了Microsoft COCO: Common Objects in Context。文章中說明了COCO數據集以場景理解為目標，主要從複雜的日常場景中截取，圖像中的目標通過精確的分割進行位置的標定。COCO包括91個類別目標，其中有82個類別的數據量都超過了5000張。

COCO數據集主頁地址為http://cocodataset.org/#home。

IMDB

IMDB本身是一家在線收集各種電影信息的網站，跟國內的豆瓣較為類似，用戶可以在上面發表對電影的影評。IMDB數據集是斯坦福整理的一套用於情感分析的IMDB電影評論二分類數據集，包含了25000個訓練樣本和25000個測試樣本，所有影評被標記為正面和負面兩種評價

IMDB數據集地址為https://www.imdb.com/interfaces/

導入imdb模塊

from tensorflow.keras.datasets import imdb

導入數據

(x_train,y_train), (x_test, y_test) = imdb.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

Wikitext

WikiText 英語詞庫數據（The WikiText Long Term Dependency Language ModelingDataset）是由Salesforce MetaMind 策劃的包含1億個詞彙的大型語言建模語料庫。這些詞彙都是從維基百科一些經典文章中提取得到，包括WikiText-103和WikiText-2兩個版本，其中WikiText-2是WikiText-103的一個子集，常用於測試小型數據集的語言模型訓練效果。值得一提的是，WikiText保持了產生每個詞彙的原始文章，非常適用於長時依賴的大文本建模問題。

WikiText數據集地址為https://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-datase

2.3、中文NLP數據集

https://github.com/brightmart/nlp_chinese_corpus

https://github.com/fighting41love/funNLP

https://github.com/luge-ai/luge-ai/

NLP 數據集囊括了 NER、QA、情感分析、文本分類、文本分配、文本摘要、機器翻譯、知識圖譜、語料庫以及閱讀理解等 10 大類共 142 個數據集。

具體而言，對於每一個數據集，項目作者都提供了數據集名稱、更新時間、數據集提供者、說明、關鍵字、類別以及論文地址等幾方面的信息。

https://www.cluebenchmarks.com/index.html

https://github.com/CLUEbenchmark/CLUEDatasetSearch

最全中華古詩詞數據集，唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人，21050首詞

https://github.com/chinese-poetry/chinese-poetry

搜狗實驗室提供了一些高質量的中文文本數據集，時間比較早，多為2012年以前的數據。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語言處理與信息檢索共享平臺

http://www.nlpir.org/?action-category-catid-28

中文語料小數據

包含了中文命名實體識別、中文關係識別、中文閱讀理解等一些小量數據。

https://github.com/crownpku/Small-Chinese-Corpus

騰訊人工智慧實驗室自然語言處理研究室

https://ai.tencent.com/ailab/nlp/zh/index.html

NLP工具

THULAC：https://github.com/thunlp/THULAC ：包括中文分詞、詞性標註功能。

HanLP：https://github.com/hankcs/HanLP

穿越世界上最大的多語言種語料庫，HanLP2.1支持包括簡繁中英日俄法德內部的104種語言上的10種聯合任務：分詞（粗分，細分2個標準，強制，合併，校正3種字典模式），詞性標註（PKU，863，CTB，UD四套詞性規範），命名實體識別（PKU，MSRA，OntoNotes三套規範），依存句法分析（SD，UD規範），成分法分析，語義依存分析（SemEval16，DM，PAS，PSD四套規範），語義角色標註，詞幹提取，詞法語法特徵提取，抽象意義（AMR）。

哈工大LTP：https://github.com/HIT-SCIR/ltp

LTP（語言技術平臺）提供了多種中文自然語言處理工具，用戶可以使用這些工具針對中文文本進行分詞，詞性標註，句法分析等等工作

NLPIR ：https://github.com/NLPIR-team/NLPIR

NLPIR存放了NLPIR大數據語義增強分析平臺的相關的文件

jieba ：https://github.com/yanyiwu/cppjieba

結巴"中文分詞的C++版本

https://github.com/fxsjy/jieba

結巴的python版本

2.4、競賽數據集

Kaggle

https://www.kaggle.com/datasets

Kaggle入門

https://www.zhihu.com/question/23987009/answer/203051669

天池數據集

官網：

https://tianchi.aliyun.com/dataset/

天池公眾號對自家的數據集分類

https://mp.weixin.qq.com/s?__biz=MzAwNjM1ODkxNQ==&mid=2650897358&idx=1&sn=d8bf967d4e101a1f003fde36af9aba48&chksm=80fb4922b78cc0344d62099b00ffbd668363d5c887913e8cc728151deb5d50443ddedb392c96&mpshare=1&scene=1&srcid=0208EJ1LXikdUKbcqOWPSJu0&sharer_sharetime=1612778894008&sharer_shareid=7df8b0b4332433342f08c8a3f127d515&exportkey=Az1X9GIjbG8uj5%2FUeKHny7U%3D&pass_ticket=mcM2iPFX4Iw9sDwkbBtKOw5DhHf%2Buv85owSj4fSDe8TrILvj22UlJGu9Tv7b%2Bb%2BW&wx_header=0#rd

在這裡多說幾句關於計算機競賽

LeetCode

https://leetcode-cn.com/contest/

是全球最早的 OJ（Online Judge）之一，力扣上的題目偏求職面試風格，題目難度分簡單、中等、困難三個等級。去 FLAG 或者 BAT 面試的小夥伴有可能遇到力扣中的原題

KDD CUP

SIGKDD 是數據挖掘領域的頂會，從 1997 年開始，每年都會舉辦國際知識發現和數據挖掘競賽（KDD CUP），在數據挖掘領域，這個比賽的含金量相當高，可以說是目前是數據挖掘領域最有影響力的賽事之一。

https://www.kdd.org/kdd2020/kdd-cup

2.5、數據集匯總列表

https://zhuanlan.zhihu.com/p/46834868

https://github.com/niderhoff/nlp-datasets

https://elitedatascience.com/datasets

https://www.datasetlist.com/

寫在最後，數據源千千萬萬肯定不可能都匯總全面，這個需要後期多積累，對於一些機器學習深度學習的數據集這裡整理得不算完善，應該按照圖形、音頻數據集分類，一邊學習一邊整理吧，歡迎大家關注我的公眾號。

從哪裡獲取數據?

相關焦點

有英文數據包的供應商在哪裡

Python 與金融數據|股票數據的獲取與可視化

數據科學08 | 獲取和整理數據-獲取不同格式的數據

金融數據獲取之tushare

利用tushare獲取股票數據

【數據獲取利器】微博POI獲取工具,城市數據派會員專享哦

如何優雅的獲取數據

數據處理——數據的獲取之網絡問卷

數據獲取之Getdata graph Digitizer

Excel獲取外部數據之導入來自網站的數據

原神晶核在哪裡獲取晶核哪裡多[多圖]

天眼查企業數據獲取

Python數據分析入門教程(一):獲取數據源

入門Python爬蟲——獲取數據篇

使用GETPIVOTDATA函數獲取數據透視表匯總數據

Python入門學習之數據分析實戰獲取數據

利用tushare獲取股票數據及實現可視化

從Bitmap中獲取YUV數據的兩種方式

【python量化】期貨ML策略(一)數據獲取

PHP獲取HTTP POST中不同格式的數據

從哪裡獲取數據?

相關焦點

有英文數據包的供應商在哪裡

Python 與金融數據|股票數據的獲取與可視化

數據科學08 | 獲取和整理數據-獲取不同格式的數據

金融數據獲取之tushare

利用tushare獲取股票數據

【數據獲取利器】微博POI獲取工具,城市數據派會員專享哦

如何優雅的獲取數據

數據處理——數據的獲取之網絡問卷

數據獲取之Getdata graph Digitizer

Excel獲取外部數據之導入來自網站的數據

原神晶核在哪裡獲取 晶核哪裡多[多圖]

天眼查企業數據獲取

Python數據分析入門教程(一):獲取數據源

入門Python爬蟲——獲取數據篇

使用GETPIVOTDATA函數獲取數據透視表匯總數據

Python入門學習之數據分析實戰獲取數據

利用tushare獲取股票數據及實現可視化

從Bitmap中獲取YUV數據的兩種方式

【python量化】期貨ML策略(一)數據獲取

PHP獲取HTTP POST中不同格式的數據

原神晶核在哪裡獲取晶核哪裡多[多圖]