從哪裡獲取數據?

2021-02-15 細說數據
因為白天要工作,所以只能用一些下班時間寫點文章,既然想維護公眾號,就得多產出,還是得寫點有用的東西,於是乎打算從最簡單的入手,逐步深入,首先數據分析肯定要有數據,看了這麼多文章匯總的數據感覺依然不是很齊全,於是決定自己動手匯總一份儘量全的數據源。今天要解決的問題是從哪裡獲取數據?首先說明一點,公開數據可以免費引用,但是最好有標明來處,一個好的習慣是非常有必要的。但是非法獲取他人數據屬於犯罪行為,見相關法律。

(中華人民共和國網絡安全法,第二十七條  任何個人和組織不得從事非法侵入他人網絡、幹擾他人網絡正常功能、竊取網絡數據等危害網絡安全的活動;不得提供專門用於從事侵入網絡、幹擾網絡正常功能及防護措施、竊取網絡數據等危害網絡安全活動的程序、工具;明知他人從事危害網絡安全的活動的,不得為其提供技術支持、廣告推廣、支付結算等幫助。)

下面列舉一下從哪裡可以獲取數據?網址連結都驗證過,沒有問題。一、數據來源:1.1、政府網站

國家統計局官網

http://www.stats.gov.cn/ 國民經濟核算數據

中國統計信息網:

http://www.tjcn.org/

工業和信息化部:

http://www.miit.gov.cn有關工業運行及信息化相關數據

中國網際網路信息中心:

http://www.cnnic.net.cn/負責國家網絡基礎資源的運行管理和服務,承擔國家網絡基礎資源的技術研發並保障安全,開展網際網路發展研究並提供諮詢

中國信通院:http://www.caict.ac.cn/kxyj/qwfb/qwsj/針對網際網路多個行業的發展趨勢,發布白皮書,角度較為宏觀

中國網際網路數據平臺:http://www.cnidp.cn/提供全國各地區網際網路發展報告、基礎數據及研究分析報告,數據及報告偏向學術性研究

中國人民銀行

http://www.pbc.gov.cn/中國金融市場政策及運行相關數據。

銀監會

http://www.cbrc.gov.cn銀行金融相關數據。

中國海關

http://www.customs.gov.cn中國進出口相關數據。

國家知識產權局

http://www.sipo.gov.cn專利相關查詢。

中國證監會

http://www.csrc.gov.cn相關政策及招股書披露平臺,以及擬上市公司排隊每周披露。

巨潮信息網

http://www.cninfo.com.cn/中國資本市場指定披露平臺,上市公司相關年報、季報及公告披露信息。

上海證券交易所

http://www.sse.com.cn/其中研究出版欄目中有些研究報告。

深圳證券交易所

http://www.szse.cn/其中研究/刊物中有研究報告。

全國中小企業股份轉讓系統(新三板)

http://www.neeq.com.cn/新三板掛牌公司的轉讓及信息披露。

香港證券交易所

http://www.hkexnews.hk/index_c.htm

臺灣證券交易所

http://www.tse.com.tw/ch/index.php

新加坡證券交易所

http://www.sgx.com/

紐約證券交易所

http://www.nyse.com

納斯達克證券交易所

http://www.nasdaq.com

經濟合作與發展組織(OECD):

http://www.oecd.org/

國際貨幣基金組織(IMF):

https://www.imf.org/

1.2、網際網路資訊網站:

艾瑞網:http://www.iresearch.cn/ 專注於網絡媒體、電子商務、網路遊戲、無線增值等新經濟領域,深入研究和了解消費者行為

虎嗅網:http://wwww.huxiu.com/

36kr:http://36kr.com/

易觀智庫:http://www.199it.com/199IT 權威的網際網路數據平臺,涵蓋戰略新興產業、電商網際網路、共享經濟、社交營銷、移動網際網路以及其他網際網路服務的數據及分析報告

CBNDdata:https://www.cbndata.com/report?page=2 以阿里巴巴的商業資料庫為基礎,輸出產業經濟分析報告

QuestMobile:https://www.questmobile.com.cn/ 周期性地發布一些關於APP的研究報告

阿里研究院:http://www.aliresearch.com/cn/presentation 阿里旗下/發布研究電商等方向趨勢的數據報告,內容多與阿里相關

360研究報告:https://zt.360.cn/report/360 旗下/移動、PC、網站、企業、詐騙等安全領域的研究

清博大數據:http://www.gsdata.cn/ 提供微信、微博、頭條榜單數據,各種研究報告、數據報告、輿情報告及行業熱點

中研網數據https://www.chinairn.com/data/ 提供醫療、房產、製造業、服務業、零售消費、車輛等全行業數據

中國報告大廳http://www.chinabgao.com/ 提供各行各業的基礎數據、調查報告、分析報告、預測報告,種類豐富

Awesome Public Datasets:

https://github.com/awesomedata/awesome-public-datasets  Github公共數據搜集項目,自然科學、社會科學覆蓋較面,包含各個細分領域的資料庫資源。

藝恩數據:https://www.endata.com.cn/BoxOffice/index.html  國內領先的數據智能服務商

京東大數據研究院  https://research.jd.com/

阿里研究院 http://www.aliresearch.com/cn/index

滴滴AI開發平臺 http://ai.didiglobal.com/

1.3、指數網站:

百度指數

http://index.baidu.com/v2/index.html#/ 提供關鍵詞搜索趨勢、洞察網民興趣和需求、監測輿情動向、定位受眾特徵,支持關鍵詞對比,簡單的熱門關鍵詞推薦。缺點:不支持熱點和關鍵詞排名,只能對已知的關鍵詞進行搜索分析。

頭條指數

https://trendinsight.oceanengine.com/index 頭條指數致力於用數據服務個人和機構,提供豐富及時的數據維度。支持關鍵詞對比,簡單的熱門關鍵詞推薦。提供熱點事件查詢和各行業的數據報告。缺點:熱點事件和行業數據報告時效性較差,沒有熱點和關鍵詞排行,可挖掘性較差。

搜狗指數

http://index.sogou.com/ 以搜狗搜索海量網民行為數據為基礎的數據分析統計平臺,類似於百度指數,搜狗指數的特色就是除了關鍵詞搜索熱度外,還有關鍵詞的微信熱度。

360趨勢

https://trends.so.com 以360產品海量用戶數據為基礎的大數據展示平臺,可通過搜索關鍵詞,快速獲取熱度趨勢、理解用戶真實需求、了解關鍵字搜索的人群屬性。

愛奇藝指數:

http://index.iqiyi.com/ 愛奇藝內容熱度,基於海量用戶觀看、互動、分享行為等數據,綜合評估用戶的反饋情況,充分展示內容的熱度變化,分地域市場表現盡在掌控。特色:主要針對視頻資源進行搜索和分析。

1.4、行業網站:

百川諮詢

http://www.baiinfo.com 百川資訊是專業的大宗原料信息供應商,目前網站涉及鋼鐵、冶金原料、鐵合金、有色金屬、石油、化工、煤化工、化肥、煤炭、磷化工、塑料、橡膠、氯鹼、機電、家電、建材、農業、汽車、紙品、廢舊物資、聚氨酯、矽、化纖、醫藥化工等24大產業

生意社

http://www.100ppi.com/ 主要跟蹤與國民經濟相關的大宗商品、基礎原料的產業動向與市場狀況,分析、預測商品的價格走勢,研究宏觀經濟與大宗商品的關係及行業、企業、產品的發展問題

中國化工網

http://china.chemnet.com/ 建有國內最大的化工專業資料庫,內含40多個國家和地區的2萬多個化工站點,含25000多家化工企業,20多萬條化工產品記錄

中金網

http://www.metalsinfo.com/news/ 黃金、白銀、外匯、股票、基金、原油等財經資訊行情

1.5、金融&交通數據

同花順數據中心:

http://data.10jqka.com.cn/提供股票債券等金融數據

和訊數據:

http://data.hexun.com/提供各種股票、基金、外匯、債券等實時數據,有付費,有免費

金融界:

http://www.jrj.com.cn/提供股市、融資等各種資金流向數據,以及豐富的財報和研報

東方財富網數據中心:

http://data.eastmoney.com/提供多國的股票、財稅、行業、消費等大量豐富的

高德交通

https://trp.autonavi.com/index.do 中國主要城市交通健康榜

百度地圖慧眼

http://renqi.map.baidu.com/ 於海量時空大數據,結合人工智慧技術,百度地圖慧眼面向不同行業提供人口挖掘、客群分析、出行研究、位置評估等從宏觀到微觀的人、地、物研究。

關於python金融數據接口:

AkShare

AkShare 是基於 Python 的開源金融數據接口庫,目的是實現對股票,期貨,期權,基金,債券,外匯等金融產品和另類數據從數據採集,數據清洗到數據下載的工具,滿足金融數據科學家,數據科學愛好者在數據獲取方面的需求。

官網:

https://www.akshare.xyz/zh_CN/latest/

github網址

https://github.com/jindaxiang/akshare

Tushare

Tushare是一個免費、開源的python財經數據接口包。主要實現對股票等金融數據從數據採集、清洗加工 到 數據存儲的過程

http://tushare.org/

1.6、學術資料庫&科學研究

中國知網:

https://www.cnki.net/國內最大學術資料庫,包括期刊、學位論文、統計年鑑等

萬方數據:

http://www.wanfangdata.com.cn/index.html僅次於中國知網,包括期刊、學位論文等

人大複印資料:

http://ipub.exuezhe.com/index.html期刊、論文等

維普網:

http://www.cqvip.com/期刊、論文等

EBSCO:

https://www.ebsco.com/較全的一個資料庫,內包含較多的商業數據

Elsevier:

https://www.sciencedirect.com/學術文章全,更新速度快

國家氣象科學數據中心:

http://www.cma.gov.cn/2011qxfw/2011qsjgx/

美國國家氣候數據中心

https://www.ncdc.noaa.gov/

中國水土保持生態建設網  

http://www.swcc.org.cn/

國家青藏高原科學數據中心

http://westdc.westgis.ac.cn/zh-hans/

對地觀測數據共享計劃

http://ids.ceode.ac.cn/index.aspx

中國科學院資源環境科學與數據中心

http://www.resdc.cn/

國家地球系統科學數據中心

http://www.geodata.cn/

中國科技資源共享網| 國家高能物理科學數據中心| 國家基因組科學數據中心| 國家微生物科學數據中心| 國家空間科學數據中心| 國家天文科學數據中心|

國家對地觀測科學數據中心| 國家極地科學數據中心| 國家青藏高原科學數據中心| 國家生態科學數據中心| 國家冰川凍土沙漠科學數據中心| 國家計量科學數據中心|

國家材料腐蝕與防護科學數據中心| 國家人口健康科學數據中心| 國家基礎學科公共科學數據中心| 國家農業科學數據中心| 國家林業和草原科學數據中心|

國家氣象科學數據中心| 國家地震科學數據中心| 國家海洋科學數據中心

國家重要野生植物種質資源庫| 國家作物種質資源庫| 國家園藝種質資源庫| 國家熱帶植物種質資源庫| 國家林業和草原種質資源庫| 國家家養動物種質資源庫| 國家水生生物種質資源庫| 國家海洋水產種質資源庫| 國家淡水水產種質資源庫| 國家寄生蟲資源庫| 國家菌種資源庫| 國家病原微生物資源庫| 國家病毒資源庫| 國家人類生殖和健康資源庫| 國家發育和功能人腦組織資源庫| 國家健康和疾病人腦組織資源庫| 國家幹細胞資源庫| 國家幹細胞轉化資源庫| 國家植物標本資源庫| 國家動物標本資源庫| 國家巖礦化石標本資源庫| 國家標準物質資源庫| 國家生物醫學實驗細胞資源庫| 國家模式與特色實驗細胞資源庫| 國家嚙齒類實驗動物資源庫| 國家鼠和兔類實驗動物資源庫| 國家非人靈長類實驗動物資源庫| 國家禽類實驗動物資源庫| 國家犬類實驗動物資源庫| 國家遺傳工程小鼠資源庫| 國家人類疾病動物模型資源庫

二、學習數據集

以上是一些公開的數據,但是還有一類數據,屬於數據集,專門用來機器學習,訓練模型用。

2.1、scikit-learn數據集

https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html


2.2、經典數據集

MNIST數據集

http://yann.lecun.com/exdb/mnist/

MNIST(Mixed National Institute of Standards andTechnology database)數據集大家可以說是耳熟能詳。可以說是每個入門深度學習的人都會使用MNIST進行實驗。作為領域內最早的一個大型數據集,MNIST於1998年由Yann LeCun等人設計構建。MNIST數據集包括60000個示例的訓練集以及10000個示例的測試集,每個手寫數字的大小均為28*28。

導入mnist模塊

from tensorflow.keras.datasets import mnist

導入數據

(x_train,y_train), (x_test, y_test) = mnist.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

CIFAR-10

相較於MNIST和Fashion MNIST的灰度圖像,CIFAR-10數據集由10個類的60000個32*32彩色圖像組成,每個類有6000個圖像。有50000個訓練圖像和10000個測試圖像。

CIFAR-10是由Hinton的學生Alex Krizhevsky(AlexNet的作者)和Ilya Sutskever 整理的一個用於識別普適物體的彩色圖像數據集。一共包含10個類別的RGB彩色圖片:飛機(airplane)、汽車(automobile)、鳥類(bird)、貓(cat)、鹿(deer)、狗(dog)、蛙類(frog)、馬(horse)、船(ship)和卡車(truck)

https://www.cs.toronto.edu/~kriz/cifar.html

導入cifar10模塊

from tensorflow.keras.datasets import cifar10

讀取數據

(x_train,y_train), (x_test, y_test) = cifar10.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

CIFAR-100

CIFAR-100可以看作是CIFAR-10的擴大版,CIFAR-100將類別擴大到100個類,每個類包含了600張圖像,分別有500張訓練圖像和100張測試圖像。CIFAR-100的100個類被分為20個大類,每個大類又有一定數量的小類,大類和大類之間區分度較高,但小類之間有些圖像具有較高的相似度,這對於分類模型來說會更具挑戰性。

CIFAR-100數據集地址為https://www.cs.toronto.edu/~kriz/cifar.html

導入cifar100模塊

from tensorflow.keras.datasets import cifar100

導入數據

(x_train,y_train), (x_test, y_test) = cifar100.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

ImageNet

ImageNet圖像數據集是在2009年由斯坦福的李飛飛主導的一個項目形成的一個數據集。李飛飛在CVPR2009上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,之後從2010年開始基於ImageNet數據集的7屆ILSVRC大賽,這使得ImageNet極大的推動了深度學習和計算機視覺的發展。

目前ImageNet中總共有14197122張圖像,分為21841個類別,數據官網地址為:http://www.image-net.org/

下載方法:

https://zhuanlan.zhihu.com/p/42696535

COCO

COCO數據集是微軟在ImageNet和PASCAL VOC數據集標註上的基礎上產生的,主要是用於圖像分類、檢測和分割等任務。COCO全稱為Common Objects in Context,2014年微軟在ECCV Workshops裡發表了Microsoft COCO: Common Objects in Context。文章中說明了COCO數據集以場景理解為目標,主要從複雜的日常場景中截取,圖像中的目標通過精確的分割進行位置的標定。COCO包括91個類別目標,其中有82個類別的數據量都超過了5000張。

COCO數據集主頁地址為http://cocodataset.org/#home。

IMDB

IMDB本身是一家在線收集各種電影信息的網站,跟國內的豆瓣較為類似,用戶可以在上面發表對電影的影評。IMDB數據集是斯坦福整理的一套用於情感分析的IMDB電影評論二分類數據集,包含了25000個訓練樣本和25000個測試樣本,所有影評被標記為正面和負面兩種評價

IMDB數據集地址為https://www.imdb.com/interfaces/

導入imdb模塊

from tensorflow.keras.datasets import imdb

導入數據

(x_train,y_train), (x_test, y_test) = imdb.load_data()

輸出數據維度

print(x_train.shape,y_train.shape, x_test.shape, y_test.shape)

Wikitext

WikiText 英語詞庫數據(The WikiText Long Term Dependency Language ModelingDataset)是由Salesforce MetaMind 策劃的包含1億個詞彙的大型語言建模語料庫。這些詞彙都是從維基百科一些經典文章中提取得到,包括WikiText-103和WikiText-2兩個版本,其中WikiText-2是WikiText-103的一個子集,常用於測試小型數據集的語言模型訓練效果。值得一提的是,WikiText保持了產生每個詞彙的原始文章,非常適用於長時依賴的大文本建模問題。

WikiText數據集地址為https://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-datase

2.3、中文NLP數據集

https://github.com/brightmart/nlp_chinese_corpus

https://github.com/fighting41love/funNLP

https://github.com/luge-ai/luge-ai/

NLP 數據集囊括了 NER、QA、情感分析、文本分類、文本分配、文本摘要、機器翻譯、知識圖譜、語料庫以及閱讀理解等 10 大類共 142 個數據集。

具體而言,對於每一個數據集,項目作者都提供了數據集名稱、更新時間、數據集提供者、說明、關鍵字、類別以及論文地址等幾方面的信息。

https://www.cluebenchmarks.com/index.html

https://github.com/CLUEbenchmark/CLUEDatasetSearch

最全中華古詩詞數據集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞

https://github.com/chinese-poetry/chinese-poetry

搜狗實驗室提供了一些高質量的中文文本數據集,時間比較早,多為2012年以前的數據。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語言處理與信息檢索共享平臺

http://www.nlpir.org/?action-category-catid-28

中文語料小數據

包含了中文命名實體識別、中文關係識別、中文閱讀理解等一些小量數據。

https://github.com/crownpku/Small-Chinese-Corpus

騰訊人工智慧實驗室自然語言處理研究室

https://ai.tencent.com/ailab/nlp/zh/index.html

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標註功能。

HanLP:https://github.com/hankcs/HanLP

穿越世界上最大的多語言種語料庫,HanLP2.1支持包括簡繁中英日俄法德內部的104種語言上的10種聯合任務:分詞(粗分,細分2個標準,強制,合併,校正3種字典模式),詞性標註(PKU,863,CTB,UD四套詞性規範),命名實體識別(PKU,MSRA,OntoNotes三套規範),依存句法分析(SD,UD規範),成分法分析,語義依存分析(SemEval16,DM,PAS,PSD四套規範),語義角色標註,詞幹提取,詞法語法特徵提取,抽象意義(AMR)。

哈工大LTP:https://github.com/HIT-SCIR/ltp

LTP(語言技術平臺)提供了多種中文自然語言處理工具,用戶可以使用這些工具針對中文文本進行分詞,詞性標註,句法分析等等工作

NLPIR :https://github.com/NLPIR-team/NLPIR

NLPIR存放了NLPIR大數據語義增強分析平臺的相關的文件

jieba :https://github.com/yanyiwu/cppjieba

結巴"中文分詞的C++版本

https://github.com/fxsjy/jieba

結巴的python版本

2.4、競賽數據集

Kaggle

https://www.kaggle.com/datasets

Kaggle入門

https://www.zhihu.com/question/23987009/answer/203051669

天池數據集

官網:

https://tianchi.aliyun.com/dataset/

天池公眾號對自家的數據集分類

https://mp.weixin.qq.com/s?__biz=MzAwNjM1ODkxNQ==&mid=2650897358&idx=1&sn=d8bf967d4e101a1f003fde36af9aba48&chksm=80fb4922b78cc0344d62099b00ffbd668363d5c887913e8cc728151deb5d50443ddedb392c96&mpshare=1&scene=1&srcid=0208EJ1LXikdUKbcqOWPSJu0&sharer_sharetime=1612778894008&sharer_shareid=7df8b0b4332433342f08c8a3f127d515&exportkey=Az1X9GIjbG8uj5%2FUeKHny7U%3D&pass_ticket=mcM2iPFX4Iw9sDwkbBtKOw5DhHf%2Buv85owSj4fSDe8TrILvj22UlJGu9Tv7b%2Bb%2BW&wx_header=0#rd

在這裡多說幾句關於計算機競賽

LeetCode

https://leetcode-cn.com/contest/

是全球最早的 OJ(Online Judge) 之一,力扣上的題目偏求職面試風格,題目難度分簡單、中等、困難三個等級。去 FLAG 或者 BAT 面試的小夥伴有可能遇到力扣中的原題

KDD CUP

SIGKDD 是數據挖掘領域的頂會,從 1997 年開始,每年都會舉辦國際知識發現和數據挖掘競賽(KDD CUP),在數據挖掘領域,這個比賽的含金量相當高,可以說是目前是數據挖掘領域最有影響力的賽事之一。

https://www.kdd.org/kdd2020/kdd-cup

2.5、數據集匯總列表

https://zhuanlan.zhihu.com/p/46834868

https://github.com/niderhoff/nlp-datasets

https://elitedatascience.com/datasets

https://www.datasetlist.com/

寫在最後,數據源千千萬萬肯定不可能都匯總全面,這個需要後期多積累,對於一些機器學習深度學習的數據集這裡整理得不算完善,應該按照圖形、音頻數據集分類,一邊學習一邊整理吧,歡迎大家關注我的公眾號。

相關焦點

  • 有英文數據包的供應商在哪裡
    有英文數據包的供應商在哪裡· 2018-03-08 22:01 評論  3 收藏  2 有英文數據包的供應商大佬在哪裡
  • Python 與金融數據|股票數據的獲取與可視化
    pandas_datareaderpandas_datareader庫提供了專門從財經網站獲取金融數據的API接口,可作為量化交易股票數據獲取的另一種途徑,該接口在urllib3庫基礎上實現了以客戶端身份訪問網站的股票數據。
  • 數據科學08 | 獲取和整理數據-獲取不同格式的數據
    #通過API獲取JSON文件,fromJSON()調用JSON文件的URL地址,返回一個結構化的數據框library(jsonlite)jsonData <- fromJSON("https://data.baltimorecity.gov/resource/7ymi-bvp3.json")names(jsonData)[1] "name"
  • 金融數據獲取之tushare
    -28','2017-09-03')]1.1 歷史數據# get_k_data 函數獲取歷史數據# 將多個時間段的數據拼接# 出於性能的考慮,一次性請求數據的時間長度最好不超過3年,需要獲取更長時間的歷史數據就需要將多個數據表拼接# ktype 的可用選項:D=日k線 W=周 M=月 5=5分鐘 15=15分鐘 30=30分鐘 60=60分鐘,默認為D
  • 利用tushare獲取股票數據
    想要獲取股票交易數據的你,還在各種交易平臺上機械的點擊滑鼠進行下載嗎?如果你恰好是這種情況,那麼恭喜你,在看完這篇推文以後就可以輕鬆獲取股票交易數據啦~在Stata中,我們可以使用爬蟲俱樂部開發的cnstock和cntrade等命令來輕鬆獲取股票數據,今天我們介紹Python中獲取數據的方法——tushare。
  • 【數據獲取利器】微博POI獲取工具,城市數據派會員專享哦
    城市大數據實操攻略】12月11日北京開營,火熱報名中!面向城市研究和規劃工作者的個性化定製課程,從大數據基礎、網際網路大數據、軌跡大數據、大數據可視化、Python、機器學習、到 R,城市數據師需要具備的一切技能都在此!(點擊看詳情)【派姐說說】親愛的城市數據派會員們,2016年11月的會員福利之新技術教學終於來啦!
  • 如何優雅的獲取數據
    首先,我們要確保數據的可靠性與真實性,然後再把這些數據分析應用到科研論文中,發揮數據的價值。昨天給大家推送了幾款論文寫作神器,今天給大家推薦幾款獲取數據的神器。1.   ,其數目還在不斷增加,UCI數據集是一個常用的標準測試數據集。
  • 數據處理——數據的獲取之網絡問卷
    本節課是對數據的獲取課的拓展,在了解多種獲取方式之後讓學生親身體驗用問卷獲取數據的方式。課前讓學生以小組為單位圍繞影響書市受歡迎程度的多種因素設計紙質問卷,我經過問卷整理,按照「因素」分類學生設計的問卷問題。2.上課引導。在本節課中,重點放在學生設置合理的問卷題目。本節課讓學生先從「其他」文檔中刪除與調查目的無關的問題,保留與調查目的有關的問題,並說明原因。
  • 數據獲取之Getdata graph Digitizer
    這時候,需要用具有圖片旋轉功能的工具軟體(如word、photoshop等)將數據圖旋轉正立後再存儲,以方便GGD正確讀取數據。啟動GGD軟體,打開要獲取數據的圖形文件,如下圖所示。從欲獲取數據的圖可以簡單看出,x軸、y軸是普通線性坐標,這也是GGD默認的坐標系類型,因此直接點擊「Adjust scale」窗口的OK按鈕就可以。有的數據圖的x軸或y軸或者兩個軸都是對數坐標(如下圖)。
  • Excel獲取外部數據之導入來自網站的數據
    現在講解的是Excel獲取外部數據中的導入來自網站的數據1.在第五次普查數據工作表中,點擊A1單元格,然後點擊」數據」選項卡à「獲取外部數據」選項組à點擊「現有連接」à「瀏覽更多」à找到在考生文件夾下選中「第五次全國人口普查公報」,點擊打開,
  • 原神晶核在哪裡獲取 晶核哪裡多[多圖]
    原神晶核如何去領取的,在什麼地方去找到的,此次也是可以幫助大家去找到的,怎麼去刷,需要在儲存好體力和合成樹脂,能夠在裡面去知道的道具,使用大家去了解,下面就介紹下原神晶核怎麼獲取。> 原神晶核如何去領取的,在什麼地方去找到的,此次也是可以幫助大家去找到的,怎麼去刷,需要在儲存好體力和合成樹脂,能夠在裡面去知道的道具,使用大家去了解,下面就介紹下原神晶核怎麼獲取
  • 天眼查企業數據獲取
    各位小夥伴們,新年快樂,多日不見,拜個晚年,此篇為2017開篇文章,沒有寫機器學習方面,而是爬蟲類;一、數據分類
  • Python數據分析入門教程(一):獲取數據源
    作者 | CDA數據分析師俗話說,巧婦難為無米之炊。不管你廚藝有多好,如果沒有食材,也做不出香甜可口的飯菜來,所以想要做出飯菜來,首先要做的就是要買米買菜。而數據分析就好比是做飯,首先也應該是準備食材,也就是獲取數據源。
  • 入門Python爬蟲——獲取數據篇
    作者: 李菲 來源:人工智慧學習圈在如今的大數據時代,相信大家都對Python一詞有所耳聞。而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。比如,我想要爬取某網站的信息,假設它的網址為https://www.xxxxx/,那麼獲取數據部分的完整的代碼便是:除此之外,我們還可以通過print(type(res))來查看數據的類型。如運行無誤,終端中會顯示<class 'requests.models.Response』>。
  • 使用GETPIVOTDATA函數獲取數據透視表匯總數據
    Excel提供了GETPIVOTDATA函數,利用這個函數可以獲取數據透視表的匯總數據,也可以用於獲取某個項目的匯總數據。
  • Python入門學習之數據分析實戰獲取數據
    想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。
  • 利用tushare獲取股票數據及實現可視化
    在上周的推文《利用tushare獲取股票數據》中,我們介紹了tushare的安裝以及如何獲取股票交易的數據和數據,今天我們將繼續介紹tushare的用法並實現數據的可視化,一起往下看吧~一、獲取實時分筆數據:get_realtime_quotes()在tushare中,可以使用get_realtime_quotes()實時獲取股票當前報價和成交信息,從而實現實時的監測交易量和價格的變化。
  • 從Bitmap中獲取YUV數據的兩種方式
    從Bitmap中我們能獲取到的是
  • 【python量化】期貨ML策略(一)數據獲取
    主要分為四個步驟:(1)獲取期貨主力合約數據;(2)構建機器學習模型,利用數據訓練機器學習模型;(3)回測檢驗模型;(4)模擬盤檢驗模型。我大概會分4塊部分寫期貨策略的文章,並且我會開源自己的期貨ML策略代碼,但是核心內容我不會分享,我只會分享我的策略框架。今天這篇文章將會講如何獲取期貨主力合約數據。對於一個ML策略來說,歷史數據一定要獲取下來存本地,這樣才會方便我們的訓練。
  • PHP獲取HTTP POST中不同格式的數據
    每天獲取最新的編程小知識!: application/json,Content-Type: text,Content-Type: application/xml,Content-Type: text/xml,等等形式對於Content-Type: application/x-www-form-urlencoded這種form表單的數據,在php中,使用$_POST['name']可以直接獲取, 沒有什麼特別的