大數據面前,統計學的價值在哪裡

2020-12-05 光明網新聞中心

演講人:朱利平 演講地點:國家圖書館國圖講壇 演講時間:2019年2月

3月8日,呼和浩特市民在當地的大數據應用產業基地體驗大數據可視化系統。光明圖片/視覺中國

  朱利平 中國人民大學統計與大數據研究院副院長、博士生導師,中國人民大學「傑出學者」特聘教授。國家自然科學基金優秀青年基金獲得者。入選中組部青年拔尖人才計劃、教育部新世紀優秀人才計劃等。長期從事複雜數據分析的研究工作,在統計學重要學術期刊上發表學術論文70餘篇。

  統計學對大數據的意義

  很高興有這樣一個機會,我能與大家在這裡做一些關於統計學與大數據的交流,與大家分享一些觀點。

  在講大數據之前,我們首先來看看什麼是數據。很長一段時間裡,大家對數據的理解,可能只是停留在阿拉伯數字這個層面。近些年來,大家開始講大數據。結果有人就開始好奇了:這個大數據和我們之前說的數據有什麼關係呢?

  阿拉伯數字是不是數據呢?當然是數據。大數據是不是數據呢?當然也還是數據。不過,現在我們對數據的理解要廣泛得多了。凡是可以被數據化的信息載體,我們都可以認為是數據。比如說,我們接觸的文本,包括平時看到的一些文字,現在我們都可以把它量化。我們看到的圖片、視頻和音頻,現在也都可以量化。包括阿拉伯數字、文本、圖片、視頻和音頻,我們都稱之為數據。現在我們理解的數據,從來源上來說更加廣泛了,從類型上說變得很複雜了。這些不同來源、類型複雜的數據組合在一起,達到一定的體量之後,就可以認為是一個大數據了。

  現在我們來說一下統計學,統計學是什麼呢?首先,從學科定位上說,統計學已經被列為一級學科了。這一點和數學、法學等都一樣了。大不列顛百科全書對統計學有個定義,說這是一門收集數據、分析數據的科學和藝術。定義中提到統計學是一門科學,這個容易理解。那為什麼說統計學是一門藝術呢?這個問題,就和我今天主要回答的一個問題很有關係。順便說一句,現在美國很多高校的統計系,它並不設在理學院下面,而是設在藝術學院下面。

  今天我主要回答一個問題:在大數據時代,我們究竟是否需要基於抽樣的統計學?

  有些人認為,現在計算機科學非常發達,可以收集海量的數據。為了特定的研究目的,我們現在甚至有能力通過計算機技術收集與特定的研究目的相關的全部數據。今天,基於抽樣的統計學就沒有那麼重要了,甚至都不在被需要了。事實真的是這樣嗎?

  統計學是一門收集數據的藝術

  既然統計學被認為是一門收集數據、分析數據的科學和藝術。我們暫時不談科學,先來看看統計學為什麼被認為是一門收集數據的藝術。

  我們來看第一個案例。這個案例是希望調查15個國家的國民的誠實情況。調查人員想要知道,哪些國家的國民最傾向於撒謊,哪些國家的國民很誠實。如果直接去問被調查的人員:「您是否撒過謊?」十之八九,是問不到真實答案的。如果被調查人員以前撒過謊,也不在乎多撒這個謊了。被調查人員可能出於不同的動機,不願意給出真實答案。那麼,調查數據怎麼得來呢?這顯然不是簡單地通過計算機技術、通過某些爬蟲軟體就容易收集到適合研究目的相關數據的。

  如何利用統計學方法來收集數據呢?這就需要統計學的智慧了。調查人員設計了兩組實驗。

  調查人員先從每一個國家找1000人參與測試,15個國家一共找了15000人,找這麼多不同國家的人來面對面調查,這是非常困難的,所以調查人員通過網際網路找到了這15個國家共計15000人。兩組實驗都是在網際網路上進行的。

  在第一組中,他們先做了一個測試,請受調查者在家裡拋硬幣,硬幣有正反兩面,調查者事先規定,受調查者拋硬幣之後要告訴我結果,如果硬幣正面朝上,我就獎勵你十塊錢,如果反面朝上,我就不給你獎勵。這個調查不需要提供你拋硬幣的證據,只是由你告訴調查者,拋硬幣的結果。這也就是說,受調查者有沒有撒謊,只有他自己知道。

  這個最後的結果,實際上調查者是有參照的。因為,每個國家有1000人參與測試。正常情況下,1000次拋硬幣的結果,應該是500次左右正面朝上。某個國家參與實驗的1000個人之中,如果有900個人聲稱自己拋出來的硬幣正面朝上,甚至1000人聲稱拋出來硬幣正面朝上。那麼,很大概率就是其中有人撒謊了。這是第一組實驗。

  第一組的實驗有價值,但是它也不一定能夠全面反映真實的情況,所以調查人員還有第二組實驗。

  第二組實驗,是要求受調查者回答五個問題。這五個問題在回答之前,需要受調查者承諾,他不能為了答題去查閱任何資料,不能去尋求任何幫助,也就是說,看了這五個問題之後,受調查者需要立即給出答案。調查者承諾,如果五個問題中,回答對了四個以上,就獎勵給受訪者十塊錢,如果答對三個或者三個以下,就沒有獎勵。

  而這五個問題中,其中有三個問題特別簡單,類似於像1+1等於幾這種問題。另外兩個問題則非常生僻。如果受調查者不去查閱資料或諮詢他人的話,基本是不太可能回答出來的。因此,如果有受調查者答對了這兩道難題,十有八九就說明他違反了自己事先承諾的「不去查閱資料尋求幫助」,由此可以推論他在這件事情上不誠實。

  然後統計人員通過這兩組實驗結果,互相驗證。這兩組數據收集的過程都非常恰當地體現了統計學在收集數據方面的智慧。

  所以說,即使在大數據時代,不是說有了計算機,有了爬蟲技術,我們就能收集到適合研究目的的所有數據。統計學是一個收集數據的藝術,針對特定的研究目的,設計非常漂亮的數據收集方案,就是一個非常藝術的收集數據的過程了。

  我們再舉一個例子。這是最近美國麻省理工剛剛完成的一個實驗,大致在2018年左右完成的,實驗結果也公布出來了。目的是想了解大家目前的婚姻觀念,100人受到邀請來到一個封閉的場所參與這個實驗。參加實驗時,每人都會被貼上一個編號。男的編號是單數一三五七九,女的編號是雙數二四六八十,以此類推。參與實驗的這100人不知道自己的編號,也不知道究竟有多少人參加了這次實驗。換句話說,他們不知道參加這次實驗的正好是50個男人和50個女人,受訪者僅僅知道,這次實驗有很多人參加。

  在這裡統計人員採取了一點小花招,就是當受訪者進門的時候,把編號貼在受訪者後背上,受訪者知道自己有編號,但是不知道自己的編號是多少,不過他能夠看到別人後背上的編號。實驗規則說,允許100人中的任何兩個人進行交談,除了不能告訴對方他的後背編號是多少,其他話題都可以談。

  然後實驗者把這100人帶到一個很小的一個房間裡,宣布給大家5分鐘時間,在這5分鐘內,大家自行配對,每人只能配一名異性。5分鐘結束之後,如果配對成功了,兩個人背後的數字加起來乘以十,就是兩人能夠拿到的獎金。也就是說,如果編號是100的那個女性找到了那個編號為99的男性,那麼兩人就可以拿到(100+99)×10的獎金,也就是1990美元,這筆錢已經很可觀了。但是如果你是一個編號為2的女性,而你找到的是那個編號為1的男性,那麼你倆只能得到(1+2)×10也就是30美元,你倆用這獎金一起吃頓飯都不一定夠。但是5分鐘之後,如果還沒有配對成功的話,你就連一美分都拿不到。因此,參加者必須在5分鐘之內,在一個很小的擁擠空間內,儘快找到願意跟自己配對的那個人。而且在這個過程中,要儘可能讓自己的獎金數額變得很大。

  實驗人員之所以把100人故意安排在非常擁擠的小房間內,就是考慮到,一方面要讓大家能夠很快速地看到一些人的編號,另一方面又能保證一個人不可能看到所有人的編號。在人擠人的情況下,有些編號是肯定看不到的。

  實驗開始了。

  一些人很快就發現,自己連續跟別人配對三四次,大家都拒絕他。這很可能說明,自己後背的編號數字不夠大,別人不感興趣。於是這其中就有人採取了應對策略,他跟別人講,如果你願意跟我配對的話,那我願意把獎金全部給你,反正我數字也不大,所以我的錢不要了。還有人說,只要你這次跟我配對成功了,我們出去以後,我再單獨請你吃頓飯。

  另外還有一些人,雖然他不知道自己後背的編號,但是他發現有很多人過來找他,所以他很快就意識到,自己後背的編號很可能很大,但具體多大,他並不知道。而且要儘可能讓兩個人組合出來的數字變得很大。於是他很快就把眼前這批他能看到數字的人拒絕掉了,因為他理所當然地認為接下來肯定還有更大的編號,但是他並不知道最大的編號是多少,同時他還必須要在5分鐘內快速決定跟誰配對。

  這個實驗的結果是,編號99的男性並沒有與編號100的女性配對成功。那位編號100的女性,找到的是編號八十幾的一位男性。那些數字在中間的人,大體都配對了跟自己差不多的另一個人。這個結果,很符合中國的一種傳統思想,也就是門當戶對。

  我們現在來看這個實驗的結果,它基本上跟中國男女婚姻觀念的現實比較類似。比如說,實驗者因為自己編號小,就讓渡自己的獎金給對方甚至於承諾事後請對方吃飯,以求得成功配對,這個跟現實中「我的個人條件差一些,但是我父母同意我們兩個結婚之後送給我們一套房子」的承諾是類似的。而且我們在生活中也發現,一些最優秀的男性女性,他們身邊不乏追求者,但是他們並沒有找到自己的「最佳匹配對象」。

  這個數據的收集過程也是非常漂亮的。

  數據並不是越多越好

  統計本身是一門收集數據的科學,但是數據是不是越多越好呢?很難說。

  歷史上有一個非常有名的例子。大約500年之前,丹麥有一個天文學家叫第谷,他從當時的丹麥國王那裡要了一筆錢,建了一個實驗室。第谷天天去觀察每顆行星的運動軌跡,並且每天記錄下來。於是第谷觀察了20年,記錄了大量的數據。不過,這個數據太多了,第谷花了大量時間、精力來分析這個數據,但沒有發現任何規律。

  這時候,一個叫克卜勒的人出現了。克卜勒認為,第谷每天去觀測,一年365天每一顆行星都會有365個數據,這樣20年觀測記錄積累下來,要分析處理的數據就太多了,而且那個時候的數據分析只能依靠手工計算,這個處理工作量實在太大了。於是克卜勒就說,能不能每年只給我一個數據,比如說你可以只告訴我每年的1月1日,地球在什麼位置,土星在什麼位置,太陽在什麼位置,等等。這樣20年的觀測數據篩選之後,每一顆行星的數據就只有20個了。克卜勒知道,地球每隔365天會回到同一個位置,然後他把地球的位置固定,再分析其他行星跟地球的相對位置。克卜勒通過固定地球的位置,對其他行星位置20年的數據進行分析,就成功得到了其他行星的運行軌跡。此後克卜勒就發現,如果地球位置不變的話,那麼其他行星的20年運行軌跡畫出來之後,這些行星都是圍著太陽運轉,運行軌跡都是橢圓形的。由此克卜勒發現了行星運動的規律。

  從這個天文學上的著名案例,我們可以看出來,數據太多可能會導致信息量變得巨大,反而增加尋找到規律的難度。從而需要通過科學的方法簡化數據。

  關於這方面的案例還有不少。比如說美國總統富蘭克林·羅斯福。他是美國歷史上唯一一位連任四屆的總統。1932年的時候他第一次當總統,當時美國和許多國家正在遭受經濟危機,羅斯福面臨的壓力也很大。因此到了1936年羅斯福想競選自己的第二任總統的時候,美國許多人預測羅斯福很難連任。那一次,羅斯福的主要競選對手是蘭登。當時就有兩個機構在預測總統選舉結果,其中一個是《文學文摘》雜誌,它在當時是一個非常有影響力的刊物,因為這個雜誌此前幾次對總統選舉結果的預測都成功了。到了1936年美國總統選舉的時候,文學文摘搞了一個大的調查統計,它調查了240萬人。具體方式就是在雜誌裡面夾上關於總統選舉的調查問卷,然後收集反饋。其實當時文學文摘調查的還不止240萬人,還要更多,只不過最後收回來的有效問卷是240萬份。正是根據這個調查結果,文學文摘宣布他們預測蘭登將戰勝羅斯福贏得大選。

  而當時還有一個機構,準確地說是一個年輕人,叫蓋洛普,他的預測結果跟文學文摘的預測正好相反。起初蓋洛普做這類調查統計,是因為他的母親要競選眾議員,他是給他母親幫忙,於是就在經費不多的情況下做了對較小人群的相關調查,然後這個調查結果很成功,他母親當上了眾議員。接下來他就想調查一下,羅斯福和蘭登誰會贏得1936年競選。但是他比不了文學文摘的財大氣粗,所以他只調查了5000個人,根據這5000人的調查結果,蓋洛普預測羅斯福當選。

  結果羅斯福果然成功連任總統,蓋洛普的預測勝利了。

  這個選舉結果出來之後,對《文學文摘》雜誌的聲譽造成了巨大的衝擊:畢竟文學文摘調查了240萬人,最後卻發布了一個錯誤的預測,而蓋洛普只調查了5000人,發布的預測卻是正確的。結果,文學文摘因為這個事情後來就關門倒閉了。而那個年輕人蓋洛普,就此成立了一個民意調查公司,也就是現在的蓋洛普諮詢公司。

  這是事情的結果。那麼為什麼調查了5000人的預測,要比調查240萬人的結果更準確呢?我們先不說240萬這種海量數據,它在規模變大以後會帶來計算效率的下降,我們也不提這類海量收集數據會導致成本居高不下的問題。根本的原因,是當時文學文摘通過雜誌夾帶問卷進行調查的這種方式。因為當初問卷是夾在雜誌中發放的,所以文學文摘收集來的240萬份有效問卷,實際面對的都是訂閱了這份期刊的用戶。那麼,當時什麼樣的家庭會訂閱這樣的雜誌呢?一般來說都是家境比較好的家庭,所以,文學文摘雖然號稱調查了240萬人之多,但是它調查的主要群體,是當時美國國內相對而言有錢的那部分人。而窮人群體的意見,它這個調查實際並沒有覆蓋到。

  數據的量多不一定就代表準確,收集來的數據質量好、有代表性,才有可能分析出準確的結果。

  統計學是一門分析數據的藝術

  前面舉了一些例子,提醒我們需要非常小心地設計方案收集數據。數據收集上來之後,我們還要做數據分析。按照前面大不列顛百科全書的說法,統計學同樣是一門分析數據的藝術。

  講到數據分析,在這裡我只講兩個基本概念:相關與因果。為什麼講這兩個概念呢?這是因為人們常常混淆這兩個概念,常常會把相關關係誤以為是因果關係。在許多科學研究和政策問題評價中,我們更關心因果關係。但是,當我們看到了某種形式的相關關係後,常常會誤以為這就是我們追求的因果關係了。

  比如說,在中世紀的歐洲,很多人相信,蝨子對人的健康是有幫助的。這是因為當時人們發現,得病的人身上很少有蝨子,而健康人的身上反而是有蝨子的。這是長期的觀察累積下來,形成的經驗。在中世紀的歐洲,很長一段時間裡人們都根據這個經驗,得出這樣一個因果推論:這個人身上有蝨子,所以他身體健康,那個人身上沒蝨子,說明他身體不健康。

  當時,人們確實觀察到蝨子的存在與否跟人是否健康構成了相關關係,但是,這是因果關係嗎?有了溫度計以後,人們就發現了,這不是真正意義上的因果關係:因為蝨子對人的體溫非常敏感,它只能在一個很小的溫度區間範圍生存下來。而人體一旦生病的話,很多時候會出現發燒症狀。人體一發燒,溫度變化,蝨子就無法適應發燒時候的熱度,於是跑掉了。如果我們只停留在觀察到健康與否和蝨子多寡之間存在關係,那實際只是相關關係,而不是因果關係。與之類似的例子還有很多,比如說,我們看到每年冰淇淋銷量增加的同時,各地不幸溺亡的人數也在增加。那麼這兩件事情是不是構成因果關係呢?常識告訴我們,肯定不是。其實是因為每年氣溫升高之後,遊泳的人可能就多了起來了,隨之溺亡人數也就相應增加了。而同樣是因為氣溫升高,冰淇淋的銷量也會增加。

  也就是說,如果我們觀察到一個因素出現了一點點變化,另外一個因素也會隨著跟它變化,它們之間可能就有相關關係,但是這種相關關係,並不意味著這兩個因素構成因果關係。

  如何判斷因果關係呢,這就需要我們非常小心,而且要非常藝術地做數據分析了,我們最終還是要回到統計學上來。

  這裡,我們舉一個歷史上的疾病案例,這就是小兒麻痺症,也就是脊髓灰質炎。現在大家看到的小兒麻痺症病例比較少,因為現在有相應的疫苗。歷史上,脊髓灰質炎曾經是一個讓人非常害怕的疾病。

  在20世紀50年代,當時美國一所大學的實驗室,做出了一種針對這個疾病的疫苗,已經證明它在實驗室條件下能夠產生有效的抗體。但是他們不知道,如果應用到實際生活中的大規模實驗,這個疫苗還會不會有效。所以當時美國政府部門就決定要做實驗,這個時間大致在1954年。因為當時脊髓灰質炎的患者主要是孩子,所以當時的實驗人群定為小學一二三年級的學生。怎麼做實驗才能夠真正說明疫苗是否有效呢?為了確保統計結果最終反映真實的因果關係,當時提出了五套實驗方案。

  第一套方案是,因為1953年之前是沒有這個疫苗的,所以就從1954年開始,給所有的一二三年級小學生接種疫苗,最後再來看一下,1954年的發病率,跟1953年相比,會不會有差別。這個方案是個辦法,但是它有問題,因為之前每一年的脊髓灰質炎發病率的差別比較大。比如說1951年全美可能有3萬名脊髓灰質炎患者,1952年則有6萬名,而1953年又可能縮減到不足4萬名。這個脊髓灰質炎每年發病率的波動都比較大,萬一到時候實驗結果是3萬名到4萬名之間,如何判斷這個結果是隨機變化的,還是疫苗發生了作用?

  第二個方案則提出要按照地區來做。比如,在紐約地區,就給一二三年級小學生們全部接種疫苗,而在芝加哥地區的就全部不接種疫苗,然後來統計,紐約和芝加哥這兩個地區的脊髓灰質炎發病情況。這個方案後來發現也不行。因為脊髓灰質炎本身就是傳染病,一個地區可能流行這個疾病了,而另外一個地區就可能沒流行,那麼這兩個地區的數據看起來就會有差異,但是這不是疫苗的效果,不具有可比性。

  於是就有人提出了第三個方案。因為當時這個疫苗接種,誰也不知道有沒有副作用,因此是有一定風險的。所以這個方案就提出,讓接種疫苗的孩子們的父母來自行選擇。有的家長選擇給孩子接種疫苗,有的就不選擇接種,這樣同一批孩子就會出現不同的對照。但是這麼做,也有問題。因為當時人們已經發現,脊髓灰質炎的患者一般來自於家境比較好的家庭。這是因為,那些家庭經濟狀況比較差的家庭,因為生活條件差,衛生條件不好,可能一個人很早就接觸過脊髓灰質炎的病毒了,甚至很可能在剛剛出生的時候就接觸了脊髓灰質炎的病毒,但是剛出生的嬰兒是有母體的免疫力的,嬰兒憑藉母體的免疫力,接觸這個病毒之後能夠產生抗體,反而不會得病。當時的這類數據情況已經展現了這種現象。如果採用自願接種的方式,那些經濟狀況比較好的家庭,往往願意讓自己的小孩去接種,而經濟狀況不好的家庭由於經費原因,同時也知道自己這個階層染病率稍微低一些,他可能就不願意接種了。這樣就造成了對實驗結果的幹擾,你無法判斷到底是疫苗有效還是經濟原因導致的不同結果。

  然後是第四個方案。有人提出,只讓二年級的學生接種,而一年級和三年級學生不接種。之後再比較接種的跟不接種的學生之間的區別,看他們的發病率會不會有差別。這個方案是當時的一個脊髓灰質炎防治委員會提出的方案。這個方案同樣行不通,第一,它同樣無法避開接種孩子家庭貧富差距導致的患病概率差異。第二,脊髓灰質炎是一種傳染疾病,人群的年齡是對這種傳染有影響的,一、二、三年級的學生年齡層次有差別,可能就會導致各個年級學生得病概率的差異。此外這個方案還有第三個重大缺陷,那就是可能會對醫生形成心理上的誘導。如果按照這個方案執行下去,醫生們就是知道的,一、三年學生沒有接種疫苗,而二年級同學中有部分同學接種了疫苗。當時脊髓灰質炎的診斷還不太容易,如果醫生已經知道了這個疫苗接種方案,而且也提前知道這個疫苗在實驗室階段是管用的,那麼醫生在面對一年級學生時,一旦這個疾病還無法確診,那麼這個醫生就很可能根據「一年級學生沒有接種疫苗」「疫苗是有效的」這兩個提前的認知,就直接診斷這名一年級學生得了脊髓灰質炎。而且這種區別對待的方案,接種的學生本身心理也會受到影響的。

  當時還有第五個方案,也就是最終執行並被採納了調查結果的方案。這個方案具體來說,就是在徵得學生家長同意之後,仍舊會告訴家長:你即使同意接種疫苗,我給你家孩子接種的,也不一定是疫苗,而是一種看起來跟疫苗一模一樣的安慰劑,沒什麼副作用也沒有什麼效果。因為這個安慰劑跟疫苗長得一樣,所以醫生和學生都不知道到底接種的是疫苗還是普通的安慰劑,但是疫苗提供方是知道的,它對每一個藥品都加了編號,因此疫苗提供方知道哪些是安慰劑,哪些是疫苗。通過這樣的方式,實驗室實現了隨機的方式接種疫苗,而且無論家境好壞,這個接種疫苗都是隨機的。同時醫生們也不知道,到底是哪一些小孩接種了疫苗。這就規避了年齡、經濟條件等各種擾動,有助於確定脊髓灰質炎與疫苗之間真正的因果關係。

  1954年,這個實驗大約有74萬名小學生參與。最終的實驗結果是,如果接種疫苗,孩子罹患脊髓灰質炎的概率大約是十萬分之28,如果不接種疫苗,患病概率大約是十萬分之77,二者相差一倍多。之後又經過各種努力,脊髓灰質炎疫苗在美國獲得了通過。

  許多科學結論、政策評價都依賴於因果分析而不是相關分析。統計學能夠幫助我們證明那些我們所需要的因果關係。很多時候,真正的因果關係,不能簡單地建立在相關關係的基礎之上。還有很多科學問題,仍需要我們去發現真正的因果關係,這正是統計學可以提供數據收集以及分析方案的地方,也是統計學的魅力所在。

  《光明日報》( 2019年03月30日 10版)

[ 責編:徐皓 ]

相關焦點

  • 大數據下的「應用統計學」與「經濟統計學」,如何抉擇?
    應用統計學是研究現象總體數量關係的方法論科學,是對搜集得到的數據進行分析整理、從而得出所需要的有效信息的數學類學科,是理學門類統計學學科下的一個專業。應用統計學專業研究如何有針對性地收集、整理和分析大量的數據,研究數據變化所涵蓋的真正含義,把大量雜亂無章的數字轉化成圖表等更為直接和一目了然的記錄方式,由此發揮數據真正的價值。
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • 統計學專業未來從事大數據方向是否有優勢
    首先,統計學專業與大數據關係密切,在大數據時代,統計學專業也明顯受到了大數據的影響,在知識體系結構上也會進一步向大數據領域覆蓋,所以統計學專業的畢業生未來從事大數據方向是完全可以的,實際上這也是一個大的發展趨勢。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 大數據和新經濟時代背景下,新經濟統計學的機遇與挑戰
    一系列問題都向經濟統計學提出了挑戰。統計方法變了。例如,在局部範圍內,大數據具有總體的性質,如電商大數據。但把各個電商大數據整合在一起也不能代替整個行業的全面調查。如果把電商大數據視為樣本,它 又不具備隨機性,無法進行推斷。再如,非結構數據特徵是什麼、如何建模等等。大數據對統計方法的衝擊是顛覆性的。數據環境變了。
  • 大數據時代,統計學專題及常見問題 - CSDN
    機器學習 Machine Learning:提供數據分析的能力,機器學習是大數據時代必不可少的核心技術,道理很簡單:收集、存儲、傳輸、管理大數據的目的,是為了「利用」大數據,而如果沒有機器學習技術分析數據,則「利用」就無從談起。
  • 「超智·挖坑」簡單談談統計學
    有人說,人工智慧的基礎就是統計學。那麼,東方林語和超智星球一起,先給大家聊聊大數據和人工智慧的基礎——統計學。正文開始您好,我是超智星球的001號開荒者--喬。在選擇之前,你需要進行各種預先調查,而統計學就是其中的一門重要工具。消費者行為具有很強的不確定性。千萬別指望大數據能夠絕對準確地預測人的消費行為,這顯然是不可能的。去沃爾瑪購物之前,我信誓旦旦地說:「我要買可口可樂。」但是,等結帳出來,卻發現自己提著二鍋頭。你看,連我自己都無法絕對準確地預測自己,憑什麼你可以?憑什麼所謂的大數據可以?
  • 統計學:從數據入手 探尋事物內在規律
    大數據帶火統計學 在我國,統計最早的應用就是政府。政府要通過統計手段了解整個國家的基本運行狀況。例如,政府需要通過計算居民消費指數等手段來衡量物價水平、通貨膨脹水平;通過人口普查來了解人口結構,老齡化趨勢等等。政府運用統計和數據分析,為國家制定各種政策法規提供參考依據。
  • 如何看待家禽生物統計學和大數據
    收集和分析家禽生產數據,使其成為不同群體成功的助力。在2018年歐洲國際集約化畜牧展覽會(VIV Europe)上,大數據軟體商Porphyrio公司主辦了一場名為「服務於現代家禽生產的生物統計學和大數據」的研討會。
  • 交通、農業、金融等13大方向,數據科學與大數據技術專業怎麼選?
    【人工智慧】同是統計學專業,經濟金融、醫藥統計、數理統計等方向,該怎麼選【統計】交通土建、道路橋梁、市政工程等6大方向,土木工程專業,怎麼選【交通】未來的時代將不是IT時代,而是DT的時代。在2020年新冠疫情防控戰役中,健康通行碼、疫情實時追蹤、應檢測人員篩查、傳染模型……大數據技術的廣泛應用被官方媒體多次報導。
  • 讓大數據創造大價值(深入學習貫徹習近平新時代中國特色社會主義...
    這些突出問題是制約我國大數據發展的主要因素。目前,大數據發展正進入從概念推廣到應用落地的關鍵時期,科學認識大數據、增強對大數據發展規律的把握能力十分重要和必要。   準確把握大數據價值產生的規律   從根本上說,制約我國大數據發展的問題在很大程度上源於認識和思維層面,即源於對大數據的內涵、大數據價值產生的機理和規律認識不清。
  • 統計學是什麼?| 統計學七支柱
    統計學工作者除了角色眾多,還需要為了避免失誤、保持角色平衡而面對種種挑戰。這就難怪「統計學是什麼」的老問題,無論面對哪個時代的新挑戰,總會被重複提起。「統計學的挑戰」在19世紀30年代指經濟統計,在20世紀30年代指生物問題,而目前指定義模糊的「大數據」問題。統計學有各種各樣的問題、方法和解釋,那到底有沒有自己的核心科學呢?
  • 當統計學遇上大數據——P值消亡
    拉普拉斯        P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。2.
  • 提高數據分析的科學性與透明度,用統計學「反轉」中心法則
    加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個「宏科學」,儘管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對於從小對數學與科學有強烈興趣、並在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引
  • 數據的基石丨美國統計學專業排名一覽
    如今的社會,生活和工作的方方面面都離不開數據,各行各業也依賴數據。 舉個例子,今年的美國大選熱鬧吧,在大選之前,無論是川普的川粉,還是拜登的擁躉,都堅定地認為自己這一方會取得勝利,支持性論據就是——民調,而支撐民調結論準確性的基石就是統計學。
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 提高數據分析的科學性與透明度,UCLA統計學教授反轉中心法則
    加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個「宏科學」,儘管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對於從小對數學與科學有強烈興趣、並在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引
  • 讓數據像手術刀一樣重要——記第二軍醫大學衛生統計學教研室主任...
    這套「防暈操」的發明者叫賀佳,第二軍醫大學衛勤系衛生統計學教研室主任,剛剛榮獲上海市「三八紅旗手標兵」。賀佳多年來堅持走邊防、下海島,收集資料、分析數據。在東山島,她發現戰士出海訓練時暈船現象比較嚴重,於是一連數月與部隊一起登艦訓練,觀察官兵各種生理與心理反應,並詳細記錄每一個數據,最終根據格瑞貝爾評分的變化,篩選出降低暈動病發病率的最佳方案——藉助垂蕩式模擬訓練器,並輔以防暈心理訓練和防暈操訓練,有效降低了戰士的暈船率。    作為一名衛生統計學專家,賀佳的主要工作是跟各種數據打交道。
  • 溫州大學數據科學與大數據技術專業:數據創造價值
    網上購物不僅可以貨比三家還能獲知價格的歷史變化,人臉識別系統讓違法犯罪人員無處遁形,手機地圖可以幫你避開擁堵路段篩選最便捷的道路,抗疫期間健康碼確保你暢通無阻......這改變生活的一切,都離不開「大數據」的支持。  隨著大數據時代的到來,數據科學與大數據技術專業已經成為最熱門的新興專業。
  • 大數據思維養成從認識大數據的本質開始
    大數據思維養成從認識大數據的本質開始 發布時間: 2020-04-26 11:58:50   來源:  作者:   踐行數據的商業價值,理解大數據的本質,從哪裡開始?應該從認識不確定性開始。