大數據思維養成從認識大數據的本質開始

2021-01-08 中國電力網
大數據思維養成從認識大數據的本質開始 發布時間: 2020-04-26 11:58:50   來源:  作者:

  踐行數據的商業價值,理解大數據的本質,從哪裡開始?應該從認識不確定性開始。

  什麼是不確定性

  什麼是不確定性?打個比方,老王、老李做一個遊戲「猜花生米」。老王出一隻拳頭,讓老李猜裡面是空的還是抓了一粒花生米。這個事件對老王而言是確定性事件,因為老王自己有沒有抓花生米,他心知肚明。這個事件對猜拳的老李來說就是不確定性事件,因為老李無法對老王的猜拳決策做出絕對準確的預測。

  在實際生活中,不確定性事件廣泛存在。事實上,人生就是由一系列或大或小的不確定性事件構成的。婚姻選擇有著極大的不確定性。一對相愛的男女是否應該接受對方成為自己的終身伴侶,這是一個重大選擇。這個選擇的後果是什麼?是幸福的遠航,還是痛苦的開始?這有很大的不確定性。為了極小化這種不確定性,青年男女往往需要一場死去活來的戀愛,以便充分暴露雙方的優點和缺點,以減少未來婚姻中的不確定性。但是,無論你如何了解,這種不確定性仍然存在。

  世界到處都充滿了不確定性,那我們對未來的世界認識是不是不可知的?答案是否定的。世界上很多事情是難以用確定的公式或者規則來表示,但是這種不確定性並不是無規律可循,這個時候就需要用到統計學中的概率模型來描述。在概率論的基礎上,資訊理論鼻祖香農博士建立了一套完整的理論,將世界的不確定性和信息聯繫起來,這就是資訊理論,用來解釋不確定性的世界。

  信息可消除不確定性

  什麼是信息?在看《暗時間》時(推薦大家看看),裡面討論了一些資訊理論相關的內容,於是就嘗試搜索資訊理論和不確定性的關係,結果發現香農說了這麼一句話:「信息是用來消除不確定性的東西」。資訊理論的鼻祖果然是鼻祖,一句話解釋了信息。

  信息是否可以被度量?如何度量信息?1948年,香農提出了「信息熵」這個概念,解決了信息度量的問題。他指出,信息量與不確定性有關:假如我們需要搞清楚一件非常不確定的事情,或者我們一無所知的事情,就需要收集大量的信息。相反,如果我們對某件事已經有了較多的了解,那麼不需要太多的信息就能把它搞清楚。從這個角度來看,信息量的度量就是不確定性的多少。

  舉例說明,就拿網際網路廣告來說,在門戶網站上投放展示類的品牌廣告,點擊率是非常低的。因為對於受眾用戶,廣告投放時幾乎是隨機猜測用戶的需求,很不準確。而搜索廣告因為有用戶輸入的關鍵詞,準確率會大幅度提高,至於提高多少,取決於關鍵詞所提供的信息量。這就是搜索廣告所賺到的廣告費用要高出展示廣告兩個數量級。通過這個例子,也能說明,資訊時代,誰掌握了更多的信息,誰就掌握了更多財富的可能性。

  大數據與信息的關係

  了解大數據的人,都可能知道,大數據有5V特點,這是IBM提出來的:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。但從資訊理論的角度,大數據通常是具備三個主要特徵,數據量大,多樣性和完備性。

  1、大數據的體量足夠大

  大數據最明顯的特點就是體量大,這一點無論是內行還是外行都認可,沒什麼異議。我們國家僅僅北京的國家超級大數據中心,佔地面積就8萬平方米,包含9棟數據中心機房和1棟感知體驗中心。

  但是,過去由於數據量不夠,即使用了數據,依然不足以消除不確定性,因此數據的作用其實有限,很多人忽視它的重要性是必然的,數據的價值也就被嚴重低估。在那種情況下,哪個領域先積攢下足夠的數據,它的研究進展就顯得快一些。語音識別領域,就是因為早期積攢了大量的音頻數據,才可以捷足先登,第一批嘗到了數據驅動方法的甜頭。

  2、大數據的多維度足夠多

  眾所周知,Google的人工智慧已經走在了前沿,也是目前全球估值最高的公司。但是,無論是AlpahaGo、無人駕駛還是IT醫療公司Calico,都是建立在多維度的大數據基礎之上的。例如關於「食物」這個問題,Google會利用用戶輸入的信息,收集所有相關的信息。不僅涉及到食物的做法、吃法、成分、營養價值、價格、問題來源的地域和時間等維度。

  大數據的多維度,統計學中稱為相關性,資訊理論中稱為互信息。互信息,它在資訊理論中,實現了對信息相關性的度量。比如「央行調整利率」和「股市短期波動」的互信息很大,這就證實了兩者具備強相關性。第二個視角,交叉驗證。舉例說明,夏天的時候,「空氣溼度高」和「24小時內要下雨」之間的互信息比較大。也就是說空氣溼度高,24小時下雨的可能性比較大,但並不能說空氣溼度高就一定會在24小時內下雨。還需要結合氣壓信息,雲圖信息等其他緯度的信息,來交叉驗證「24小時內要下雨」這件事情,那麼預測的準確性要高的多。

  3、大數據的完備性

  要理解它,需要介紹資訊理論中的一個重要概念—交叉熵。它可以反映兩個信息源之間的一致性,或者兩種概率模型之間的一致性。當兩個數據源完全一致的時候,其交叉熵為0,當它們相差很大時,它們的交叉熵也很大。因此,所有數據驅動的方法,建立模型使用的數據和使用模型的數據需要有一致性。

  抽樣調查方式都是採用抽取有限的樣本進行統計,從而得出整體的趨勢。抽樣的核心原則是隨機性,不隨機就不能真實地反應整體的趨勢。但是要做到隨機性是很難的。例如電視收視率調查,要從不同階層隨機找被調查的人,但高學歷高收入的大忙人們普遍拒絕被調查,他們根本就不會因為幾個蠅頭小利而浪費時間,電視調查的結果就可想而知。

  所以,在過去,任何使用概率統計模型都會有很多小概率事件是覆蓋不到的。大數據時代以前,這是數據驅動方法的死穴。

  在大數據時代,在某個領域獲得數據的完備性還是有可能的,Google的機器翻譯系統就能很好的要利用大數據的完備性。通過數據學到了不同語言之間很長句子成分的對應,然後直接把一種語言翻譯成另一類,前提條件就是使用的數據必須是比較全面地覆蓋中文、英文,以及其他各種語言的所有句子,也就是說具備兩種語言之間翻譯的完備性。

  當數據的完備性具備了以後,就相當於訓練模型的數據集合和使用這個模型的測試集合是同一個集合,或者是高度重複的。這樣的數據驅動方法才是有效的。

  由此可見,大數據的科學基礎是資訊理論,它的本質就是利用信息消除不確定性。

  ——以上內容部分是源自於吳軍老師《智能時代》的讀書筆記。

相關焦點

  • 從哲學角度看問題:數據、大數據及其本質是什麼?
    在我國,從河北泥河灣先民打造石器,到安陽殷墟龜甲上刻畫的文字,都可以看作是某種「數據」,表達著人類對外部世界的某種認知。而面對著所有這些早期的承載數據的技術裝備,人們獲得對外部世界的某種最早的抽象認識。古代人先後發明過算籌、鬥和稱、漏刻、渾象儀、量角器等等,無不是用來產生認知外部世界的數據,人們也發明筆、紙張、雕版印刷術,也是用來記錄和生產數據。
  • 大數據的力量來自「大成智慧」資訊時代大數據的再認識 | 網際網路...
    1.2 從「資訊時代新階段」的高度認識「大數據」中國已開始進入資訊時代,但許多人的思想還停留在工業時代。經濟和科技工作中出現的許多問題,其根源是對時代的認識不到位。18-19世紀中國落後挨打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。
  • 怎樣形成生態環境大數據思維?
    政府、企業和社會在對生態環境大數據的採集、維護、共享、應用、公開等方面,也開展了廣泛的探索與研究,大數據有力支撐了汙染防治攻堅戰。在信息技術日益成為推進生態環境治理體系和治理能力現代化重要手段的時代,筆者認為,需要轉變以往的思維,真正形成生態環境大數據思維。  一是由過程因果思維轉變為數據相關思維。
  • 大數據教育應用的限度
    從認識論的角度看,大數據所提供的新視角、新方法的確有助於拓展原有的對教育的思考方式,進一步提升教育研究的能力和水平,但與此同時,也要看到大數據所展示的思維方式和以前的各種思維方式比並不是替代性的、萬能的,只是對原有認識方式的補充和豐富,仍然具有一定的限度。  大數據帶來的認識論轉變,其積極的一面是毋庸置疑的。
  • 《大數據時代》,一場生活、工作與思維的大變革
    大數據正把我們變成新的物種。首先,大數據改變了我們的思維方式,讓我們從因果關係的串聯思維變成了相關關係的並聯思維。第二,大數據改變了我們的生產方式,物質產品的生產退居次位,信息產品的加工將成為主要的生產活動。第三,大數據改變了我們的生活方式,我們的精神世界和物質世界都將構建在大數據之上。
  • 大數據分析關鍵的5個思維
    數據分析在網際網路公司的重要性不言而喻,隨著社會對數據分析人才需求量的增大,越來越多的人在朝數據分析的方向發展。但很多人談到數據分析時首先想到的是數據分析工具,如Python、SQL等,卻忽略了數據分析思維的培養。
  • 大數據應用於社會科學研究的價值與悖論
    目前,大數據廣泛應用在零售、電信、金融以及教育、醫療、交通等行業,並已經創造出了巨大的經濟價值,這些價值也正在轉化為人類了解世界甚至於認識自身的基礎信息,使社會科學的研究者擁有更為廣闊的視域。舍恩伯格的《大數據時代》無疑推動了當前的大數據浪潮,在作者看來,從思維的角度講大數據具有三大特徵:「一是基於總體而非樣本的思維,二是擁抱混雜性而非精確性,三是著眼於相關性而非因果性」。這三點也是社會科學研究經常引用的「座右銘」,而對於這一具有革命性的論斷,從當前的研究來看,已經引發了一系列的爭議。我們發現在一些社會科學研究邏輯的基礎性問題上,大數據存在著若干悖論。
  • 大數據時代下審時度勢 雍堯會的風控思維
    大數據近年來因網際網路和信息行業,再度躍升為炙手可熱話題。數據時代降臨,改變人們固有的生活模式。在網際網路金融行業中,大數據已然成為一項站在頂峰的指標。為提升自身企業風險控制能力,加深對大數據風控的認識與理解、提升風控效能、降低金融服務成本、促進行業創新規範發展,雍堯會與各大數據風控領域專家積極參與網際網路金融協會舉辦的大數據風控專題培訓會,同各企業領導進行一連串風險控制方面的參透與探討。  現今社會,企業廣泛利用大數據進行各項指標發展,不斷開拓業務、創新運營模式。
  • 微軟高管:大數據時代需要計算思維
    周以真博士因提出並倡導「計算思維」而享譽計算機科學界。計算思維是一種運用計算機科學的基本概念解決問題、設計系統以及理解人類行為的思維方式。「像計算科學家一樣思考。」周以真說。關於這一問題,她有個有趣的比喻:如果我們需要煮飯、做菜和炒肉,又不希望飯還沒好時,菜已經涼了。那麼用計算思維來看這個問題就是:有三個不同任務,都需要時間和資源才能完成。
  • 從數據到哲學,漫談表象生活背後的思維世界
    未來人工智慧將發揮更大作用,而打破數據孤島是關鍵。因為數據就是資源,是我們認識世界的來源。數據的智能讓我們預見了未來的無限發展,大數據與人工智慧深度融合帶來的美好前景,讓人有理由相信作為人工發展基石的數據是這個時代不可或缺的組成。對數據及其帶來的變革,其實在早些年前就被奧地利數據科學家舍恩伯格洞察到了。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • #長文慎入#大數據思維的十大原理:當樣本數量足夠大時,你會發現...
    他們在全球各大網站上搜集數以十億計的數據,然後幫助數以十萬計的用戶省錢,為他們的採購找到最好的時間,降低交易成本,為終端的消費者帶去更多價值。在這類模式下,儘管一些零售商的利潤會進一步受擠壓,但從商業本質上來講,可以把錢更多地放回到消費者的口袋裡,讓購物變得更理性,這是依靠大數據催生出的一項全新產業。
  • 大數據信息分析的方法與工具
    導讀 越來越多的應用涉及到大數據,不幸的是所有大數據的屬性,包括數量、速度、多樣性等等都是描述了資料庫不斷增長的複雜性。
  • 大數據時代的大數據技術與應用有哪些.
    大數據給網際網路帶來的是空前的信息大爆炸,它不僅改變了網際網路的數據應用模式,還將深深影響著人們的生產生活。深處在大數據時代中的人們,已經認識到大數據已經將數據分析的認識從「向後分析」變成「向前分析」,改變了人們的思維模式,但同時大數據也向我們提出了數據採集、分析和使用等難題。
  • 陳潤生院士:精準醫學本質是組學大數據與醫學的結合
    陳院士相信,從現在開始,每個人都有希望拿到自己的遺傳密碼,這是當前劃時代的科學進展的背景。以下為陳潤生院士的演講整理:一 精準醫學的核心是什麼?精準醫學的本質是什麼東西?我的理解是,就是組學大數據與醫學的結合。實際上很簡單,大家知道,近代生物醫學革命性的變化就是得到了以遺傳密碼為基礎的大數據。
  • 數據科學研究的現狀與趨勢全解 - 大數據_CIO時代網 - CIO時代—新...
    首先,本文探討了數據科學的內涵、發展簡史、學科地位及知識體系等基本問題,並提出了專業數據科學與專業中的數據科學之間的區別與聯繫;其次,分析現階段數據科學的研究特點,並分別提出了專業數據科學、專業中的數據科學及大數據生態系統中的相對熱門話題;接著,探討了數據科學研究中的10個爭議及挑戰:思維模式的轉變(知識範式還是數據範式)、對數據的認識(主動屬性還是被動屬性)、對智能的認識(更好的算法還是更多的數據
  • 五分鐘解讀「大數據」:一種全新的思維方式和商業模式
    更進一步來說,大數據是一種全新的思維方式和商業模式。 大數據的價值 剛才說到價值密度,也就說到了大數據的核心本質,那就是價值。 人類提出大數據、研究大數據的主要目的,就是為了挖掘大數據裡面的價值。 大數據,究竟有什麼價值?
  • 讓大數據創造大價值(深入學習貫徹習近平新時代中國特色社會主義...
    這些突出問題是制約我國大數據發展的主要因素。目前,大數據發展正進入從概念推廣到應用落地的關鍵時期,科學認識大數據、增強對大數據發展規律的把握能力十分重要和必要。   準確把握大數據價值產生的規律   從根本上說,制約我國大數據發展的問題在很大程度上源於認識和思維層面,即源於對大數據的內涵、大數據價值產生的機理和規律認識不清。
  • 空間思維與數據視覺化
    哈佛大學選的時機實在太差。就在它取消了地理系後不久,該學科經歷了一場計量和計算革命,最終產生了像谷歌地圖和GPS等創新產物。70年後,我們依然在為美國大學缺乏的空間思維買單。現在能夠幫助學習者提高空間思維能力的課程很少,其中地圖和視覺化是提高該能力最核心的手段。我們面臨的問題很簡單:現在知道如何製作地圖或者處理空間數據集的人太少。
  • 大數據時代,數據分析師的報考條件是什麼?
    隨著網際網路的迅速發展,人已經進入大數據時代,在大數據時代,數據分析、數據挖掘工作面臨著機遇與挑戰,特別是近幾年,大數據已逐漸走進商業、政府、科研、教育、醫療等各行業。同時,也給商業、政府、科研、教育、醫療等各行業帶來了不小的危機感。