數據科學邊界:數據不能解決什麼?

2021-01-12 人人都是產品經理

我們現在已經走過了很久的歷程,終於完成了這個系列的寫作,今天是我們的收官之作,我們聊點輕鬆的,今天沒有公式,沒有代碼。

如何構建學科體系數據世界觀數據分析整體框架問題分析/數據預處理/數據預分析數據分析核心:建模模型空間概述數據科學邊界(這篇文章)……

數據科學 = 數學/統計學 + 科學方法論 + 計算機 (+ 業務經驗)

我們在剛剛接觸一個新奇的事物的時候,總有一種衝動:這種東西可以改變全宇宙。

比如:我們剛接觸區塊鏈的時候,啊,區塊鏈就要改變全宇宙了。其實區塊鏈也只是一種去中心化的分布式的資料庫技術而已,當我們問區塊鏈什麼時候可以改變世界的時候,其實再問一種資料庫技術什麼時候改變世界?

科學剛誕生的時候,人類世界開始了去魅的過程,越來愈多的事情被證偽,被科學拉下神壇,正當科學家們躊躇滿志的時候,馬克韋伯在一篇題為<作為學術的志業>的演講中說:我們這個時代必定是分裂的一代,一方面科學告訴我們事實是什麼,卻無法告訴我們什麼是善良,什麼是美。

短短的一句話終結了科學萬能的神話,我們剛接觸數據科學的時候,也覺得這是個數據入侵一切的世界,今天我們就來看看數據科學不能解決什麼?

科學的邊界:無法測量的對象,無法研究

這裡先補充一點測量學的基礎知識,我們如何測量一個研究對象呢?

測量主要考慮的倆個因素:效度和信度。

信度是指其可信度,既是在多大程度上是正確的(數據測量的穩定性);效度是指能夠多有效的表示所需表達的含義(映射的準確性)。舉個慄子:以一份量表(測量智力,記憶力之類的標準化試卷)為例,其信度就是指同一個人在幾次參加同一份試卷的考試(假設此人並未有改變)分數不會有大的差異,而效度是指這份試卷能勾多大程度測量你的智力水平。再如:用一把尺子來量一個人的體重,其信度是有的,但是沒有效度。如果一個事物具有效度,那一定具有信度,反之則不然。

現實中,我們不一定可以找到有效測量對象的指標或者參照,即使找到了也不一定可以保證測量的穩定性。

舉個慄子:科學是如何研究潛意識的,目前科學達到的最高的水平,也只是通過特定腦區的腦電波變化來反映潛意識。首先這個測量的效度就很低,腦電波變化如何能反映潛意識呢?同一潛意識活動如何穩定的被測量?

科學的邊界:價值類問題 無法有效研究

關於這部分的論述,前人已經做了精彩的論述,我援引韋伯在<學術與政治>中的論述。韋伯在書中談到的一個重點,是真善美統一性的瓦解。學術知識的目標是求真,發現自然世界與人類社會的事實真相。

在西方傳統的觀念中,真善美是一個和諧整體,發現了事實真相就能確立倫理的標準,由此分辨好壞對錯,而且還能確定美的本質,從而得以鑑別美與醜。但是現代學術的發展表明,真是一種事實判斷,而善或美都是價值判斷,三者背後沒有統一的依據。

如果一名學者在「表達自己的價值判斷,那麼他對事實理解的完整性就終結了」。這意味著韋伯認同英國哲學家休謨的觀點,事實與價值屬於兩種不同的問題領域,前者是「實然」問題,關乎「實際上是什麼」,而後者是「應然問題,判斷「應當是什麼」,實然與應然之間沒有邏輯的統一性。

比如:今天我穿了件藍色的上衣,這是一個事實陳述,大概不會有異議,假如你說這是綠色的,那麼你要麼是故意胡說,要麼就是「色盲」。我們可以用儀器來測量衣服的「波長」,用數據證明這是物理學定義的「藍色」。

但還有另一種說法,說這種藍色「特別好看」,這就不是事實陳述,而是在做價值判斷了。 要是有人提出不同的判斷,堅持說這種藍色難看極了,你很難用同樣客觀有力的證據來反駁。

這個簡單的例子告訴我們兩個道理:

第一,美和真屬於不同的領域,沒有統一的判斷依據;第二,事實判斷具有客觀性,在原則上可以通過證據和理性辯論讓大家達成一致,而價值判斷具有很強的主觀色彩,理性辯論無法保證能解決爭議,達成共識。

計算機的邊界:圖靈機限制/摩爾定律限制/資訊理論假設

關機計算機的極限主要來自這幾個方面:

圖靈機的極限:圖靈機僅僅可以計算一部分問題,而圖靈機是今天計算機的原型.圖靈機無法計算一類讓自己無法停機的問題。香農資訊理論基本假設:計算機無法隨機,無法表示無理數。摩爾定律隨著晶片體積縮小而失效:摩爾定律是由英特爾(Intel)創始人之一戈登·摩爾(Gordon Moore)提出來的。其內容為:當價格不變時,集成電路上可容納的元器件的數目,約每隔18-24個月便會增加一倍,性能也將提升一倍。

換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上,這一定律揭示了信息技術進步的速度。 儘管這種趨勢已經持續了超過半個世紀,摩爾定律仍應該被認為是觀測或推測,而不是一個物理或自然法。

預計定律將持續到至少2015年或2020年。然而,2010年國際半導體技術發展路線圖的更新增長已經放緩在2013年年底,之後的時間裡電晶體數量密度預計只會每三年翻一番。

數學的邊界:哥德爾不完備性

1900年的巴黎,在世紀交替之際,希爾伯特提出了他著名的23個問題。其中第二個問題——算術系統的相容性——正是他那雄心勃勃的「希爾伯特計劃」的最後一步。這位數學界的巨人,打算讓整個數學體系矗立在一個堅實的地基上,一勞永逸地解決所有關於對數學可靠性的種種疑問。

一切都為了回答三個問題:

數學是完備的嗎?也就是說,面對那些正確的數學陳述,我們是否總能找出一個證明?數學真理是否總能被證明?數學是一致的嗎?也就是說,數學是否前後一致,不會得出某個數學陳述又對又不對的結論?數學是否沒有內部矛盾?數學是可判定的嗎?也就是說,能夠找到一種方法,僅僅通過機械化的計算,就能判定某個數學陳述是對是錯?數學證明能否機械化?希爾伯特明確提出這三個問題時,已是28年後的1928年。在這28年間,數學界在算術系統的相容性上沒有多少進展。但希爾伯特沒有等太久,僅僅三年後,哥德爾就得到了前兩個問題的答案,儘管這個答案不是希爾伯特所希望看到的。

哥德爾的答案分兩部分:

第一,任何包含了算術的數學系統都不可能同時擁有完備性和一致性,也就是說,如果一個數學系統包含了算術的話,要麼它是自相矛盾的,要麼存在一些命題,它們是真的,但我們卻無法證明。這說明,希爾伯特的前兩個問題不可能同時為真。在這裡,「算術」有著精確的含義,就是皮亞諾公理,一組描述了自然數的公理。第二,任何包含了算術的數學系統,如果它是一致的,那麼我們不能在它的內部證明它本身的一致性。這說明,我們沒有希望解決第二個問題。這就是著名的哥德爾不完備性定理,與其說它回答了希爾伯特的前兩個問題,不如說它闡述了為什麼我們根本不可能解決這兩個問題。

哥德爾給出了數學的極限:在數學的領地上,有些東西我們不知道,也不可能知道。

尷尬的是,這就給數學家們心頭壓上了一塊大石:誰也不知道自己辛辛苦苦做了十幾年的題目,會不會突然有一天被證明是在現有數學體系中不可判定的。

測量的邊界:任何測量都有必然誤差

現實世界的對象其實無窮維度的,而測量的本質是有限維度的映射,這些有限維度的選擇本身就帶有必然的主觀色彩,我們獲得了一些我們想要的知識,也一定忽略了很多信息。

因果性和相關性的鴻溝

在大家的意識中,因果關係是相關性正好等於100%,如果A發生,那麼B一定發生,就是相關係數等於1。 假如我和你都是小學生,你和我肯定都在長個子,那麼你長高,我也長高,在這5年之內,你長高我也長高的相關性是1。

大家都知道,因為我和你還在成長期。不是你長高,我也長高。或許,你現在看到這裡覺得很可笑,這不是誰都知道嗎。但是生活中,各種事情在我們的生活中存在很多,只是我們沒有意識到,還有這些事情沒有威脅我們的生存。

對因果關係,最前沿的定義是這樣的:

認知科學家珀爾給了一個這樣的定義:P(Y | do(X)) > P(Y),也就是說,如果你單方面對 X 做一個幹預動作,導致 Y 的概率增加,那麼就是 X 導致了 Y,這個可能是目前為止最合理的定義。

總結

接下來,我們總結一下數據科學的邊界:

世界上有很多問題,其中只有一小部分是數學問題。 在數學問題中,只有一小部分是有解的。在有解的問題中,只有一部分是理想狀態的圖靈機可以解決的。在後一類的問題中,又只有一部分是今天實際的計算機可以解決的,而人工智慧可以解決的問題,又只是計算機可以解決問題的一部分,而數據科學只是這些學科的一個交叉而已。

科學沒有解決了所有問題,但是開啟了一個去魅的時代,我們更加看清了一些世界的真相。數據也不能解決所有問題,但是卻把天使帶到了人間,使普通人也能夠調用一代代偉人的智慧。

反思

整個過程可以概括為嘗試在一個工程學科建立像數學一樣的演繹體系,這可能是個失敗的,但對自己來說,也算是一個偉大的失敗。

雖然整個過程寫的我自己嘔心瀝血,耗盡心力,但其實並文章本身沒有為了人類的知識體系做出任何補丁和貢獻。

寫作的過程是一個不斷探索本質的過程,寫作的過程不斷逼迫自己去思考,去建立概念之間的聯繫,逼迫自己搞清楚以前模糊的概念,可能這樣的寫作對自己一個人的意義遠遠大於對其他人。

這個過程中也在反思,學習知識,我們到底是皓首窮經的究根問底,還是拿來主義就好?

現在想到的一個折中方案是:

不能一直究根問底,畢竟我們的時間精力有限,任何學科的任何一個分支都有可能窮盡我們一生的精力;在調用他人研究成果時 至少需要知道成果中概念的準確含義,成果的假設,成果的結論,結論的限定,其他團體對結果的評價。當然折中方案的基礎是,當要解決具體問題時,我們的信息源要足夠的高質量,人文方面主要看大師,看人類社會公認的經典之作,科學方面圍繞SCI等核心期刊和科學共同體公認的教材,配合一定的綜述性文獻。

至此我們可以區分出來,作為消費內容的寫作,作為人類知識延續和傳播的寫作,作為自我反思的寫作,之間的區別。

這段時間的寫作告一段落,謝謝大家。

本文由 @小祁愛數據 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 數據科學二三事
    導 語 如今數字業務蓬勃發展,在無所不在且多樣化的數據源中持續生成海量數據。各行業機構面臨著數字資源挖掘和數據資產變現的新調整,如何通過數據發掘新商機,基於數據解決新問題,破解未查覺的潛在問題,那麼就需要藉助「數據科學」來實現。
  • OriginPro:如何獲取Contour圖的自定義邊界【數據繪圖】
    感謝QQ好友武理-黃**提供的示例數據! 對於等高線圖(),其邊界默認是根據源數據經過計算後得到的,往往不是實際需要的邊界。比如下面這個例子,美國一月份的平均氣溫分布圖。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    然而,儘管人們對數據科學的工作越來越感興趣,但並不知道如何從事這個職業。因此應該了解數據科學的職業生涯,這其中包括了解不同數據流程之間的差異。一些行業網站和大學正在提供有關數據科學的學習課程。然而,對於初學者來說,他們對於如何入門以及如何選擇有效的路徑並不總是很清楚。因為數據技術領域中一些相似的領域存在顯著的差異。
  • 數據科學中各職業都在做什麼?有什麼區別? | 網際網路數據資訊網-199...
    如果你在考慮從事數據科學的工作,可能會覺得這個領域有點令人困惑!什麼是數據科學家?數據分析師和數據科學家之間有什麼區別?機器學習工程師做什麼?那麼數據工程師、商業智能( BI )工程師和機器學習( ML )研究員呢?在這篇文章中,我們將描述數據科學中的不同角色,解釋他們的定義以及差異。我們還將為每個角色建立一個「理想能力畫像」。
  • 數據科學研究的現狀與趨勢全解
    數據科學的「基礎理論」在數據科學的研究邊界之內,而其「理論基礎」在數據科學的研究邊界之外,是數據科學的理論依據和來源。  數據加工(Data Wrangling 或Data Munging):數據科學中關注的新問題之一。
  • 地震科學數據資源概況是什麼?
    地震科學數據按照其獲取途徑可以劃分為五大類:觀測數據。包括:地震、地磁、重力、地形變、地電、地下流體、強震動、現今地殼運動等觀測數據。這是地震科學數據中數量最大的一類數據。探測數據。包括:人工地震、大地電磁、地震流動臺陣等數據。調查數據。包括:地震地質、地震災害、地震現場科考、工程震害、震害預測、地震遙感等數據。實驗數據。
  • 數據科學50人·吳明輝:用數學思維,打破數據悖論
    也許接下來你所聽到的觀點,可能與傳統的數據故事有點「不一樣」,但是如果你了解吳明輝,了解了他對數據的看法,我想,你對於數據科學的認知,也會有點「不一樣」的改變。▍流動,才是悖論的最優解「我覺得數據和生意這兩個事從概念上就是矛盾的,數據是解決信息不對稱的,生意本質是什麼?是利用信息的不對稱。」
  • 2019醫療大數據Datathon:打破學科邊界,獲得跨越式成長
    在本屆Datathon的會前培訓上,解放軍總醫院醫學工程保障中心副主任——張政波為與會者分享了Datathon活動的相關情況,以下為詳細內容:Datathon活動由來與價值:跨專業合作開展醫療大數據應用研究大數據和人工智慧時代已經來臨,數據成為一種重要的生產力要素,數據密集型科學成為一種新的研究範式
  • 數據科學的Python軟體包
    數據科學和機器學習是這個時代的兩項苛刻技術,而Python在這兩個領域的表現要好於優。除Python之外,R是數據科學項目中經常使用的另一種程式語言。R更快,並且包含更多的計算和統計庫;但是,在本文中,我們僅介紹了頂級Python數據科學庫,如果您想掌握數據科學,則應該了解這些庫。數據科學導論目前,業務數據已變得與金錢一樣有價值。
  • 數據科學研究的現狀與趨勢全解 - 大數據_CIO時代網 - CIO時代—新...
    數據科學的「基礎理論」在數據科學的研究邊界之內,而其「理論基礎」在數據科學的研究邊界之外,是數據科學的理論依據和來源。  數據加工(Data Wrangling 或Data Munging):數據科學中關注的新問題之一。
  • 數據科學不僅僅是數據:培養業務知識和關係
    來源:CPDA數據分析師網 / 作者:數據君 / 從硬科學到數據科學 通過臨時代理機構在所有地方開始工作,當我離開學術研究並搬到波士頓時,我去了一家臨時公司,並在一家直銷公司找到了流通分析師,我利用這段經驗轉到了一家金融服務公司
  • 數據分析學習:入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • 如何全面解析數據並創造數據故事 | 網際網路數據資訊網-199IT |...
    在數據驅動操作中,它經常被忽視,因為我們認為這只是一項微不足道的任務。我們沒有意識到的是,再好的故事,如果沒有很好地呈現出來,也終究毫無用處!在一些公司中,分析任何事件的第一步是將故事載入其中。提問如,為什麼我們要分析它?我們能從中作出什麼決定?有時,單憑數據就可以講述一些直觀或複雜的故事,我們就不需要再運行複雜的相關性來證實了。
  • 張文宏又說大實話:不能迷信數據,要發揮人...
    7月9日,在和前微軟高管沈向洋等科學家的論壇討論中,張文宏就曾感慨:「人工智慧如果在去年12月初就看到了大量肺部CT圖片,數據會提出警報。」在今早戰「疫」雙俠高峰對話中,張文宏再一次提出,「要給人工智慧定邊界,什麼該做,什麼不該做。」
  • 地學系宮鵬研究組發布多時相高解析度全球城市邊界數據集
    global artificial impervious area (GAIA) data)的論文,對外發布了全球1990、1995、2000、2005、2010、2015和2018年的全球城市邊界數據集。
  • 大數據時代,數據分析師的報考條件是什麼?
    那麼什麼是大數據,大數據時代,數據分析師的報考條件是什麼呢?大數據時代什麼是大數據?圍繞數據,人類已經做了很多數據科學的研究和應用工作,其中最為基礎的就是數據的存儲、傳輸。數據的價值在於數據上承載的信息,信息的價值在於消除不確定性的成本及其直接和間接的作用,而這一系列的價值使得我們對數據的價值予以空前的重視。什麼是數據分析師?
  • 宇宙有邊界麼?宇宙邊界之外又是什麼?
    不過這也算是我們人類對於宇宙邊界的一次很深刻的探討。隨著科學理論和觀測設備水平的提高,我們知道真空的光速是恆定的,宇宙誕生於138.2億年前,宇宙還是膨脹的,很多光其實還來不及到達地球。所以,關於宇宙是不是有邊界這個問題,我們似乎又回到了原點。
  • 數據科學很性感?不,其實它非常枯燥
    如此,導致數據科學工作的離職率非常高。本文作者將告訴大家自己如何應對「數據科學中那些枯燥的工作」。希望能夠對你有所幫助,讓你對數據科學有一個正確的認識,讓你在決定走上數據科學的徵途時,好好享受這場漫長的遊戲!第一課我的表弟Shawn是個年輕英俊的小夥,最近他來了加拿大攻讀計算機碩士學位。
  • 數據挖掘主要解決的四類問題
    數據挖掘主要解決的四類問題數據挖掘非常清晰的界定了它所能解決的幾類問題。這是一個高度的歸納,數據挖掘的應用就是把這幾類問題演繹的一個過程。解決這類問題的一個大前提就是通過歷史數據的收集,已經明確知道了某些用戶的分類結果,如已經收集到了10000個用戶的分類結果,其中7000個是屬於「1」這類;3000個屬於「0」這類。伴隨著收集到分類結果的同時,還收集了這10000個用戶的若干特徵(指標、變量)。這樣的數據集一般在數據挖掘中被稱為訓練集,顧名思義,分類預測的規則就是通過這個數據集訓練出來的。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘是一個多學科交叉領域,涉及神經網絡、遺傳算法、回歸、統計分析、機器學習、聚類分析、特異群分析等,開發挖掘大型海量和多維數據集的算法和系統,開發合適的隱私和安全模式,提高數據系統的使用簡便性。   數據挖掘與傳統意義上的統計學不同。統計學推斷是假設驅動的,即形成假設並在數據基礎上驗證他;數據挖掘是數據驅動的,即自動地從數據中提取模式和假設。