我們現在已經走過了很久的歷程,終於完成了這個系列的寫作,今天是我們的收官之作,我們聊點輕鬆的,今天沒有公式,沒有代碼。
如何構建學科體系數據世界觀數據分析整體框架問題分析/數據預處理/數據預分析數據分析核心:建模模型空間概述數據科學邊界(這篇文章)……
數據科學 = 數學/統計學 + 科學方法論 + 計算機 (+ 業務經驗)
我們在剛剛接觸一個新奇的事物的時候,總有一種衝動:這種東西可以改變全宇宙。
比如:我們剛接觸區塊鏈的時候,啊,區塊鏈就要改變全宇宙了。其實區塊鏈也只是一種去中心化的分布式的資料庫技術而已,當我們問區塊鏈什麼時候可以改變世界的時候,其實再問一種資料庫技術什麼時候改變世界?
科學剛誕生的時候,人類世界開始了去魅的過程,越來愈多的事情被證偽,被科學拉下神壇,正當科學家們躊躇滿志的時候,馬克韋伯在一篇題為<作為學術的志業>的演講中說:我們這個時代必定是分裂的一代,一方面科學告訴我們事實是什麼,卻無法告訴我們什麼是善良,什麼是美。
短短的一句話終結了科學萬能的神話,我們剛接觸數據科學的時候,也覺得這是個數據入侵一切的世界,今天我們就來看看數據科學不能解決什麼?
科學的邊界:無法測量的對象,無法研究
這裡先補充一點測量學的基礎知識,我們如何測量一個研究對象呢?
測量主要考慮的倆個因素:效度和信度。
信度是指其可信度,既是在多大程度上是正確的(數據測量的穩定性);效度是指能夠多有效的表示所需表達的含義(映射的準確性)。舉個慄子:以一份量表(測量智力,記憶力之類的標準化試卷)為例,其信度就是指同一個人在幾次參加同一份試卷的考試(假設此人並未有改變)分數不會有大的差異,而效度是指這份試卷能勾多大程度測量你的智力水平。再如:用一把尺子來量一個人的體重,其信度是有的,但是沒有效度。如果一個事物具有效度,那一定具有信度,反之則不然。
現實中,我們不一定可以找到有效測量對象的指標或者參照,即使找到了也不一定可以保證測量的穩定性。
舉個慄子:科學是如何研究潛意識的,目前科學達到的最高的水平,也只是通過特定腦區的腦電波變化來反映潛意識。首先這個測量的效度就很低,腦電波變化如何能反映潛意識呢?同一潛意識活動如何穩定的被測量?
科學的邊界:價值類問題 無法有效研究
關於這部分的論述,前人已經做了精彩的論述,我援引韋伯在<學術與政治>中的論述。韋伯在書中談到的一個重點,是真善美統一性的瓦解。學術知識的目標是求真,發現自然世界與人類社會的事實真相。
在西方傳統的觀念中,真善美是一個和諧整體,發現了事實真相就能確立倫理的標準,由此分辨好壞對錯,而且還能確定美的本質,從而得以鑑別美與醜。但是現代學術的發展表明,真是一種事實判斷,而善或美都是價值判斷,三者背後沒有統一的依據。
如果一名學者在「表達自己的價值判斷,那麼他對事實理解的完整性就終結了」。這意味著韋伯認同英國哲學家休謨的觀點,事實與價值屬於兩種不同的問題領域,前者是「實然」問題,關乎「實際上是什麼」,而後者是「應然問題,判斷「應當是什麼」,實然與應然之間沒有邏輯的統一性。
比如:今天我穿了件藍色的上衣,這是一個事實陳述,大概不會有異議,假如你說這是綠色的,那麼你要麼是故意胡說,要麼就是「色盲」。我們可以用儀器來測量衣服的「波長」,用數據證明這是物理學定義的「藍色」。
但還有另一種說法,說這種藍色「特別好看」,這就不是事實陳述,而是在做價值判斷了。 要是有人提出不同的判斷,堅持說這種藍色難看極了,你很難用同樣客觀有力的證據來反駁。
這個簡單的例子告訴我們兩個道理:
第一,美和真屬於不同的領域,沒有統一的判斷依據;第二,事實判斷具有客觀性,在原則上可以通過證據和理性辯論讓大家達成一致,而價值判斷具有很強的主觀色彩,理性辯論無法保證能解決爭議,達成共識。
計算機的邊界:圖靈機限制/摩爾定律限制/資訊理論假設
關機計算機的極限主要來自這幾個方面:
圖靈機的極限:圖靈機僅僅可以計算一部分問題,而圖靈機是今天計算機的原型.圖靈機無法計算一類讓自己無法停機的問題。香農資訊理論基本假設:計算機無法隨機,無法表示無理數。摩爾定律隨著晶片體積縮小而失效:摩爾定律是由英特爾(Intel)創始人之一戈登·摩爾(Gordon Moore)提出來的。其內容為:當價格不變時,集成電路上可容納的元器件的數目,約每隔18-24個月便會增加一倍,性能也將提升一倍。
換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上,這一定律揭示了信息技術進步的速度。 儘管這種趨勢已經持續了超過半個世紀,摩爾定律仍應該被認為是觀測或推測,而不是一個物理或自然法。
預計定律將持續到至少2015年或2020年。然而,2010年國際半導體技術發展路線圖的更新增長已經放緩在2013年年底,之後的時間裡電晶體數量密度預計只會每三年翻一番。
數學的邊界:哥德爾不完備性
1900年的巴黎,在世紀交替之際,希爾伯特提出了他著名的23個問題。其中第二個問題——算術系統的相容性——正是他那雄心勃勃的「希爾伯特計劃」的最後一步。這位數學界的巨人,打算讓整個數學體系矗立在一個堅實的地基上,一勞永逸地解決所有關於對數學可靠性的種種疑問。
一切都為了回答三個問題:
數學是完備的嗎?也就是說,面對那些正確的數學陳述,我們是否總能找出一個證明?數學真理是否總能被證明?數學是一致的嗎?也就是說,數學是否前後一致,不會得出某個數學陳述又對又不對的結論?數學是否沒有內部矛盾?數學是可判定的嗎?也就是說,能夠找到一種方法,僅僅通過機械化的計算,就能判定某個數學陳述是對是錯?數學證明能否機械化?希爾伯特明確提出這三個問題時,已是28年後的1928年。在這28年間,數學界在算術系統的相容性上沒有多少進展。但希爾伯特沒有等太久,僅僅三年後,哥德爾就得到了前兩個問題的答案,儘管這個答案不是希爾伯特所希望看到的。
哥德爾的答案分兩部分:
第一,任何包含了算術的數學系統都不可能同時擁有完備性和一致性,也就是說,如果一個數學系統包含了算術的話,要麼它是自相矛盾的,要麼存在一些命題,它們是真的,但我們卻無法證明。這說明,希爾伯特的前兩個問題不可能同時為真。在這裡,「算術」有著精確的含義,就是皮亞諾公理,一組描述了自然數的公理。第二,任何包含了算術的數學系統,如果它是一致的,那麼我們不能在它的內部證明它本身的一致性。這說明,我們沒有希望解決第二個問題。這就是著名的哥德爾不完備性定理,與其說它回答了希爾伯特的前兩個問題,不如說它闡述了為什麼我們根本不可能解決這兩個問題。
哥德爾給出了數學的極限:在數學的領地上,有些東西我們不知道,也不可能知道。
尷尬的是,這就給數學家們心頭壓上了一塊大石:誰也不知道自己辛辛苦苦做了十幾年的題目,會不會突然有一天被證明是在現有數學體系中不可判定的。
測量的邊界:任何測量都有必然誤差
現實世界的對象其實無窮維度的,而測量的本質是有限維度的映射,這些有限維度的選擇本身就帶有必然的主觀色彩,我們獲得了一些我們想要的知識,也一定忽略了很多信息。
因果性和相關性的鴻溝
在大家的意識中,因果關係是相關性正好等於100%,如果A發生,那麼B一定發生,就是相關係數等於1。 假如我和你都是小學生,你和我肯定都在長個子,那麼你長高,我也長高,在這5年之內,你長高我也長高的相關性是1。
大家都知道,因為我和你還在成長期。不是你長高,我也長高。或許,你現在看到這裡覺得很可笑,這不是誰都知道嗎。但是生活中,各種事情在我們的生活中存在很多,只是我們沒有意識到,還有這些事情沒有威脅我們的生存。
對因果關係,最前沿的定義是這樣的:
認知科學家珀爾給了一個這樣的定義:P(Y | do(X)) > P(Y),也就是說,如果你單方面對 X 做一個幹預動作,導致 Y 的概率增加,那麼就是 X 導致了 Y,這個可能是目前為止最合理的定義。
總結
接下來,我們總結一下數據科學的邊界:
世界上有很多問題,其中只有一小部分是數學問題。 在數學問題中,只有一小部分是有解的。在有解的問題中,只有一部分是理想狀態的圖靈機可以解決的。在後一類的問題中,又只有一部分是今天實際的計算機可以解決的,而人工智慧可以解決的問題,又只是計算機可以解決問題的一部分,而數據科學只是這些學科的一個交叉而已。
科學沒有解決了所有問題,但是開啟了一個去魅的時代,我們更加看清了一些世界的真相。數據也不能解決所有問題,但是卻把天使帶到了人間,使普通人也能夠調用一代代偉人的智慧。
反思
整個過程可以概括為嘗試在一個工程學科建立像數學一樣的演繹體系,這可能是個失敗的,但對自己來說,也算是一個偉大的失敗。
雖然整個過程寫的我自己嘔心瀝血,耗盡心力,但其實並文章本身沒有為了人類的知識體系做出任何補丁和貢獻。
寫作的過程是一個不斷探索本質的過程,寫作的過程不斷逼迫自己去思考,去建立概念之間的聯繫,逼迫自己搞清楚以前模糊的概念,可能這樣的寫作對自己一個人的意義遠遠大於對其他人。
這個過程中也在反思,學習知識,我們到底是皓首窮經的究根問底,還是拿來主義就好?
現在想到的一個折中方案是:
不能一直究根問底,畢竟我們的時間精力有限,任何學科的任何一個分支都有可能窮盡我們一生的精力;在調用他人研究成果時 至少需要知道成果中概念的準確含義,成果的假設,成果的結論,結論的限定,其他團體對結果的評價。當然折中方案的基礎是,當要解決具體問題時,我們的信息源要足夠的高質量,人文方面主要看大師,看人類社會公認的經典之作,科學方面圍繞SCI等核心期刊和科學共同體公認的教材,配合一定的綜述性文獻。
至此我們可以區分出來,作為消費內容的寫作,作為人類知識延續和傳播的寫作,作為自我反思的寫作,之間的區別。
這段時間的寫作告一段落,謝謝大家。
本文由 @小祁愛數據 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議