克卜勒定律是德國天文學家克卜勒提出的關於行星運動的三大定律。這三大定律又分別稱為橢圓定律、面積定律和調和定律,內容如下:
第谷(Tycho Brahe,1546-1601)是丹麥天文學家和佔星學家。他在天文望遠鏡發明之前,對於星象的觀測精度極高,甚至接近了肉眼解析度的極限。克卜勒能夠發現行星三大定律,得益於第谷的數據。
第谷在天文學歷史上絕對算得上一大奇人。他出生於丹麥貴族,在出生前父母許諾將其送給財產富可敵國的叔叔。第谷出生後父母又反悔了。他叔叔不高興了,在第谷兩歲時強行將其帶走養大。他13歲上大學學習法律,卻愛上了天文學。這裡我再介紹兩個廣為流傳的故事。
一個是關於他的鼻子。1565年,19歲的第谷因一個數學公式與同學以劍決鬥,結果失去了鼻子的大部分,後來就一直裝著金屬製作的假鼻子。所幸其從事的天文學研究不怎麼需要用到鼻子。
另一個則是他的死因。據說他在參加一位男爵舉辦的宴會上,喝了很多很多酒。想上廁所卻因為覺得在主人之前離開餐桌是很不禮貌的,選擇一直憋著導致膀胱感染,最後因此喪命。
第谷是如何獲得精確的觀測數據的?首先,雄厚的財力和人力支持非常重要。1576年,丹麥國王為了將這位卓越的天文學家留在丹麥,將汶島賜予第谷,還耗資一噸多黃金為他建造了一座天文臺「天之城堡」。這也是世界上最早的大型天文臺。
後來,因為空間不夠,第谷在附近又建造了一座天文臺,稱為「星之城堡」。
在第谷的天文臺上,安裝了很多他發明的大型天文觀測儀器。其中最重要的有三類:大型渾儀、象限儀和紀限儀。大型渾儀用於測量星體的坐標。象限儀的刻度環是圓周的四分之一,用來測得太陽的地平高度。紀限儀(也稱為六分儀)可以自由轉動,用於測量任意兩個星體之間的角距。
第谷畢生精力觀測記錄了數百多顆恆星幾十年間每個夜晚的數據。這裡,我們僅僅以他對火星偏角的記錄數據來感受下他觀測的精確性。
1652年到1600年,第谷的火星軌道數據(偏角)觀測數據如下圖所示。
下載第谷火星數據Excel文件請在本公眾號發送關鍵詞「火星數據」。
其中對於火星偏角數據(declination),有人進行了可視化,如下圖中的空心圓點所示。圖中粉紅線是採用現代方法計算出的火星偏角。
從圖中我們可以直觀地感受到第谷觀測數據的精確性。雖然第谷獲得了大量的一手天文觀測數據,然而他並沒有能夠很好地挖掘出數據中的價值。在這些珍貴的數據基礎上完成了出色工作的,是他的研究助手克卜勒。
克卜勒(Johannes Kepler,1571-1630)是德國傑出的天文學家、物理學家和數學家。克卜勒的三大定律是根據第谷留給他的觀察數據總結出來的。
1588年,丹麥新國王上位後第谷失寵。隨後他搬到了布拉格。從現在的角度看,這是一個很重要的歷史轉折點。因為這最終使得克卜勒能夠接觸到第谷的數據,最終發現了行星運行三大定律。第谷搬到布拉格後,在王宮內廷任職,他向克卜勒發出了邀請。克卜勒欣然接受,於1600年舉家搬到布拉格,任第谷的研究助手。
這裡簡單提一下,克卜勒取得了卓越的成就,但是他的命運卻是坎坷的。他17歲時父親去世。17世紀的歐洲掀起了震驚世界的「獵殺女巫」的熱潮,克卜勒的母親被指控為女巫。克卜勒輾轉多年母親辯護,所幸最終贏了官司。克卜勒與他的兩任妻子一共生了12個子女,大多卻因為貧困而夭折。
1601年第谷死之前將他的觀測數據贈送給了克卜勒。經過近9年的數據分析,克卜勒於1609年發表了第一和第二定律。這兩個定律主要依據第谷觀測火星位置所得資料中總結出來的。在對火星軌道數據研究過程中,克卜勒曾說到:「通過對火星軌道的研究,我們必須要麼從中找到天文學的秘密,要麼永遠對它們一無所知」。
:
By the study of the orbit of Mars, we must either arrive at the secrets of astronomy or forever remain in ignorance of them.
又經過10年左右的分析,1619年克卜勒提出了第三定律。這裡列出的數據是行星繞太陽一周所需要的時間(以年為單位)和行星離太陽的平均距離(以地球與太陽的平均距離為單位)。
克卜勒三大定律與大數據有什麼關係?我認為三大定律的發現過程其實就是大數據分析的過程。關於大數據,很難有一個嚴格的統一的定義。不過,從克卜勒三大定律的例子中,可以用一句簡單直白的話來理解大數據:
分析和挖掘數據,從數據中找出規律,這些規律為我們所用,從而產生價值。
我們也可以很直觀地理解大數據的基本流程,包括數據採集、數據管理、數據分析和數據應用(價值)。
例如在克卜勒三大定律的例子中:
數據採集:第谷是藉助天文臺中的大型渾儀、象限儀和紀限儀等工具,利用肉眼觀測和紀錄的。
數據分析:克卜勒基於第谷的數據,利用數學等方法對數據進行分析,找出了數據中的規律(例如第三定律就是一條公式 )。
數據應用(價值):克卜勒三大定律對推動整個天文學的發展起到了關鍵的作用。
當然我們現在做大數據,條件已經發生了質的飛躍。比如數據採集,依靠的主要是各種物聯網設備(例如各種傳感器、視頻採集設備等)。還可以通過編寫爬蟲程序去網際網路上採集數據,例如百度和谷歌的搜尋引擎就是這樣採集網際網路上的網頁數據的。
現代的數據管理主要依靠計算機,包括資料庫系統、NoSQL、分布式文件系統等。數據分析則主要依靠機器學習、深度學習和強化學習等來完成。比如說最近熱門的AlphaGo,其核心的數據分析技術就是深度學習和強化學習。
通過數據分析之後,往往能夠找出數據中的規律,這些規律通常可以表示為一個簡單的數學公式:
其中 代表我們從數據中抽取的特徵,他們是對於解決我們的問題,也即預測目標 很關鍵的因素。
有了這樣一條數學公式,我們就可以用它去實際問題中進行應用,幫助我們的決策,從而產生價值。
舉一個簡單的例子,銀行會收集客戶的信息,例如信用卡信息、貸款信息、信用時長和收入情況等,這些可以看作是 。銀行還會記錄很多客戶歷史信息,知道哪些客戶違約過,哪些客戶從來沒有違約。是否違約我們可以看作是 。
我們現在做大數據分析,最主要的方式就是利用歷史積累的大量已知的 這樣的數據,去找出他們的映射函數 。一旦找到了這樣的函數 ,對於新的客戶,我們只要收集了他的 ,就可以輸入到這個函數,函數就能給出輸出。銀行也就能夠對這個客戶是否會違約進行預測。
數據分析是大數據的核心,因為它處理的是直接從數據中挖掘出規律。做這些事情的目前主要包括機器學習、深度學習和強化學習。
第谷這位天文學家幾十年如一日堅持天文觀測,所以手裡就積累了大量的天文資料,天文的數據,第谷就想把這些資料好好利用一下。但是需要數學特別好才行,可是第谷知道自己的數學能力還不是太夠,所以就希望能夠找到一個很擅長數學的助手幫助自己。所以他一看到克卜勒的研究成果,就覺得克卜勒數學水平真厲害。
現在我們做大數據,數學好也非常重要。大部分大數據的算法和模型都需要非常堅實的微積分、概率、線性代數和統計學知識。前面我們提到數據分析主要是尋找一個函數 ,而尋找這個函數本質上就是求解一個最優化問題。最優化的目標是函數在已知數據中的擬合誤差。
可以想像,如果第谷的數據一點都不準確,噪音太大,克卜勒也是很難從中找出數據的規律的。第谷對天文學的貢獻是不可磨滅的,他在現代望遠鏡發明之前就做出如此高精度的觀測,實在是讓同時代的人望塵莫及。
在大數據分析中也是如此,數據的質量直接影響了數據分析的結果。所以在實際的應用中在開始分析數據前一定要關注數據的質量問題,必要時對數據進行一些額外的處理。
第谷擅長觀測,而克卜勒數學好,善於分析數據,兩人的協作產生了 的效果。
在一個大數據團隊中,往往有不同的角色,例如研發工程師、數據分析師、業務專家等。團隊的成員只有相互融合、團結協作,才能在深刻理解業務數據的基礎上,充分發揮算法和模型的優勢,從數據中找到可用的規律,最後由研發工程師將其開發成合適的產品,最終產生最大化的價值。
著名物理學家張首晟(1963-2018)曾經在一次演講中提到,「第谷之所以沒有收穫,一個原因在於他分析的尺度是每天。而克卜勒將分析的尺度拉長到年,很快便發現了隱藏在數據中的規律。」
「所以當我們擁有海量數據的時候,我們不是讓自己沉浸其中,而是要獨具慧眼,在繁雜的數據中,發現內在的規律,才能成就自己的價值。」
克卜勒雖然總結出三大定律,但並不理解其內涵。牛頓則不然,牛頓用他的第二定律和萬有引力定律把行星運動歸結成一個純粹的數學問題,即一個常微分方程組。如果忽略行星之間的相互作用,那麼各行星和太陽之間就構成了一個兩體問題。我們很容易求出相應的解,並由此推導出克卜勒的三大定律。
牛頓運用的是尋求基本原理的方法,它遠比克卜勒的方法深刻。牛頓不僅知其然,而且知其所以然。所以牛頓開創的尋求基本原理的方法成了科學研究的首選模式。
這種方法在上個世紀初期達到了頂峰:在它的指導下,物理學家們提出了量子力學。原則上來講,我們日常生活中所碰到的自然現象都可以從量子力學出發得到解決。量子力學提供了研究化學、材料科學、工程科學、生命科學等幾乎所有自然和工程學科的基本原理。
牛頓發現了基本原理,這應該說是很成功的,但事情遠非這麼簡單。早在1928年,當英國理論物理學家狄拉克提出著名的狄拉克方程時就指出,如果以量子力學的基本原理為出發點去解決這些問題,那麼其中的數學問題太困難了。
所以如果要想有進展,還是必須做妥協,也就是說要對基本原理作近似。儘管牛頓模式很深刻,但對複雜的問題,克卜勒模式往往更有效。
而基於數據的克卜勒模式則是行之有效的。克卜勒模式最成功的例子是生物信息學和人類基因組工程。正是因為它們的成功,材料基因組工程等類似的項目也被提上了議事日程。同樣,天體信息學、計算社會學等等也成了熱門學科。
圖像處理是另外一個典型的例子。圖像處理是否成功是由人的視覺系統決定的。所以要從根本上解決圖像處理的問題,就需要從理解人的視覺系統著手,並了解不同質量的圖像,對人的視覺系統產生什麼樣的影響。這樣的理解當然很深刻,而且也許是我們最終所需要的。但從目前來看,它過於困難也過於複雜。解決很多實際問題時並不會真正使用它,而是使用一些更為簡單的數學模型。
本文旨在讓大家通過一個簡單的例子來理解大數據。五、六部分主要摘自《數據科學導引》。
克卜勒之長和第谷之短——科學史上的大數據故事: http://www.360doc.com/content/16/1219/21/1545174_616115137.shtml
瀟灑一生,卻真被尿給憋死的天文學家第谷: https://new.qq.com/omn/20190928/20190928A00JY600.html
歐高炎、朱佔星、董彬、鄂維南,《數據科學導引》,高等教育出版社: https://item.jd.com/12257841.html
百度百科第谷詞條: https://baike.baidu.com/item/%E7%AC%AC%E8%B0%B7%C2%B7%E5%B8%83%E6%8B%89%E8%B5%AB/1230465?fromtitle=%E7%AC%AC%E8%B0%B7&fromid=519126&fr=aladdin
第谷的數據怎麼測出來的?: http://mini.eastday.com/a/181219033335655-2.html
天文學家的女巫案: http://book.ifeng.com/a/20170704/78419_0.shtml
可視化克卜勒的數據: http://www.pafko.com/tycho/