大數據文摘出品
作者:王嘉儀、魏子敏
統計學可能是最容易逼瘋人的學科之一了。
黃白球在箱子裡拿來拿去怎麼也拿不到自己想要的,硬幣拋來拋去也沒有看到另一面,生日算來算去還是跟喜歡的人不一樣。
別急,這跟你的智商無關,很可能是由於你沒有好的學習工具。今天文摘菌來介紹一款由布朗大學的學霸設計,輔助統計學習的好幫手——看見統計(Seeing Theory)。
中文版網站地址:
https://seeing-theory.brown.edu/cn.html
Seeing Theory是一個在線學習概率論與數理統計的學習平臺,涉及了幾乎所有初、中級統計知識,最重要的是,這個平臺把這些抽象難懂的知識全部可!視!化!出來了。
比如這樣
它總共分為五個單元,每單元有三個可視化模塊,基本上把初階概率論的課程涵蓋了。可視化包括經典的投硬幣模型(甚至還模擬非均勻硬幣),還有對著名的數據集的關係的探索。
每一個可視化模型都建立在前一個的基礎上,每一單元內容都環環相扣。
這很像一個「可以動」的課本,無論是高中生還是大學初年級的同學,都可以在其中獲得一點靈感和啟發。網站也把可視化展示的統計知識整理成了嚴肅的數學文稿,放在最後,供希望深入了解的用戶下載閱讀。
早期它只有全英的界面,且有一些板塊還沒成型。現在很欣慰的是,中文版本以及西班牙語版本都已經上線。
中文版」看見統計「是由一位叫Zhimei Ren的小姐姐翻譯,她在北京大學數學學院獲得了學士學位,現在是史丹福大學統計系的博士生,研究興趣包括高維統計推理和因果推理。
被概率論難倒的學霸
平臺的創建者Daniel Kunin是個不折不扣的學霸:布朗大學計算生物學系,以GPA3.93的成績從Brown大學畢業,現在是斯坦福計算機與數學工程的研究生。
即使是這樣的聰明人,也曾經飽受統計學摧殘。
儘管並不是數學系的學生,但統計學仍然是Daniel Kunin的課程。「我當時想往生物化學領域發展,但覺得要學習計算機編程」。
Daniel Kunin在大一選了學校裡Caroline Klivans教授的統計學入門。統計學的課程是基礎,他看的統計理論書籍也許與你我並無二致,面對著複雜數學模型只能抓頭髮。
大二的他選了計算機系教授Steve Reiss所教的網頁開發導論。這門課的期末作業要求學生們以小組作業的形式完成一個項目。在瀏覽選題參考方向和注意事項的時候,他留意到「本項目用於開發對於統計學導論可有用的小程序,需要在裡面展示已經學過的統計學概念。學生在使用程序時能更加強化學的內容。」
「我數學背景不是很強,之前上統計課的時候理解那些深奧的概念非常艱難,我對一些非常基礎的概念毫無感覺。既然我學了可視化,我希望我有更多的辦法來幫助我建立這種直覺。」
而為網頁開發導論這門課選題的過程中,Daniel也想到了把兩者結合起來,用可視化的方式學習統計學。他找到同學一起製作了這個非常棒的能夠培養新手學習概率統計興趣的網站——Seeing Theory。
成為校園網紅,火到宕機!
網站框架和思路有了,但還不夠。跟有意思的人一起合作才能做好事情,為了製作這個網站,Daniel找來了幾個合作夥伴。
他先跟數學系學長Madeleine Johnson構建網站框架。作為一個精通Python, Matlab, Julia, R, C/C++, Java, Javascript/HTML/CSS的統計學高材生,Daniel Kunin最喜歡把數據變得好看,於是又請來羅德島設計學院工業設計系的Jingru Guo,將網頁交互體驗設計的十分舒適美觀。Jingru Guo現在去了亞馬遜。
Tyler Dae Devlin, Dan Xiang, Daniel Kunin, Jingru Guo
他們把貝葉斯推理和回歸分析的複雜公式和大段解釋用最直觀的方式展示出來,讓人們看到數據組合在一起,究竟會發生什麼相互反應,理論又是如何構建出來的,讓用戶可以用感知力來學習抽象的理論。
但是我們做這個網站可不為了改編教材什麼的,而是更希望給學生提供一個額外有趣的資源,讓他們能獨立的探索自己的想法,培養創造力。
上線不久,這個炫酷又好看的網站成為推特和Facebook的校園熱點。
「我正在計算機導論的課上當著TA,我的朋友跑過來告訴我,網站宕機了,並且他讓我看看Facebook上的反響」。我想了一下,我沒刪除什麼重要的代碼呀,我檢查了一下校園網伺服器都很好,唯獨我的網頁沒有反應。」
原來是約翰霍普金斯大學的教授在他的推特上推薦了他的網站。之前的用戶規模很小且都在美國,這次傳播僅僅72小時後,就來了世界上成百上千萬的訪問者,擠爆了網站。
Klivans教授看到這個作品覺得很有意思,多年的教學經驗讓她立刻意識到了這是個靠譜的工具,她非常了解有大量的學生還在統計學的大門前徘徊難以進入。修復問題後,目前這個網站已經在布朗大學兩大統計課上開始應用了。
這個網站已經獲得多個設計大賽的獎項
Daniel Kunin持續收到很多來自學生、老師和研究者的反饋建議,「我想把這些想法都營運進去」,於是他又找到其他小夥伴:同校的Tyler Devlin和Dan Xiang,想在業餘時間不斷改進。
Tyler Devlin是一名數據挖掘工程師,Dan Xiang是一位在讀博士的中國小哥。「我們有四個計劃,其中之一就是希望寫入更多內容,融入機器學習的理念,我們還要把它翻譯成不同國家的語言。」
愛上統計學
這次作業也從此改變了Daniel學習統計學的痛苦心態。
之後,他對數理統計從束手無策變成了狂熱。「我一發不可收拾的愛上了這個學科。我又接著選了更多的CS課程,還當了兩名課的助教」。
大四那年,Daniel參加北美高校數學統計學科學生最喜歡參加的Citadel Data Open大賽,並贏得了第一名獲得2萬刀獎金。
Daniel Kunin個人主頁:http://daniel-kunin.com/
從個人主頁上可以看出,Daniel還是一個生活非常豐富多彩的極客:運動愛好者,他曾跟一個七人團隊在北極徒步600km,跟兩個夥伴在以色列境內刷了1000km,獨自穿越650km的太平洋山脊步道;生活上也非常精緻,喜歡做飯,尤其是釀酒。
有顏值又好玩的統計概念入門平臺
最後,還是跟文摘菌一起來探索一下這個網站。
這個網站的界面非常友好漂亮。它的導引菜單和有趣漂亮的界面吸引著筆者把上面所有內容瀏覽了一遍。這些作品裡主要用到了D3和Mike Bostock’s data visualization software實現。
拿這個線性回歸章節中的最小二乘法做個簡單介紹。
第一步:選擇不同的數據集,這裡有四組。它所使用的數據集是:安斯庫姆四重奏,它由統計學家弗朗西斯·安斯庫姆(Francis Anscombe)於1973年構造的,用來說明在分析數據前先繪製圖表的重要性,以及離群值對統計的影響之大。
第二步:拖動右側方形滑塊的點。你會看到你隨意點擊拉動的方塊大小,最終影響到這條直線的斜率,即線性回歸的相關係數不斷變化,包括SSE(殘差平方和)的變化。如圖所示,你不理解一些特定的字母意義,也可以點擊查看介紹。我們通過互動理解了這個方程的每一部分。
接著下一節【相關性】,用的是Edgar Anderson的著名的 鳶尾花(Iris flower)數據集來顯示數據的視覺特徵。諸位曾經學習datamining, analytics, stat, biostat的同學,就會懂得這朵花。
其實人們對於對於可見的事物更容易理解,對於抽象理論的理解應該被放在入門以後去深入。
再換一個板塊也是一樣簡單操作,只需點點滑鼠就能將大樣本繪製出圖形。點擊不同的格子:
(安德森鳶尾花卉數據集指的是,最初埃德加·安德森從加拿大加斯帕半島上的鳶尾屬花朵中提取的形態學變異數據,後由羅納德·費雪作為判別分析的一個例子,運用到統計學中。其數據集包含了150個樣本,都屬於鳶尾屬下的三個亞屬,分別是山鳶尾、變色鳶尾和維吉尼亞鳶尾。四個特徵被用作樣本的定量分析,它們分別是花萼和花瓣的長度和寬度。基於這四個特徵的集合,費雪發展了一個線性判別分析以確定其屬種。)
想想當年學數學時候的痛苦,遙遠的黑板與聽不清教師的方言,都讓我們對美妙的數學望而卻步,今天有這麼多學習工具,有一個探索的心,學習還是問題嗎?