概率論從入門到放棄?布朗學霸火到宕機的作品,讓統計「看得見」

2021-01-15 大數據文摘

大數據文摘出品

作者:王嘉儀、魏子敏

統計學可能是最容易逼瘋人的學科之一了。

黃白球在箱子裡拿來拿去怎麼也拿不到自己想要的,硬幣拋來拋去也沒有看到另一面,生日算來算去還是跟喜歡的人不一樣。

別急,這跟你的智商無關,很可能是由於你沒有好的學習工具。今天文摘菌來介紹一款由布朗大學的學霸設計,輔助統計學習的好幫手——看見統計(Seeing Theory)。

中文版網站地址:

https://seeing-theory.brown.edu/cn.html

Seeing Theory是一個在線學習概率論與數理統計的學習平臺,涉及了幾乎所有初、中級統計知識,最重要的是,這個平臺把這些抽象難懂的知識全部可!視!化!出來了。

比如這樣

它總共分為五個單元,每單元有三個可視化模塊,基本上把初階概率論的課程涵蓋了。可視化包括經典的投硬幣模型(甚至還模擬非均勻硬幣),還有對著名的數據集的關係的探索。

每一個可視化模型都建立在前一個的基礎上,每一單元內容都環環相扣。

這很像一個「可以動」的課本,無論是高中生還是大學初年級的同學,都可以在其中獲得一點靈感和啟發。網站也把可視化展示的統計知識整理成了嚴肅的數學文稿,放在最後,供希望深入了解的用戶下載閱讀。

早期它只有全英的界面,且有一些板塊還沒成型。現在很欣慰的是,中文版本以及西班牙語版本都已經上線。

中文版」看見統計「是由一位叫Zhimei Ren的小姐姐翻譯,她在北京大學數學學院獲得了學士學位,現在是史丹福大學統計系的博士生,研究興趣包括高維統計推理和因果推理。

被概率論難倒的學霸

平臺的創建者Daniel Kunin是個不折不扣的學霸:布朗大學計算生物學系,以GPA3.93的成績從Brown大學畢業,現在是斯坦福計算機與數學工程的研究生。

即使是這樣的聰明人,也曾經飽受統計學摧殘。

儘管並不是數學系的學生,但統計學仍然是Daniel Kunin的課程。「我當時想往生物化學領域發展,但覺得要學習計算機編程」。

Daniel Kunin在大一選了學校裡Caroline Klivans教授的統計學入門。統計學的課程是基礎,他看的統計理論書籍也許與你我並無二致,面對著複雜數學模型只能抓頭髮。

大二的他選了計算機系教授Steve Reiss所教的網頁開發導論。這門課的期末作業要求學生們以小組作業的形式完成一個項目。在瀏覽選題參考方向和注意事項的時候,他留意到「本項目用於開發對於統計學導論可有用的小程序,需要在裡面展示已經學過的統計學概念。學生在使用程序時能更加強化學的內容。」

「我數學背景不是很強,之前上統計課的時候理解那些深奧的概念非常艱難,我對一些非常基礎的概念毫無感覺。既然我學了可視化,我希望我有更多的辦法來幫助我建立這種直覺。」

而為網頁開發導論這門課選題的過程中,Daniel也想到了把兩者結合起來,用可視化的方式學習統計學。他找到同學一起製作了這個非常棒的能夠培養新手學習概率統計興趣的網站——Seeing Theory。

成為校園網紅,火到宕機!

網站框架和思路有了,但還不夠。跟有意思的人一起合作才能做好事情,為了製作這個網站,Daniel找來了幾個合作夥伴。

他先跟數學系學長Madeleine Johnson構建網站框架。作為一個精通Python, Matlab, Julia, R, C/C++, Java, Javascript/HTML/CSS的統計學高材生,Daniel Kunin最喜歡把數據變得好看,於是又請來羅德島設計學院工業設計系的Jingru Guo,將網頁交互體驗設計的十分舒適美觀。Jingru Guo現在去了亞馬遜。

Tyler Dae Devlin, Dan Xiang, Daniel Kunin, Jingru Guo

他們把貝葉斯推理和回歸分析的複雜公式和大段解釋用最直觀的方式展示出來,讓人們看到數據組合在一起,究竟會發生什麼相互反應,理論又是如何構建出來的,讓用戶可以用感知力來學習抽象的理論。

但是我們做這個網站可不為了改編教材什麼的,而是更希望給學生提供一個額外有趣的資源,讓他們能獨立的探索自己的想法,培養創造力。

上線不久,這個炫酷又好看的網站成為推特和Facebook的校園熱點。

「我正在計算機導論的課上當著TA,我的朋友跑過來告訴我,網站宕機了,並且他讓我看看Facebook上的反響」。我想了一下,我沒刪除什麼重要的代碼呀,我檢查了一下校園網伺服器都很好,唯獨我的網頁沒有反應。」

原來是約翰霍普金斯大學的教授在他的推特上推薦了他的網站。之前的用戶規模很小且都在美國,這次傳播僅僅72小時後,就來了世界上成百上千萬的訪問者,擠爆了網站。

Klivans教授看到這個作品覺得很有意思,多年的教學經驗讓她立刻意識到了這是個靠譜的工具,她非常了解有大量的學生還在統計學的大門前徘徊難以進入。修復問題後,目前這個網站已經在布朗大學兩大統計課上開始應用了。

這個網站已經獲得多個設計大賽的獎項

Daniel Kunin持續收到很多來自學生、老師和研究者的反饋建議,「我想把這些想法都營運進去」,於是他又找到其他小夥伴:同校的Tyler Devlin和Dan Xiang,想在業餘時間不斷改進。

Tyler Devlin是一名數據挖掘工程師,Dan Xiang是一位在讀博士的中國小哥。「我們有四個計劃,其中之一就是希望寫入更多內容,融入機器學習的理念,我們還要把它翻譯成不同國家的語言。」

愛上統計學

這次作業也從此改變了Daniel學習統計學的痛苦心態。

之後,他對數理統計從束手無策變成了狂熱。「我一發不可收拾的愛上了這個學科。我又接著選了更多的CS課程,還當了兩名課的助教」。

大四那年,Daniel參加北美高校數學統計學科學生最喜歡參加的Citadel Data Open大賽,並贏得了第一名獲得2萬刀獎金。

Daniel Kunin個人主頁:http://daniel-kunin.com/

從個人主頁上可以看出,Daniel還是一個生活非常豐富多彩的極客:運動愛好者,他曾跟一個七人團隊在北極徒步600km,跟兩個夥伴在以色列境內刷了1000km,獨自穿越650km的太平洋山脊步道;生活上也非常精緻,喜歡做飯,尤其是釀酒。

有顏值又好玩的統計概念入門平臺

最後,還是跟文摘菌一起來探索一下這個網站。

這個網站的界面非常友好漂亮。它的導引菜單和有趣漂亮的界面吸引著筆者把上面所有內容瀏覽了一遍。這些作品裡主要用到了D3和Mike Bostock’s data visualization software實現。

拿這個線性回歸章節中的最小二乘法做個簡單介紹。

第一步:選擇不同的數據集,這裡有四組。它所使用的數據集是:安斯庫姆四重奏,它由統計學家弗朗西斯·安斯庫姆(Francis Anscombe)於1973年構造的,用來說明在分析數據前先繪製圖表的重要性,以及離群值對統計的影響之大。

第二步:拖動右側方形滑塊的點。你會看到你隨意點擊拉動的方塊大小,最終影響到這條直線的斜率,即線性回歸的相關係數不斷變化,包括SSE(殘差平方和)的變化。如圖所示,你不理解一些特定的字母意義,也可以點擊查看介紹。我們通過互動理解了這個方程的每一部分。

接著下一節【相關性】,用的是Edgar Anderson的著名的 鳶尾花(Iris flower)數據集來顯示數據的視覺特徵。諸位曾經學習datamining, analytics, stat, biostat的同學,就會懂得這朵花。

其實人們對於對於可見的事物更容易理解,對於抽象理論的理解應該被放在入門以後去深入。

再換一個板塊也是一樣簡單操作,只需點點滑鼠就能將大樣本繪製出圖形。點擊不同的格子:

(安德森鳶尾花卉數據集指的是,最初埃德加·安德森從加拿大加斯帕半島上的鳶尾屬花朵中提取的形態學變異數據,後由羅納德·費雪作為判別分析的一個例子,運用到統計學中。其數據集包含了150個樣本,都屬於鳶尾屬下的三個亞屬,分別是山鳶尾、變色鳶尾和維吉尼亞鳶尾。四個特徵被用作樣本的定量分析,它們分別是花萼和花瓣的長度和寬度。基於這四個特徵的集合,費雪發展了一個線性判別分析以確定其屬種。)

想想當年學數學時候的痛苦,遙遠的黑板與聽不清教師的方言,都讓我們對美妙的數學望而卻步,今天有這麼多學習工具,有一個探索的心,學習還是問題嗎?

相關焦點

  • 概率論入門:從古典到現代
    他的著作《隨機過程與布朗運動》(1948)至今仍是隨機過程理論的一本經典著作。現代概率論的另外兩個代表人物是J.L.杜布和伊藤清,前者創立了鞅論,後者創立了布朗運動的隨機積分理論。在概率發展史中特別值得一提的是柯爾莫哥洛夫在1933年建立了概率論的公理化體系。
  • 從貝葉斯定理到概率分布:綜述概率論基本定義
    本文從最基礎的概率論到各種概率分布全面梳理了基本的概率知識與概念,這些概念可能會幫助我們了解機器學習或開拓視野。這些概念是數據科學的核心,並經常出現在各種各樣的話題上。重溫基礎知識總是有益的,這樣我們就能發現以前並未理解的新知識。簡介在本系列文章中,我想探討一些統計學上的入門概念,這些概念可能會幫助我們了解機器學習或開拓視野。
  • 概率論與數理統計之事件與概率
    隨機現象的存在,使得我們生活中充滿了不確定性的問題,因此,概率論和統計學就是幫我們解決不確定性問題的數學工具。在上面中,我們了解到了隨機現象可能出現的結果不止一個,這些結果我們就稱之為隨機事件,因此,可以進一步理解概率論研究的問題:概率論是用數學的方法估算隨機現象中各隨機事件發生的概率。那麼什麼是概率呢?我們用什麼來估算概率呢?下面我們來介紹一些頻率的穩定性。
  • 論概率論和金融學的結合
    論文關鍵詞:金融數學;概率論;鞅理論;最優停時理論   一、引言   現代金融理論伴隨著金融市場的發展大量應用概率統計,這是經濟數學化的最大成就,從而出現了一個全新的學科—-金融數學。金融數學是以概率統計和泛函分析為基礎,以隨機分析和鞅理論為核心,主要研究風險資產(包括衍生金融產品和金融工具)的定價、避險和最優投資消費策略的選擇。近二十幾年來,金融數學不僅對金融工具的創新和對金融市場的有效運作產生直接的影響,而且對公司的投資決策和對研究開發項目的評估(如實物期權)以及在金融機構的風險管理中得到廣泛應用。現在對它的研究方興未艾,21世紀肯定是它進一步蓬勃發展的時代。
  • 【高等概率論】離散時間鞅
    本次的內容是鞅理論基礎~ 向Doob獻上膝蓋 _(:з」∠)_在測度論的基礎上,概率論的靈魂是獨立性,而相依結構中最吸引人的當然是鞅。市面上的入門教材(如Durrett的PTE)並不讓人足夠滿意,所以稍微梳理了一下知識邏輯,完善和補充了一些鞅的應用。
  • 2018年概率論與數理統計考研大綱解析
    2018年考試大綱重磅來襲,為了保證各位考生能夠正確解讀大綱要求,中公考研數學團隊帶你以最快的速度,最有效的方式解讀概率論與數理統計的大綱內容。   首先,通過與往年考研大綱對比不難發現,概率概率論與數理統計這一科目秉承往年的穩定性,考查知識點沒有發生任何變化。
  • 概率論的起源與發展
    走出賭博 隨著18、19世紀科學的發展,人們注意到某些生物、物理和社會現象與機會遊戲相似,從而由機會遊戲起源的概率論被應用到這些領域中,同時也大大推動了概率論本身的發展。
  • 2017考研數學概率論與數理統計重難點分析
    2017年的全國研究生入學統一考試剛剛結束,大家對今年各學科的考查重點和命題人出題思路又有什麼進一步的認識呢,下面我們就概率論這門學科考查重難點給大家做一個分析。  從以往的經驗來說,概率論與數理統計解答題的常見考點有兩個,一個是以分布函數為核心的各類隨機變量以及隨機變量函數的分布,另一個是參數估計。其中前者是數一、數三共同的考查重點,也是難點。
  • Yann LeCun說是時候放棄概率論了,因果關係才是理解世界的基石
    Perez編譯:高寧、阮雪妮、AileenYann LeCun說,他已經做好放棄概率論的準備了!的演講,在演講中他提到,他已經做好放棄概率論(throw Probability Theory under the bus)的準備。他認為概率理論只是一個工具,而非現實或智能系統的基本特徵。作為一個工具,它就存在應用領域的限制。就算你的鋸子能夠砍樹,這並不意味著它就能切割鈦。
  • 2011年福建師範大學《概率論與數理統計》考研大綱
    《概率論與數理統計》是數學與應用數學本科專業的基礎課程,是進一步學習隨機數學理論的前提和基礎。概率論是一門從數量角度研究隨機現象內在規律性的學科,數理統計學是一門研究如何有效地收集數據,如何利用概率論思想對數據進行統計推斷或預測,從而為決策提供科學依據和建議。
  • 2021考研概率論與數理統計衝刺:隨機事件和概率考試要求
    概率論與數理統計是考研數學中尤其重要的一門,在這個階段大家一定不要放鬆,持續備戰方可戰勝困難,下面中公考研小編為大家整理概率論與數理統計相關內容,希望對各位考生有所幫助。隨機事件和概率考試要求1.了解樣本空間(基本事件空間)的概念,理解隨機事件的概念,掌握事件的關係及運算。
  • 半個月學完概率論與數理統計 (第1章)
    大家好,接下來大概花費半個月時間,我們一起來過一遍《概率論與數理統計》茆詩松版。今天學習的是第一章 隨機事件與概率。做到了解概率論的定義、性質及條件概率(考試重點內容)。1.3,1.4節筆記古典概率主要應用於2種模型。(1) 抽樣模型,它又分為放回與不放回2種,不放回模型為超幾何分布,放回模型為二項分布,彩票問題是不放回模型的延伸。
  • 概率論大師
    他對積分理論、行星運動理論、熱物理、彈性理論、電磁理論、位勢理論和概率論都有重要貢獻。泊松也是19世紀概率統計領域裡的卓越人物。他改進了概率論的運用方法,特別是用於統計方面的方法,建立了描述隨機現象的一種概率分布──泊松分布。他推廣了「大數定律」,並導出了在概率論與數理方程中有重要應用的泊松積分。
  • 吉林大學概率論與數理統計專業碩士研究生培養方案
    攻讀碩士學位的研究生(簡稱碩士生)必須在本學科內掌握堅實的基礎理論和系統的專門知識;掌握本學科的現代統計方法和技能;掌握本學科的現代概率論理論。在所研究方向的範圍內了解本學科發展的現狀和趨勢;掌握一門外國語;具有從事科學研究、大學教學或獨立擔負專門技術工作的能力。   二、研究方向:見附表一。
  • 條件概率與貝葉斯統計
    迄今為止,我們使用的統計方法在統計學中都稱為頻率論方法。我們從樣本中得出的結論完全基於數據的頻率或比例。
  • 2019中國科學院大學碩士研究生《概率論與數理統計》考試大綱
    歡迎關注,歡迎轉載,希望對你有用2019中國科學院大學碩士研究生入學考試 《概率論與數理統計》考試大綱本《概率論與數理統計》考試大綱適用於中國科學院大學非數學類的碩士研究生入學考試。概率統計是現代數學的重要分支,在物理、化學、生物、計算機科學等學科有著廣泛的應用。
  • 從「概率論」到「量子力學」,嬌豔的數學之花在物理的土壤上怒放
    隨著「概率論」的不斷發展與成熟,大數學家伯努利建立起了重要的「第一個極限定理」(即著名的「伯努利大數定律」),得出了「事件發生的頻率」會穩定於某一「概率」的重要結論。在此基礎上,大數學家棣莫弗和拉普拉斯又導出了「第二個基本極限定理」(中心極限定理),這才使「概率論」真正地成為了數學的一個重要分支。20世紀初,日益成熟的「概率論」與新生的「量子力學」相遇了。
  • 2018考研數學概率論重點總結:數理統計的基本概念
    概率與數理統計這門課程從試卷本身的難度的話,在三門課程中應該算最低的,但是從每年得分的角度來說,這門課程是三門課中得分率最低的。這主要是由兩方面造成的。一方面是時間不充裕,概率解答題位於試卷的最後,學生即使會,也來不及解答;另一方面是概率本身學科的特點,導致很多學生覺得概率非常難。
  • 沒想到賭博、擲骰子產生了概率論!
    下面是概率論的起源,一起感受下!  三四百年前在歐洲許多國家,貴族之間盛行賭博之風。擲骰子是他們常用的一種賭博方式。因骰子的形狀為小正方體,當它被擲到桌面上時,每個面向上的可能性是相等的,即出現1點至6點中任何一個點數的可能性是相等的。有的參賭者就想:如果同時擲兩顆骰子,則點數之和為9與點數之和為10,哪種情況出現的可能性較大?
  • 數據分析:概率論數理統計教學中數學焦慮現象對策,看完長見識了
    概率論與數理統計教學中的數學焦慮現象及其對策一、概率論與數理統計教學中的「數學焦慮」現象(一)知識需求和教學之間的矛盾  概率論與數理統計是數學基礎課中應用性較強,與現代經濟、金融、統計、管理密切相關的一門課程。