Hello 大家好,企鵝醬有一年多沒有更新這個公眾號了,現在企鵝醬終於從萊頓碩士畢業了,現在來聊聊在萊頓統計碩士項目從學習到畢業是種怎樣的體驗(關於萊頓的介紹,企鵝醬在很早的推送中有詳細介紹,不了解萊頓的不要以為它是野雞,人家是荷蘭王國歷史上第一所高校,荷蘭女王和首相的母校,泰晤士世界大學排名常年穩居70左右。再有誰說萊頓野雞或者歐陸學校水的我直接揍他!)
企鵝醬的碩士項目全稱是Master Statistical Science for the Life and Behavioural Sciences, Specialisation in Data Science. 簡單點來講,萊頓統計系的側重領域是統計學在生命科學與行為科學方面的應用,而企鵝醬在此基礎上的細分方向是數據科學。雖然細分方向是數據科學,但大框架依舊是統計學,因此企鵝醬以後也沒有去做大數據的打算(Hadoop分布式什麼的企鵝醬並不太感興趣,企鵝醬以後也不當程式設計師)
有關數據科學的課程,我們上過的有這些:第一學期的introduction to data science,前半學期是講座的形式,後半學期是學習python的數據處理操作,後半學期比較有用。第二學期的neural network和database. 神經網絡這門課主要是學習了神經網絡的原理,梯度下降算法,反向傳播算法等,自己上手了如何在tensorflow框架下實現CNN, RNN,AutoEncoder這些比較經典的神經網絡架構。資料庫這門課主要是學習了如何使用SQL(雖然我個人覺得和R,Python比起來,SQL的語句命令仿佛智障)第三學期的advances in data mining.數據挖掘這門課主要學習了如何自己上手實現推薦系統(recommender system),大規模數據集的相似度計算(Locality-Sensitive Hashing)以及網頁排名算法的應用(PageRank).至於Hadoop分布式這些則是屬於課程最後簡單介紹,感興趣的學生可以自己深入學習的東西。因為以上提到的這些課程是由計算機系的老師來上的,所以我的感觸是計算機系很注重應用,但實際上算法本身的數學原理什麼的沒有講的很細,至少我個人上這些課的感覺是對學生數理基礎要求並不高,但是對學生的編程能力要求較高。第三學期還有門課是statistical learning (統計學習),有些人可能會認為這也是數據科學的課程。但實際上這門課是由我們統計系開設的,它實際上更像是一門複習課,從頭到尾把機器學習領域的各種常用算法背後的統計原理給你捋清楚,課後作業雖然也要編程,但是更注重對統計原理的理解,並且是傾向於用R實現的。(雖然計算機系的學生也可以用Python交作業,但是用R寫這門課的作業它不香嗎)
有關統計的課程,我們上過的有這些:
第一學期入門的math for statistician以及probability and statistics可以忽略不計,這倆本身是給沒有任何數理基礎的荷蘭人準備的(因為荷蘭本地生好像入學真的沒有限制,哪怕是本科學文科的也可以來上這邊統計碩士的課程,雖然他們絕大部分到後面會自動退課走人)第一學期重點是linear and generalized linear models, 由瓦格寧根大學的Dr. Gerrit Gort來上。Gort是個教學很嚴謹的老先生,雖然荷蘭這邊翹課是沒有任何處分的,但是他每次上課前都會拿著名單一個個對著學生籤到,練習課的時候也會籤一次到。別看課程名字好像不難,但是哪怕企鵝醬本科已經學過5個學分的計量經濟學,自認為已經對線性和廣義線性模型有了相對比較好的基礎,到了這門課的後半程依舊感受到了壓力。舉個例子,本科的時候學虛擬變量都已經是教科書上比較靠後的章節了,而這門課在第二節課一開始就直接把虛擬變量一股腦講完了。這門課企鵝醬從來沒有遲到早退過,練習課也是留到最後一刻才走,或許給Gort留下了比較好的印象吧(萬萬沒想到Gort竟然最後是企鵝醬論文答辯委員會的Chair,幸虧當初上他的課表現不錯)第一學期另一門課是statistical computing with R,看課程名字好像是基礎R 教學以及在統計計算方面的應用,但實際上這門課的老師是個偏向編程的geek,出的作業和考試說實話我個人感覺跟統計計算關係不大,更像是考程式設計師的。我印象最深的就是大作業有個題是要用R來做文本翻譯,簡直喪心病狂,R是給統計學家用的軟體啊,你如果真的想做文本翻譯,用Python它不香嗎
第二學期就難很多了。第二學期一上來就是mixed and longitudinal modeling,混合效應模型這部分由瓦格寧根大學的Dr. Bas Engel來講,老先生的數理水平很高深,講課內容很難,不過他經常講著講著看到我們都跟不上節奏了就會停下來給我們講講他的life lessons人生哲學故事來放鬆一下Longitudinal modeling(縱向數據建模)由我們萊頓醫學院LUMC統計部門的老師Dr.S.(Roula)Tsonaka來講。這個感覺有點像計量經濟學裡面的時間序列分析和面板數據分析,但是並不一樣,我們學的更多是在臨床醫學數據上的分析。很遺憾的是,由於課程教學時間有限,企鵝醬很慚愧覺得自己並沒有把這塊內容完全吃透,這裡面有很深的學問值得去鑽研。第二學期另一塊難啃的骨頭是Bayesian Statistics. 這門課也是由兩個老師來講,LUMC的Dr. Bart Mertens來講第一部分基礎內容,就是告訴你什麼是MCMC,如何用WINBUGS做MCMC.(因為如果手動用R編MCMC,迭代次數太多的話可以跑到你天荒地老)第二部分則由來自瓦格寧根的巨佬Prof.dr.Cajo ter Braak來講。此人數理背景極深,學術造詣極高,(google scholar顯示目前總引量5萬5千9百+,h指數76,感受一下)奈何他可能過於專注於學問,講課好像並不是太在行。經常講著講著就沉浸在他自己的世界裡,全班沒一個跟得上他的節奏(我覺得我智商可能不配上他的課吧)。他就會講很多關於算法原理及其改進的東西,什麼INLA算法呀,他自己對MCMC改進的DEMC算法呀,奈何本渣真的跟不上他的節奏。最後考試也是由兩個老師各自負責一半,Cajo部分的題目就基本答不上來。我那次考試過程中本身身體狀況也不太好,最後只是勉強過了,但是真的不想刷分了(我真的不想再感受一次被Cajo大佬碾壓智商的絕望)第二學期最後一個重要課程是Multivariate and multidimensional data analysis,我們把它簡稱為MAMDA.看名字好像是多元多維統計學,企鵝醬想著自己本科多元統計學的也不錯,應該不會很吃力。但是這就大錯特錯了。要知道我們萊頓統計系的大boss是Prof.dr.Jacqueline Meulman,老太太雖然由於年紀大了並不直接負責教學,但是這門課程教學內容全是老太太設計的。老太太本人還是斯坦福統計系的客座教授。知道老太太是以啥出名的嗎?Optimal Scaling.她本人是SPSS的optimal scaling板塊的專利所有者,IBM公司每年支付老太太一大筆錢(所以老太太也是我們系的金主大大,我們系舉辦學生活動的時候給錢超大方)所以這門課分成三個板塊,第一個板塊就是optimal scaling,中文理解的話就是最優尺度劃分。以及基於該方法的各種定性數據定量化的分析,什麼categorical PCA呀,centroid model correspondence analysis啊之類的。剛開始我也有點懵,但學起來發現還是挺有意思的,而且在應用領域這個模塊真的很有用。這個板塊由萊頓社科學院統計方法部門的Dr. Elise Dusseldorp負責授課。Elise是個非常負責任的老師,講課也比較好並且Elise的統計水平也很高,據說她做統計諮詢的收費是按每小時幾百歐來計算(突然覺得自己賺了)第二個板塊則是classical scaling, multidimensional scaling and unfolding.這個板塊是我個人認為最難的一塊內容了,由萊頓社科學院的統計方法部門的Dr. Frank Busing來講。Busing的講課方式就跟前文提到的Cajo有點類似,可能太過於沉醉於學術所以講課有點隨心所欲,大家有時也不知道他在講什麼。我們私下裡默默吐槽Busing的課是玄學第三個板塊就是正常的多元分析的內容了,講講LDA, QDA,貝葉斯判別這些,是社科學院統計方法部門的一個博後來上。我個人感覺這個部分講的比較淺,而且並不像國內教學時那樣先講多元總體正態分布這些必備的數理知識,他是直接一開始就教你在R裡怎麼應用,本身的原理講的太淺了,因此個人不是很喜歡,對這個老師印象不深。
第三學期關於統計的課程除了前文提到的統計學習,還有advanced statistical computing with R(高級R統計計算),以及一個以統計科研為目的的statistical consulting(統計諮詢).高級R統計計算的課程就跟之前的基礎R統計計算不一樣,主要就是先解釋算法的統計原理再用R去實現。比如EM算法呀,模擬退火算法呀這些。而統計諮詢課就很折磨人了,你的隊友和你分到的科研項目直接決定了你這一個學期的課程體驗。關於跟隊友的磨合我不想多提,只能說找個對脾氣的人很重要,遇到很愛鑽牛角尖的那種就真的沒辦法了,只能說這都是命吧。這個項目本身很不好做。我們分到的是一個臨床心理學的項目,研究行為認知療法對緩解兒童異常腹痛的中介效應。中介效應(mediation effect)常常運用於心理統計學,但是我和隊友之前都沒有接觸過這個領域。在此很感謝我們的statistical coach,來自萊頓社科學院統計方法部門的Dr. Peter de Heus.老先生毫無保留地教授我們知識,並很認真負責地參與我們研究問題的方法學上的討論,有一次從下午四點討論到了下午七點,他都沒有任何怨言,非常感動。此外心理學數據很多來自調查問卷數據的收集,因此存在很大的缺失數據的情況(it's a pain in the ass). 面對各種變量的各種缺失,我們不得已又得去現學關於缺失數據處理的知識,而missing data problem本身也是統計方法上一個很重要的研究領域。我們找到了一位專門研究multiple imputation的大佬短時間速成了一下。最後我個人感覺提交的報告還有很多需要深入研究的,但當時已經是我們能力所及範圍裡能做到最好的了。這門課算是企鵝醬人生第一次正兒八經地接觸科研。
第三學期上完,就進入企鵝醬目前為止人生最刺激的實習與論文階段了。在這裡先說一下,萊頓統計的畢業要求是要做滿10EC的實習和24EC的論文。10EC對應7周,每周40小時的工作量。而24EC裡4EC是寫開題報告對應的工作量,20EC是寫論文對應的工作量,也就是論文本身要投入14周,每周40小時的樣子。這個計劃看上去似乎第四學期從二月開始到6月結束應該就能幹完,但實際情況是沒有幾個地方會讓你僅僅只做7周的實習,而你的論文進度也很大程度上取決於導師,因此這就導致了萊頓統計系的延畢率巨高,很少有秋季入學的學生能在2年後的9月之前畢業,一般情況下延畢3個月甚至半年是再正常不過的事情了。(當然歐洲人本身不在乎延畢,因為他們壓根就不用交任何學費。然而像我們這種非歐盟學生,多延畢一個月就要多交1500歐的學費,並且居留卡還面臨著到期的問題,一般9月入學的,居留卡到期是2年後的11月底,如果要續居留卡又得交一大筆錢以及辦各種複雜的手續)
由於企鵝醬的導師是個目前處於荷蘭輿論風口浪尖的公眾人物,因此不太便於透露過多信息。(也許多年之後等疫情完全平息了,輿論回復平靜,企鵝醬會出個回憶向的文章,來講述這段堪比小說的神奇經歷)
說實話企鵝醬還是非常崇拜自己的導師,他的學術造詣很深,業內有專門以他的名字命名的算法。不過由於他實在是太忙了,在疫情爆發之後幾乎沒有跟他有任何交流的機會,寫論文期間只能依靠郵件聯繫,並且有時候郵件回復很慢,給論文寫作造成了一定的困難,但好在最終都成功克服了,也順利趕在10月底圓滿結束答辯,並且大佬願意給我寫推薦信。話說答辯的時候自己的導師問的問題反倒是最刁難的, 把我往死裡問的那種,好在他問的問題都是我做論文期間思考過的,也都答上來了,最後論文成績很不錯(據企鵝醬的好朋友說,這種自己論文導師在答辯時變成自己論敵的做法非常具有歐洲味)
這兩年來企鵝醬覺得自己還是認真學習了不少東西的,這個萊頓大學的統計碩士文憑分量很重,來之不易。並且在科研方面,企鵝醬從一個啥經歷都沒有的小透明到被大佬帶著入圈,參與了一線研究,並與其他好幾個國家的科研團隊有過合作,成為了兩篇一區SCI的co-author(elife,eurosurveillance),我真的很感激我經歷的一切!
P.S.:企鵝醬發現自己似乎回國後如果想繼續深造似乎還是得出去再讀個PhD, 目前已知大陸高校所有流行病與衛生統計學的博士報考要求明文規定必須要有篇SCI一作,這種規定簡直毫無道理SCI那麼多,四區SCI垃圾水刊的一作簡直沒有任何意義。企鵝醬雖然不是一作,但那兩篇期刊本身都是一區SCI,並且屬於學科範圍內比較有分量的期刊了,這倆文章不僅目前總引量破了200,還都是一篇nature medicine和一篇science文章的參考文獻。再者,企鵝醬的參與實習的科研團隊被某業內大佬評價為「one of the best modeling groups in the world",況且企鵝醬甚至收到過來自PLOS ONE這種期刊的審稿郵件,連frontiers也發過一次審稿郵件。但即使是這樣企鵝醬連大陸高校的博士報名資格都沒有所以企鵝醬未來應該會繼續漂洋過海去探索更多未知的領域!
又及:企鵝醬發現哪怕自己回國去找工作也並沒有合適的職位。本來國內招流行病統計或醫學統計的崗位就不多,而即使有,這個薪水簡直是對企鵝醬好不容易拿到的學位的侮辱,見下圖:
(要求列一大堆,薪資少得可憐武大你就是這麼對待科研工作者的?)
世界那麼大,疫情平息後企鵝醬還要繼續出去看看!
看到這篇文章,如果有對萊頓統計系碩士項目感興趣的小夥伴請點擊以下連結
https://www.universiteitleiden.nl/en/education/study-programmes/master/statistical-science-for-the-life-and-behavioural-sciences