普林斯頓大學研究者牽頭髮起一個大規模合作項目,證實了人生軌跡的可預測性極低。
編譯 | 溫淑
編輯 | Panken
智東西1月11日消息,據報導,普林斯頓大學研究人員進行了一項大規模協作研究,試圖用機器學習算法對人生軌跡進行預測。
結果顯示,模型的預測與現實相差較大。研究人員稱人生軌跡的可預測性極低。
目前這項研究已經發表在《美國國家科學院院刊(Proceedings of the National Academy of Sciences)》上,論文題目為《通過科學的大規模合作來測量生活結果的可預測性(Measuring the predictability of life outcomes with a scientific mass collaboration)》
01 .
靈感來自維基百科,用「共同任務方法」研究
據普林斯頓大學社會學教授兼信息技術政策中心臨時主任馬特·薩爾加尼科(Matt Salganik)介紹,這個項目的靈感來自於維基百科。
維基百科是一個開放式協同的百科網站,創建於2001年,是世界上最早一批大規模合作項目之一。
馬特認為這種大規模合作的方式也可以用於研究社會問題。為此,他與普林斯頓大學威廉·託德(William S·Tod)社會學和公共事務教授薩拉·姆克拉納漢(Sara McLanahan)、普林斯頓大學社會學研究生伊恩·倫德伯格(Ian Lundberg)和亞歷克斯·金德爾(Alex Kindel)合作,發起了這個項目,規定用共同任務方法進行研究。
據悉,這種研究方法常用於機器學習,但很少用在社會科學中。研究過程中,組織者先設計一項預測任務,然後招募大量不同類型的研究人員,提供給他們完全相同的數據。研究人員基於這些數據來建立預測模型。
項目參與者可以自由選用任何技術來分析數據、完成預測。同時,被預測事件的真實情況由組織者掌握,不向研究者公開。
共同任務方法有幾個優點:
首先,它能夠對可預測性進行可靠的估計。也就是說,如果實驗結果顯示可預測性高出預期,研究人員不必因為對過度擬合或研究人員自由度的擔憂而把這個結果丟棄。相反,如果結果顯示可預測性低於預期,也不能因為特定研究人員或研究方法的局限性而對這個結果不予考慮。
另外,共同任務方法能夠實現不同研究方法和理論之間的橫向比較。
02 .
「脆弱家庭研究」,跨學科招募大量研究者
普林斯頓大學牽頭的這個項目旨在研究人生軌跡的可預測性。研究人員將其命名為「脆弱家庭和兒童福利研究」(the Fragile Families and Child Wellbeing Study),簡稱為脆弱家庭研究。研究對象是1998到2000年間美國大城市的未婚生子家庭及非婚生子女。
1、數據來源
為了進行社會學研究,脆弱家庭研究進行了長期而密集的數據收集活動。
在鎖定要研究的非婚生子女家庭後,研究人員分6次收集數據,分別是在兒童出生、1歲、3歲、5歲、9歲和15歲時。每次的數據收集包含不同方面的信息。
隨著時間推移,數據收集涵蓋的方面不斷增多。例如,在兒童1歲時,數據僅包括對母親或父親的訪談;等到孩子9歲時,就要增加對孩子的老師及孩子本人的訪談。
收集的數據最多由10個部分組成,每個部分有一個特定的主題。
例如,第一次收集數據時(孩子出生時),對孩子母親的訪談包括以下主題:兒童健康與發展、父母之間的關係、父親的情況、婚姻態度、與遠親的關係、環境因素與政府項目、健康與健康行為、人口特徵、教育與就業、收入水平。
在第五次收集數據時(孩子9歲時),訪談則涉及以下主題:父母監督與關係、父母管教、兄弟姐妹關係、日常生活、學校、早期犯罪、任務完成與行為、健康與安全。
除了上述調查,研究人員還在孩子3歲、5歲、9歲時到孩子家裡進行了實地評估,評估內容包括心理測試、生物測量(身高、體重等)及對鄰居和家庭的觀察等。
通過手段,研究團隊掌握了翔實的數據。
2、人員招募
要滿足共同任務方法的要求,除了積累數據外,還要有大量研究者參與。
組織者採用了聯繫同事、與希望學生參與的教師合作、訪問大學和課程等方式招募參與者。
最終,457位來自不同領域、不同職業階段的研究人員投遞了申請,並在之後組成團隊參與研究。由於來自不同領域,許多團隊使用的機器學習方法並不局限於社會學領域。
研究結束後,組織者收到了160個有效結果。
3、預測過程
在項目進行過程中,組織者將收集的前5次數據製作成一個背景數據集提供給研究人員。根據論文,背景數據集涵蓋了4242個家庭、每個家庭有12942個變量。為了保護隱私,組織者排除了遺傳和地理信息。
第六次收集的數據中,6項作為培訓數據被提供,剩餘的則用作預測的主題。
研究開始後,各組研究人員採用不同方法,基於背景數據和培訓數據建立模型,對孩子的人生軌跡進行預測。
03 .
預測結果出人意料,與現實相差較大
組織者對比了研究對象的實際情況與各界研究人員提供的預測結果。出人意料的是,在160份報告中,與現實最接近的預測結果也並不準確。
論文中寫道:「脆弱家庭包含了數以千計的變量,收集這些數據是為了幫助科學家了解這些家庭的生活,研究人員無法對他們未知的數據做出準確的預測。」
組織者還注意到儘管研究團隊採用了不同的方法來搭建預測模型,但最後的預測結果是十分相似的。即便是差異最大的預測結果之間,不同之處也少於最接近現實的預測與實際情況之間的。換句話說,不同研究團隊之間相互預測的準確率會更高。
另外,有一些項目(比如某個孩子的GPA分數)被所有團隊準確預測了,但也有一些項目的預測結果普遍不準確。這說明誤差與被預測家庭的相關性更高,而與採用的預測技術關係甚微。
04 .
結語:人生軌跡無法預測,技術應用要謹慎
對於研究的結果,脆弱家庭研究的組織者之一馬特·薩爾加尼科說:「這些結果向我們表明,機器學習並不神奇,在生命進程方面,顯然還有其他因素在起作用。」
另一位組織者麥克拉納漢也表示「結果令人大開眼界」,「要麼運氣在人們生活中扮演著重要的角色,要麼社會科學家的理論漏掉了一些重要的變量,現在下結論還為時過早。」她說道。
無論如何,這項研究都說明了至少在目前,人生無法被準確預測,機器學習算法也不該被神化。
此外,論文的112位共同作者還指出,由於人生軌跡的可預測性並不高,社會學家和數據科學家應當謹慎使用預測模型,尤其是在刑事司法系統和社會項目中。