智商測試:現代人的偏見

2021-01-08 大象公會

文/大象公會

塑造神童的人總喜歡拿愛因斯坦作標杆，或許因為他的名字已成為「天才」的代名詞。「英國13歲女童智商160，堪比愛因斯坦」，類似標題屢見不鮮。

但這種對比的說服力極低，智商測試不是通考。市面上最為流行的韋氏、斯坦福-比奈、瑞文測試各有評分標準，兒童與成人的試題也不相同。

更重要的是，愛因斯坦生前並沒有接受過智商測試，雖保留了大腦，也無法用此估算屬於心理學概念的智商——除非大腦復活，親自做一次智商測試。

實際上，愛因斯坦的智商值來源於1926年凱薩琳·考克斯和路易斯·特曼所做的300位歷史天才早年智力的估算。對這些智商測試發明前的人物，考克斯的研究方法相當粗暴：閱讀傳記細節，替他們做當時流行的斯坦福-比奈（Stanfor-Binet）智力測試題。

考克斯的結果或許令喜歡拿它對比的神童們失望：愛因斯坦的智商只排在中遊，遠低於斯圖亞特·密爾的190、笛卡爾和伽利略的180，只與詩人艾略特持平。唯一超過200的人叫弗朗西斯•高爾頓，他並沒有前幾人的名望，但他有特殊的身份：智力測量的先行者，考克斯和特曼的學術偶像。

尤為值得一提的是，在智商測試的改進過程中，無論其注重考察何種能力，它始終是一個為現代社會標準而設置的遊戲。在某種意義上，它很難擺脫現代人的偏見。

【智力測試的進化】

長期以來，智力高低都是仁者見仁，沒有精準、抽象的標準。工業革命後，驚嘆於科學定理效力的人們，開始將目光轉向以往含混不清的領域，智力就是其中之一。

「200分先生」高爾頓是這方面的先行者。1859年，閱讀了他表哥達爾文的《物種起源》，高爾頓深受刺激，決定測量人類的智力，用精確的數據證明他的優生學設想：人的智力由遺傳決定。

高爾頓很快開工了。他試圖在聽力、手的靈敏度、中指長度、頭顱大小等要素間，找到與智力高低的相關關係。結果令人失望，這些因素完全無法解釋智力的差異。不過，這些失敗的舉措開啟了量化智力的嘗試。

法蘭西斯·高爾頓

1881年，法國開始推廣義務教育。為區分普通兒童和有缺陷兒童，教育部門急需合適的檢測工具，以便因材施教。需求刺激下，法國的阿爾弗雷德·比奈和西蒙在1905年製作了第一份智力測量表，並在1908年的修訂中，創造性地按不同的年齡段設計了試題，提出了心理年齡概念。相比較後人，比奈沒有宏偉的野心，他清楚地強調他的測驗只能測量部分智力，對預測有學習困難的兒童可能有效。

接下來，改進智力測試的交接棒傳到了美國。20世紀初，這個生機勃勃的國家裡，徵兵、移民、教育，都急速擴展，成千上萬的學歷不明，各式背景的移民蜂擁而入，迫切需要更有效率的區分方法，在混亂中整理出秩序。

同時，應用心理學正在美國快速的發展，人們相信，心理學家可以搞定一切：婚姻失和，工作不滿，推銷保險。於是被法國人漠視的比奈測試在這裡大放異彩。戰爭的爆發催化了狂熱需求，智商測試就在這個背景下大踏步地走入美國人的生活。

1916年，路易斯·特曼，就是給歷史名人估算智商的考克斯的導師，修改了比奈-西蒙測量表，將新版本命名為斯坦福-比奈智力測試。特曼吸收了1911年德國人威廉·斯特恩提出的智力商數（IQ）概念，根據不同年齡兒童做測試的分數均值，設為「智力年齡」標準，每個兒童的個人智力數值，取決於心理年齡與生理年齡的比率。這種測試方法被稱為比率智商，公式如下：

所以，高爾頓智商被測為200，是考克斯和特曼認為他3歲就能完成達到正常兒童6歲的斯坦福-比奈智商測試水平，同理，愛因斯坦的傳記等材料被認為只能體現1.6倍的心理年齡/生理年齡比。

此後，智商測試不斷進化。1949年，韋克斯勒編制了不同於比奈系列的新測試表，稱為韋氏智商測試，影響至今。韋氏測試分為成人、兒童、幼兒三版，採用離差智商計算，將同一組的智商平均值設為100，標準差設為15，整組的數據呈正態分布。與比率智商不同，離差智商不計算不同年齡的成績比率，而將挑選出來的同年齡人作常模參考，表示個人在同年齡組的相對位置。

這種新的參照方法也影響了斯坦福·比奈智商測試。在1960年第三次修訂時，它也採用了離差智商，但其標準差為16。這意味著高智商的分數，在韋氏測試應為130，在斯坦福·比奈測試則為132。

所以，即使考克斯的傳記估算法合理，媒體上介紹可與愛因斯坦媲美的聰明的少年時，也該先確定幾個問題：你使用哪種測試？成人組還是少兒組？標準差多少？參考的常模又是哪些？

【什麼是智力】

智商測試首先取決於對「智力」的理解。早期智商測試的短板在於：應用先行，缺乏理論。此後，智力理論層出不窮，但是最核心的問題：什麼是智力，智力的結構，遺傳和後天因素對智力的影響，依舊充滿爭議。

最初，對智力本質的探討來自英國心理學家斯皮爾曼，1904年他提出了常規智力和特殊智力之分。常規智力被稱為g因素，它被認為是智力的關鍵。斯坦福·比奈測試就主要集中於g因素的測量——反應速度、記憶力、語言能力、計算能力。

這種解讀的方法，將智力解析為各種能力。但只關注靜態能力，容易落入窮舉的泥潭。到1980年代時，它已細分到了240種因素。

認知心理學興起後，學者提出了信息加工理論，不再斤斤計較於靜態的劃分，更注意智力處理現實問題的能力。按此類理論，人腦被理解為信息處理系統，智力體現於為了一定目的，加工處理信息的表現。

於是，將因素和信息加工調和在一起的智力層面理論出現了——既劃分了不同因素，又注重因素在信息加工中的表現。在這種視角下，一些心理學家將以往不被重視的能力納入視野，不局限於傳統的狹隘定義。

哈佛大學的加德納在1983年提出「多元智能」概念，一改以往強調抽象思維的智力觀念，將人際關係、音樂、肢體動作等加入智力範疇。著名的情商概念也在此時提出。1991年，薩洛維提出的情緒智力（EI）概念，認為認知、控制情緒的能力，是一種長久以來被忽視的智力。經過戈爾曼的傳播，情緒智力廣為人知，逐漸被傳播為情商（EQ），和智商並列。

智力理論的發展，影響了智商測試的項目，斯坦福-比奈量表的測試能力，從最初的g因素，到後期的8種，其測試結構在數量和內容也發生變化。

斯坦福-比奈智商測試五次修訂的內容變化

認知神經科學的發展，又給智力理論提供了新的支撐。目前，學界傾向於認為大腦突觸更多的人，智力表現更好，大腦皮質的厚度也與智力相關。除了從腦部構造角度探討，認知神經科學還在確定人腦的信息加工速度、知覺速度、神經速度等功能與智力的關係。

不過，這些神經科學角度的嘗試也受到「智力」概念的困擾，對人腦哪一部分的掃描？都只能夠確定相關關係進行推論，更進一步的探討，則都需要理論標準。

未來智商理論會有什麼發展，技術上能否用腦部掃描等手段取代智商測試，抑或證明智商測試的合理性，仍是未知數。理論的發展推動人們更理性的看待智商測試，因為人類曾有濫用測試的深刻歷史教訓。

【智商測試的濫用】

1927年，美國最高法院以8:1的投票結果，判處維吉尼亞州對一名「弱智」婦女實施絕育手術。著名的霍姆斯大法官曾對此評論道：「三代弱智已足夠」。此後，美國12個州通過了對智力缺陷人群實施絕育手術的立法，27個州實施強制絕育計劃。最熱衷於此的加利福尼亞一共實施了2萬多例手術。

登峰造極的是納粹德國，近40萬人被判定智力缺陷，強制絕育。還有十餘萬人被殺害。

更早的時候，美國醫生在移民到達的地點，僅憑交談和觀察，就評估他們的智商分數，弱智者將因此被遣返。1924年，受智商檢測結果的影響，美國國會出臺了更嚴格的移民控制法案。

這種濫用智商測試的現象引起了人們的警覺，最著名的反對者是李普曼 (Walter Lippmann)。1922年，他在《新共和》雜誌上與特曼打了一場筆戰，李普曼抓住當時智商測試的弱點，批評其簡單粗暴的對待覆雜的人類智力，總是偏重某些能力，只能得出偏見，容易給個人貼上永久的標籤。

當時智商測試值得詬病處甚多。比如早期的斯坦福-比奈測試中，女孩的分數在每個年齡段都高於男孩，這讓路易斯·特曼很焦慮，1937年，新版本的測試量表刪除了男性得分差的項目，輕輕一動，男孩就和女孩一樣聰明了。

1960年代的美國，民權運動風起雲湧，智商測試被認為是種族主義的方法，受到活動家的衝擊，紐約、華盛頓特區、洛杉磯等市禁止對小學生智商測試，不過隨著民眾熱情的消退，這種激進的禁令很快被取消了。

隨後，智商測試不斷完善，早期的很多問題已經解決。但接下來，它又面臨更大的麻煩：弗林效應。

這是由美國人詹姆斯·弗林命名的現象，它顯示，在1930年到1980年間，發達國家的智商測試初始分數一直在上升，比如1932年至1978年，美國年輕人的IQ平均指數提高了14點。弗林效應也出現在發展中國家。1994—1998年間，肯亞6—8歲農村兒童的分數增加了11分，這讓人懷疑智商測試的穩定性，也與智商測試體現先天智力的觀念不符——基因的變化不可能這麼快。

目前，多數心理學家將此解釋為隨著社會進步，教育和營養水平提高，影響了抽象能力的發展，而對於弗林效應本身引起的智商測試有效性討論，則莫衷一是。

【中國人的智商】

儘管多數中國人1980年代以後才接觸智商概念，但智力測試方法早在1917年就傳入中國。1917年京師教育報上，翻譯了日本學者佐藤禮雲關於比奈-西蒙智力測試的介紹文章，並附上部分測試題目。

當時智力測試的介紹以翻譯為主。中國最早的智力測驗嘗試，是1918年瓦爾克特用斯坦福-比奈智力量表測驗清華的學生。兩年後，南京高等師範開設心理測驗課程，正規的智商測驗出現。隨後，比奈量表、美國陸軍智商測試表等被翻譯過來，在20年代風靡一時，報刊雜誌經常出現「智力小測驗」的題目。

很快，中國部分學校也各自開始智力測試。1921年，安徽第二師範附屬小學對學生進行了智力測試，試題選自比奈-西蒙測試表。1926年，廈門集美學校對女小學部的一次智力測驗，並將結果發布在《集美周刊》上。

《集美周刊》截圖。T分數為特曼（斯坦福-比奈）測試，B分數為比奈-西蒙測試。

此時的智商測試只是在一些學校出現，分布很散。報刊上雖然時常出些智力小測驗，但正規的智商測試遠沒有普及。1931年，中國測驗學會成立，一項主要任務就是協調各地的智商測試。

但這種勢頭很快被打斷。1949年後，中國心理學界開始接受辯證唯物主義和蘇聯心理學改造，「反右」期間，智商測試因為是「資產階級方向心理學」遭全面中止。1965年，姚文元在《光明日報》撰文，批判心理學為「資產階級偽科學」，雖然同一時期，資產階級的美國青年也在嚴厲指責心理學為「種族主義」幫兇。

高考恢復後，為研究中國科大等「少年班」的神童現象，學界重啟了智商測驗。1980年代初，韋氏成人智力量表和斯坦福-比奈測驗表的中國版制定出來，成規模的智商測試變為可能。

對民眾來說，對智商的了解更多的來自於大眾傳媒。1980年代中期開始，報刊和電視上「智商」概念不斷提及，人們將智商作為智力的同義詞，用以表示「聰明」，「機智」。

不過，中國人對智商測試始終不曾狂熱過。中國人所熟悉的愛迪生的名言是「天才是百分之九十九的汗水加上百分之一的靈感。」而愛因斯坦一連做了三個小板凳的故事，也曾進入小學的教科書，以此告訴學生們勤能補拙。

而情商概念一經傳入中國，就迅速替代智商，成為解釋成功者的最重要特質。雖然上世紀80年代以來，人口開始自由流動，但傳統熟人社會中的背景和關係仍是當下的典型話語，人脈網絡被視為是改變命運的最主要途徑。與西方國家不同，中國式的英雄主義也不建立在超眾的個人能力之上，而更強調個人為集體所作的犧牲。

智商測試:現代人的偏見

相關焦點

智商測試真的靠譜嗎?多少分才是正常?

你朋友圈曬的智商測試有多不靠譜?

心理測試:選擇你喜愛的一片沙灘,測你的戀愛智商是怎麼樣的

劇說《偏見的本質》:那個孬兵!

哈士奇在智商測試中合格通過,另外一隻狗子把主人笑哭!

運氣測試:假如迷路了,你選下面哪一條路?測你的智商有多高?

2016世界人工智慧智商測試結果公布

IQ測試:2道數學智力題,據說智商125+的人只需3分鐘,你呢?

中國人是智商最高的人種?

Running Man搞笑智商測試,倒數第一競爭激烈,Gary最經典專輯!

平均智商高為啥科技水平比平均智商低的國家落後?

全球智商分布圖:中國人、日本人、朝鮮人智商最高

心理測試:你拿筷子的姿勢,直接暴露出你是情商高還是智商高!

東亞人平均智商排第一

鏟屎官搭建迷宮測試貓咪智商,卻被機智破解,主人感嘆貓咪高智商

是要比智商的節奏嗎?

《馬戛爾尼使團使華觀感》——現代人的大清穿越旅行團

「人種決定智商」?DNA之父屢屢禍從口出終跌落神壇

三點水加個「去」字念什麼,路人的智商讓人堪憂,網友:智商是硬傷

定型化效應:不做刻板、偏見的人