入職測試在當今職場再尋常不過。有業務能力測試,也有人格測試,而後者可能佔更大比重。它形式一般是設置開放式選擇題,根據被測試者的回答打分,評價其性格、情緒、忠誠度和社交傾向等。管理者將可能根據這些分數來決定是否錄取被測試者。有的測試還同時輔以面試。
這些人格測試最終以數學的分數形式呈現出來。這就像是一場考試。然而,數學化的測試必然就是可靠的或可信的嗎?
電影《終極面試》(Exam 2009)講述了一場全封閉空間的入職測試。圖為劇照。
上世紀50年代,美國社會學家威廉·懷特在他的《組織人》回答了這一問題。他從人格測試的基本假設、選題設置和測試專業人員的「價值判斷」等層面進行了反思。在他看來,人格測試不過是在選擇最庸常的「組織人」(organization man),即在組織中的人。
而「組織人」正是理解人格測試的關鍵。不妨從《組織人》這本書本身說起。
「組織人」對人的行為進行假設:人將必然是組織的一部分。威廉·懷特是它的提出者、闡述者和反思者。
威廉·懷特發現,一戰後,德國社會學家馬克斯·韋伯理解的「新教倫理」從輝煌急速走向了衰落,個人主義的「適者生存」和節儉克制精神在退場。而往前追溯至更早的19世紀80年代,消弱「新教倫理」的社會經濟基礎其實已經在西方社會浮現。這是因為在當時,公司規模越來越大,大公司越來越普遍,科層管理日漸成為一項職業。只不過,人們還不認為「新教倫理」在消失,哪怕出現了一些偏離做法,也認為可以重申「新教倫理」。一戰後,轉變更加明顯。二戰後,轉變已經比較徹底。無數人加入其中,成為組織的一員。曾經崇尚的「單打獨鬥」喪失了競爭力。
「組織人」也由此假定,個人的作用是渺小的,只有當個人成為組織人才能發揮更大的效用。在個人與組織之間也被認為不存在衝突。如果有衝突,也只是出於信息溝通產生的誤解,是可以解決的。威廉·懷特從這裡判斷,「組織人」實際上不只是社會經濟現象,而是像沒落的「新教倫理」一樣是一種社會倫理,並也有其意識形態。個體、個體戶、作坊和地方性小企業則被這一社會倫理認為是落後的。
有的人進入職場,終生為獲得大企業的一個理想頭銜奮鬥。他們依附於組織架構。他們即便不具備生產技藝,也能快速攀升。而其他沒有進入科層管理的職員,同樣也屬於組織中的人。不同於過去的個人主義,最典型的、最合格的「組織人」被要求是庸常的。那些獨異的人在職場不受歡迎。企業也會通過入職前的「人格測試」來識別誰符合「組織人」特徵。
一份人格測試答題頁面。
威廉·懷特認為「組織人」的增長挑戰了人的個性和創造精神。他還毫不客氣地反思了那些「人格測試」,批評那種自以為是的科學主義。後者認為可以從測試中清楚地認識一個人。威廉·懷特全書說的「組織」是指企業,尤其是大企業,不過他也在書中多處提醒,這只是因為企業作為組織最普遍,易於被觀察。「組織人」在經濟政治社會等領域無處不在。
企業在職場為選擇「組織人」進行的人格測試,在威廉·懷特看來,「並不像它們宣稱的那樣客觀;而且,它們也並不尊重個體之間的差異。事實上,它們所賴以為基的並不是科學,而只是一種科學的錯覺。」
以下內容經北大出版社·培文授權摘編自《組織人》一書第14、15節及附錄。摘編有刪節。
原文作者|[美]威廉·懷特
摘編|羅東
《組織人》,[美]威廉·懷特著,徐彬、牟玉梅、武虹譯,北京大學出版社,2020年7月。(點擊書封可購買)
1
從能力測試發展到人格測試:
自負的一躍
雖然各種人事測試已經進行了有很長一段時間,但是,人格測試卻是最近一些年(摘編者註:指上世紀50年代)才發展起來的。像泰勒這樣的科學管理人員主要是對如何高效地完成工作感興趣,因而,他們對員工的關心也就集中在那些有助於完成工作的方面,比如他辨別距離的能力,或者是他雙手的靈巧性。
在這段時間內,測試的內容幾乎全與能力有關,並在這些方面取得了一定的成功;通過讓求職者試著用他的雙手把散亂的積木拼合起來等方法,管理層能夠更好地分辨出一個人最適合從事什麼樣的工作。
與此同時,組織發現,詞彙和智力測試同樣有用。一戰期間,心理學家們在「阿爾法」測試中開發出一種非常有用的詞彙和智力測試。雖然這些測試並不夠精確,但是,在有足夠多的人接受測試的情況下,它們也產生了一個大致的常模,使得組織能夠判斷一個人的心智能力是否足以勝任其手頭的特定工作。雖然高中和大學是此類測試的主要使用者,但是,工業界發現,隨著某些工作變得日益複雜,在衡量員工方面,智商測試與身體能力傾向測試一樣有價值。
到二戰時,使用能力測試和智力測試已經變得如此普遍,以至於任何一位美國白領都不可能在未做過測試的情況下長大。
然而,在這樣做的過程中,組織也錯失了某些東西。通過對個體進行能力測試,組織只能衡量出一個人所擁有的特定的、孤立的技能,而就其日後表現而言,只有當他在某項技能上具有巨大的天賦或者是存在嚴重的缺陷時,測試才能比較準確地預測出他未來的表現。
簡言之,能力測試僅僅揭示出了一個人所擁有能力的一少部分,而正如越來越多的群體關係倡導者所說的,組織需要的是整個人,而不僅僅是他的一部分。這個人(對組織會)適應得好嗎?他會(在組織中一直)保持一種良好的適應能力嗎?對潛在業績的測試根本無法說明這一點;想要說明這一點,需要對一個人的潛在忠誠度進行測試。
電影《飛越瘋人院》(One Flew Over the Cuckoo's Nest 1975)劇照。
長期以來,應用心理學家們一直在對精神病人和囚犯進行實驗,以探究人類身上那些隱藏更深的適應失調;在這項工作中,他們開發出一些巧妙的筆試。雖然這些測試中的絕大多數都是為了測量偏常而設計出來的,但是,除非他們也對正常人進行測試以獲得某種標準,否則也就無法測量出偏常。
後來,那些專業教育者也對這些測試產生了興趣,在這一因素的推動下,心理學家們開始將這些測試應用於普通人群。起初,他們只得出了一些粗略的指標,主要是人們外向或內向的程度。
但是,心理學家們設計出了一些新的測試,這些測試可以測量出一個人性格中所包含的幾乎所有方面。現今經常使用的測試是用十進位數字來表示一個人的激進或保守程度、他的實用判斷水平、他的社會判斷水平、他的堅毅力程度、他的穩定性程度、他的滿足指數、他對社會的敵意程度等——目前的最新發展是,一些心理學家正在完善一項對一個人幽默感大小的測試。
一種更為複雜的測試是投射技術,如羅夏墨跡測試和主題統覺測試等,在這種測試中,被試者被迫將自己的想像力運用到某種刺激中,然後由測試者對他的潛在感受和精神狀況進行X光式的檢查。
當然,要求一個正常的成年人展示自己和要求一個精神病人展示自己並不是一回事,有些成年人就強烈反對這種對自我展示的要求。但是,心理學家們告訴組織,這種不服從並不是一個很大的絆腳石。測試人員已經學會了如何去解讀人們對測試這一事實做出的不同反應。如果一個人拒絕回答測試中的一些問題,他同樣無法逃避被測試人員進行分析。對於這樣的人,許多心理學家認為,他們可以推斷出他內心焦慮的程度,以及他是否會完全與人合作。
國產職場劇《加油吧實習生》(2015)劇照。
2
人格測試分數與難以消除的「人為因素」
究竟何謂「人格」?難道是表面上一個人微笑和談話的方式?心理學家顯然不會這麼認為。
我們必須深入一個人的內在,可是,我們深入到什麼程度才算合適呢?雖然絕大多數測試人員都認為把人格和整個人分開是一種無稽之談,但是,邏輯卻告訴我們,為了能夠從統計上去預測人們的行為,我們必須這樣做。數學因其完美而具有欺騙性。
正是因為「百分位」「係數」「標準差」是中立的,所以使用這些東西的方法論才會給人們帶來一種錯覺,認為它們把不確定性轉化成了確定性,把主觀變成了客觀,並消除了棘手的主觀價值判斷。然而,事實上,數學根本未能消除主觀價值的影響,它只是將其模糊化了而已。
我們先來看一下對測試分數的解讀。測試人員認為,在這個過程中,人為因素已經被大幅消除,因為打分採用的是標準化分數(這方面唯一的例外出現在投射測試中):如果你選擇答案D,你就會得到某一分數,至於測試人員對此會怎麼想都與得分無關。
但是,你並非只需要做一個測試,而是通常需要做好幾個測試,在這個過程中,最重要的部分就是,測試人員如何利用不同的分數整合出一幅關於你的畫面。測試人員需要合成的分數越多,他需要做出的解釋工作也就越多,而不是越少。
一份職場性格測試結果。
即使那些訓練有素的被試者也不大可能完全不受環境和觀念的影響。測試人員的情況也是如此,如果他自身有神經官能症,他的解讀就會是一種極大的誤導。
幾年前,中西部地區一家公司的執行官,把他面試過的一個他認為相當不錯的候選人,送到一位分析師那裡去做測試。返回的測試結果報告有些出乎他的意料:按照那位分析師的說法,他送去的這位候選人對權威缺乏一種正當的尊重,「對組織的忠誠度很低」。但是,這位執行官還是僱用了這個人,他並不介意候選人是否熱愛公司,他關心的是候選人的工作績效是否出色。事實證明,候選人非常勝任分配給他的那份工作。
一年後,這位執行官又收到了一份類似的報告,對另外一個同樣能幹的候選人給出了一種消極評價,這位執行官的好奇心被勾了起來,他決定去找這個分析師聊一聊。「那個可憐的傢伙疑心重重,」這位執行官回憶道,「他灰心喪氣,因為我送去的人和他年齡相仿卻在事業發展上領先於他。我問他為什麼對我送去的第一個候選人提出警告,他告訴我說,第一個候選人不穩定,因為他家裡有兩個孩子,可他卻買了一輛敞篷跑車,而且他還正在建造一座『超現代風格』的房子。」
在投射測試中,解讀的作用可以說是尤為關鍵。最初,它們只是作為完整臨床診斷的一部分供專家使用,該領域的一些專家並不建議用它們來進行人才選拔。正如他們指出的那樣,測試有時更多是對正在做測試者的投射,而不是對被試者的投射。
3
人格測試面試與難以克服的「價值判斷」
社會學家大衛·裡斯曼(David Riesman)講述了一個故事:一位歷史系學生參加了一項主題認知測試。在這一測試中,你會看到一幅圖片,比方說一個人正在跨出大門,然後要求你講述一個與圖片內容相關的故事。毫不奇怪,這位歷史系學生講了一個有名的歷史人物面臨困難抉擇的故事。
啊哈!負責解釋測試結果的人會說,這是一種失調的表現,因為這個學生談到了那些死去的人。這是一個歷史人物在測試人員腦海中喚起的第一個想法。
無論採用何種測試,面試體驗本身都充斥著價值判斷。在該領域不受人為意志幹擾的文獻裡,已經很難看到測試過程中面試者和被試者的個人主觀色彩。
但是,請想像一下,一個中年人被一個素昧平生的人進行評估。即使這兩個人自身都絕對「正常」,他們之間的關係也很難處理;即使雙方交談起來彬彬有禮,他們也能感受到彼此之間存在的那種利益衝突。被試者往往不敢袒露自己的心跡,而面試者則在被試者身上竭力尋找蛛絲馬跡。僅僅是出於職業原因,面試者都很想一探究竟。
電影《終極面試》(Exam 2009)講述了一場全封閉空間的入職測試。圖為劇照。
有時候,面試者也會出於個人原因而很想一探究竟。至今我仍清楚地記得,我和同事與一位知名諮詢顧問進行的一次談話。他主動談起自己的一件往事。在解釋他的面試技術時,他提到了二戰中實施的OSS測試項目,在這個測試項目中,測試者會讓被試者接受一系列艱苦的經歷,以測試他們在受到驚嚇時的反應。
這位知名顧問解釋說,顯然,這種測試無法在工業環境裡進行,但是,其中相關的原理卻是可以借鑑的。他開始向我們解釋他自己的面試技巧。
「我和被試者坐在一起,手裡拿著他的測試記錄,以及他的各種個人資料。我對他非常友好。不過,現場氣氛依然顯得有些緊張;在這種場合下,通過對他施加更多的壓力,他會暴露出更多關於他自身的信息。例如,我一面審閱資料,一面大聲說道:『已婚,17年婚齡。』然後又說:『尚無子女。』
我會刻意揚起眉毛,若有所思地停頓一下。而他則很可能會對此很敏感,即刻脫口而出,告訴我他太太或他患有不孕不育症,以及他們如何四處求醫,等等。我還會順便問問他們夫婦的性關係如何。幾分鐘後,我會再次向他施壓。
在面試快要結束之際,我一般都會非常自然地笑一笑,說:『我們先休息一下吧。』這時,他就會放鬆下來,並認為每件事都進展順利。而就在這時,我會拋出一個他非常難以回答的問題,讓他措手不及。」
我並不是想要暗示說測試人員都是一些心理不正常的人,儘管我很想補充一句,在這樣的暗示中含有某種詩意的不公。當被試者拒絕配合或者提出批評意見時,許多測試人員,就像那些科學主義的追隨者們一樣,往往不是去自我反思,反而是會去揣測:為什麼對方會持有異議?他們把同情心當成了一種武器。
但是,如果反過來說測試人員都是心理很正常的人,也不公平。雖然大多數測試人員做事都很公平,與旁人一樣正常,但是,就他們自己潛在的敵對行動而言,如果他們沒有一些這樣的行動,那才是真的不正常。
如果他們完全壓制這些對立,那也不正常。測試人員試圖扮演上帝的角色——如果他與被試者在年齡、薪資、背景或秉性上有很大差異,這種傾向更是會表現得特別明顯。當然,一個對自己和他人有深刻了解的人,一個具有智慧、忍耐和謙虛品質的人,完全可以不受這種傾向的幹擾。我的這些評論並不適用於這樣的測試者。
電影《面試》(Job Interview 2013)劇照。
4
人格測試問題設計的尷尬:
「喜歡讀書,就是不愛社交嗎?」
到目前為止,我們一直都在談論測試人員如何闡釋測試結果,下面我們再一起來看一下那些測試問題。測試問題能否免受人們價值觀的幹擾?在設計問題時,測試者不可避免地會受到其所在特定世界的習俗和價值觀的影響。
這方面的一個例子就是那些用來評估社交能力的問題。你讀書嗎?在某些群體中,閱讀是一種不愛社交的行為,如果一個人承認自己有時選擇讀書而不是和同伴一起,他就有可能是一個內向者。然而,問題是相對的。
如果在一個人成長的環境裡閱讀是一件非常正常的事情(實際上,這在許多社交談話中都是一個很好的話題),那麼隱藏在測試裡的「價值觀」就會對此給出一種完全不同的判斷結果。人們並不總是會以同樣的方式去進行社交。一個選擇讀書而不是和同伴打保齡球的人可能會被人評價為不愛社交,然而,事實上,他卻很有可能是一個非常外向的人。他只是碰巧不喜歡打保齡球而已。
紀錄片《書謎》(The Secret Life of Books Season 2014)劇照。
當門外漢被問題的含義弄得暈頭轉向時,測試人員有時會報以高深莫測的一笑,說這些不過是「表面效度」。他們認為,測試問題便於被試者理解固然是好,但是,如果有很多人在一段時間裡都對問題進行了回答,那麼問題本身也就變得沒有那麼重要了。
換句話說,如果100個滿意的主管都以相似的方式對一個特定問題給出了回答,那麼這件事情就有了意義;因此,無論問題本身是否有意義,它都會產生一個有意義的相關係數。
有人可能會問了:你所說的這些到底是什麼意思?這裡不是寫一篇統計學論文的地方,我只想對那些讓人印象深刻的測試圖表和表格提出一點看法,談談它們是如何讓人們忘記了常識。
事實上,有很大一部分數學運算都是內部的——也就是說,它們是測試結果與測試結果之間的比較,而不是測試結果與外部證據之間的比較。現在,這種內部數學在確定測試的「可靠性」方面很有價值。
例如,如果一組人參加了測試中的表格B測試,並且數學相關性顯示他們的百分位數排名與他們參加同一測試中的表格A測試時一樣,我們就認為這個測試在測量事物時是可靠的。
然而,測試的可靠性很少會告訴我們它的有效性。除非它們確實測量了需要測量的特質,否則測試結果的一致性再高也是毫無意義。這些測試衡量的是社交能力、內向性或神經質傾向,還是僅僅衡量了一堆關於滅火或者喜歡閱讀書籍這一類問題各項答案的選擇次數?
要想表明測試有效,測試分數必須與被試者的後續行為相關。然而,當你去檢查很多測試的有效性證據時,你會發現,它們主要展現的是特定測試的平均得分與其他人測試的平均得分有多麼接近。因而,測試分數之間有相關性並不奇怪。測試題目的編寫者在編寫試題時經常互相借鑑(其中有些試題會在多達10~12個不同的測試中出現),這種相關性在很大程度上證實了測試領域存在的一些亂象。
5
測試分數與行為的相關性:
若干懷疑
那麼,測試分數與行為的相關性究竟有幾分呢?這裡我們以本羅特人格量表(Bernreuter Personality Inventory)為例。這是迄今為止在商業領域得到最廣泛應用的一種測試(史丹福大學出版社作為這一量表的經銷商之一在1953年售出了100萬份)。
然而,通過閱讀專業期刊你會發現,在關於它的報告中,有許多都是負面的。一些心理學家通過對比被試者的本羅特得分和被試者更為客觀的特徵,並未發現這兩者之間存在顯著相關(事實上,有時這兩者之間甚至還是負相關)。
塞西爾·帕特森(Cecil Patterson)在《社會心理學》期刊上發表了一篇文章,他在文章中寫道:「結論是,使用本羅特人格量表的研究結果幾乎都是負面的,它與其他變量之間顯著相關的發現並不足信……毫無疑問,這是由於問卷本身的性質決定的,這種技術對人格研究來說毫無效果。」
國產職場劇《長大》(2015)劇照。
正如一些知名心理學家指出的,一個真正嚴格的驗證,需要公司僱用所有被試者一段時間,對他們進行測試,然後把測試結果封存起來,這樣被試者的分數就不會對主管產生誤導;然後,在幾年後取出測試結果,將被試者的得分與其實際績效一一進行對比。不過,在現實生活中,很少有人嘗試這麼去做。
教育心理學家羅伯特·桑代克(Robert Thorndike)指出,大多數對該領域內已知人格測試的後續研究都被「汙染」了。「想要進行真正的驗證,」桑代克說,「需要按照流程進行評估(不能讓負責人看到結果,因為他們能夠控制被試者的職業發展和評價),再獲得與(原始)評估完全無關的工作績效評估,然後把這兩組獨立數據匯總到一起。」
已經有一些研究對不同的測試群體進行過對比,例如,一個被認為有著較高生產力的群體在某一特定測試中的平均得分,可能高於另一個被認為有著較低生產力的群體。然而,群體的平均得分並不能反映出個人的情況。即使在「優」群體中,也總是會有一些人的測試分數要比「差」群體中的一些人更低。
測試人員通過進行一系列而非一兩個測試來逃避這個難解之謎。然而,無論增加多少變量,你都無法使它們變成常數。如果一個人不僅其「滿足指數」高,而且其「易怒指數」也高,那麼好的部分是否能夠抵消壞的部分呢?測試人員經常發現自己又回到了他開始的地方。如果他是一個目光敏銳的人,他可能很少會去注意分數,並會做出一種非常準確的預測;然而,如果他的預測後來被證明是正確的,這就會被視為測試具有驚人準確性的又一個證據。
6
誰是「正常的」?一個問題的問題
誰是「正常的」?在某種程度上,我們所有人都有一種內在的衝動,想要去適應我們想像中的各種規範;在我們的生活中,我們可以感覺到,我們被各種規範的汪洋大海所包圍。我們為彼此展示給對方的表象所迷惑。
現在,隨著各種規範被正式加以數據化,我們比以往任何時候都要更容易受到它的侵害。看起來,似乎「科學」是它的盟友,因而,分析結果若是錯了就會讓人產生一種內疚感,若是對了則會讓人產生一種不足感;我們忘記了,這種種規範通常都是先前的被試者本能地猜測每個人都會怎麼回答而給出自己答案的結果。
如果組織人幸運地逃脫了「自我暴政」的危險,他還將面臨另一個危險。起初,看到測試結果,上級可能會嘲笑它,但若他們一直依賴測試,他們就會逐漸與測試結果的正確性產生一種利害關係。不幸的是,懷疑需要證據,有時它會抵消判斷,使管理層人員在無意中懲罰被試者,從而增強管理層人員對測試的信任。
中西部一家大型公司準備提拔一個人,公司決定讓他先參加一個測試。諮詢公司寄回公司的報告上寫滿了關於他的穩定性的警告。公司感到很困惑,因為這個人在公司裡一直以來事情做得都很好,可是誰又說得準呢,也許那只是一種表象……公司在這上面思慮越多也就越是擔心,最後,公司告訴那個人,公司決定把他期待已久的晉升機會給另一個人。六個月後,公司得到報告,那個人精神崩潰了。與所有其他類似的故事一樣,這家公司的管理層人員表示,這一事實證明了測試結果的準確性。
得分不高的人是否就必然不稱職呢?從定義上來說,充滿活力的人是一個例外,因為他如果參加的是能力測試,測試結果將會獎勵他,他如果參加的是人格測試,測試結果則經常會懲罰他。看看關於他們的特質輪廓描述的剖面圖,你會發現那裡面有三個共同特徵:外向,對藝術不感興趣,欣然接受現狀。測試得分情況顯示出同樣的偏見。
紀錄片《面試》(Die Bewerbung 1996)畫面。
如果你想獲得一個好的分數,你最好是要遵守以下兩條規則:
一、當被問及關於世界的詞語聯想或評論時,你應該儘可能給出那種最常見、最普通、最平淡無奇的回答。
二、當對任何問題的最佳答案拿不定主意時,請對自己重複以下內容:
我愛父親和母親,但愛父親要更多一點。
我喜歡事物的本來面貌。
我從不擔心任何事情。
我不喜歡書和音樂。
我愛妻子和孩子。
我從不會讓他們妨礙公司工作。
如果你是一個這樣的人,你在公司裡並不會發展得太好;然而,矛盾的是,除非你看起來是一個這樣的人,否則你在公司裡也不會發展得太好。檢查一下常模,你會發現,我提出的這個建議絕對不是在跟你開玩笑。常模基於小組得分,而小組成員往往是1000名大學新生、400名高中生,或者其他一些普通人的集合。對於某些群體,像高層管理者和化學家,研究人員已經確立了一些常模;而且,隨著時間推移,這些常模還會越來越多。但是,這些常模其實也是虛幻的。
通常,這些常模都是建立在已接受本組織測試者的反應的基礎上;在這種情況下,自我保護心態會要求被試者謹慎回答問題,所以這些常模也就更像是被試者迎合組織想法的聲音的回放,而非他們自己的真實想法。
純粹的測試機制會排斥那些傑出人才。對那些智力超群者來說,預先備好答案的測試恰恰是最難回答的測試。
本文經北大出版社·培文授權摘編自《組織人》。摘編有刪節,順序有調整,標題由編者所取。原文作者:[美]威廉·懷特;摘編:羅東;導語校對:柳寶慶。歡迎轉發至朋友圈。