你在網上發布了多少關於你自己的信息?好吧,在當今時代可能有很多。我們不斷地聯繫在一起,與很多人分享生活中的瞬間,無論這些人是否認識我們。這很好,只要你決定你想展示什麼。但是,如果我告訴你,通過寫文章,你所展示出的隱私超過你所意識到的內容呢?
我們可以想像,一個人的寫作風格可能與他或她的個性有某種聯繫。使用「哇」、「擁抱」、「聚會」等詞可能表明我們在閱讀性格外向的人寫的信息。另一方面,也有很直觀的內向詞彙的集合,例如:「孤獨」,「書籍」,「平靜」。很明顯,這有點誇大了。事實上通過詞彙判斷性格並不是那麼容易。人類要複雜得多,不能僅僅通過人格特徵典型的詞語來確定個人性格。或者以下圖片中的他們可以?
說一個人的個性可以通過寫篇文章來預測,就像上圖一樣
網際網路上充斥著各種各樣的人格測試。其中一些是用來讓你感覺更好並以此說服你付費的。這基本上和測星座一樣,沒有任何實際價值。但在這片騙子和偽心理學家的海洋中,有一些基於科學研究的有趣測試。在我看來,值得特別注意的是邁爾斯-布裡格斯類型指標(MBTI)。對我來說,這個結果非常準確,很多人似乎也有同樣的感覺。所以我決定在這個領域進行發掘。在研究過程中,我發現了一個Kaggle數據集,其中包含一篇來自8600多人的帖子,這些帖子根據作者的測試結果標註了作者的個性特徵。
什麼樣的數據是可用的?
上面提到的數據集非常簡單。它只有兩個專欄,其中一個包含來自Personality Cafe網絡論壇的臨時帖子,另一個是帶有作者MBTI測試結果的標籤。
基於此,我們可以就這些數據提出幾個有趣的問題:
1,每個人格特質在論壇用戶中的分布情況如何?
2,每個特質都有最重要的代表詞嗎?外向者的寫作方式和內向者不同嗎?或者是那些比較敏感的人在使用情感詞彙?
3,最後:能否根據某人的職位預測其性格類型?
讓我們開始這個數據遊戲
在我們繼續之前,我們應該先解釋一下這個神秘的縮寫詞到底是什麼意思。每一個字母代表一個個體的特徵。我們可以選擇8種不同的類型,四種類型的組合創造了個性類型。
所以讓我們試著回答第一個問題並檢查數據集中每個人的分布。
這個世界上似乎有更多的內向者而不是外向者…嗯,經過再三考慮,筆者認為分布似乎不正確。讓我們檢查一下測試作者的統計數據。
這真是太有趣了!上表中最受歡迎的特徵似乎是ISTJ和ISFJ,得分分別為11%、6%和13.8%。這些結果與我在計算Kaggle數據集中的分布時得到的結果完全不同,在Kaggle數據集中,這兩種類型的人大約佔2-2.5%。
我們發現這些差異幾乎適用於所有類型。看起來,擁有INFP、INFJ、INTP和INTJ類型的人最有可能在個性類型論壇上發帖。
此外,當我們在提供的圖像中重新創建左側的表時,我們可以看到它也完全不同。字母I、F和P在他們的首字母縮略詞中的人將佔過多的比例。在我們之後的分析中,我們必須記住這些數據是不平衡的。
結論
自然而然得出的結論是,更注重分析自己的性格的是內向者,而不是更善於交際的外向者。基於這個原因,我們可以預期,他們將更有可能進行人格測試,並在保證這種匿名性的論壇上談論自己。一點也不奇怪,情緒化程度更高的人(字母F)會更頻繁地寫自己。尤其是當它涉及到與內向的聯繫時,這往往會使這些人難以表達自己。
文本分析
正如我們之前看到的,數據有點混亂。它包含許多大小寫混合的字母、標點符號、連結等。在我們開始分析之前,我們應該把它清理乾淨。我所做的相對簡單,包括:
1,刪除連結。
2,刪除所有數字和標點符號。
3,所有字母小寫。
4,刪除休止符。
5,一開始我使用了單詞變體還原,但是它導致了準確度的顯著降低,所以在進一步的分析中我放棄了它。
6,用數字表示替換每個單詞。