最近,來自維基百科和谷歌的 IT 專家,公布了把 AI 用於「節制」維基百科用戶評論的成果——找出哪些用戶在搞人身攻擊,還有他們為什麼要在網上罵街。
針對該問題,研究人員開發機器學習算法,分析維基百科在 2015 年收到的的海量評論。這一年,維基百科討論頁面共收到 6300 萬條評論。這些評論存在的本意,是討論如何改進維基百科收錄的各條文章。
這些算法使用 10 萬條包含侮辱性言辭的評論以進行訓練,當然,這樣的樣本規模只能算是偏小的。起初,十名人類員工對這些評論進行分類,以明確用戶評論中都出現了哪些人身攻擊語言方式。舉個例子,該機器學習算法能區別直接人身攻擊(比如「你是個XX」),第三方人身攻擊(張三是個XX),以及間接人身攻擊(「張三說李四是XX」)
研究成果以論文形式發表出來,題目為'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大規模人身攻擊)。雷鋒網得到消息,該論文將在四月份澳大利亞珀斯舉行的的世界網際網路大會上展出。
橫坐標軸:總發帖數;豎軸:侮辱性言論比值;黑色:匿名用戶;藍色:註冊用戶
如上圖,匿名用戶發布人身攻擊言論的概率,比註冊用戶高六倍。但發表最多侮辱性言論的,卻是一小撮活躍註冊用戶。
該分析表明,維基百科 43% 的發表言論來自匿名用戶。這些人中的絕大部分並不經常發帖,有的就只發過一次。但平均發表髒話概率比註冊用戶高六倍。但據雷鋒網了解,維基百科註冊用戶比匿名評論用戶多 20 倍,意味著超過半數的人身攻擊言論仍是註冊用戶發表的。
研究人員發現,大多數情況下用戶言論是得體的。80% 的人身攻擊來自於 9000 多名用戶,而這一群體發侮辱性帖子的平均次數少於五次。意味著大多數人只在被激怒後,才開始在網上罵街。
但是,有一個包含 34 名活躍用戶的小群體。研究人員對該群體的打分是「危害指數超過 20」。這 34 個人竟然貢獻了維基百科全部侮辱性言論的近十分之一,準確來說,是 9%。
很明顯,這些人就是網絡世界裡所謂的「罵街黨」——那些喜歡上網和人罵戰,把人身攻擊作為日常宣洩、娛樂活動的人。現在的好消息是,新的機器學習算法使得維基百科在用戶群中找出這些人變得更加容易,然後只需要把這幾個人的帳戶封掉,就能一下子減少論壇上 9% 的惡意言論。太划算了,是不是?這意味著偶爾發表人身攻擊言論的普通用戶不必被封號——大多數只在和人吵起來之後才開罵。這還意味著,維基百科不需要像拉網一樣把全部評論篩一遍,用機器學習檢測侮辱性言辭,而只需把精力放在管理這些極少數的罵街黨上。
網上罵戰,有時像野火一樣被瞬時點著。正因如此,相比能自動決定該屏蔽哪個論壇用戶的電腦程式,有時候人類管理員更有用。
論文作者們在結論中說道:
「這些結果說明,圍繞著人身攻擊行為的一系列問題並不好解決。但我們的研究證實,目前只有不到五分之一的人身攻擊行為,會觸發維基百科違規程序。」
未來,AI 大概會在網站評論管理中起到越來越大的作用。研究人員指出,能自動篩選評論的系統可發揮極大的輔助作用——人類管理員能更清晰地把握用戶談話的健康狀況,並可以更快得發現「有毒」評論內容,在引發更多用戶反感之前採取措施。
via ibtimes雷鋒網(公眾號:雷鋒網)
相關文章:
維基百科的 AI 小編上崗,用於檢測惡意破壞或虛假編輯等行為
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。