如何揪出論壇裡的罵街黨?維基百科和谷歌聯合開發機器學習算法

2020-12-23 雷鋒網

最近,來自維基百科和谷歌的 IT 專家,公布了把 AI 用於「節制」維基百科用戶評論的成果——找出哪些用戶在搞人身攻擊,還有他們為什麼要在網上罵街。

針對該問題,研究人員開發機器學習算法,分析維基百科在 2015 年收到的的海量評論。這一年,維基百科討論頁面共收到 6300 萬條評論。這些評論存在的本意,是討論如何改進維基百科收錄的各條文章。

這些算法使用 10 萬條包含侮辱性言辭的評論以進行訓練,當然,這樣的樣本規模只能算是偏小的。起初,十名人類員工對這些評論進行分類,以明確用戶評論中都出現了哪些人身攻擊語言方式。舉個例子,該機器學習算法能區別直接人身攻擊(比如「你是個XX」),第三方人身攻擊(張三是個XX),以及間接人身攻擊(「張三說李四是XX」)

研究成果以論文形式發表出來,題目為'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大規模人身攻擊)。雷鋒網得到消息,該論文將在四月份澳大利亞珀斯舉行的的世界網際網路大會上展出。

34 名用戶「貢獻」了 9% 的網上謾罵


橫坐標軸:總發帖數;豎軸:侮辱性言論比值;黑色:匿名用戶;藍色:註冊用戶

如上圖,匿名用戶發布人身攻擊言論的概率,比註冊用戶高六倍。但發表最多侮辱性言論的,卻是一小撮活躍註冊用戶。

該分析表明,維基百科 43% 的發表言論來自匿名用戶。這些人中的絕大部分並不經常發帖,有的就只發過一次。但平均發表髒話概率比註冊用戶高六倍。但據雷鋒網了解,維基百科註冊用戶比匿名評論用戶多 20 倍,意味著超過半數的人身攻擊言論仍是註冊用戶發表的。

研究人員發現,大多數情況下用戶言論是得體的。80% 的人身攻擊來自於 9000 多名用戶,而這一群體發侮辱性帖子的平均次數少於五次。意味著大多數人只在被激怒後,才開始在網上罵街。

但是,有一個包含 34 名活躍用戶的小群體。研究人員對該群體的打分是「危害指數超過 20」。這 34 個人竟然貢獻了維基百科全部侮辱性言論的近十分之一,準確來說,是 9%。

很明顯,這些人就是網絡世界裡所謂的「罵街黨」——那些喜歡上網和人罵戰,把人身攻擊作為日常宣洩、娛樂活動的人。現在的好消息是,新的機器學習算法使得維基百科在用戶群中找出這些人變得更加容易,然後只需要把這幾個人的帳戶封掉,就能一下子減少論壇上 9% 的惡意言論。太划算了,是不是?這意味著偶爾發表人身攻擊言論的普通用戶不必被封號——大多數只在和人吵起來之後才開罵。這還意味著,維基百科不需要像拉網一樣把全部評論篩一遍,用機器學習檢測侮辱性言辭,而只需把精力放在管理這些極少數的罵街黨上。

論壇維護:人+AI

網上罵戰,有時像野火一樣被瞬時點著。正因如此,相比能自動決定該屏蔽哪個論壇用戶的電腦程式,有時候人類管理員更有用。

論文作者們在結論中說道:

「這些結果說明,圍繞著人身攻擊行為的一系列問題並不好解決。但我們的研究證實,目前只有不到五分之一的人身攻擊行為,會觸發維基百科違規程序。」

未來,AI 大概會在網站評論管理中起到越來越大的作用。研究人員指出,能自動篩選評論的系統可發揮極大的輔助作用——人類管理員能更清晰地把握用戶談話的健康狀況,並可以更快得發現「有毒」評論內容,在引發更多用戶反感之前採取措施。

via ibtimes雷鋒網(公眾號:雷鋒網)

相關文章:

維基百科的 AI 小編上崗,用於檢測惡意破壞或虛假編輯等行為

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 毫不利己,專門利人:如何再造一個維基百科?
    如何讓這樣造福社會的「正外部性」產品多一點,再多一點?橘生淮南則為橘維基百科是一本「自由的百科全書」,由全球各地無私的編輯者,在一個基本嚴謹的組織架構下,付出義務勞動貢獻而成。其伺服器、開發、運維等成本則通過網上捐助覆蓋。
  • 維基百科最高產的作者居然是機器人
    在維基百科條目內容最多的語言中,當然是非英語版本莫屬,但是條目數量第二名是什麼語言,你絕對想不到。?德語、日語、法語、西班牙語、中文……都不對,維基百科條目內容第二多的語言是宿霧語版本的!宿霧語是什麼語言,估計大多數人都不知道,其實它是幾乎只在菲律賓使用的一種小語種,全球懂得這種語言的人也不不過2000萬。
  • 維基百科上最高產的作者,是一個機器人
    Johansson 指出,在瑞典語版的維基百科裡,關於《指環王》中角色的條目就有超過 150 條,但關於越南戰爭的內容卻少於 10 條:我對託爾金沒意見,而且相對於(越戰中的)「春節攻勢」,我也更熟悉(《指環王》中)索倫發起的戰爭,但這樣真的是一個均衡的百科嗎?
  • 維基百科上最高產的作者,居然是一個機器人
    Johansson 指出,在瑞典語版的維基百科裡,關於《指環王》中角色的條目就有超過 150 條,但關於越南戰爭的內容卻少於 10 條:我對託爾金沒意見,而且相對於「春節攻勢」,我也更熟悉索倫發起的戰爭,但這樣真的是一個均衡的百科嗎?
  • 為什麼維基高管會因社區反對「被辭職」
    但特雷迪克福離職被維基編輯們反對的原因有點讓人費解:為維基百科開發一個比谷歌還要透明公正的搜尋引擎,以挽回維基百科在移動網際網路時代正在大量流失的流量。具體怎麼回事,我們還得從維基百科網際網路時代遭遇的危機開始說起。
  • 靠谷歌翻譯和維基百科,美國人為何弄不懂「中國夢」
    在國務院發展研究中心主辦的中國發展高層論壇上,這位經濟學家來了一次大膽跨界,作了一個題為《中國夢與美國夢》的簡短發言。他說得明白,這不是學術報告,更沒有結論,與其說解答問題,不如說提出困惑。 2012年11月29日,在國家博物館參觀《復興之路》展覽時,習近平同志向世界宣示「中國夢」——「實現中華民族偉大復興,就是中華民族近代以來最偉大的夢想。」
  • 維基百科之衰退:依賴它的人多了但貢獻者少了
    但作出嘗試非常重要;維基百科對於很多人來說都很重要,使用在該網站上找到的信息的人也比以往任何時候都要多。與此同時,維基百科要麼就是「殲滅」了其它的同類服務,要麼就是使得它們在谷歌搜索結果中的顯示非常靠後,如2009年被微軟關閉的Encarta和年收費70美元的大不列顛百科全書。
  • 維基百科為何差一杯「咖啡錢」
    與此同時,當網際網路公司都已向廣告俯首稱臣的時候,維基百科也再一次重申了自己的立場:維基百科是一個學習的地方,而不是一個投放廣告的地方。它將我們所有熱愛知識的人聯合起來,貢獻者,讀者和讓我們欣欣向榮的捐贈者。
  • 臺媒:兩岸網民展開「維基百科攻防戰」
    【環球時報綜合報導】兩岸關係從經貿、「外交」領域又延伸到網絡,「維基百科」的編輯內容近來成為另類角逐戰場。臺灣「中央社」7日援引英國廣播公司(BBC)此前的報導稱,如果詢問谷歌或蘋果智能助手Siri「臺灣是什麼?」
  • 維基百科「被黑」簡史
    也就是說,The North Face沒花一分錢就把自己送到了用戶的眼前,靠的就是「黑」了維基百科。自2001年上線以來,因為任何人都可以隨意修改維基百科上的內容,很多品牌都嘗試過「篡改」維基百科的內容,來達到自己的營銷目的。當然,維基百科也有相應的「利益衝突」和「有償披露」等條款,目的是防止公司或者個人通過篡改維基百科上的內容,從而誤導消費者和大眾。為什麼大家都要跟維基百科過不去呢?
  • 機器學習時代的哈希算法,將如何更高效地索引數據
    哈希算法一直是索引中最為經典的方法,它們能高效地儲存與檢索數據。但在去年 12 月,Jeff Dean 與 MIT 等研究者將索引視為模型,探索了深度學習模型學習的索引優於傳統索引結構的條件。本文首先將介紹什麼是索引以及哈希算法,並描述在機器學習與深度學習時代中,如何將索引視為模型學習比哈希算法更高效的表徵。
  • 捐款廣告又來了 維基百科為何差一杯「咖啡錢」?
    維基百科一年一度的捐款廣告又來了,近日,維基百科向其美國用戶發送了一則通知,為保護維基百科的獨立性而請求美國用戶捐助。在這條被維基百科稱為「有點尷尬」的公告中,維基百科稱,我們需要依靠平均每人約16.36美元的捐贈,但99%的讀者不給。如果每個人都捐贈3美元,我們可以讓維基百科在未來幾年保持蓬勃發展。我們所需要的就是一杯咖啡的錢。
  • 比百度百科靠譜的維基百科
    甚至有研究表明,維基百科的準確性同大英百科旗鼓相當。然而,維基百科在中國並不如它的競爭對手百度百科流行。同樣是在線百科全書,那麼讓我們來看看百度百科和在中國以外的世界早已家喻戶曉的維基百科有何不同,也看看一本自由、準確的在線百科全書該是如何編寫的。維基百科創立於2001年,定位為「自由的百科全書」,而百度百科創立於2006年,目標是成為「全球最大的中文百科全書」。
  • 維基百科資料
    維基百科是一個基於wiki技術的多語言百科全書協作計劃,也是一部用不同語言寫成的網路百科全書,其目標及宗旨是為全人類提供自由的百科全書──用他們所選擇的語言來書寫而成的,是一個動態的、可自由訪問和編輯的全球知識體。也被稱作「人民的百科全書」。http://www.wikipedia.org是維基百科多語言入口頁,這裡列出所有的維基百科語言版本。維基百科本身有三個引人注意的特點。
  • 維基百科創始人談「破碎的網際網路」:標題黨,假新聞怎麼解決?
    在這個充斥著川普、科技和反壟斷的時代,人們很容易忘記曾經的網際網路奇蹟——維基百科——現已安靜的安居網際網路一隅。  免費且無廣告的維基百科是世界上訪問量第五的網站,它豐富廣袤的知識儲備均有用戶生成。通過維基百科,我們見識了網際網路可以成長為的「形態」之一,這一點非常重要,尤其是在所謂的「技術反衝」漩渦中。
  • 外媒:維基百科如何成為種族正義的「戰場」?
    自5月25日弗洛伊德遇害以來,維基百科編輯已經記錄了超過466次抗議在美國和全球各地與喬治·弗洛伊德之死有關的抗議活動。一些志願者親自拍攝抗議活動,引發了關於維基百科用戶是否應該有資格獲得記者證的有趣討論。像AfroCROWD這樣的維基百科用戶團體在6月19日之前的兩周內組織了挑戰,以改善維基百科對民權話題的報導。
  • 維基百科十年回顧
    在網上搜索就像在一家大古董店裡找東西:碰巧了能有所發現,不過也有大量二手的破爛。你對俄製圖波列夫(Tupolev)飛機感興趣嗎?有位痴迷的愛好者建有專門的網頁。有人聚會的時候提到了沃拉普克文?有個大學的網站對這種鮮為人知的19世紀發明的語言有些零零碎碎的信息(不要把它和具有同樣名字的法國前衛搖滾樂隊混為一談)。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    機器之心作者:iCombinator機器翻譯之夢今天,當我們很自然的拿出手機,選擇一個谷歌、百度或微軟的翻譯 app ,輕而易舉的完成文字翻譯、拍照翻譯和實時語音翻譯時,我們可能不會意識到由於深度學習的出現和數據量的積累,研究數十年的機器翻譯問題已經變得可用並走入了我們的生活,給我們帶來了極大便利。
  • AI學者也用維基百科「打廣告」?這個詞條有點可疑
    機器之心報導參與:張倩、澤南、蛋醬維基百科上的詞條內容,可能會被人修改並謀取私利,而且這一情況就發生在 AI 學術圈。「遇事不決先谷歌」已經是現在很多人查找信息的標準起手了。這位發帖者表示,ta 本來打算讀一些關於梯度下降的資料,但卻發現維基百科有關這一主題的詞條就像一條廣告。為什麼這麼說呢?我們先來看一下這個詞條的結構。除了常規的背景、示例、應用等介紹外,詞條還包含 SGD 的「擴展和變體」,這部分列出了 RMSProp、Adam 等知名算法和一些「二階方法」。
  • 維基百科請求用戶捐助:99%的讀者不給
    日前,維基百科向美國用戶發送給了一則通知,請求美國用戶捐助「一杯咖啡的錢」。維基百科表示,「如果每個人都捐贈3美元,我們可以讓維基百科在未來幾年保持蓬勃發展。」維基百科公告原文:這有點尷尬,所以我們會直言不諱:今天我們謙卑地要求你保護維基百科的獨立性。我們依靠平均約16.36美元的捐贈,但99%的讀者不給。如果每個人都捐贈3美元,我們可以讓維基百科在未來幾年保持蓬勃發展。我們所需要的就是一杯咖啡的錢。維基百科是一個學習的地方,而不是一個投放廣告的地方。