維基百科上最高產的作者,是一個機器人

2020-12-23 站長之家

正如整個網際網路上最常用的語言是英語,英語版維基百科同樣也是全球 309 個語言版本維基百科中內容最豐富的一個。今年 1 月,英語版維基百科上的條目正式突破 600 萬條。

出奇的是,擁有全球第二多條目的語言版本,並不是西班牙、法語等「大語種」維基,而是宿霧語(Cebuano)版的維基,一共有 538 萬個條目。

如果你沒聽過這種語言,也是正常的。

宿霧語是一種在菲律賓使用的小語種,懂得講宿霧語的人合計都沒超過兩千萬。而且,宿霧語版維基的雖然有五百多萬條條目,但管理員只有六人,活躍用戶也只有 14 人;相比之下,英語版單單是管理員就有 1143 人,活躍用戶更是超過了十萬人。

事實上,宿霧語版維基那五百多萬個條目,99% 的內容是一個名為「Lsjbot」的機器人所完成的。同時,它也是維基百科上最高產的作者。

狀態好,一天能創立 10 萬個條目

Lsjbot 的「爸爸」Sverker Johansson 是一位瑞典物理學家,而且還擁有語言學、經濟學和土木工程的學位。他的太太是菲律賓人,通曉宿霧語,因此 Lsjbot 在瑞典語和宿霧語版本的維基百科中都有創作內容。

Johansson 表示,自己一直以來都對「一切事物的起源」充滿興趣,並認為維基百科在未來應該可以「讓所有人了解所有事」。於是乎,他花了幾個月時間編寫了 Lsjbot,想用一種更快捷的方式將維基百科推向「囊括一切」的美好願景。

Lsjbot 做的事情有點像「開荒牛」,將 0 變成 0.5。

它不會撰寫系統豐盈的條目,只會簡單地創立一個條目,放上最基本的信息,這種條目被稱為「小條目(stub)」,有待用戶進一步補充和豐富內容。Lsjbot 專注的領域也比較窄,主要都是生物物種和地理相關的內容。

▲ Lsjbot 一般生成的小條目都是這樣的,圖片來自維基百科

Lsjbot 生成內容的過程也非常程式化。首先,Johansson 會先就一個特定領域內容編寫模板,然後尋找可信、機器可讀的資料庫作為信息來源,再讓 Lsjbot 根據模板來「填空」,並完成後期的發布工作。效率高的時候,Lsjbot 一天能完成十萬條小條目。

聽著這個工作描述,大家也能感覺到,Lsjbot 雖冠名幾百萬條條目,但內容其實都只是乾巴巴的「骨幹」,缺乏人類的創造力和思考,自然惹來了部分活躍維基作者的不滿。

總的來說,我反對機器人生成的小條目。(它們)只包含或多或少正確的分類信息,但卻缺乏像動物外觀等重要信息。

41 歲的 Achim Raschka 說,他是德語版維基百科的積極貢獻者,常常會花好幾天時間來完成一篇關於某種植物的深度條目。

Johansson 也承認,Lsjbot 創造的內容的確很無趣,但也堅持這些內容也有自己的價值。在他看來,Lsjbot 的條目能補充一些在原本維基社區中缺乏代表的領域。

維基百科作者的多樣性已被詬病許久,有研究發現在維基百科上撰寫內容的人大部分都是居住在北半球發達國家的男性白領,擅長科技產品。Johansson 指出,在瑞典語版的維基百科裡,關於《指環王》中角色的條目就有超過 150 條,但關於越南戰爭的內容卻少於 10 條:

我對託爾金沒意見,而且相對於(越戰中的)「春節攻勢」,我也更熟悉(《指環王》中)索倫發起的戰爭,但這樣真的是一個均衡的百科嗎?

雖然 Lsjbot 的內容「乾巴巴」,但 Johansson 希望這些知識骨幹能拋磚引玉,啟發未來的維基作者探討原有社區「舒適區」以外的內容。

這也是為什麼我認為 Lsjbot 這個「開荒牛」只將 0 做成了 0.5,因為得有人類作者的創造性參與,0.5 才能走向 1。

事實上,維基百科上除了 Lsjbot 外,還有大量承載著不同職能的機器人,它們已經成為了這個社區不可或缺的成員。

維基百科的「機器人軍團」

我們常開玩笑說,機器人得來一次大罷工,所有人才會懂得感恩它們對社區做出的奉獻。

(如果沒有機器人)這個網站將需要我們做更多工作,編輯的工作過載率也會大大提升。

生活在澳洲的 Chris Grant 說道,他是維基百科社區中專門負責管理機器人的組織「機器人審批組(Bot Approvals Group,以下簡稱為 BAG)」的成員。

是的,機器人在維基百科上應用的歷史悠久廣泛得內部在 2006 年就已經設立了專門審核和管理機器人的 BAG。

從流程來看,如果有維基作者想在社區應用機器人,他們必須先向 BAG 提交申請,闡述機器人的功能、程式語言以及它預計會涉及的頁面數等信息。隨後,BAG 的成員會綜合多方面預估其可能帶來的影響,並決定是否通過。即便是已經通過審核的機器人,開發者每為它增加一個功能,機器人都必須重新提交審批。

截至 2018 年,維基百科上應用的機器人數早已破千,並且仍在不斷發展。一篇 2019 年的論文 《The Roles Bots Play in Wikipedia》研究分析了維基百科上的機器人,並以職能將其分為九個大類:像 Lsjbot 般用其它數據來源生成頁面的「生成者(Generator)」、負責修復超連結、文檔之類的「維修者(Fixer)」、更新數據,記錄用戶狀態的「文員(Clerk)」、向維基作者提供建議的「顧問(Advisor)」等等。

▲ 維基百科上機器人的九大分類

這些機器人大部分都幫人類編輯完成了社區中非常繁複的批量工作,同時也為新加入的成員在編寫內容時提供幫助建議,清除各類惡性內容。當然,機器人也有犯錯的時候,鑑於維基的編輯系統對修改記錄的透明化,管理者也能及時更正錯誤和優化機器人。

沒有機器人,維基百科將是一片混亂。

一位自稱為 Hersfold 的維基百科管理員在接受 BBC 採訪時說道。

當人們在反對 Lsjbot 時,他們在反對什麼?

既然機器人在維基百科上的存在已經歷史悠久,其中像 Lsjbot 這總內容生成型的也不少,為什麼人們一直仍在就 Lsjbot 的存在合理性爭辯?

事實上,維基百科誕生次年,首個被應用的機器人 「rambot」就已經誕生,而且它還是和 Lsjbot 類似的內容生成型機器人。

當時,rambot 從美國人口普查公開資料裡提取地理信息,在英文版維基創建了三萬條關於美國城鎮的小條目,同時,這也是維基百科上第一個機器人。後來,這些條目逐漸由人類作者完善豐富,增添了各種歷史事件和旅遊資訊。

截至 2009 年,英文版維基百科中由機器人和輔助性程序參與的編輯佔到了總數的 28.49%。

為什麼做類似事情的 Lsjbot 卻一直被攻擊?

主要還是個佔比的問題。

正如文章開頭提及,宿霧語版維基的活躍用戶只有十多人,而 Lsjbot 生成的條目有 500 多萬條,部分人認為這個小社群沒有可能能夠去完成如此大量的完善工作。

因此,當一個新用戶來到這個語言版本的維基百科時,他們所看到的就只有質量低下的條目,並會因此離開,或失去動力參與編輯貢獻。

2017 年,因宿霧語版維基上大部分都是機器生成的內容,用戶 KATMAKROFAN 提出關閉該語言版本維基。

最終,委員會在就該議題討論的公開頁面宣布駁回提議,表示「理解該項目中機器人生成內容的問題的確需要關注」,建議「收緊內容質量把控」。

所以說,人們在爭辯的其實是社區運營的問題,同時,也在討論機器人產生的內容如何影響人創作的積極性,並不涉及機器人創作內容質量本身。

Johansson 於今年接受 Vice 採訪時表示,出於對社區 「態度改變」的考慮,現在 Lsjbot 已經不會再在宿霧語版維基創建新條目,只負責執行維護類工作。

雖然 Lsjbot 現在已經不創建新條目,而它們這類機器人的作品也許也稱不上「創作」,但人類對寫作機器人的探索一直沒停過。

有的算法在寫作,有的算法在默默影響人類寫作

去年,華盛頓大學的團隊突然想到一個曲線打擊假新聞的方法 —— 想要創造最好的檢測假新聞的算法?也許我們得先寫一個擅長寫假新聞的算法。

於是乎,Grover 誕生了。

只需要輸入標題,Grover 就能生成一段假新聞。《Fastcompany》編輯曾以《為什麼川普一天要做 100 個伏地挺身?》為題,讓 Grover 發揮:

當你想到伏地挺身時,第一個想到的形象絕對並不是美國總統。

作為三軍統帥,川普的健康狀況並不怎樣。他承諾一旦當選總統就會鍛鍊身體,而且在《飛黃騰達》中,他曾對阿諾德・施瓦辛格的技術大加嘲諷,如果沒有什麼能阻止川普不做「川普式的伏地挺身」。

不過就連川普自己也承認,不管你的工作多麼適合你,要想駕馭自己的身體都是極其困難的。那麼,是什麼讓三軍統帥走上正軌呢?答案是 100 個伏地挺身。

雖然這段話看著看著讓人覺得不妥,但仍無法否認它對川普言論風格的掌握不錯,還挺「創造性」的。看到這裡,你也許也會想起小愛同學寫的詩句。Grover 論文的第一作者 Zellers 很好地總結出算法寫作存在的普遍問題:

儘管書寫看起來很流暢,但 Grover 和其他神經語言生成器所寫的文章包含了機器獨有的語言怪癖,這暴露了它們的機器起源。

正是因為算法寫出來文章的「古怪」,它們正成為人類作家的一個尋找靈感的工具。

小說家 Sigal Samuel 最開始因好奇試玩了 OpenAI 的寫作算法 GPT-2。這個算法能基於人輸入詞語或句子來「接話」。

Samuel 覺得,雖然算法反饋的東西很隨機,但不時能冒出一些她意想不到的內容,激發她的靈感。所以,現在當她「靈感便秘」時,有時會用 GPT-2 進行「暢想」:

作為一名作家,你沒法隨時都身處創作研討會或找到合適的朋友討論想法。所以有這樣的人工智慧做參謀兼合作者還挺好的。

與此同時,也有自己不寫作的算法,很有可能在更潛移默化地塑造人類未來的寫作。

在美國,採用算法來為學生文章打分的學校至少遍布了 21 個州。這些算法的「底子」是數百篇經人類教師批改的文章和反饋。就和面試算法一樣,這些改作文的算法同樣被指存在偏見。

有家長反饋,算法批改文章的方式沒有讓自己的孩子更懂寫作,只是鼓勵了他們用各種浮誇的詞語來換取高分。

不過,算法批改文章和人工批改間的最重要差別還是在於透明度——當文章是由人工批改,當你遇到困惑或不同意的結果,你可以去問改這個文章內容的人為何會作出這樣的決定,但如果換做是算法,我們永遠無法知道它的評價標準和原因。

無論是自己去寫作的算法,還是被用於輔助人類寫作的算法,未來這些工具只會有增無減。

也許它們的「語言怪癖」非常明顯——這可以是像 Lsjbot 創造的小條目的「乾巴巴感」,也能是 Grover 的「乍一看順暢,細看覺得不妥」,但這不應該成為我們忽視它們的理由。無論喜歡與否,它們都將在不同程度上影響人類寫作的創作。

當尼採開始用打字機寫作後,他的朋友發覺他的散文變得更緊實,擁有了一種「強悍力道」。而他自己也認為「我們的寫作工具會參與塑造思考」。在和機器人同行的算法時代,我們的寫作又會如何演化?

相關焦點

  • 維基百科上最高產的作者,居然是一個機器人
    正如整個網際網路上最常用的語言是英語,英語版維基百科同樣也是全球 309 個語言版本維基百科中內容最豐富的一個。今年 1 月,英語版維基百科上的條目正式突破 600 萬條。同時,它也是維基百科上最高產的作者。狀態好,一天能創建 10 萬個條目Lsjbot 的「爸爸」Sverker Johansson 是一位瑞典物理學家,而且還擁有語言學、經濟學和土木工程的學位。他的太太是菲律賓人,通曉宿霧語,因此 Lsjbot 在瑞典語和宿霧語版本的維基百科中都有創作內容。
  • 維基百科最高產的作者居然是機器人
    在維基百科條目內容最多的語言中,當然是非英語版本莫屬,但是條目數量第二名是什麼語言,你絕對想不到。?德語、日語、法語、西班牙語、中文……都不對,維基百科條目內容第二多的語言是宿霧語版本的!宿霧語是什麼語言,估計大多數人都不知道,其實它是幾乎只在菲律賓使用的一種小語種,全球懂得這種語言的人也不不過2000萬。
  • 比百度百科靠譜的維基百科
    這意味著這本經典參考書徹底輸給了數位化,在維基百科的衝擊下,大英百科全書無奈倒下。維基百科是數字時代的一個奇蹟,它改變了我們知識傳播的方式,無數人從中受益,維基百科更是已經成為許多學生頭號的資源來源。它是全球排名第六的熱門網站與第一大無廣告網站,擁有282種語言的獨立運作版。它擁有超過進360萬個英語詞條,幾乎是大英百科全書的38倍。
  • 維基百科成功了嗎?
  • 從色情網站開始的偉業:一個你不知道的維基百科
    來自全球各地的草根志願者創造了讓維基百科能被出色地協同編輯的條件,但與此同時,為了一些如「鷹嘴豆沙到底該如何歸類」的細節,線上的爭執和「編輯戰爭」也接踵而至。「鷹嘴豆沙在以色列十分流行,所以它難道不應該屬於『以色列飲食』嗎」、「還是說,它本來是一種阿拉伯食物,只不過後來被猶太佬給偷去了?」——在維基百科上一個叫做「史上最無技術含量的編輯戰爭」的網頁上,有一個編輯如是寫道。
  • 維基百科怎麼上?Wikipedia打不開怎麼辦?
    維基百科(Wikipedia),是一個基於維基技術的多語言百科全書協作計劃,這是一部用多種語言編寫的網絡百科全書。.維基百科一字取自於本網站核心技術「Wiki」以及具有百科全書之意的「encyclopedia」共同創造出來的新混成詞「Wikipedia」維基百科是一個基於維基技術的多語言百科全書協作計劃,也是一部用不同語言寫成的網絡百科全書,其目標及宗旨是為全人類提供自由的百科全書──用他們所選擇的語言來書寫而成的,是一個動態的、可自由訪問和編輯的全球知識體。也被稱作「人民的百科全書」。
  • 球員的維基百科都是誰寫的?為揭曉謎題,我們活捉了4位行走的維基百科
    在那個時候,我幾乎每天都會花半個小時到一個小時的時間來編輯維基百科的足球板塊。在我一開始編輯的時候,我的主要動力是來彌補維基百科上業餘聯賽的空白,那個時候,整個網際網路上都沒有一家網站是將所有的非職業聯賽球隊的信息整合到一起的。而現在,大家的工作更多的是來對已經存在的維基百科頁面進行更新。
  • DECENT用區塊鏈打造另一個「維基百科」
    與其說DECENT在打造一個新的維基百科,不如更準確地說它在布局一個更為個性化的「自媒體」平臺。這個作為以區塊鏈為底層協議的內容生產平臺,DECENT在全球範圍內已經ICO到了5000多個比特幣,4000多人參與。目前,距離DECENT眾籌結束(11月6日)還有不到一周的時間,國內用戶參與度持續升溫,DECENT有望突破今年區塊鏈項目ICO規模記錄。
  • 維基百科,自由的百科全書,當代人類社會的寶貴財富
    A:上網際網路,有問題自己找答案。Q:網際網路太複雜,怎麼高效獲取信息?A:藉助搜尋引擎(谷歌、百度),它們會把最優質的信息排在前面,給你看。Q:每個解答都差不多,哪個最有權威?最有信譽?A:搜索詞條後面加上」維基百科「關鍵字,排在最前面的幾個就是網際網路上最具權威的解答。
  • 外媒:維基百科如何成為種族正義的「戰場」?
    知識生產,至少在維基百科的意義上,部分是合作,部分是戰鬥。如果編輯們不同意,他們會撤銷彼此的貢獻,並在每篇文章後面的談話頁上激烈地辯論擬議的修改。隨著最近對喬治·弗洛伊德和其他警察暴力受害者的報導,這些辯論往往集中在對中立性的正確解釋上。中立觀點是維基百科的核心內容政策之一,它經常被描述為不可談判。
  • 維基百科網站即將大幅改版
    DoNews 9月25日消息(記者 劉文軒)知名線上百科全書網站維基百科(Wikipedia)在過去 20 年來,已經擁有 5300 萬個條目,支持各種語言,但用戶界面始終沒有任何明顯變化,一些元素看起來甚至有些過時。
  • 印度陷入政治兩極化,維基百科相關內容也"亂了
    一位來自孟買的學生曼尼莎(Manisha)現在經常上維基百科上瀏覽文章,她在談及許多文章存在「偏見」的話題時表示, 「維基百科上的每一篇文章似乎都反對現在的執政黨「印人黨」,並對反對黨「國大黨」進行了粉飾。」國大黨在聖雄甘地(Mahatma Gandhi)領導下,讓印度於1947年脫離英國而走向了獨立。
  • 「靠譜」的維基百科,竟被個12歲少年戲耍了?
    很多時候打開百科網站,從宇宙的形成一路看到明星的八卦,一摸魚就是一個下午。但根據外媒的報導,小辣椒卻得知自己常逛的維基百科最近出了點兒事情。熟悉維基百科的老基友們肯定都知道,作為一個全球性的網絡百科全書,維基百科按語言分成了許多個版本,不同的版本又由相應的志願者來負責編輯詞條。
  • 究竟是誰在編輯內容強大的維基百科?
    請大家把維基百科想成是一個大家因為興趣而參與編輯的東西。如果覺得奇怪的話,無論是誰都可以修改,或者提醒撰寫的人。誰都可以參與方針和指導路線等的討論,誰都能成為管理人員。大家分別作想做的事情,做自己覺得做了比較好的事情。我姑且擁有日本版的管理權限,所以做著需要權限的工作,此外還有處理關於內容刪除的討論等等,有很多對於編輯方針的整理工作。
  • 維基百科的衰落,這是網絡理想時代的終結? | 網際網路數據資訊網-199...
    像維基百科這樣的免費信息源絕無僅有,因而許多網絡服務都依賴它。你使用谷歌搜索或者拿你的iPhone問Siri一個問題,獲得的信息常常都是來自這套網絡百科全書,並且是被當作不爭的事實傳送的。然而,維基百科及其「彙編所有人類知識」的遠大抱負都遇到了麻煩。在該項目的旗艦網站英語維基百科,其志願者隊伍自2007年以來縮減了超過三分之一,而且還在繼續減少。
  • AI學者也用維基百科「打廣告」?這個詞條有點可疑
    如果搜索一個詞條,百科網站的結果通常會被顯示在最顯眼的位置。這種人人皆可編輯的網站存儲著海量信息,雖然可能不夠嚴謹,但也被很多人作為重要的信息、知識來源。不過,最近人工智慧的研究者在維基百科上發現了不少「夾藏私貨」的詞條,比如 Reddit 網友發現的「SGD(隨機梯度下降)」一詞。
  • 安德烈·卡魯德洛維奇,塞超歷史第一射手(維基百科...
    懂球帝首頁>足球新聞> 安德烈·卡魯德洛維奇,塞超歷史第一射手(維基百科... 安德烈·卡魯德洛維奇,塞超歷史第一射手(維基百科... 巴爾幹之光 11-24 21:50 安德烈·卡魯德洛維奇,塞超歷史第一射手(維基百科),被國安球迷親切地稱為「卡魯」「水卡[狗頭][狗頭]」。目前效力於立陶宛超級聯賽豪門扎爾吉利斯,這也是前國安球員費祖拉烏職業生涯的最後一站。
  • 為讓維基百科內容更豐富,谷歌翻譯要來幫忙了
    00:12:18 來源: IT之家 舉報   IT之家1月11日消息 在傳播知識方面,維基百科的努力明顯更傾向於英語內容
  • 維基百科逃離甲骨文魔掌 挺開源資料庫MariaDB
    日前,全球知名的維基百科宣布,將切換到另外一款開源資料庫MariaDB。  據稱,在MySQL變故之後,MariaDB(由MySQL創始人發明)正在成為開源資料庫的主流。  近日,維基傳媒基金會負責網站架構的高層Asher Feldman透露,他最近將維基百科中的英文百科全書,轉移到了MariaDB 5.5.28資料庫。
  • 維基百科20周年:全人類共同打造的免費知識庫如何造福你我的生活
    1996年他與兩位夥伴嘗試創業,創立了Bomis,一個「以男性為導向的搜尋引擎」,以色情內容為賣點,但是這個網站並沒有帶來穩定收入,促使威爾斯計劃成立心中嚮往的線上百科全書。在一場客觀主義(Objectivism)哲學的線上討論會議上,威爾斯與小兩歲的哲學家桑格碰面,兩人一拍即合,也對於線上百科全書的計劃躍躍欲試。