清研智庫:如何應對AI帶來的虛假信息?

2020-12-23 騰訊網

虛假信息的快速攻擊,目的是立即產生破壞性效果,是數字生態系統中最重大的挑戰之一。

信息洩露的風險

有些形式的虛假信息可以在幾小時甚至幾分鐘內造成傷害。這類虛假信息只要有足夠的時間就很容易被揭穿,但要想迅速揭穿以防止其造成損害卻極為困難。

選舉是許多領域中可能發生這種情況的一個例子。金融市場是另一個例子,它可能會受到短期操縱。外交事務可能會受到影響,因為謠言通過數字平臺迅速傳播到世界各地。社會運動也可能成為目標,因為傳播虛假信息的目的是為了刺激某項事業的支持者或反對者採取行動或作出反應。

當然,旨在造成短期影響的網上虛假信息所帶來的問題並不新鮮。今天,AI可以作為一種力量倍增器進行部署,讓一小部分人創造出更大群體的在線活動水平。

檢測虛假信息

各種形式的虛假信息是社交媒體公司面臨的最棘手的挑戰之一。適用於許多其他領域的假陽性假陰性的權衡同樣適用於虛假信息檢測。如果社交媒體公司對虛假信息的分類過於寬泛,那麼他們就有可能讓那些發布重要、及時的準確信息的用戶沉默。如果公司的分類範圍太窄,虛假信息攻擊就可能不被發現。

社交媒體公司深知這種權衡。對於旨在較長時間內採取行動的虛假信息活動,在許多情況下,社交媒體公司的最佳做法是保守地封殺內容;等待確認信息的虛假性後再封殺的危害往往低於無意中封殺傳達準確信息的合法用戶的帖子的危害。換句話說,對於會在較長的時間範圍內造成大部分傷害的虛假信息,社交媒體公司有足夠的時間來調查疑似虛假信息帖子的準確性,同時還保留了在必要時儘早採取行動的選擇,以預先阻止大部分傷害。

虛假信息的快速攻擊尤其難以應對,因為它們不會給社交媒體公司留下時間。

對於不複雜的虛假信息活動,例如那些涉及到從新創建的只有少數追隨者的帳戶中複製和粘貼帖子的活動,檢測和迅速作出反應是很簡單的事情。然而,像上述複雜的攻擊,其行為和表現與合法帳戶活動類似。辨別真假、識別哪些帳戶是善意的,哪些不是,所需的時間遠遠大於虛假信息造成最嚴重損害的時間。

幸運的是,打擊網絡虛假信息的必要性在學術研究人員、民間社會團體和商業部門,特別是在初創企業和成熟的技術公司中得到了越來越多的關注。這導致了越來越多的付費產品和免費在線資源來追蹤虛假信息。解決方案的一部分涉及機器人檢測,因為機器人經常被用來傳播虛假信息。但機器人也被用於許多其他目的,有些是邪惡的,有些是無害的;而且並非所有的虛假信息活動都涉及機器人。越來越多的商業產品旨在檢測和管理機器人。

機器人僅僅只是問題的一部分,因為並非所有使用機器人的虛假信息活動都會被機器人檢測軟體發現。因此,擁有能夠查看可疑內容如何影響更廣泛的生態系統的工具也很重要。

數據標籤的挑戰

以足夠快的時間應對虛假信息的快速攻擊將需要AI。但是,AI並不是魔法;要想有效地應對虛假信息,它需要獲得數據以及使其能夠評估數據準確性的信息。為了進一步探討這個問題,首先考慮如何在沒有任何時間壓力的情況下,使用基於AI的方法來檢測虛假信息,然後解決因需要快速檢測而產生的額外複雜性,是很有幫助的。

當有大量已被準確標記的訓練數據集時,虛假信息最容易被檢測出來。訓練數據是用來讓AI系統學習的,這樣當它看到訓練集裡沒有的新數據時,它就知道如何對其進行分類。使用一個已經就感興趣的屬性進行過標註的數據集進行學習。一旦完成了訓練過程,該算法將非常有效地快速將有關該藥物的新社交媒體帖子或新聞報導分類為不準確或準確。

還有一類基於無監督學習的機器學習技術,算法必須在沒有預先存在的標籤的情況下學習識別數據中感興趣的類別。

任何學習算法,無論是有監督的還是無監督的,一個障礙是獲得足夠大的訓練數據集。適合用作訓練數據的特定問題的信息可能需要大量時間在社交媒體上積累。為了AI在系統中檢測虛假信息,數據在許多情況下至少需要在一開始就進行一定程度的人工編碼。但對於需要非常快速地部署虛假信息防禦措施的情況來說,它的效果要差得多,在這種情況下,通常會有較少的數據量可以作為算法學習的基礎。

另一個問題,無論是在快速還是在時間限制較少的識別虛假信息的嘗試,都是AI算法在學習過程中所依賴的數據標籤的準確性。標籤不一定準確是機器學習中一個眾所周知的問題。

使用AI識別虛假信息的嘗試很可能需要面對嘈雜的數據,原因很簡單,這其中涉及到有意的欺騙。虛假信息攻擊會與一系列關於網上言論是否真實的矛盾說法聯繫在一起。在很短的時間內,算法或者一個人很難知道該相信哪個標籤。因此,要快速回應假消息,就必須解決有限的數據和不可靠的,在某些情況下故意錯誤是數據標籤的雙重障礙。

研究人員已經認識到這些問題,並正在開發新的方法,這些方法不依賴於大量的預先存在的訓練數據集。在解決虛假信息的研究中,一個共同的主題是衡量在線來源的可信度。建立和利用可信度的方法對於在精心設計的虛假信息快速攻擊中快速識別真相至關重要。

同樣重要的是,要認識到AI可完成的極限。期望在不久的將來,任何AI解決方案都能夠快速、明確地識別虛假信息攻擊,那是不合理的。

政策考慮

公共政策將在應對虛假信息快速攻擊的人力和技術方面發揮核心作用。政策考慮也將是人類應對的重要驅動力。對於大多數主題和事件來說,根本沒有資源提供專門的人員來單獨監測可能出現虛假信息的各種情況。特別是考慮到Facebook和Twitter等公司在全球範圍內運營,在近兩百個國家有數十億個帳戶,有可能被用來傳播虛假信息。因此,對於絕大多數虛假信息,社交媒體公司的人工幹預必然是在通過算法或人工報告渠道發現問題後才進行。

此外,還需要制定政策來處理AI系統做出確切錯誤決定的情況。由於在虛假信息快速攻擊的早期階段,可用的數據有限,快速做出判斷可能會導致算法顛倒真假,得出虛假信息是準確的結論,試圖揭穿虛假信息本身就是虛假信息攻擊。算法會受到確認偏差效應的影響,通過有選擇地給予支持該結論的輸入更大的權重,導致對錯誤結論的信心增強。特別是考慮到虛假信息快速攻擊的時間很短,這可能會導致算法迅速趨向於一個錯誤的結論,而這個結論需要人的幹預來識別和扭轉。

簡而言之,不斷增長的社交媒體生態系統和越來越強大的內容傳播AI工具的可用性相結合,意味著虛假信息快速攻擊將成為一個經常性特徵。應對這些攻擊將需要AI的進一步進步,特別是在數據非常有限的情況下快速評估在線來源的可靠性的方法有關。還需要社交媒體公司內部注意確保政策和資源到位,以利用虛假信息檢測技術的能力,輔以人工幹預,並最大限度地提高利用其平臺促進而不是破壞獲取準確信息的可能性。

作者John Villasenor,本文原載於布魯斯金學會,清研智庫李梓涵編譯

相關焦點

  • 清研智庫:地理空間信息如何助力大數據分析?
    分析更多數據的能力使地理空間數據比以往任何時候都更強大、更有價值,取材自物聯網的地理空間信息正在為大數據分析注入超級動力。 今年,我們已經看到了很多這樣的例子,從物聯網在與Covid-19戰鬥中的貢獻,到通過實時物流監控和一系列相關技術改變電子商務的猜測。
  • 清研智庫承辦順義區文化旅遊行業人才培訓活動圓滿閉幕
    受順義區文化和旅遊局、順義區旅遊行業協會委託,2020年11月27日,由清研智庫承辦的順義區2020年文化和旅遊行業人才培訓圓滿閉幕。清研智庫文旅研究院從前期策劃、課件研發、師資配備、現場管控與溝通等方面與委託單位進行無縫對接。
  • 清研智庫順利通過河南新鄉高新區人口普查市檢匯報
    11月6日,河南新鄉高新區人口普查工作匯報會召開,清研智庫項目組負責人柴雪向新鄉市領導匯報人口普查工作開展情況。人口普查是我國十年一次的重要國情國力調查,涉及面廣、歷時時間長、工作難度大。清研智庫受河南新鄉高新區經濟發展局委託,針對全國第七次人口普查,立足以往的工作經驗,進行了嚴格的策略研究討論,整理了一套完整的方案解決入戶過程中的一系列問題。
  • 清研智庫:智慧城市如何推動可持續發展
    通過利用信息通信技術(ICT)和物聯網(IoT),智慧城市從多個渠道收集和分析數據,感知城市的環境,提供實時信息,幫助政府、企業和市民做出更好、更明智的決策,以提高他們的整體生活質量。智慧城市框架的十一個核心重點是:空氣品質、通信架構、環境、照明、停車、公共wifi、安全保障、交通、城市交通、廢物管理和水管理。
  • 清研智庫:如何改善中國道路的步行友好性?
    以較小的街道作為 "毛細血管",將帶來更高的步行便捷性。 公眾的疑問 報告中評價最高的街道包括北京的中關村、廣州的天河街-體育東路和濟南的山大北路等。但公眾並不相信這些真的是對行人友好。 一位評論者說:"我在中關村工作過。工作了好幾年了,它的設置不好,高峰期人多,簡直是噩夢。"
  • 清研智庫:機器人和AI正以前所未有的速度取代數百萬大流行中失業的...
    隨著公司從生存模式轉變為在流行病繼續蔓延的情況下如何運作,在未來幾個月內,用機器代替人的速度可能會加快。麻省理工學院和波士頓大學的經濟學家最近發表的一篇論文顯示,到2025年,僅在製造業中,機器人就可以替代多達200萬名工人。 與大流行一樣,新一輪的自動化浪潮對於像柯林斯這樣的有色人種(黑人)和低薪工人來說將更加困難。
  • 清研智庫:川普輸給了新冠病毒
    超過57%的美國選民不贊成川普對COVID-19的應對措施,而贊成的只有不到40%。只有35%的獨立人士認為他做得很好。 雅虎新聞/YouGov的一項新民調給川普帶來了更多壞消息。63%的人說川普沒有適當地戴上口罩或社會隔離;60%的人說川普沒有密切關注醫學專家的建議;59%的人低估了COVID-19的風險。
  • 清研智庫與北京林業大學聯合出版《城鄉人居生態環境》
    近日,清研智庫與北京林業大學組織專家聯合編寫的《城鄉人居生態環境》由中國建築工業出版社正式出版。 該書緊緊圍繞「城鄉人居生態環境」這一主題,從概述到理論方法,到評價檢測,到保護修復,再到規劃設計和建材技術,最後介紹了相關的建設案例。
  • 清研智庫:AI延伸到社會不同領域的同時,爭議也隨之而來
    不過,生產人工智慧廁紙機的公司表示,這些設備不會存儲生物識別信息,相關數據會在設定時間後被刪除。據悉截至2019年,每天有200萬人使用廁紙機。亂穿馬路管制交警也越來越多地依靠AI技術來抓捕那些違反交通規則的人。長沙在人行橫道上設置了LED顯示屏,以展示被攝像頭捕捉到的違法者和亂穿馬路者。
  • 清研智庫:全球AI投資現狀及發展趨勢
    為了實現他們期望的結果,並避免市場不必要的扭曲和副作用,美國決策者需要了解商業AI活動在哪裡發生,由誰資助和實施,AI公司正在嘗試解決哪些實際問題以及這些方面如何隨著時間而變化。我們的最新研究的重點是2015年至2019年的風險投資、私募股權和併購交易,這是全球AI行業快速增長和分化的時期。
  • 清研智庫:5G與智慧城市建設的三大飛躍
    現在就開始思考如何從5G中獲益的政府,將為在需要時抓住未來的機遇做好準備。 5G:三大飛躍 5G的核心是可擴展性和極端性能的結合,將帶來重要的新功能。 飛躍1:為城市生活的速度和規模提供基礎數據。
  • 清研環境劉淑傑:今年業務會受疫情影響,做好當下是應對未來最好的...
    如何應對的?疫情過後,還會有什麼影響?在遭遇困難的同時,行業整體會有哪些變化?作為產業縱深服務平臺,帶著這些問題,E20環境平臺特別向標杆企業的掌門人叩問,採訪他們克服困境的道路,找經驗、談應對、觀未來,撥開迷霧,金聲玉振。在此致謝。後續E20旗下中國水網/中國固廢網/中國大氣網微信和網站,將持續發布此系列訪談結果。今天特別發布深圳市清研環境科技有限公司董事長兼總經理劉淑傑的專訪內容。
  • 清研智庫大數據分析誰為疫情中的最弱勢群體發聲?
    清研智庫:大數據分析誰為疫情中的最弱勢群體發聲?主要發現:1.自媒體(80.24%)成為弱勢群體的發聲主要平臺,然後依次為報紙(5.25%)、政府門戶網站(4.3%)、媒體網站(3.35%)、機構自媒體(1.31%)和電臺(1.36%)等主流媒體的社交媒體平臺。
  • 清研智庫:大數據分析疫情期間誰在為女醫護的生理關愛發聲?
    除了高喊加油、讚美女性醫護者們的奉獻,一條安心褲帶來的改變,是越來越多的人切切實實在關心女醫護們真正的生活。圖:梁鈺stacey博主高熱度博文機構1:企業相關文章高於社會組織和政府機構微博中關於捐贈衛生巾的微博原文共29篇,其中企業15篇,社會組織5篇,政府9篇,企業發文數大於社會組織和政府之和。
  • 清研智庫|「川建國」與「拜振華」:我們關於他們的想像
    為此,清研智庫聯合中國傳媒大學計算傳播研究興趣小組,通過調研工廠平臺,經過在全國範圍內隨機抽樣,得到了1051份有效問卷。基於問卷結果,對不同領域的3個人進行了深訪,以期還原大家對「美國大選」這一大型「政治展演」的想像。
  • 清研智庫:為什麼這次黃金大漲是極其危險的信號?
    此外,隨著中國國內生產總值(GDP)在Covid-19應對差距不斷擴大的幫助下迅速向美國水平靠攏,一場結構性的地緣政治轉變可能會展開,進一步支持我們未來18個月實現3000美元目標的理由。」黃金漲勢可能延續至2021年,因基本面強勁:雙焦點。
  • 清研智庫:為什麼疫情之下美股連創新高?
    過度的漲勢幫助一些此前看跌的基金經理更加看漲,古根海姆的基金經理預測,11月3日總統大選後,無論贏家如何,股票將繼續上漲。DoubleLine的傑弗裡·岡德拉赫是少數保持看跌的知名經理人之一,他在7月底告訴路透社,由少數大型科技公司主導的股票上漲是「經典的熊市反彈活動」。
  • 清研智庫:中國的垃圾進口禁令對西方意味著什麼
    澳大利亞一直在努力應對進口限制。在禁令出臺後的幾個月內,昆士蘭州的伊普斯維奇市議會曾表示將放棄其回收計劃,而在維多利亞州,可回收垃圾的存量不斷增加,導致一些城市不得不採用填埋方式。政府制定了一項全國性的廢棄物政策,其中包括回收80%的廢棄物的目標。
  • 清研智庫:國際電信聯盟報告認為全球城鄉數字鴻溝問題突出
    在新冠大流行時期,很多人都在家裡工作和學習,本期報告傳遞了一個明確的信息,即加快網絡基礎架構的部署是我們這個時代最緊迫、最具決定性的問題之一。 國際電聯電信發展局局長多琳·博格丹·馬丁評論道:本期報告是在Covid-19對世界各地的生活、社會和經濟造成破壞的挑戰時刻發布的。
  • 清研智庫:建立垃圾分類「閉環」管理
    縱觀上海、北京等領先城市如何實施這些舉措,我們可以看到大量的報導、動員和網絡討論都圍繞著如何確保居民正確地進行垃圾分類和存放,但對於如何處理分類後的垃圾卻少之又少。當前垃圾處理的數據仍然缺乏透明度。在提供現有垃圾處理能力和新設備數據的同時,還應該提供準確的實時數據,包括處理量、有害垃圾的處理情況和副產品的處理情況,讓公眾監督,讓事情更順利地進行。