技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

2021-01-09 騰訊網

機器之心原創

作者:李澤南

7 月 30 日,今日頭條宣布正式推出新版「靈犬」反低俗助手,新工具除了文本內容識別功能的進化以外,首次加入了圖片識別功能。這是時隔半年,「靈犬」的又一次重大升級。

「靈犬」是一款檢測內容健康程度的小工具,旨在幫助人們打擊低俗低質內容,淨化網絡空間。新一代「靈犬」首次引入了自然語言處理領域裡最近熱門的BERT模型,在多達 1.2T 的數據訓練之後,靈犬的內容識別準確率提升到了 91%。

人工智慧真的可以解決內容審核了?在今日頭條總部,字節跳動人工智慧實驗室總監王長虎和我們進行了一番交流。目前看來,技術可以解決的問題很多,但缺點也不少。

技術審核之難

在移動網際網路成為主流的今天,科技公司需要處理的數據正在呈幾何級數增長,很多企業都在建立自己的技術審核機制。去年 9 月,Facebook 發布並部署了名為「羅塞塔」的系統來解決內容審核問題,羅塞塔每天可以實時從超過 10 億張圖像和視頻幀中提取文本,並能識別並審核多種語言的文字內容。

在國內,知乎去年推出的社區管理大腦「瓦力」,希望通過多種算法處理社區內不友善、答非所問、低質量、違法違規等方面的內容。據介紹,這一系統每天可以清理約 5000 條新產生的低質量內容。

儘管各家公司都在使用自己的算法技術應對違規內容,但面對語言和圖片的無限可能性,人工智慧還是經常會出錯。而另一方面,內容審核就像無人駕駛汽車一樣,漏判造成的後果會很嚴重。沒有足夠召回率的話,再優秀的算法也無法實用化。去年的美國獨立日期間,「獨立宣言」的選段曾被 Facebook 的算法判定為涉嫌種族歧視而遭刪除。

2016 年,Facebook 曾恢復一張被誤刪除的越戰新聞照片。照片描述了美國在越南轟炸製造的「戰爭恐怖」,畫面是一個被凝固汽油彈燒傷的越南女孩,赤身裸體在奔跑。這是機器審核誤傷的著名案例。

那麼,文本、圖片處理的技術難點在哪裡?讓我們先從讓技術如何學習語言說起。

語言理解:皇冠上的明珠

自然語言處理(NLP)的歷史幾乎跟計算機和人工智慧的歷史一樣長。自計算機誕生起,就有了對人工智慧的研究,而人工智慧領域最早的研究就是機器翻譯及自然語言理解。這並不意味著今天的機器對於語言的理解能力有多高,事實上,我們距離真正的智能還有很長一段路要走。

計算機非常擅長使用結構化數據,例如電子表格和資料庫表。但是我們人類通常使用非結構化的文字互相交流,這對計算機來說不是一件好事。

讓計算機理解「It」就是指代「London」,是非常困難的一件事——更不用說不帶髒字的罵人和陰陽怪氣的回覆了。

為了讓機器理解語言,我們通常需要遵循一個流水線過程:首先把文本拆分成單獨的句子,進而把句子分成不同的單詞或標記,接下來,我們需要讓機器嘗試猜測每個標記的詞類:名詞,動詞,形容詞等等。經過詞形還原、識別停止詞、依賴解析等過程之後在命名實體識別(NER)過程中通過統計模型,使用上下文來猜測單詞代表的是哪種類型的名詞。

自然語言處理技術雖然已經讓計算機一定程度上能夠理解文字的含義,但大多數研究都是基於英文的。僅從 NLP 研究角度而言:中英文在詞性標註、句法分析等任務上頗有差異。主要體現在英語有明顯的屈折變化(單複數、時態等)而漢語缺少這些屈折變化。

讓 BERT 學會中文

對於文字內容審核來說,算法必須能夠通過「擬合」過程知曉單詞的語義;另一方面,算法也必須具備泛化能力,在理解語義的基礎上,能夠舉一反三。

目前最常見的文本分類模型主要包括 Fasttext、TextCNN、TextRNN 及其各種變體。其中,fasttext 直接基於文本中 token 的平均嵌入進行分類,該方法雖然未考慮詞序,但簡單有效。TextCNN 基於卷積建模文本的局部依賴關係 (local feature), 通過池化學習全局信息。CNN 能夠在降維的同時捕捉到局部詞序關係。若要建模長距離依賴關係,需依賴於多層的卷積和池化層,模型結構較複雜。TextRNN 基於 LSTM 或 GRU 建模文本的序列模式, 能夠有效建模文本的長距離依賴關係。

今日頭條「靈犬」背後的文本分類模型經歷了三次迭代,第一代靈犬的文本識別模型應用的是「詞向量」和「CNN(卷積神經網絡)」技術,訓練數據集包含 350 萬數據樣本,對隨機樣本的預測準確率達到 79%。第二代靈犬,應用的是「LSTM(長短期記憶)」和「注意力機制」,訓練數據集包含 840 萬數據樣本,準確率提升至 85%。

每個新版本相對於舊版本,在技術和數據集層面都有了明顯的躍升。第三代靈犬已經用上了 BERT。

「BERT」是當前最先進的自然語言處理技術,NLP 領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上曾經一次刷新了 11 項業內最佳記錄,但也因為高達 3 億的參數量讓大多數開發者望而卻步。「BERT」提出了一種深層模型結構,使用「遮擋」方式同時利用上下文提高準確性,並通過無監督學習對天然超大規模語料建模。由於自然語言具有天生的連貫性,經過大規模訓練的語言模型的預測能力,達到了前所未有的水平。

新版「靈犬」同時應用了「BERT」模型和半監督學習,並在此基礎上使用了專門的中文語料,在不犧牲效果的情況調整了模型結構,使得計算效率達到了實用水平。

今日頭條表示,相比之前的 LSTM+Attention 方案,BERT 方案下的內容識別模型機器延遲為 125ms,算力需求增加了 33 倍,準確率的提升則為 7.04%。

圖像識別:總有奇怪的事情發生

與文字不同,機器進行圖像識別的過程就像在盲文上進行閱讀,像素是一個個信息點,最終要通過所有信息點內容的集合做出一個最為合理的判斷。這種方法讓機器在特定的圖像視覺處理上已經可以超過人類。比如說在動植物物種的識別上,計算機就比我們更為「專業」。但在更多的情況下,內容檢測還是一個具有挑戰性的任務。

目前常見的圖像分類的基本思路是基於 ImageNet 預訓練分類模型 (e.g. ResNet、 Xception、 SENet 等),在進行結構和參數的調整;然後基於微調後的模型提取圖像 feature,作為特定任務分類模型的輸入進行圖像分類。這些基於卷積神經網絡的方法有著被「欺騙」的風險。

上圖中的動物形象,自 1892 年首次出現在一本德國雜誌上之後就一直讓人感到迷惑:有些人只能看到一隻兔子,有些人只能看到一隻鴨子。有人把這張圖片輸入進谷歌機器圖像識別工具中,結果機器認為 78% 的概率是一隻鳥,68% 的概率是一隻鴨子。

供職於 BuzzFeed 的數據科學家 Max Woolf 隨後設計了一個更複雜的實驗:他乾脆讓這張圖旋轉起來,想要看看機器會做何判斷。結果,谷歌 AI 最初認為這是一隻鴨子,鴨子嘴指向 9 點方向。隨著鴨子嘴向上轉到 10 點方向,很快谷歌 AI 就認為畫裡面是兔子了,直到鴨子嘴轉到 2 點方向之後。此後一段時間,谷歌 AI 認為既不是鴨子也不是兔子。一直到 7 點方向,谷歌 AI 再次肯定是一隻鴨子。

有人認為,這或許是因為人類在判斷物體時對於空間的認識具有先驗性——用這樣的標註數據訓練出的模型,在不知不覺中也將空間和方向等因素考慮在內了。而且,不僅旋轉圖片會讓機器迷惑,有時候就連不同的圖片尺寸也會讓機器給出不同的判斷。

優化深度學習模型

對於圖片內容審核來說,難點包含三方面:數據不均衡、類內方差大和不可窮舉。低俗圖片樣本佔數據集內容的比例較低,經常導致深度學習模型訓練效果不佳。此外,低俗圖片的種類豐富、繁雜,構成低俗圖片的特徵千差萬別。

對此,「靈犬」運用的解決方案是優化深度學習。「我們分別在數據、模型、計算力等方面做了很多優化,」王長虎介紹道。「在數據層面上,靈犬已累積了上千萬級別的訓練集。而在模型層面上,靈犬針對許多困難樣本做了模型結構調優,嘗試解決多尺寸、多尺度、小目標等複雜問題。在計算力層面上,靈犬利用分布式訓練算法以及 GPU 訓練集群,加速模型的訓練和調試。」

為應對用戶上傳不同比例的圖片,今日頭條在圖像識別算法中設計了「多桶模型」,使得各種比例的圖片都能有很好的識別效果。在模型進行預測時,算法會根據傳入的圖片比例尋找比例最接近的「桶」,進而給出相應的預測結果。由於不同比例的桶對應的模型的參數是共享的,所以預測時間和單模型基本接近。而由於經過了對應模型的處理,算法也可以進一步提升準確率。

在以人為主的場景中,為解決人在圖片中的面積佔比變化較大的問題,工程師引入了特徵金字塔結構,對不同尺度的物體,它能提高模型提取一致性特徵的能力。常規的網絡結構會對圖片進行多次卷積,得到圖片的特徵圖,再對接全連接層進而得到圖片的分類結果——但這種方法有一個缺點,如果測試集中人在圖片中的佔比和訓練集差距較大,就會導致效果下降。在網絡中引入特徵金字塔結構,將底層特徵和上層特徵融合,並在每層給出預測結果,可以同時利用底層特徵的高解析度和高層特徵的高語義信息。

為應對在圖片中出現小範圍問題區域的挑戰,今日頭條還設計了分割輔助分類網絡。該網絡結合了特徵金字塔結構,訓練分為兩部分,分割部分每層的預測結果都會與標註區域計算損失,分類部分將預測出的區域與特徵圖進行疊加,再進入分類器和分類標籤計算損失;預測時,特徵金字塔結構會輸出預測區域,將該區域與特徵圖疊加,再送入分類器即可得到分類結果。

雖然使用了優化過的算法,但一些技術難以搞定的問題,現階段還有賴於人工判斷:世界名畫中常常出現裸女形象,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機器的視角來看,或許類似於裙底偷拍。

王長虎認為,針對低俗判斷問題的複雜性和不同判斷方式的局限性,一方面需要不斷進化技術模型,另一方面需要有效結合技術和人工判斷兩種方式。

「我們的模型還在不斷進化,除了靈犬反低俗系統,還有色情、低俗、標題黨、虛假信息、低質等幾百種模型,」王長虎表示。「自 2012 年建立以來,今日頭條已建立起近萬人的專業審核團隊來保證內容的安全。」

人工智慧可以幫助我們大幅提升審核效率和準確率,但在現階段甚至很長一段時間內,它仍無法完全代替人類進行所有判斷。因為機器還很難理解內容背後的深意,也不會在不同文化場景中做自由切換,或及時學會不斷變化的標準尺度。目前看來,在內容審核上機器+人工的方法是最合理通行的做法。

本文為機器之心原創,轉載請聯繫本公眾號獲得授權。

---

相關焦點

  • 今日頭條反低俗能力再升級 靈犬上線短視頻識別功能
    12月16日,今日頭條靈犬反低俗助手(以下簡稱「靈犬」)再次升級。新版「靈犬」增加短視頻識別功能,支持用戶以視頻輸入方式對內容進行反低俗檢測,具備反色情低俗、反暴力血腥等能力。用戶只要打開今日頭條搜索「靈犬反低俗助手「,輸入視頻、文字、圖片、語音等內容,「靈犬」即可在幾秒鐘內檢測出其健康指數。  據了解,「靈犬」本次所上線的短視頻識別功能,可幫助用戶檢測小於15秒的視頻內容畫面(暫不支持視頻語音檢測),整體識別準確率為75%。
  • 工人日報:人機結合,織密反低俗的網
    原標題:人機結合,織密反低俗的網   各內容平臺正在掀起一場反低俗行動——7月30日,今日頭條升級了其推出的反低俗小程序,用戶只需要在該小程序內輸入一段文字或文章連結,其就可以檢測出內容健康指數,得到一個鑑定結果,並增加圖片識別功能;起點中文網表示將加強反低俗審核系統和舉報機制,全面複查全站內容
  • 製造一枚氫彈究竟有多難?
    原標題:製造一枚氫彈究竟有多難?  自從美國第一次氫彈試驗成功已經過去60年有餘,而至今也只有四個國家(俄羅斯,法國,中國和英國)能夠獨立製造一枚這樣的武器。近期朝鮮宣布自己的氫彈試驗成功,但是你目前完全可以將金正恩的吹噓拋之腦後。
  • 3分鐘看懂為什麼要去月球挖土 這到底有多難?
    3分鐘看懂為什麼要去月球挖土 這到底有多難?時間:2020-11-24 23:00   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:3分鐘看懂為什麼要去月球挖土 這到底有多難?   原標題:3分鐘看懂為什麼要去月球挖土 這到底有多難?     11月24日4時30分,我國在中國文昌航天發射場,用長徵五號遙五運載火箭成功發射探月工程嫦娥五號探測器,順利將探測器送入預定軌道,開啟我國首次地外天體採樣返回之旅。
  • 今日頭條被政府約談,應用首頁清空一天
    現在打開今日頭條,首先出現的 「推薦」 欄目已經沒有內容,只有一條 「本頻道將於 12 月 29 日 18 點至 12 月 30 日 10 點間進行升級維護,請瀏覽其他頻道」 的公告。說是維護,但北京網信在 29 日下午公布的消息是今天約談了今日頭條,理由是傳播色情低俗信息,存在嚴重導向問題,並且 「在尚未獲得網際網路新聞信息服務資質的情況下,今日頭條手機客戶端違規轉載新聞信息」,因此「責令即停止違法違規行為。」一同被約談的還有鳳凰新聞客戶端。
  • 今日頭條暫停下載:為什麼暫停下載?什麼時間才可以下載?具體什麼...
    這四款應用分別是今日頭條、鳳凰新聞、網易新聞和天天快報。從4月9日15:00起,「今日頭條」將被暫停下載服務3個星期,「鳳凰新聞」暫停下載2個星期,「網易新聞」暫停下載一個星期,「天天快報」暫停下載3天。  在監管部門對網絡環境的淨化力度不斷加強的背景下,這已經是今日頭條近兩周之內,第三次被監管部門「處罰」。
  • 英語版今日頭條到底有多不靠譜?
    如今這款APP已有了1.2億的日活躍用戶,平均下來,他們每人每天至少會在上面逗留74分鐘。今日頭條最讓投資人和我的許多中國朋友稱道的是,它會通過機器學習來為用戶推薦其所感興趣的內容,這令我自己也很感興趣。
  • 嫦娥五號到月球挖土究竟有多難 上海給它配齊了錘子和鑽孔工具
    嫦娥五號到月球挖土究竟有多難 上海給它配齊了錘子和鑽孔工具時間:2020-11-24 19:30   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:嫦娥五號到月球挖土究竟有多難 上海給它配齊了錘子和鑽孔工具 嫦娥五號今天凌晨就出發前往月球,此行的目的地是位於月球正面的呂姆克山脈,這裡是火山結構地區
  • 今日頭條的 2018:整改、抗爭,與那些瘋狂擴張
    這一年裡,美團創業8年終於上市,滴滴迎來有史以來最大的企業危機,今日頭條則看起來喜憂參半,故事更多。不站隊BAT,在獨立發展中成為網際網路小巨頭,這是外界對今日頭條的評價。但值得注意的是,騰訊有微信這一龐大的社交場景,將是頭條系短視頻在發展路上一大難以逾越的阻礙。品牌名稱從今日頭條變為字節跳動在內部優化調整上,今日頭條對外較為低調和神秘。根據公開消息,2018年今日頭條主要發生兩大變動:一是字節跳動取代今日頭條成為整體品牌的名稱;二是今日頭條CEO由張一鳴變更為陳林。
  • 今日頭條回應被百度收購傳聞;樂視移動轉讓易到股份來抵消 3.24...
    今日頭條回應被百度收購傳聞:買賣關係反了昨天(8 月 22 日)晚些時候,有媒體爆料稱,百度在洽談收購今日頭條,並希望今日頭條創始人張一鳴在公司被併購後進入百度決策層據「知情人士」透漏,百度收購今日頭條的訴求十分強烈。隨後今日頭條相關負責人對此事進行了闢謠,其調侃道:「這個稿子就一個錯誤,買賣關係寫反了。」
  • 今日頭條起訴今日油條 油條老闆神回復
    原標題:今日頭條起訴今日油條 油條老闆神回復     近日,一家名為"今日油條"的快餐店被字節跳動起訴了,原因是店鋪的商標門牌、菜單設計等方面都與"今日頭條"非常相似。     就是上面這張圖,這要不是近距離看,還真以為今日頭條了,就連下面的廣告語都模仿得淋漓盡致,菜單也採用的是今日頭條APP的UI界面。
  • 今日頭條上線「頭條百科」 能改變搜索領域現有格局嗎?
    近日,字節跳動上線了「頭條百科」,不久前,頭條搜索APP上線,此次推出頭條百科,無疑是字節跳動在搜索領域的再一次落子。除了字節跳動,華為也在海外測試華為搜索,同時阿里夸克APP近期發布了4.0版本。搜索市場在中國已經有超過20年的發展史,行業某分析人士告訴每日經濟新聞記者,目前國內的搜索賽道格局相對固化,無論移動端還是PC端,百度獨佔鰲頭,搜狗等位列第二梯隊。
  • 人類想要飛出太陽系,究竟有多難?科學家:看看太陽系有多大!
    人類想要飛出太陽系,究竟有多難?科學家:看看太陽系有多大!地球一直是我們人類唯一的文明家園,但是未來有一天我們肯定會離開地球,只不過是時間長短的問題,地球的壽命是由太陽來決定的,太陽一旦走向生命的終點,地球也將難以倖存,人類想要飛出太陽系,究竟有多難?科學家:看看太陽系有多大!
  • 今日頭條CEO朱文佳:在頭條,看見更大的世界
    11月25日,2020今日頭條生機大會在北京舉行。今日頭條CEO朱文佳發表致辭並宣布啟用產品新Slogan「看見更大的世界」。他表示,不僅是用戶因為看到頭條上的內容,接觸到了更大的世界,頭條創作者們同樣因為創作內容,成就了自己,走進了一個更大的世界。  以下為朱文佳致辭全文。  大家好,我是朱文佳。
  • 央視曝光今日頭條無視監管做「黑勾當」 卻害苦了北京這家百年老店
    「今日頭條」是一款手機上的新聞客戶端,成立近6年的時間,按照這家公司自己的說法,用戶活躍數高達2.4億。但是在2017年12月,北京網信辦嚴肅要求「今日頭條」進行整改,原因是今日頭條存在持續傳播色情低俗信息、違規提供網際網路新聞信息服務以及標題黨等問題。
  • 今日頭條舉辦「頭條分之一」創作者沙龍,內容生態 「分子引力計劃...
    今日頭條UGC品牌市場負責人楊路,率先發表了《蓄力,多維提升頭條分子勢能》的主題演講,她講道:「我們重視創作者,更珍視創作者的多元價值,我們通過不斷迭代的內容生態運營策略,和創作者站在一起,以優質內容快速積累粉絲,通過對這些粉絲的精準觸達、深度交流與高頻互動來提升創作者的個人價值和影響力,以此形成一個健康生機的生態系統。」
  • 搜狐網易今日頭條等被約談
    【慧聰廣電網】7月18日,北京市網信辦依法約談搜狐、網易、鳳凰、騰訊、百度、今日頭條、一點資訊等網站的相關負責人,責令網站立即對自媒體平臺存在的「曲解政策違背正確導向」、「無中生有散布虛假信息」、「顛倒是非歪曲黨史國史」、「格調低俗突破道德底線」、「驚悚誘導標題黨現象泛濫」、「抄襲盜圖版權意識淡薄」、「炫富享樂宣揚扭曲價值觀」、「題無禁區挑戰公序良俗
  • 聯姻今日頭條背後:獵豹的開放之路
    移動網際網路開啟後,它率先踏入國際化市場,成就了一番傳奇,被視為中國網際網路國際化的先導。它也是少數幾家擁有6億以上用戶的公司。而且,用戶遍布全球。截至目前,它的工具類業務穩定,現金流與利潤表現良好,內容、AI戰略清晰。除此之外,傅盛的全球大局觀、產品經理意識、投資家意識、創業家精神,在今日的網際網路企業群體裡,頗有口碑。
  • 感謝今日頭條聲張正義,果斷封禁散布謠言的不法之徒!
    年底事多,今日與公司法律顧問見面,談及幾天前發生的一件事情,才想起我欠了《今日頭條》一聲「謝謝」——感謝《今日頭條》果斷出手,對散布謠言進行區域攻擊、侵犯無辜公民肖像權的不法之徒,第一時間實施了永久封禁!
  • 覆蓋全領域內容,「看了嗎視頻」想成為短視頻界的今日頭條
    有資訊類聚合平臺,如梨視頻;PGC平臺,如二更;UGC平臺,如快手、秒拍;垂直領域的MCN花開百家;巨頭也相繼發力,如阿里以大魚號布局域,孵化內容。行業向好的同時,流量大戰早已打響。看了嗎視頻成立於今年6月,已完成A輪融資。APP於7月10日在各應用商店上線,截至目前已進行了8次迭代。