色情/性感如何區分,怎樣的風控能力能防止「平臺兩行淚」?丨產業...

2020-11-22 雷鋒網

「道路千萬條,安全第一條,行車不規範,親人兩行淚」——這句話,出自科幻電影《流浪地球》,卻也恰巧概括出內容平臺的「辛酸經歷」。

從文字到圖片,從直播到短視頻,多年來行駛在內容創作這條康莊大道上的「車輛」可謂形形色色。這其中,有一類「老司機」最讓人頭疼:

這些人,以打色情擦邊球為己任;在露與不露之間摩拳擦掌;為黃而不宣的內容「奮鬥」終生。

他們,可能是你平臺上的一個寫手,一個主播甚至一個配音師。這些老司機們在海量內容池中茁壯成長,你找不到、管不了也清不走。對平臺來講,這種感覺像極了一句話:

 

直到在風和日麗的某一天,平臺被有關部門點名關懷乃至關停整改,才發現兩行淚也難掩此時的悲壯之感。

2018年,全國各地網信辦平均每月收到網民舉報的淫穢色情、詐騙信息、垃圾(有害)信息等高達304.6萬次,且不斷攀升,這都是內容風控所面臨的也是迫切需要解決的問題。

內容風控要做到準確、實時、批量的確不是件易事,隨著內容上雲,AI技術的廣泛應用,內容風控的新技術如何打破上述瓶頸?對於中小型企業和大型企業來說,怎樣的雲上內容管控方案才算適用?

帶著問題,雷鋒網(公眾號:雷鋒網)邀請了騰訊安全內容風控專家 Lucas 進行一場關於內容安全的誠意問答。

1、對平臺來說,內容風控為何如此重要?

Lucas:原因有三:

1.如果平臺沒有做好有害的內容識別,是需要負法律責任的:近期《關於辦理非法利用信息網絡、幫助信息網絡犯罪等刑事案件適用法律若干問題的解釋》出臺,進一步明確規定了平臺和產品在內容方面的義務與法律責任。

2.平臺中泛濫的有害內容會嚴重影響用戶的身心健康。

3.平臺如果放任有害內容的產生和傳播,必將導致劣質內容驅逐優質內容,降低平臺整體品質,從而導致用戶流失。

2、色情文本內容和網際網路一樣古老,風控平臺是如何準確識別出哪些文字內容在「開車」的?針對一些諧音、拼音之類的擦邊球文字如何準確識別?對於「嗯,嗯,嗯」「啊,啊,啊」這樣的擬聲字如何識別?

Lucas:文本是網絡中最大的信息載體,所有網際網路平臺都面臨文本安全風控的問題。色情文本中存在一些明顯特點,比如變異字幹擾、形近字拆字幹擾、同音字幹擾。

 ▲垃圾文本通過變異幹擾躲避傳統的有害文本風控模型

針對這類文本的特點,單靠抗幹擾能力弱、策略更新滯後的文本策略無法滿足對抗的需求,需要通過文本策略+算法模型相結合的方式來提升整體識別的召回率和準確率。

文本分類算法選擇與模型訓練

對比典型的TextCNN、RNN、FastText等文本分類算法,其中TextCNN的模型複雜度低、推理速度快、抗幹擾性強且對詞順序不敏感等特點,適合於短文本高對抗的場景;在模型訓練中通過以下手段來進一步提升模型的識別效果:

1. 基於字符、拼音的Word2Vec來豐富詞的語義信息,可以有效解決同音字問題;

2. 數據增強,對訓練樣本中的高頻詞做拆字,比如針對「加微」這個詞分別補充「+V」「+威」等用於訓練來提升模型的抗幹擾能力。

3. 基於靜態詞向量與動態詞向量相結合的方法,比如在不同場景的大規模語料上分別預訓練靜態詞向量,捕捉詞的多場景語義信息,從而降低因訓練數據過少導致的過擬合風險。

 ▲短文本類型模型與訓練流程

 ▲騰訊安全天御內容風控文本安全的打擊效果

3、色情圖片可能是流傳最廣泛,傳播最速度的色情信息內容了,我們知道對於機器來說,識別色情圖片門檻很高,企業應該如何處理?

Lucas:圖片是網絡上僅次於文本的第二大信息形式,幾乎任何網際網路平臺都要面臨圖片中存在的色情、低俗等問題。

我們把色情低俗等圖片大致分為兩類過濾情況:

存在具象的有害元素:例如露點、性行為等,經典的圖像分類/目標檢測算法就適用於這類情況,此時算法的挑戰在於元素類型眾多、而且有害元素在畫面中的比例未必是顯著的。針對這種情況通過Attention技術,可以讓模型更關注到特定元素而「忽視」無關痛癢的其他畫面元素,例圖中的輸出圖片是熱力圖,從中可以看出模型對漏溝信息的反應最為明顯,說明模型判斷這是一張低俗圖的主要原因在於它發現了『漏溝』這一概念。

▲通過Attention技術讓模型更關注特定元素

抽象的概念:人類判斷一張圖是否是有害是基於畫面的具體元素結合生活經驗的結果,與針對特定元素的識別的圖像感知相比,大量隱晦圖片(如性挑逗、性誘惑)把問題上升到了圖像認知的層次;圖像多標籤識別技術可以實現輸入一張圖片輸出一組標籤,為圖像認知提供基礎語義支撐,建立在多標籤基礎上再構建上層模型才有可能使機器做到類似人類「圖像認知」的效果。這裡的算法挑戰在於需要積累大量的訓練數據覆蓋形形色色各類標籤,而且真實世界分布中的標籤的比例往往嚴重不平衡,如何既支持大量的標籤類別又應對標籤不平衡問題而且還要保持最終的識別指標是一項技術挑戰;針對這種情況,騰訊安全天御內容風控採用標籤級動態採樣方式,設置ignore label抑制高頻標籤,降Loss反向傳播權值,可以有效提升低頻標籤召回率提升,進而提升整體的識別效果。

4、除了文本和圖片兩大類載體之外,直播、短視頻也在高速的發展,針對視頻要求內容風控做出怎樣的應對?如果一支視頻畫面正常,但播放中出現了「嬌喘聲」「呻吟聲」,騰訊安全可以識別到麼?

Lucas:2016年直播迅速崛起,到近年短視頻飛速發展,都是以視頻的方式吸引大量網民的眼球,相對文本圖片靜態內容,針對直播和短視頻的內容風控除了可以從視頻中抽幀做圖片有害內容識別之外,還有更多的挑戰:

實時性:直播作為實時流,主播在直播的同時就有數百萬甚至千萬的粉絲在觀看節目,所以對風控的算法模型響應速度要求特別高,一般需要在500ms以內完成色情、低俗、是否本人等多項檢測,並將異常的情況通知平臺進行處理。

性能要求:以1分鐘的短視頻為例,如果按照100ms間隔抽幀,完成一個短視頻需要識別600張圖片,串行處理大概需要5分鐘,而這往往無法滿足用戶及時上傳及時分享的需求;因此需要加速視頻檢測的速度,除了通過增加機器提升並行處理速度外,可以在截圖的時候使用後幀關聯識別來做跳變抽幀的方式來減少抽幀總量但又不漏過視頻中的關鍵幀信息來減少圖片識別的總量。目前騰訊安全在視頻檢測中利用騰訊雲的資源彈性伸縮,並使用跳幀識別的方式1分鐘的視頻,最快10s即可鍾完成檢測。

音頻檢測:視頻中除了畫面存在有害信息之外,還有可能出現音圖無關現象,比如直播畫面正常但是音頻卻涉黃了,因此除了截圖識別外還需要提取音頻內容做呻吟聲等識別。完整的音頻檢測流程包括a)VAD 做靜音檢測,去掉靜音內容,同時將音頻分段;b)提取音頻特徵 MFCC/Fbank等;c) 在通用模型上(基於GMM 或者TDNN)提取能夠表徵該段音頻內容的特徵(embedding);d)通過特定的後端分類器得到每段音頻的識別結果;e)根據每個片段的得分和時長,根據業務需要,匯總得到整條語音內容的識別結果和置信度。

 ▲騰訊安全-色情音頻識別效果

5、這些技術,在平臺眼中都適用嗎,對於中小型企業和大型企業來說,選擇的內容風控方案是否一致?

Lucas:如前文所介紹的針對文本、圖片、視頻(音頻)都有不同的算法(比如TextCNN、BERT、多標籤識別、Attention技術以及音頻中的TDNN和i-vector),不同規模的企業中選擇的技術可能大同小異,但是在風控系統的設計和實踐中會出現較大的差異,最終產生的效果出現比較大的偏差。內容的對抗是一個持續的過程,線上一成不變的算法模型可以解決一時的問題不能解決各種黑產的攻擊與繞過,因此針對線上識別系統之外我們還需要一套主動收集漏過數據補充線上模型流程:

1. 獲取被線上模型識別為有害的內容以及用戶舉報的有害內容所關聯的號碼

2. 提取號碼的文本內容做文本聚類(TF-IDF、DBSCAN、分層聚類)

3. 提取聚類特徵消息平均長度(號碼信息熵、IP信息熵、地址信息熵)

4. 通過XGBoost輸出異常分類並給到人工標註來挖掘漏過樣本

 ▲完整的垃圾文本過濾系統

同理針對圖片、視頻、音頻的檢測系統也少不了主動收集漏過數據的流程;除此之外的內容風控系統還必須具備彈性的處理能力來滿足業務的需求,以及針對不同的場景做精細化的檢測的能力。所以針對中小企業來說我們更建議選擇成熟的雲上內容風控方案,來降低企業自身的人力、物力的持續投入而專注於內容本身的運營;而針對大型的企業來說由於面臨的風險也更大,除了可能自建設內容風控系統之外也可以接入雲上內容風控能力來補充提升自身的不足。

6、從實際效果來看,應用了內容風控解決方案能否實現「降本增效」,為企業降低成本?

Lucas:目前騰訊安全天御內容風控系統已經通過騰訊雲和小程序開放平臺服務數萬客戶,通過我們的內容風控的系統可以從兩個方面來實現「降本增效」:

降低開發成本,一鍵接入

目前騰訊安全天御的內容風控系統已經跟騰訊雲的產品有機的結合起來,如果企業已經使用了雲通信、點播、對象存儲(COS)、直播等產品,那麼無需開發就可以接入到我們的內容風控,我們識別到有害內容之後將主動通知企業進行處理。

 ▲騰訊安全天御內容風控系統與騰訊雲有機結合

降低20%~80%的成本

隨著內容風控系統不斷的提升檢測的效果,企業在對「鑑黃師」的人力投入也在持續降低,不同規模的企業能夠降低原有20%~80%的成本。大量此前曾經需要很多人力投入才能解決的工作,現在可以交給系統來完成,企業可以將人力集中於內容風控系統檢測之後的覆核以提升風控效果,更大程度的避免有害內容帶來的風險,也可以將人力投入到其他業務的創新和生產當中,為企業創造更多的價值。

 ▲騰訊安全天御內容風控的效果

7、未來內容把控的發展方向為何?對於VR、AR、5G等新技術的落地,企業將面臨哪些新的內容風控問題?

Lucas:內容風控的核心是識別文本、圖片、視頻、音頻中的有害內容,現階段的識別還離不開「鑑黃師」的輔助,我們需要持續將識別做到精細化來滿足不同場景的需求,同時不斷提升召回率和準確率來釋放「鑑黃師」的投入從而降低企業的成本。

目前內容風控對抗的主要是用戶產生的內容,不管是用戶自拍還是專業拍攝,其內容的創作都是有一定成本的,隨著通過生成對抗算法產生的文本、圖片、視頻、音頻開始傳播起來,其創作的成本更低廉可能更具有傳播性,那麼內容風控所需要面對不僅僅是人產生的內容,也包括機器自動生成的各式各樣的內容。

隨著5G等技術的落地,VR、AR可能重新火熱起來,也會帶來新的內容形式,但是內容風控的本質不會變,只要我們在內容的生產、存儲、傳播三個環節做好內容風控,必將可以更優的姿勢迎接內容井噴式發展的到來。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 色情/性感如何區分,怎樣的風控能力能防止「平臺兩行淚」?
    「道路千萬條,安全第一條,行車不規範,親人兩行淚」——這句話,出自科幻電影《流浪地球》,卻也恰巧概括出內容平臺的「辛酸經歷」。從文字到圖片,從直播到短視頻,多年來行駛在內容創作這條康莊大道上的「車輛」可謂形形色色。這其中,有一類「老司機」最讓人頭疼:這些人,以打色情擦邊球為己任;在露與不露之間摩拳擦掌;為黃而不宣的內容「奮鬥」終生。
  • 潘少華:金融保險產業原來的數據風控手段覆蓋能力趨弱
    在過去這幾年間,基於我們的數據能力,本來我們也是服務於工信部的12321等平臺,通過安全聯盟積累了各種各樣的黑名單數據,黑灰產數據,主要是黑產作惡涉及到的資源,現在大家都能理解黑客薅羊毛,或者我要去騙貸,首先我要搞一套假的身份資料,需要一套假的,模擬過的手機,掌握業務風控的規則。
  • 薩摩耶金服林建明:科技賦能金融機構打好風控攻防戰
    新興技術不斷出現並應用於金融產業,科技對於金融的作用被不斷強化,創新性的金融解決方案層出不窮,推動金融科技發展進入新階段,金融行業的轉型升級愈發迫切。在2019年金融科技大會上,薩摩耶金服董事長林建明受邀參加論壇,同與會代表就「智能風控的躍進與迭代」「資產信用評估的路徑」等話題展開了深入的討論。
  • 風控升維提速,人工智慧成最大引擎
    根據金融業務的實際情況,金融機構的需求邏輯主要集中在兩三個方面,其一是必須合規;其二工具能夠「即接即用」,減少對接成本和其他支持費用;其三工具能在短時間內讓金融機構看到效果,並能為金融機構帶來的價值覆蓋技術服務費成本。按照上述人工智慧服務金融機構的價值導向,行業內確實有一批能為金融機構帶來較大增益、推動風控運營智能化的工具。
  • 極光開發者大會:曠視科技敖翔談視覺智能如何助力大數據風控升級
    本次大會由國內領先的移動大數據服務平臺——極光大數據舉辦,近千位網際網路公司技術領袖、合作夥伴、開發者齊聚一堂,圍繞大數據、人工智慧、移動開發等廣受關注的熱點話題,共同探討了在移動開發的下半場,如何構建健康的開發者生態。曠視科技副總裁敖翔先生作為重要嘉賓出席本次大會,並發表《視覺智能助力大數據風控升級》的主題演講。
  • 聯邦學習+風控,會是信貸業務的N95嗎?
    一位來自風控行業頭部企業的高層表示了對系統性風險的擔憂:面向小微企業主和消費者的信貸服務,正如同中國經濟的毛細血管,是金融業觸達到群眾的最直接管道;政府在扶持企業、解決就業經濟這些根源性難題的同時,也一定要防範系統性風險從信貸領域蔓延開來。此時,風控在某種程度上變成了信貸業務的一道「口罩」,需要更準確有效地「過濾」風險。
  • 金融科技產業峰會落幕,中科馭數攜實時風控方案RiskCop助力風控計算
    吸引了來自金融科技產業生態各方的專家代表齊聚一堂,共同探討國家金融科技產業的最新政策和發展趨勢,交流分享金融科技領域的新技術、新模式和新應用。中科馭數CTO盧文巖在「金融業數據治理與應用」分論壇中做主題分享作為重要的熱點議題之一,「金融業數據治理與應用」分論壇同期隆重開啟。
  • 票據風控南京站丨近千人齊聚 共話2020票據財稅法管理
    2020年11月28日,由同城票據網主辦、匯承金融科技服務(南京)有限公司(以下簡稱"匯承")協辦的2020票據新生態·票據財稅管理暨風控大會在南京順利召開。上海律協金融工具研究委員會專業委員朱鑫鵬、原國家稅務幹部學院教授、知名財稅專家趙國慶博士、同城票據網CEO曹石金、資深地產行業研究專家李戰軍、圓滿金融總經理陳哲宇、正興票研聯合創始人方明出席會議。
  • 金融風控的工作內容是什麼,需要哪些能力?
    金融風控的目標是減少風險或者控制風險,其重要性自是不必多說。在我們的實際工作做,不同類型的金融機構及企業的風控因為其面臨的風險不同,其工作內容也各不相同,但是都需要我們有過硬的工作能力。下面我們就來了解下!
  • 借唄和微粒貸是怎樣進行大數據風控的!看了才了解為啥借不了!
    今天小編來說說這些產品是如何進行大數據風控的,希望能讓它們的用戶揭開面紗,更近距離地看清它們。一、微粒貸:社交行為主導的風控體系微粒貸作為微信平臺裡的一款貸款產品,有道是背靠大樹好乘涼,它在客戶信賴度方面有先天的優勢。微粒貸不是所有的微信用戶都有機會開通,平臺採用了白名單邀請制,什麼樣的用戶才有資格呢?
  • 智能風控時代下,銀行如何進行聲譽風控風險管理
    來源:中國證券報圖集 中國證券報記者11月23日獲悉,智能風控時代下的銀行聲譽風控風險管理論壇日前在北京舉行。他表示,《銀行家》雜誌將開闢名為「聲譽風險」的新欄目,為銀行業「聲譽風險」管理搭建一個學術交流平臺。中國建設銀行原批發業務總監、建信基金管理公司原董事長許會斌結合銀行業實踐及當前形勢分析了智能風控時代下銀行聲譽風險管理的三大新特點,即:信息傳播源頭多元化、無頭緒、防控難;傳播模式呈現出閃電式、爆炸性特點;傳播內容更具新聞性和變異性,輿情應對越來越難。
  • 莫等「昆蟲大滅絕,人類兩行淚」
    資料圖生境千萬處,保護第一條,昆蟲大滅絕,人類兩行淚……近日,「小不點」昆蟲引起人們的廣泛關注。國際期刊《生物保護》發表了一篇關於全球範圍內昆蟲減少現狀及其驅動因素的綜述報告。英國《衛報》報導甚至稱,全球昆蟲或在100年內滅絕,並帶來生態災難。
  • 吃菌不規範,親人淚兩行
    吃菌不規範,親人淚兩行。雲南可以吃的菌子有900種,有毒的有200種,加起來就是1100種……政府專門給雲南人——野生菌食物鏈頂端人類專屬的簡訊提示!這是為什麼?原來雲南人野生菌中毒很普遍,大家還在微博上討論。吃菌子中毒是一種怎樣的體驗?
  • 以個人信用貸流程為例,認識風控要點
    內容架構:一、什麼是風控?風控的全稱是風險控制,指的是管理者通過一定的方式和手段把控事情能安全有序的完成;降低甚至消除過程中風險事件發生的可能性,或者是減少和避免風險事件帶來的損失。風控其實一直在我們生活中以不同的方式保障著我們的安全。
  • 專訪高燈科技聯合創始人兼總裁張民遐:賦能傳統財稅管理 2020年是...
    類似於金融科技,財稅科技通過數字科技手段賦能財稅協同,解決了以往產業發票流轉效率及合規化經營行業內每個節點的割裂問題。「實際上,高燈科技不是傳統意義上以軟體或以項目制來進行交付的企業服務公司,我們更多是想做一個生態、一個開放平臺、一個交易平臺通過可信存證、風控引擎、財稅組件及企服生態來解決企業合規需求,以提升產業效率。」
  • AI風控專家維擇科技亮相「數博發布」
    2020「數博發布」活動上,DataVisor維擇科技營運長楊居正博士攜全流程AI風控產品亮相,從AI賦能風控的角度對企業的產品和服務進行了全面介紹。近年來,各種新型業務場景不斷發展,欺詐手段也層出不窮,不僅是保險行業,其實所有行業的風控能力都應該與時俱進,才能有效應對複雜多變的欺詐行為。風控是一場貓鼠遊戲,對於未知風險的識別和規避是贏得這場遊戲的關鍵,如果只靠冷冰冰的模型和數字來做反欺詐,始終會被騙子玩得團團轉,永遠跟在騙子的欺詐手段之後做補救措施。
  • 「魔鏡」風控系統——卡爾數科助力智能風控新發展
    今年 5 月卡爾數科智能風控決策引擎2. 0 版——「魔鏡」風控系統正式升級上線。從卡爾金融到卡爾數科,全新升級的「魔鏡」風控系統在客戶信用數據、車輛驗真估值、多平臺預警服務等多個方面進行優化,從而進一步規避風險,對智能風控體系建設有著重要意義。
  • 為什麼IoT企業都要做平臺丨中國物聯網平臺產業市場研究報告重磅發布
    為什麼IoT企業都要做平臺丨中國物聯網平臺產業市場研究報告重磅發布 為什麼IoT企業都要做平臺丨中國物聯網平臺產業市場研究報告重磅發布 2020-05-14 16:27:53  來源:物聯網世界
  • 五縱三橫布局,同盾助力金融風險防控|風控|大數據|雲計算|網際網路...
    通過大數據風控等技術的運用,金融機構可以使用在各個渠道或平臺的「弱金融相關」的數據變量,對用戶或企業畫像,精準評估其還款意願和能力,進而開展相關信貸業務,減少「貸錯」的風險。在大批量作業下,大數據風控可以實現風險識別更準,風險識別更快,取代傳統風控,還可以從銷售管理、反欺詐、貸前準入、客戶授信到貸後管理,有效對金融機構前中後臺進行重塑,形成貸前、貸中、貸後體系化和全周期化的生態系統。