AI色情創作算法亟需「養料」,非法裸圖數據集「重生」

2021-02-15 大數據文摘

因「換臉」功能大火後，與情色相關的Deepfake應用被全網禁用。但是，用來訓練這些色情算法的非法「裸圖」數據集，還在全球的色情社區流傳，並且或許將永遠存在下去……

四年前，剛剛18歲的Jane作為受害者之一，在威逼利誘下，被迫參與拍攝了一個色情圖集。她和其他21名女性的裸照和色情視頻在之後在一個名叫「少女色情」（Girls Do Porn）的成人網站被公開。

拍攝方是一家捷克的色情製作公司Czech Casting，在被告發後，該公司被警方指控販運人口及強姦罪，被判決向其視頻中出現的22名女性支付近1300萬美元，創始人目前仍是FBI頭號通緝犯，這些照片也成為了非法色情素材被禁用。

FBI通緝人Michaels Pratt

雖然這個公司已經被關停，但Jane沒有想到的是，她的噩夢遠沒有結束。這些被迫拍下的裸照正作為色情數據集，成為了最近一種新型技術deepfake porn的訓練」養料」，在網絡上繼續流傳存在。

一名博士生的「技術創新」項目：「我只是覺得這很酷」

一鍵脫衣、直接換臉，關於deepfake你肯定不陌生。

就像「不存在的人（thispersondoesnotexist.com）」這類項目一樣，deepfake這一機器使用機器學習算法和數千張人臉圖片來生成不存在的人的真實感圖像，該數據集用於生成真實和不真實的裸女圖像，只不過最終生成的圖片看起來不像任何人。

某個人上傳數據集到網際網路上，可以將其插入「deepfake色情片」訓練集中，其他人則可以使用該數據集來創建「完全由AI生成的色情」。

不同於DeepNude利用社群網路中的私人照片，這次 Deepfake造假利用的是現有的成人色情作品。創建者認為在原有色情作品上，利用Deepfake 生成不存在的人臉進行二次創作可以避免法律上的懲罰和道德上的譴責。

但是，這也間接促成了相關裸照數據集被多次激活使用，並且使用人並不介意這些照片是否是合法的。

在為Czech Casting拍攝色情照片的第四年，Jane在一個論壇上發現了自己的老照片數據集。這個論壇由一名博士生開設，以炫耀他最新的個人AI項目：算法生成的色情作品。

這個博士生給自己的算法生成器取了個名字——「GeneratedPorn」，並命名為r / GeneratedPorn subreddit來發布有關該技術的信息（下稱「 GP」）。

在公開信息中，這個項目的創始人表示，他開啟這個項目只是因為想要提高自己的機器學習技能。與許多deepfake製作的色情產品不同，在項目最初，GP製作的圖像並不希望「以假亂真」，也不想騙過任何人讓觀眾覺得這是真實色情。因為GP產出的作品看起來幾乎不是人類，更不用說像特定的人了。

但是就像很多早期的deepfaker們一樣，作品的真實性也在迅速提高。GP在過去幾周內發布了幾項實驗，這些實驗以越來越精確的描繪裸露的人體，甚至是一些略帶動畫的圖像顯示，這也證明了，「完全由AI產生的色情」並不是不可能的。

「在我看來，這一切都是為了學習「很酷的技術」，但是後來我最終轉向色情作品，因為我認為這是一個很酷的概念，尤其是在看完相關影像之後。」

為了製作視頻，GP使用了來自網絡的數據集對算法進行了訓練，其中就包括了主要由Czech Casting提取的圖像組成的數據集。這些數據集是託管的，可以從相關文件共享站點免費下載，是由用戶嘗試使用Deepfake和其他形式的算法生成的圖像進行編譯的。GP在其中一個文件共享網站上找到了Czech Casting數據集。GP創作者表示如果他不這樣做，他會寫一個網絡抓取工具來收集來自Czech Casting的圖像。

Czech Casting數據集的經過審查的樣本

要創建通過算法生成的完整的裸露身體的視頻，需要許多真實、裸露的人的圖像和視頻，因此，Czech Casting圖片數據集幾乎是為該算法任務量身定製的資源。

GP說：「人們之所以選擇這樣的數據源，主要是因為使用了生成對抗模型（GAN），試圖為要嘗試生成的對象類別學習圖像的一般結構。」

「如果圖像在結構上相似，則模型可以了解有關物品類別的更精細/顆粒細節的信息，例如臉上的酒窩或雀斑。這可以帶來更高的質量結果。」GP向Motherboard發送了他正在使用的數據集的樣本，其中還包括Girls Do Porn視頻的圖像。GP的其他數據集還包括從網際網路上抓取的其他裸體圖像，包括其他色情網站，社交媒體以及用戶發布自拍照的子目錄，例如r / roastme，人們在其中發布圖像的子目錄等。

那麼，將這些非法數據集作為訓練數據使用是合法行為嗎？

匿名使用這些數據集的人說，由於他們在技術上生成的最終算法生成的圖像不是真實的人，因此不會傷害任何人。

更有甚者認為，自己的創作是朝著未來邁出的關鍵一步。在未來，色情將根本不需要人類的色情表演者。

在r / MachineLearning subreddit上的一篇文章中解釋了他的算法生成的色情作品是如何工作的，GP在解釋中途停頓了一下，以解決「潛在的道德問題」。他寫道：「我不知道該怎麼做，開啟這個項目的初衷是我想創造一個很酷的東西……我打算製作一個只供「粉絲」可見的社區，並提供個性化的「AI生成的裸照」來與人們交流。」「但是有一些我認識的人對此想法不太贊成，並說這是對一些人的傷害。因此，我決定不走這條路，以避開道德上問題。」

他在那篇文章中還指出，訓練數據集的道德話題是他關注的。他寫道：「是我們正在訓練的圖像涉及了道德倫理問題，還是圖像中的人員受到了某種形式的利用？」

但這些考慮並沒有阻止GP在社交媒體平臺上公開發布該項目，大多數內容通過Twitter，Facebook，Reddit，OnlyFans等平臺以及XVideos和Pornhub之類的站點在Internet上傳播了出去。

McAllister Olivarius律師事務所的律師HonzaČervenka專門從事「復仇色情」和相關技術方面的工作，並且一直在追蹤該捷克最大的色情公司Netlook所擁有的Czech Casting案。他在接受vice採訪中表示，這種圖像是有害的，因為它們是通過算法運行並「匿名化」的。他說：「這是一門瘋狂的科學，它使Czech Casting施暴者的受害者再次受害。」

「簡直不公平，仿佛我的自由被剝奪了，」Jane說，他們（GP）為Czech Casting這類非法圖片拍攝方提供了一個新的使用場景。

目前 Reddit、XHamster 等多個網站已經將該軟體應用封殺，並強調Reddit 網站政策禁止非自願色情內容的分享和傳播，包括Deepfake作品。

https://www.youtube.com/watch?v=Ub0rSFBoSdw&feature=youtu.be

https://www.vice.com/en/article/akdgnp/sexual-abuse-fueling-ai-porn-deepfake-czech-casting-girls-do-porn

https://www.vice.com/en/article/bjye8a/reddit-fake-porn-app-daisy-ridley

相關焦點

AI原創色情內容已成為可能?

但是，用來訓練這些色情算法的非法「裸圖」數據集，還在全球的色情社區流傳，並且或許將永遠存在下去……四年前，剛剛18歲的Jane作為受害者之一，在威逼利誘下，被迫參與拍攝了一個色情圖集。就像「不存在的人（thispersondoesnotexist.com）」這類項目一樣，deepfake這一機器使用機器學習算法和數千張人臉圖片來生成不存在的人的真實感圖像，該數據集用於生成真實和不真實的裸女圖像，只不過最終生成的圖片看起來不像任何人。某個人上傳數據集到網際網路上，可以將其插入「deepfake色情片」訓練集中，其他人則可以使用該數據集來創建「完全由AI生成的色情」。
Deepfake一鍵翻新「成人色情視頻」,遭各大平臺封殺

GP所利用的色情數據集全部來自於捷克的一家色情製造公司——Czech Casting。多年來，該公司拍攝了成千上萬的女性視頻，並託管在共享網站支持免費下載。視頻中每個女性都被數字編號，並站在白色背景下進行360°無死角拍攝，甚至包括局部生殖器官的鏡頭特寫。
「AI 大毒瘤」Deepfake 識別賽排名出爐!3.5 萬種算法準確率最高...

具體來講，Facebook 僱傭了 3000 多名不同性別、膚色、種族、年齡的演員錄製了大約 10 萬個視頻片段數據集，其中一部分經過了 AI 的修改，把別人的臉貼在視頻裡。雷鋒網了解到，Facebook 利用了多種 Deepfake 生成模型、諸如圖像增強之類的細化技術以及諸如模糊、幀率修改和覆蓋之類的增強和幹擾。
AI是如何檢測色情片的?

機器學習算法也處於同樣的窘境，這是Picnix（一家提供定製化AI服務的公司）?的執行長Brian DeLorge正試圖解決的問題。Iris是其產品之一，專門用於檢測色情內容的客戶端應用程式。正如DeLorge所說，「誰不希望生活中有點色情內容？」他指出另一個問題，色情片可以是很多不同的東西，但色情與非色情圖像會共享相似的圖像特徵。
給照片穿上「隱身衣」,最強人臉識別算法也失靈!業界推出最新AI工具Fawkes,幫你保護照片隱私數據

如今，我們在社交媒體上的大量曝光，獲取這些照片數據也變得很容易。事實上，後者已經過了Fawkes處理，並能夠屏蔽任何人臉識別算法。研究人員介紹，Fawkes軟體對人臉圖像進行了像素級的細微更改，肉眼幾乎無法察覺到。而任何掃描這些圖像的算法都會將這些「高度失真」的圖片視為完全不同的人。
DeepFashion服裝數據集

list_eval_partition.txt - 服裝圖片數據集的劃分train - 訓練圖片集；val - 驗證Validation圖片集；test - 測試圖片集.1.2. 服裝類別Category
別說我沒告訴你AI數據的重要性

作為人工智慧產業的內部驅動力,數據、算法和算力三大要素對計算機視覺技術的升級發展至關重要。當前,全球數據量已達到ZB級別(1ZB約為10億GB)的大數據時代,為人工智慧技術進步提供了充足的養料。當前的中國計算機視覺產業已經邁入商業化應用階段,對定製化、精細化數據呈現出旺盛的需求。AI數據服務商也邁入高質量、精細化服務階段,助力人工智慧應用加速落地。
資料|世界著名計算機教材精選:數據挖掘十大算法(中文版)

>《世界著名計算機教材精選：數據挖掘十大算法》詳細介紹了在實際中用途最廣、影響最大的十種數據挖掘算法，這十種算法是數據挖掘領域的頂級專家進行投票篩選的，覆蓋了分類、聚類、統計學習、關聯分析和連結分析等重要的數據挖掘研究和發展主題。
AI賜子?學習百萬個胚胎發育過程,算法將試管嬰兒成功率提高3倍

算法定位成功率最高的胚胎人工智慧在這裡能做些什麼？最近，以色列一家機器學習創業公司AiVF表示，與傳統方法相比，人工智慧有可能將體外受精（IVF）的成功率提高三倍。換句話說，至少根據實驗數據，使用正確的AI系統，夫妻懷孕的可能性要比不使用要高出好幾倍。
漫畫作者JM涉嫌非法銷售淫穢色情漫畫被刑拘

據掃黃打非微信公眾號消息，近期，網民反映淫穢漫畫作者JM，通過網際網路涉嫌非法銷售淫穢色情、血腥暴力漫畫《戰爭即和平》《帝國社會》。全國「掃黃打非」辦公室接到舉報線索後，第一時間部署遼寧省「掃黃打非」部門進行核查偵辦。目前，蔣某某（JM為其化名）因涉嫌製作淫穢物品牟利罪被瀋陽公安機關刑事拘留。
吳恩達聖誕寄語:回顧2020年,這些AI大事件讓我無法忘懷……

最後，談到GAN輸出中包含的偏見，Lan Goodfellow表示：「隨著GAN生成人臉越來越逼真，GAN可以通過為其他機器學習算法生成訓練數據，來抵消訓練數據中的偏見。如果你使用的語言在數據中代表性不高，則可以對其進行過度採樣。但是，我希望還有其他方法可以解決數據集中代表性不足的問題。」
資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...

《數據挖掘：概念、模型、方法和算法（第2版）/國外計算機科學經典教材》介紹了通過分析高維數據空間中的海量原始數據來提取用於決策的新信息的尖端技術和方法。《數據挖掘：概念、模型、方法和算法（第2版）/國外計算機科學經典教材》開篇闡述數據挖掘原理，此後在示例的引導下詳細講解起源於統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、前沿的挖掘方法和算法。書中還著重描述如何恰當地選擇方法和數據分析軟體併合理地調整參數。每章末尾附有複習題。
能把你偽造成色情電影主角的「換臉 AI」,可以用新方法兩步破解了

2018 年 9 月，谷歌在其搜尋引擎名單中添加了針對「非自願合成色情視頻」的屏蔽選項，但仍無法阻止這些色情視頻的創作與傳播。歐巴馬也成為了這項技術的應用對象。2018 年，演員兼導演喬丹·皮爾（Jordan Peele）用這種技術製作了一段病毒視頻，視頻中歐巴馬說了一些關於川普的煽動性言論。
AI視野:Pornhub封禁用AI換臉軟體生成的假色情影片、Elon Musk為何敲響人工智慧的警鐘、網絡戰籍無人機殺入天空

雖然他打造出來的偽造色情影片，幾乎可以以假亂真。此次網絡出現了許多偽造的色情電影，全球最大的色情視頻平臺Pornhub今日宣布，將封禁所有deepfakes創造的視頻內容，並且打擊偽造的色情電影內容，用戶可以舉報標記……http://t.cn/R8r4UIq《Why Elon Musk Is Sounding the Alarm on Artificial Intelligence》《Elon Musk為何敲響人工智慧的警鐘
通過18萬小時的海域錄音,谷歌用AI幫助科學家更好地保護座頭鯨

除此之外，谷歌也使用了類似的算法來幫助加拿大漁業和海洋部實時監測瀕臨滅絕的南方常住虎鯨（Orca）的數量，該種群已減少到了大約70隻。事實上，AI對於海洋研究用處很大，因為海洋中既有著大量的數據（表面廣、深度深）又可以說是欠缺一定的數據（因為獲得數據太昂貴了，而且從各地收集不同類樣本也不一定有用）。
照片秒變卡通風,小視科技AI團隊開源人臉卡通化算法模型

為增加行業內交流，促進技術層面的共同提升，該團隊現已開源卡通化模型和數據。地址：https://github.com/minivision-ai/photo2cartoon數據獲取難度大。繪製風格精美且統一的卡通畫耗時較多、成本較高，且轉換後的卡通畫和原照片的臉型及五官形狀有差異，因此不構成像素級的成對數據，難以採用基於成對數據的圖像翻譯（Paired Image Translation）方法。照片卡通化後容易丟失身份信息。
運用AI運動數據算法 GoMore推出「體力油量表」

「體力油量表」其實是屬於運動員和參與運動人士的特殊工具，是一種目前領先的AI運動數據算法。簡言之，同樣是5公裡跑步，對於上班族、學生，或者是專業長跑運動者，AI運動數據算法會為每個人給出不同的「體力油量表」。
谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...

谷歌在博客上發表了相應的文章來介紹這一數據集，雷鋒網 AI 開發者將其整理編譯如下。Deepfake 視頻檢測數據集背景近幾年來，深度學習的發展催生了曾經被認為不可能實現的技術。現代生成模型就是其中的一個例子，它能夠合成超現實主義的圖像、語音、音樂甚至視頻。
被AI改變的真實世界

但利用AI復活死者聲音的舉動同樣引發了一些有關倫理問題的擔憂，通過AI技術創作出來的新素材，也容易引起版權爭議。Deepfake,又名深度偽造，是一種始於2017年Reddit網站上的AI換臉算法。這種技術可以將視頻中的人臉換成其他人臉。自那以後，Deepfake就開始在網絡上迅速傳播。
網絡文藝的創作與傳播別陷入「算法」出不來

算法被應用於網際網路個性化信息推薦，在海量信息中提高內容與用戶需求匹配度，降低用戶獲取信息的成本。算法是人工智慧技術的核心，用以分析處理數據，為計算機學習、模仿人類思維能力提供基礎，實現人工智慧對人類某些能力的替代或增強。無論是否了解算法，大多數人已經被編織進數據和算法的媒介網絡，算法的作用也滲透進日常生活的方方面面。

AI色情創作算法亟需「養料」,非法裸圖數據集「重生」

相關焦點

AI原創色情內容已成為可能?

Deepfake一鍵翻新「成人色情視頻」,遭各大平臺封殺

「AI 大毒瘤」Deepfake 識別賽排名出爐!3.5 萬種算法準確率最高...

AI是如何檢測色情片的?

給照片穿上「隱身衣」,最強人臉識別算法也失靈!業界推出最新AI工具Fawkes,幫你保護照片隱私數據

DeepFashion服裝數據集

別說我沒告訴你AI數據的重要性

資料|世界著名計算機教材精選:數據挖掘十大算法(中文版)

AI賜子?學習百萬個胚胎發育過程,算法將試管嬰兒成功率提高3倍

漫畫作者JM涉嫌非法銷售淫穢色情漫畫被刑拘

吳恩達聖誕寄語:回顧2020年,這些AI大事件讓我無法忘懷……

資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...

能把你偽造成色情電影主角的「換臉 AI」,可以用新方法兩步破解了

AI視野:Pornhub封禁用AI換臉軟體生成的假色情影片、Elon Musk為何敲響人工智慧的警鐘、網絡戰籍無人機殺入天空

通過18萬小時的海域錄音,谷歌用AI幫助科學家更好地保護座頭鯨

照片秒變卡通風,小視科技AI團隊開源人臉卡通化算法模型

運用AI運動數據算法 GoMore推出「體力油量表」

谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...

被AI改變的真實世界

網絡文藝的創作與傳播別陷入「算法」出不來