美國首都華盛頓特區,國會山莊北部。一陣笑聲,從玻璃窗裡傳出。窗外晴空萬裡、綠野滿坡,圓柱式門廊氣勢恢宏……
世界頂級立法機構的辦公環境,果然宜人。
這一切,對於40歲就坐到參議院辦公桌前的霍利(Josh Hawley)來說,他的黃金歲月才剛剛開始。
2019年,分水嶺。
此前,他是美國密蘇裡州第42任司法部長。
此後,他是美國國會參議員。
作為一個每天都在上演「提案如何變成法律」的立法機構,美國國會的關鍵詞本該是「莊嚴」。然而,國會卻頻繁「做客」美國脫口秀演播間。
很多年前,馬克·吐溫講出了實話:「這是一群『土生土長的犯罪團夥』」。
而霍利在同僚中,保持著一項幸運的記錄——本屆美國參議院最年輕的議員。
對於政治家來說,年輕與激進都是優勢。川建國擁有後者。霍利,兩者兼具。
上任不久,他迅速成為共和黨在科技產業問題上最響亮的聲音。
東邊日出,西邊雨。
一種濃烈的自豪感,正在「抖音在國外有多火?」話題的帶動下升騰。
無數掌聲,正在送給頭條系產品——抖音面向中國以外市場的TikTok。
政客高亢激昂的演講、TikTok節奏強勁的短視頻,就像「含笑半步癲」,是洗腦、居家、旅遊的必備良藥。
而今,在美國,它們混淆在一起,成了一種不和諧的背景音。
北京時間3月5日凌晨,華盛頓特區,一場美國國會參議院的聽證會,正圍繞用戶數據安全、隱私問題展開。霍利議員揮舞起旗幟,在個人主頁用加粗字體寫下大大的標題:TikTok是「危險的夥伴」。
霍利早都準備好了。
他自信滿滿地坐在聽證會的皮椅上,卻久久未等到兩位主角到場。
一則快報的標題是《TikTok和蘋果,兩公司雙雙缺席聽證會》。
TikTok發言人告訴媒體:「我們感謝霍利參議員的邀請。不幸的是,短期內,我們無法提供能夠為實質性的討論做出貢獻的證人。」
霍利坐在椅子上回憶,這是TikTok第二次拒絕參加聽證會。
上次是2019年11月。
霍利能高興嘛?雖然他知道自己這樣做也只是為了吸引媒體注意,但是沒有配合的演出,就是大寫的尷尬。
「拒絕參演」後的整整一個月,TikTok都沒有閒著,2019年12月趕緊發布了上半年《透明報告》,雖然內容不長,只有5頁,但態度還是優秀的。Facebook自2013年起,也會定期發布。
一面,霍利等國會參議員已經開啟團隊作戰模式,加入的參議員越來越多。
一面,TikTok呢,越來越爭氣。
在美國已下載超過1.23億次。
在每月5億活躍用戶中,有2650萬來自美國。
約有60%在16至24歲之間。
在不到18個月的時間裡,美國成人TikTok用戶數量增長了5.5倍。
議員們一邊開會討論,一邊看著TikTok增長曲線往會議室天花板上竄。
霍利站立起來,說出他的好主意:
懷疑TikTok上傳的短視頻可能會洩露美軍的秘密,對於美國能夠接觸到敏感的國家安全信息的人,禁止在政府設備上安裝TikTok。
公務員管公務員,沒毛病。
在聽證會後,TikTok覺得此事得當面解釋清楚,表示:
「(我們)最近與幾位國會議員取得了聯繫,(大家)有興趣在不久的將來見面。」
除了可能的約咖啡、約飯之外,TikTok也絞盡腦汁。比如,計劃建立一個「透明中心」,允許外部專家查看公司團隊如何管理短視頻內容。
據說,位於美國洛杉磯,將於2020年5月開放,共享原始碼和公開獨立安全措施。
這裡的工作令人嚮往,每天都看各種有趣的短視頻,像極了很多人疫情期間每天躺在床上的銷魂姿勢。不用愧疚,大家都中了毒,用戶平均每天在TikTok上花費52分鐘。
為了證明產品「無毒」,讓美國用戶「吃」得放心,TikTok快馬加鞭複製出西貝莜麵村同款透明廚房。
聽證會上的一切發言,都是要宣誓的。懷疑、質疑、傳聞,都可以讓美國立法機構採取一定程度的行動,而不限於事後懲罰。美國立法機構質疑TikTok產品層面的數據收取、保存路徑。
誰能想到,TikTok會和數據洩露界的「犯罪之王」臉書公司相提並論,同樣成為討論數據安全、隱私問題的焦點。
圖為傳說中的TikTok(美國加州辦公室)
TikTok背過臉,輕輕拭去臉上的淚水,有些眼淚是因違反美國兒童隱私法,被罰了幾百萬美金而流下的。
華盛頓夜未眠,立法爭論永不休。
這只是一道坎而已,九九八十一難在後面排隊拿號。
2020年3月6日。
聽證會的第二天,TikTok有了首位首席信息安全官Roland Cloutier,他也是一位網絡安全專家,向抖音負責人朱駿(Alex ZHU)匯報。
這一消息,霍利也注意到了。
中國網際網路公司全球化的阻力好比颱風天黑壓壓的烏雲,有一朵,始終是數據安全和用戶隱私。
東邊日出,西邊雨。
美國國會立法調查好比「鷹眼」,歐盟《一般數據保護條例》(GDPR)好比「鷹爪」。為保護數據,GDPR已經織起了天羅地網。一項強制性法律,保護的是自然人的「個人數據」,包括姓名、生日、信用卡、地址、病史、位置信息、行蹤軌跡……
這個條例對AI技術的約束是從搖籃到墓地。「搖籃」是指,一開始獲得授權,得用戶點擊「同意」;而「墓地」就是,數據用完了也不能存太久,還得抓緊時間刪除。
《三國殺》裡的曹丕說:「管殺,還得管埋」。
簡單講,數據是情報,是生產資料,AI技術極度依賴數據。沒有汽油,勞斯萊斯再昂貴也只能觀賞,無法行駛。缺了數據,再先進的AI也只能人工,無法智能。
所以,法例的約束會貫穿AI產品整個生命周期。窒息的高牆下,只留「合規」這個窄門,門後是歐盟市場5億發達人口。
歐洲高度注重隱私和數據保護,這是文化。
第二次世界大戰期間,歐洲建立了詳細完備的個人資料庫。結果,被納粹用來清洗猶太人和迫害反納粹人士。
歐洲600萬猶太人的冤魂不散,致使很多歐洲人終身堅信,無論是出於何種目的,個人信息到後來一定會被濫用。
耶路撒冷灰暗的混凝土牆壁、靜默的白色馬安石地面、英文和希伯來文悼詞,沒有人再去打擾這份寧靜。
二戰結束五十年後,GDPR的親大哥《95指令》出生(1995年)。2009年,親二哥《歐洲Cookie指令》出生。你別誤以為GDPR是一個人在衝鋒。不,這是一家子在戰鬥(Cookie是網際網路常用的用戶跟蹤和識別技術)。
程式設計師開玩笑會說:
「數據和女友不能分享。」
歐洲程式設計師再加一句話:
「這是法律規定。」
歐盟高管表態:「我們歐盟委員會(的人),並不反對來自大西洋彼岸的科技巨頭,但是前提是,他們必須守規矩。」
美國網際網路企業享受了全球化最好的一輪紅利,俯仰之間,王公貴胄、皇親國戚都難逃一考。
加試題目是:數據安全與用戶隱私保護。
東邊日出,西邊雨。
TikTok是AI技術領域的「貴族」,有著領先行業完整的現代化推薦系統(含推薦算法、訓練平臺、後端架構的推薦系統技術棧),建設有大規模分布式實時機器學習訓練平臺和分布式高性能Parameter server平臺。
海量短視頻數據,「化作」充足的生產資料,使TikTok有能力探索最新機器學習算法落地。
TikTok在用AI算法改造自身業務的路上從來不遲到。甚至有外媒總結:「截至2020年,TikTok已成為全球最受歡迎的應用程式之一(至少對於某些年齡以下的用戶而言),其成功由一些世界上最先進的AI技術推動。」
一位曾經就職於小槳科技(產品,微叭App)的視頻推薦算法工程師告訴我:「推薦算法(的結果)要看留存率、點擊率、活躍時長、播放時長,(公司)直接考核業務指標。不達標會被產品經理錘死。」
機器無電不休,算法日夜不眠,算法工程師在「拼命」,背後站著熬紅了眼的產品經理。
AI早已應用於挽回用戶流失等功能。
產品經理一邊唱著「愛我,別走……」,
一邊伸出胳膊指揮:「再次對用戶投放廣告,精準挽留。」
「你的偏好,我知道。」用戶每一次上翻、下滑、點讚,都是一份《產品改進意見書》,背後還有今日頭條 AI lab 的支持。
AI技術滲透的力量,摧枯拉朽。一個沒有智能算法的TikTok,已經不可想像。
東邊日出,西邊雨。
GDPR的餘音迴響,歐洲版的營業執照,一照難求。
2020年,當你打開GDPR認證的網站,可以看到許多站張熟悉的中國面孔,華為、小米、OPPO、美的、第四範式。OPPO進軍歐洲市場,其認證的產品種類之多,居然包括了計算器(Calculator)和鐘錶(Clock)。
李鴻章在給同治皇帝的奏摺上寫下,「三千年未有之大變局」。
變局已成定勢,做好思想準備和工作準備。
美國已死,歐洲苟活,人工智慧法外之地會一寸一寸消失。
來者,需要擁抱高牆、窄門。
擁抱合規、限制、約束。
擁抱枷鎖、腳銬、鐵鏈。
將思考的維度上升到管理與合規,滲透在技術思考之中,包括在框架之內,體現在解決方案裡。而不是繞著它走。繞也繞不開。
這些,要看企業是否願意付出額外努力。
第四範式創始人兼CEO戴文淵的答案是:我願意。
戴文淵,總是講話溫和,語速平緩,但是一旦你給他拋出問題,就能感受到清晰、縝密的思考力。
他說:「從技術手段上講,保護隱私和數據安全是有辦法的。不是沒有辦法,而是說,想不想解決?願意花多大的代價去解決?」戴文淵似乎沒有對GDPR低頭。
他輕描淡寫地提了一句,「第四範式的先知平臺,已經是國內首個通過GDPR認證AI平臺」,這一句更是增添了上一句話的底氣。
突然想起香港應用科學研究院的一位博士也說過類似的觀點:「技術上翻越肯定是可以做到的,只是很多時候不願做,或者懶得做。」
業界有一個聲音:
機器學習是一個有難度的技術,是「難度一次方」。
機器學習想落地,變成「難度二次方」。
再解決隱私保護問題,這又是一個很有難度的問題,變成「難度三次方」。
解決這些技術問題,專家不是一般的專家,既要懂機器學習技術,又得懂隱私保護技術,還得懂業務。要求是非常高的。
用金庸的話說,練成易筋經,需體質強。練成乾坤大挪移,需內力高。練成獨孤九劍,需資質慧。想成為攻克「難度三次方」的專家,需能運用多種武功入化境。南帝北丐很難批量培養。望眼整個武林,還好有一代宗師。
一代宗師可能會說:
「解決好隱私保護問題,看上去是一個技術問題,實際上是,人工智慧的從業者要有一種思維的變革意識。將對文化、制度、法律等「社會因素」的思考融入代碼、模型、架構、解決方案……」
第四範式主任科學家塗威威告訴我:
「隱私保護作為一個學術問題已經走了很長一段路了,較早之前的需求來源於企業自我保護。個人關心隱私,企業關心的是商業機密。」
塗威威用兩句話概括了隱私保護技術的昨天,繼而又談起它的現在。
他總結到:
「隱私保護就是一個矛與盾相爭的過程,大家都研究又會出現哪些新的攻擊手段,又有什麼方法可以保護。」
「隱私保護會涉及到非常多種類的技術,有底層的,也有最近幾年才奠定起基礎的。涉及的技術種類多,不是為了賣弄技藝,而是面對的情況複雜。」
拳守「數據安全」,腳護「隱私保護」。
易筋經、乾坤大挪移、獨孤九劍,演變成「差分隱私算法」「安全多方計算」「自動多方機器學習技術」「聯邦學習」。
當細數起這些「厲害的」技術,塗威威的語速加快,仿佛不需思考。
「根據不同場景,有時可能是允許數據出去的,可以通過加密的方式出去,運出去的過程中別人是沒有辦法知道的,因為是加密的,這裡參考圖靈獎獲得者姚期智老師的思想,用安全多方計算。
有時可能是不允許數據出去,出去的只是一些統計結果或者模型,這裡參考香港科技大學楊強教授的聯邦學習技術。」
香港科技大學楊強教授曾說:
「聯邦學習希望在不共享數據的前提下,利用雙方的數據實現模型增長。」
他曾舉例:
「假設A和B兩家公司想要建立一個用戶畫像模型,其中部分用戶是重合的。聯邦學習的做法是,首先通過加密交換的手段,建立用戶的識別符(identifier)找出共有的部分用戶。
因為關鍵用戶信息並沒有得到交換,交換的只是共有的識別符。再將各自擁有的同樣用戶的不同特徵輸入,迭代地進行模型訓練、參數交換。
我們證明了給定模型參數,雙方不能互相反推出對方擁有的、自己沒有的特徵,因此用戶隱私仍然得到了保護,雙方的模型性能都得到了提高。」
姚期智院士、楊強教授……宗師們總有無上智慧。
「為什麼第四範式會做隱私保護技術?」
塗威威的答案是:
「第四範式作為一家創業公司,初始做隱私保護技術是出於一群有理想的年輕人的前瞻性預判。一種來自技術本能的預判,數據孤島遲早要打破,當打破發生之時,這個技術成為必備品,只靠『解決信任』路途尚遠。」
然而,現實的磨礪很快降臨在向理想前進的路上。
塗威威說,我們的「一隻腳」伸入到了金融,為什麼是金融,因為金融的數據是最完備的,我們的技術是在數據之上做決策,必然選最完備的行業。
「一隻腳」後,金融、醫療行業對隱私保護的需求推動了技術的另一輪發展。比如,第四範式經常參與銀行競標,《招標書》裡,絕不會少了數據安全性條款。
塗威威在以往的《銀行招標書》中劃好了重點,並指給我看。
「隱私數據保護技術,蘋果、谷歌都在用,谷歌早在2016年就提出了本地化差分隱私(Local Differential Privacy)技術,並成熟應用在產品數據採集階段,第四範式的優勢在哪?」
塗威威越談越從容,帶壓力的問題也難不倒他。
他說:
「第四範式也提出應用在機器學習模型上的差分隱私技術,我們將訓練數據按特徵切開,並分別去訓練,按特徵重要性來進行隱私預算的分配,重要的特徵分配較少的隱私預算,不太重要的特徵則分配較多的隱私預算,從而保證了在相同隱私保護的條件下,獲得更加有效的分析結果。」
塗威威的回答,就好像準備了答案,細節中處處都有巧思,無法容下不滿意的蛛絲馬跡。
話聲未落,他就在草稿紙上手寫了一篇學術論文的題目《Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction》。
論文只是在工業界解決問題時的「副產品」,他想把榮譽感寫在產品上。
他介紹,在公司的算法實驗室裡完成工作後,其實還有兩個重點,一個是自動化,一個是場景。
他談道:
「隱私保護,如同加密,解密。暴露的中間過程越多,洩露隱私的可能性越大。比如,AutoML(自動機器學習)之所以能夠減少隱私的洩露,其實就是減少了人觸碰數據的機會,減少人去分析特徵,減少人在各個環節洩露隱私的可能。讓機器去完成中間的過程,最後輸出結果。自動多方機器學習就是隱私保護的自動機器學習,中間的過程全部是自動化完成的。」
他的答案中,技術細節多,觀點少,唯有這句:「算法的未來就是自動化,不能自動化的算法,剩下的路也不長了。」
餘音未盡,尚在繞梁。
場景落地又是另一場硬仗。他壓低聲音說了一句:
「如果不是瑞金醫院的瑞寧知糖項目(預測三年後患糖尿病的概率以及個性化的幹預),醫療算法團隊都要穩不住了。」
創新,有時候就是下了一步險棋。
塗威威和也和我講了「作弊」的辦法:
「從某種角度講,成本最低、效率最高的方式是侵犯隱私。」
好比打撲克偷看別人手裡的牌。如果全世界愛滋病藥廠知道了患有愛滋病人的家庭住址,就不需要打廣告了,直奔病人家,挨家挨戶兜售不就完了。
廣告費都省下了。
別人披荊斬棘,你通過踐踏個體隱私直接抄了近路。
法律會讓你一直痛快下去嗎?
企業選擇用技術保護隱私時,其實是選擇了一條「刀光劍影」的路。說不定就會像塗威威一樣,沒有好的落地場景,變成「光杆」。
觀察發現,不少企業也在「研製隱私保護的秘訣」。由於金融行業是數據界的富豪,聯邦學習技術被用於中國首家網際網路銀行——微眾銀行。微眾銀行也在推動「聯邦學習」的標準。
從某種意義上講,這是一份全球領先的標準。聯邦學習作為隱私保護的代表技術,並沒有被歐美大廠壟斷。
在隱私保護的江湖裡,中國人工智慧從業者並不甘心屈服於國外標準。
招商金科(招商銀行下屬金融科技公司)一位不願意透露姓名的研發高管告訴我,他們也參與了「聯邦學習」第二版標準的制定,但不便於接受採訪。
「京東集團也在使用聯邦學習保護數據隱私。」京東大數據研究院首席數據官劉暉告訴我。
東邊日出,西邊雨。
流量、廣告、品牌……的老故事,已經翻篇。中國網際網路企業想變成全球網際網路企業,光靠突破Facebook、Google、Amazon的防線,已經不夠了。企業的戰場向四面八方延伸,「法外之地」正在消失。
在別人看來絕望的事情,「創新者」與「創造者」總能從中找到希望。