本期話題:揭開數據大算法的「面紗」。從「大數據殺熟」到「外賣員困在系統裡」,大數據算法愈發受到關注。從手機購物的「千人千面」,到金融放貸的「用戶畫像」,「算法」究竟是什麼?它是如何影響人的?從網絡安全法,到個人信息保護法、數據安全法,法規能否有效控制算法的「濫用」?如何讓算法更好地服務人,而不是侵犯人?未來,自然人和算法究竟是怎樣的關係?
如今,大數據算法已深入每個人的生活:無論是電商平臺,還是新聞客戶端和短視頻平臺,大數據都能根據每個人的特點實現「千人千面」推送;在一些金融平臺,科技金融公司也會用安全系統對用戶進行「數字畫像」,以此確定放款額度和利息。
但有時,大數據也讓人有「被監視」的感覺,手機放在身邊,剛和朋友說幾句話,APP就會推送相應的內容,讓人不寒而慄。此外,「大數據殺熟」也一直是備受爭議和詬病的問題。
幾年來,從網絡安全法到時下備受矚目的個人信息保護法草案、數據安全法草案,關於信息安全的立法進程不斷完善和推進,數據算法的合理使用會服務人、更懂人,但是濫用則會侵犯人和控制人。算法到底是什麼?怎樣平衡安全和服務的邊界?個人信息保護法又將怎樣保護公民?
主持人:王思遠 總臺央廣經濟之聲【遠見】欄目製作人
對話嘉賓:餘弦 資深安全技術專家、白帽黑客、漫霧科技創始人
數據安全法,明確「數字主權」,剎住數據越權亂象
思遠:關於大數據的話題屢見不鮮,但很多時候是偏負面的,比如打車、住酒店時的「大數據殺熟」;外賣小哥被「困在系統裡」。這些讓算法變得很神秘和冰冷,作為從業者,你怎麼用最通俗的理解去解釋算法?
餘弦:簡單說,「算法」就是用很多機器、伺服器去儘可能模擬人類的思維、行為。大家會把算法簡單理解為「人工智慧」,但跟人類的思維和行為比,還有非常大差距。在長遠的未來看,算法會讓我們有更精準的感知和更好的應用場景;但當下還是早期,有時算法會比較「粗暴」。
思遠:算法有時會給人兩個極端的感覺。一面像是AlphaGo,特定的領域和規則下,表現遠遠優於人類;另一面,它又缺少人類的溫度和感情。
餘弦:技術的應用一定要看場景,比如AlphaGo下棋非常厲害,但只局限於此,下棋只是非常小的場景。單一場景內,模型的搭建是很簡單的,在特定領域有小維度邊界時,算法還能做到速度、儲存量、運算能力上超過人類,但真的能夠像人類似的萬事俱通,在不同的領域都有自己的一套智慧和解決問題的方式,算法還差得非常遠。
思遠:2020年10月21日開始,個人信息保護法草案正式進入審議——千呼萬喚始出來,無論是行業還是用戶,都很需要。從業者需要知道數據使用和隱私保護的邊界,用戶希望技術服務人而不是侵犯人。個人信息保護法,整體從哪些方面保護人的權利?
餘弦:作為從業者,我非常關注這個法律的進展,因為未來從業者會有據可循。特別是關於「數據主權」的話題,你上述提到邊界,很多行為準則需要去探討研究和遵守。數據主權,話題可大可小——作為用戶,擁有數據使用的知情權,知道拿他的數據去做什麼——這是個人主權問題;往大了說,數據主權可以涵蓋到企業、行業,甚至國家。
現在的大數據亂象是伴隨新事物而誕生,法律不能盲目制定,有一個過程。2017年6月1日起,網絡安全法實施,其對網絡個人數據已經有了一些定義;像民法總則、民法典等,也有關於個人信息、數據安全的規定。從國家層面,立法過程中也參考了海外,包括像歐盟通用的數據保護條例。無論是已經頒布的,還是探討中的草案,我們都該重視它。
作為服務者,也要弄清自己的責任,比如數據儲存在伺服器裡,但如果因為伺服器漏洞被入侵的「黑客」偷走了,怎麼界定責任?網際網路廠商承不承擔責任?法律上關於這種界定會越來越多,當下不能說法律很完善,但至少有了這幾部法律的幫助,是很好的促進。
「爬蟲學得好,牢飯吃到飽」?——論技術的價值觀
思遠:如果說算法是底層的邏輯和系統,那麼大數據就是養料和細胞。從PC時代,到移動時代,再到物聯網時代,算法都離不開「爬蟲技術」,簡單說就是通過網絡勾連,實現數據的收集、分析和再組合,實現特定的目的。但「爬蟲」經常會爬到隱私,聽說圈裡有一句話叫「爬蟲學得好,牢飯吃到飽」?
餘弦:在安全行業,尤其是前兩年做「爬蟲」生意的一些企業,都因此而觸碰了法律被制裁。「爬蟲」技術本身沒有好與壞的說法,就像菜刀可以做菜,也可以犯罪。
思遠:技術是中立的,但取決於人的價值觀。
餘弦:「爬蟲」分為兩種場景。第一種是專門做「爬蟲」,故意去爬伺服器的敏感數據,就是主觀作惡。另一種是不小心把數據拿了回來。比如把個人的社保醫療隱私不小心爬回來了,但看到這個信息還挺有價值的,可能會二次利用。同時,這些社保醫療機構網站有漏洞,有沒有責任呢?這就像是主動入室盜竊和主人沒鎖好門導致誤闖民宅。不同情況,有不同的認定和處理,這是法律需要界定的。
場景1:金融風控,哪些「大數據畫像」侵犯隱私?
思遠:我們來聊聊算法的應用場景。生活中最常見的是金融風控——金融數據中的算法是怎樣的邏輯?
餘弦:核心是通過各類用戶數據採集,進行用戶畫像。讓業務決策者更好地理解目標群體,數據越準確、豐滿,就越有利於特定的場景去做針對性的事情。
思遠:比如給金融借貸,根據徵信和消費行為等數據,判斷優質客戶,給出更好的還款周期和價格,用更低的價格、更高的額度做長線生意;對風險大的客戶,拒絕放款。
以前有個FINTECH公司的CEO給我介紹了一個案例:拿到了客戶A的所有行動軌跡,發現每天的活動線路兩點一線,時間相對固定,消費能力、還款記錄良好,就定義為「白領上班族優質客戶」;客戶B每天的活動軌跡和時間非常不規律,就認為是自由職業者,謹慎放款。類似例子還有很多,比如借了消費貸還不上的人,催收公司會一夜之間將其通訊錄中的電話打個遍。問題是,這些數據都使用,是不是非法和侵犯隱私呢?
餘弦:這個現象確實非常普遍。很多時候,普通人高估了算法,在我們看來,很多技術真的非常粗暴,就如用戶借貸的錢還不上,暴力催收公司通過非法採集用戶數據,用灰色方式催債。
所以,圍繞相關法律,比如個人信息保護法、數據安全法等,未來這些會得到比較好的淨化。因為這個產業從業人員太多了,而且不同於實體的物理世界。
思遠:很多信息的獲取就是一瞬間,交易速度非常快,這對發現違法行為、固定證據會有很大麻煩。真正執法,要靠企業自律或相互監督、舉報等,還是什麼?
餘弦:從操作角度來講,這些法律是絕對可行的。這裡面可能會涉及到具體敏感的話題,這裡暫時不展開談。但首先我們都得有法,才能去操作。未來的執法過程,一方面,數據的濫用,行業內確實有不少的外露特徵,明面上能看到;執法肯定由公安進行——比如網安、網絡警察。
場景2:大數據營銷愈發精準,我們是否被「監視偷聽」?
思遠:另一個典型場景是「營銷」。現在大家經常在網上「買買買」。打開手機,發現系統給每個人推送的情況都不一樣;打開新聞客戶端,總會推你想看的內容,甚至有時剛跟朋友聊到什麼,商品信息和廣告就來了。這種技術怎麼做到的?人真的被「監視」了麼?
餘弦:如果單方面來看,感覺會很驚悚,當然,實際上這是「倖存者偏差」,並不是非常普遍的事件,跟算法也沒什麼特別的關係——它可能是一種概率,碰巧遇到了,會放大這個事情。營銷數據專門有做營銷產業鏈的,通過各方面去採集數據,包括可能有非法的一些交易,能夠儘量做到精準推廣。
無論是個人信息保護法草案,還是數據安全法、網絡安全法、民法典等,多少都有圍繞隱私的關於數據的定義或說法。數據活動指的是,數據在收集、存儲、加工、使用、提供、交易、公開等行為;數據安全是指通過採取必要的措施,保障數據得到有效保護和合法利用,並持續處於安全狀態的能力。
思遠:你說了兩點。第一,有時大家過於敏感,陷入了「倖存者偏差」;第二,算法、大數據的合法性,包括大數據應該去脫敏的信息點,需要法律規範。回到算法本身,有句話說,「未來世界,只有兩種人,一種是控制和決定算法的人,一種是被算法控制的人」。好像很有道理,以往人會自己去探索信息,有更多發展的可能性;現在算法會困住人,越來越懂你的同時,推薦的信息就越來越局限,會圍繞著現有的水平、認知和圈層。你怎麼看這個問題?
餘弦:我贊同行業內這個說法。算法是機器輸出來的,通過人類反應的信息,按照概率計算,反向給出推薦信息和服務,又讓人形成新的依賴感,手機成了人的器官,人掉入了數據的舒適區,沉浸在這種數字體驗中。我也會這樣。
但另一方面,我懂技術,某些層面上我也控制算法,儘量讓算法能為周邊的人提供價值。所以我們才會討論關於算法的法律紅線,否則算法肯定會失控,要更規範,肯定要有法可依。某種程度上,算法和人是相互依存的關係,沒有人的行為就沒有數據,沒有數據就沒有了算法。
但同時我們也看到說,算法本身以技術的形式去存在,技術上,其實張一鳴曾在幾年前拋出一個言論,大家也討論得非常熱烈,就是說,技術其實本來是工具,工具只分好用和不好用之分,技術高和技術低,我覺得這句話本身沒有錯。
因此,綜合到算法上來說,無論是這個產業環境還是我們的生活,算法上有沒有價值觀,其實先放在一邊,但是研究算法的人、使用算法的人必須有價值觀,必須有法可依,算法才能更加值得人去信賴。