全文共2764字,預計學習時長7分鐘
有一些你沒有意識到的小細節正在透露你的身份數據。2016年的一項研究發現,在對司機剎車方式進行15分鐘監測後,研究人員能夠以87%的準確率識別出該駕駛員。事實證明,每個司機踩剎車的方式幾乎是獨一無二的。
這種數據敏感性滲入到人們生活的方方面面,在最喜歡的咖啡館買的那杯精緻咖啡也會留下行為痕跡。各大公司也在爭相掌握這些數據,從而制定新的商業戰略,吸引客戶辦理業務。
這就是為什麼隱私保護法,如歐洲的《通用數據保護條例》,正快速改變數據格局。這些保護法通過優先保護消費者,給予消費者所遺忘的權利,並決定誰才有權擁有和訪問消費者數據。
這就是合成數據的神奇之處。合成數據由機器學習算法生成,這些算法攝入真實數據,訓練行為模式,然後對保留原始數據集統計特徵的純人工數據進行排除。
這應該與較傳統的匿名數據集區別開來,這些數據集實際上很容易受到再識別技術的影響。但由於合成數據本質上是人工數據,因此該隱患不會出現於合成數據中。
合成數據由於保護隱私這一特性,它不受同種數據保護法的約束。機器學習工程師和數據科學家可以放心地將這些合成數據用於分析和建模,因為他們知道這些數據的行為方式與真實數據相同。
這既保護了客戶隱私,也降低了公司利用這些數據的風險,同時解除了數據的封鎖,否則這些數據就會受到合規性的阻礙......往往會被凍結數月甚至數年。
6月底,筆者成為了Hazy公司數據合成部的一名數據科學實習生。Hazy團隊構建了一個複雜的合成數據生成器和企業平臺,幫助客戶釋放其數據的全部潛力,提高他們的創新速度,同時將風險降至最低。
本文將帶你了解一些更詳細的合成數據用例。
供應商評估
試想一下你在這樣一個機構工作,該機構希望將一些業務外包出去,比如應用程式開發、測試、數據科學、分析和商業智能。
就像買車這樣的大筆買賣,人們在購買前會想要試駕。這通常意味著將真實且高度敏感的數據交給第三方,這不僅存在安全風險,而且可能需要長達6到18個月的時間越過法律和採購障礙。這會非常麻煩,而這一切只是為了確定是否要與該供應商合作。
使用合成數據可以消除這一過程中的延遲。人工智慧生成的合成數據具有足夠的代表性,如果選擇與該供應商合作,可以通過繼續只構建人工數據來消除安全漏洞風險。
與第三方服務共享數據
與供應商評估類似,使用第三方服務(如在線應用程式或雲計算資源)需要將敏感數據移交給該服務。而與第三方共享數據以改善或至少進行外部分析也同樣如此。
由於硬體限制,企業可能無法將其所有數據保存在本地,因此需要使用在線存儲平臺或速度更快的雲提供商。但是,合規性法則要求這些數據必須保留在本地。這可能也是公司的一大擔憂,因為安全漏洞可能會讓客戶和自身聲譽受到影響。但有了合成數據,這些都不是問題。
數據貨幣化
如今,許多商業模式都是完全基於用戶群數據貨幣化。如果你沒有為產品付費,那麼很可能是這種情況。公司可以收集數據,進行分析,並將任何想法賣給既得利益的外部企業。一些組織出售原始數據,以便外部企業能夠自己進行細緻分析,但這會帶來更多合規性問題,而且這些數據往往會被認為過於敏感而無法這麼做。
有了合成數據,合規性和風險就不再是問題——隨之而來的是這些數據的價值以及從中產生價值的速度都大幅提升,公司甚至可以產生全新的收入來源。畢竟,大多數數據的價值不是個人信息,而是從中獲得的想法。
另外,合成數據比真實數據更靈活,因為合成數據可以無限自動化、放大和擴充,從而帶來更多的獲利機會。
跨組織數據可移植性
數據傳輸的限制不僅限於與外部公司的交易。在一個組織中,數據在部門之間傳遞之前,也必須要滿足許多合規性標準,而這往往需要數周時間。如果涉及到跨地域和跨法規的數據共享,時間則會更長。
如果機構能創建一個安全的合成數據集,那就說明它們有集中的數據存儲庫(通常稱為數據池),這些存儲庫可以通過基於角色的簡單訪問控制來進行管理。例如,銀行在其客戶的交易記錄中有特別豐富的數據。通過匯集這些數據的合成孿生數據,就可以在多個部門和跨境數據科學家之間安全共享該數據。
這種前所未有的協作水平可以用於訓練更大的數據集來挖掘出更多模式,從而改進洗錢和欺詐檢測算法。內部共享信息實現了自由,企業就可以加快創新並且更快地對新數據採取行動——無論是個性化營銷還是國際犯罪。與那些具有更多傳統數據生命周期和人為創新障礙的競爭對手相比,這使企業具有顯著優勢。
數據保留
此外,相關法規的制定也限制了公司保存個人數據的時間,從而使長期分析(例如嘗試檢測幾年的季節性變化)變得非常困難。
需牢記,合成數據並不受相同隱私保護法的約束——儘管其保留了客戶的使用模式,但它完全是人工數據。由於不存在再識別的風險,公司可以自由選擇其合成數據的保留時間,並可以在以後任何時候重新使用這些數據並進行分析,而這些分析是之前沒有進行過的,或是在數據收集時因技術不給力而未進行的。
模擬不可預見事件
有所準備通常比未加思索要好。越來越多的公司希望利用數據來為不可預見的情況做好準備,而如今時代,這種不可預見的情況從未像現在這樣多。
由於條件合成數據的生成,現在能夠提前做好準備。可以獲取「正常」或先例數據集,在生成器中添加條件,並輸出一個代表以前從未發生過事件的合成數據集,從而可以分析、建模並為以後此類情況做好準備。
條件合成數據用例範圍可以包括預測客戶行為從而判斷是否會出現第二波疫情,某種癌症轉移的概率,以及全球熱化的影響等。更廣泛地說,它可以將一個國家的客戶行為與開放的公共數據源相結合,從而準確預測產品或服務在一個新地方的效果。
在過去的兩年中創建了人們全球90%的數據,每天有2.5*10^18位元組的新數據被捕獲。數據經濟已經是一個高度規範的領域,且根據目前的數據軌跡來看,隨著各國政府和監管機構爭相追查大量收集的數據,數據經濟可能會變得更加規範。
合成數據無疑會成為企業的競爭優勢之一。在開發新產品、與第三方建立新的合作夥伴關係、甚至產生全新收入來源等方面,這都會讓企業提高效率,同時大大降低風險。
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範