合成數據:如何幫助企業在競爭中保持領先?

2021-01-15 讀芯術

全文共2764字,預計學習時長7分鐘

圖源:unsplash

有一些你沒有意識到的小細節正在透露你的身份數據。2016年的一項研究發現,在對司機剎車方式進行15分鐘監測後,研究人員能夠以87%的準確率識別出該駕駛員。事實證明,每個司機踩剎車的方式幾乎是獨一無二的。

這種數據敏感性滲入到人們生活的方方面面,在最喜歡的咖啡館買的那杯精緻咖啡也會留下行為痕跡。各大公司也在爭相掌握這些數據,從而制定新的商業戰略,吸引客戶辦理業務。

這就是為什麼隱私保護法,如歐洲的《通用數據保護條例》,正快速改變數據格局。這些保護法通過優先保護消費者,給予消費者所遺忘的權利,並決定誰才有權擁有和訪問消費者數據。

這就是合成數據的神奇之處。合成數據由機器學習算法生成,這些算法攝入真實數據,訓練行為模式,然後對保留原始數據集統計特徵的純人工數據進行排除。

這應該與較傳統的匿名數據集區別開來,這些數據集實際上很容易受到再識別技術的影響。但由於合成數據本質上是人工數據,因此該隱患不會出現於合成數據中。

合成數據由於保護隱私這一特性,它不受同種數據保護法的約束。機器學習工程師和數據科學家可以放心地將這些合成數據用於分析和建模,因為他們知道這些數據的行為方式與真實數據相同。

這既保護了客戶隱私,也降低了公司利用這些數據的風險,同時解除了數據的封鎖,否則這些數據就會受到合規性的阻礙......往往會被凍結數月甚至數年。

6月底,筆者成為了Hazy公司數據合成部的一名數據科學實習生。Hazy團隊構建了一個複雜的合成數據生成器和企業平臺,幫助客戶釋放其數據的全部潛力,提高他們的創新速度,同時將風險降至最低。

本文將帶你了解一些更詳細的合成數據用例。

供應商評估

試想一下你在這樣一個機構工作,該機構希望將一些業務外包出去,比如應用程式開發、測試、數據科學、分析和商業智能。

就像買車這樣的大筆買賣,人們在購買前會想要試駕。這通常意味著將真實且高度敏感的數據交給第三方,這不僅存在安全風險,而且可能需要長達6到18個月的時間越過法律和採購障礙。這會非常麻煩,而這一切只是為了確定是否要與該供應商合作。

使用合成數據可以消除這一過程中的延遲。人工智慧生成的合成數據具有足夠的代表性,如果選擇與該供應商合作,可以通過繼續只構建人工數據來消除安全漏洞風險。

圖源:unsplash

與第三方服務共享數據

與供應商評估類似,使用第三方服務(如在線應用程式或雲計算資源)需要將敏感數據移交給該服務。而與第三方共享數據以改善或至少進行外部分析也同樣如此。

由於硬體限制,企業可能無法將其所有數據保存在本地,因此需要使用在線存儲平臺或速度更快的雲提供商。但是,合規性法則要求這些數據必須保留在本地。這可能也是公司的一大擔憂,因為安全漏洞可能會讓客戶和自身聲譽受到影響。但有了合成數據,這些都不是問題。

數據貨幣化

如今,許多商業模式都是完全基於用戶群數據貨幣化。如果你沒有為產品付費,那麼很可能是這種情況。公司可以收集數據,進行分析,並將任何想法賣給既得利益的外部企業。一些組織出售原始數據,以便外部企業能夠自己進行細緻分析,但這會帶來更多合規性問題,而且這些數據往往會被認為過於敏感而無法這麼做。

有了合成數據,合規性和風險就不再是問題——隨之而來的是這些數據的價值以及從中產生價值的速度都大幅提升,公司甚至可以產生全新的收入來源。畢竟,大多數數據的價值不是個人信息,而是從中獲得的想法。

另外,合成數據比真實數據更靈活,因為合成數據可以無限自動化、放大和擴充,從而帶來更多的獲利機會。

圖源:unsplash

跨組織數據可移植性

數據傳輸的限制不僅限於與外部公司的交易。在一個組織中,數據在部門之間傳遞之前,也必須要滿足許多合規性標準,而這往往需要數周時間。如果涉及到跨地域和跨法規的數據共享,時間則會更長。

如果機構能創建一個安全的合成數據集,那就說明它們有集中的數據存儲庫(通常稱為數據池),這些存儲庫可以通過基於角色的簡單訪問控制來進行管理。例如,銀行在其客戶的交易記錄中有特別豐富的數據。通過匯集這些數據的合成孿生數據,就可以在多個部門和跨境數據科學家之間安全共享該數據。

這種前所未有的協作水平可以用於訓練更大的數據集來挖掘出更多模式,從而改進洗錢和欺詐檢測算法。內部共享信息實現了自由,企業就可以加快創新並且更快地對新數據採取行動——無論是個性化營銷還是國際犯罪。與那些具有更多傳統數據生命周期和人為創新障礙的競爭對手相比,這使企業具有顯著優勢。

數據保留

此外,相關法規的制定也限制了公司保存個人數據的時間,從而使長期分析(例如嘗試檢測幾年的季節性變化)變得非常困難。

需牢記,合成數據並不受相同隱私保護法的約束——儘管其保留了客戶的使用模式,但它完全是人工數據。由於不存在再識別的風險,公司可以自由選擇其合成數據的保留時間,並可以在以後任何時候重新使用這些數據並進行分析,而這些分析是之前沒有進行過的,或是在數據收集時因技術不給力而未進行的。

模擬不可預見事件

圖源:unsplash

有所準備通常比未加思索要好。越來越多的公司希望利用數據來為不可預見的情況做好準備,而如今時代,這種不可預見的情況從未像現在這樣多。

由於條件合成數據的生成,現在能夠提前做好準備。可以獲取「正常」或先例數據集,在生成器中添加條件,並輸出一個代表以前從未發生過事件的合成數據集,從而可以分析、建模並為以後此類情況做好準備。

條件合成數據用例範圍可以包括預測客戶行為從而判斷是否會出現第二波疫情,某種癌症轉移的概率,以及全球熱化的影響等。更廣泛地說,它可以將一個國家的客戶行為與開放的公共數據源相結合,從而準確預測產品或服務在一個新地方的效果。

在過去的兩年中創建了人們全球90%的數據,每天有2.5*10^18位元組的新數據被捕獲。數據經濟已經是一個高度規範的領域,且根據目前的數據軌跡來看,隨著各國政府和監管機構爭相追查大量收集的數據,數據經濟可能會變得更加規範。

合成數據無疑會成為企業的競爭優勢之一。在開發新產品、與第三方建立新的合作夥伴關係、甚至產生全新收入來源等方面,這都會讓企業提高效率,同時大大降低風險。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 專利戰不斷升級,LED企業如何保持競爭優勢?
    專利戰不斷升級,LED企業如何保持競爭優勢? 摘要當前,LED企業之間專利戰不斷升級,專利戰不再只是獲得簡單的專利費,更為重要的作用是能為企業自身產品的快速推廣和搶佔市場贏得時間。
  • 數據加速企業數位化轉型,CIO如何最大化數據分析的價值?
    在企業數位化轉型進程中,數據更是扮演著業務加速器、創新催化劑、差異化競爭法寶的重要角色。企業亟需將提升數據與分析能力作為戰略性任務,在這裡CEO/CIO等高管們需要思考清楚以下問題:· 如何通過數據與分析驅動的創新力獲取競爭優勢?
  • 企業必看:如何通過數據分析方法「搞定」企業的競爭對手?
    確定了你的競爭對手並收集到足夠數據後,我們就要對他們進行深度分析了。競爭對手分析路徑競爭對手分析共分為10個步驟,如圖1是分析路線圖。這個分析路線圖側重於企業前端即營運端的分析。
  • 國內首個工程生物產業數據分析平臺亮相!首發全球合成生物學企業...
    競爭加劇,執牛耳者必須在效率端自我充能。 以合成生物學為基石的生物合成和製造正在成為引發變革的主力軍。用工程化思維對生命體進行改造,讓其按需發揮作用,高效、高質量、高集成,這些特性決定了合成生物學未來將勢必激起層層新浪潮。 多學科交叉是合成生物學的基本特點,這讓其應用情況並不囿於單一領域,同樣呈現交叉和多面的發展態勢。
  • 英語啟蒙:如何在「全民英語啟蒙」中保持領先?
    其中,85.5%的家長認為,在孩子啟蒙階段,學英語對以後有很大的幫助。「全民英語啟蒙」使「英語熱」從成人化向低齡化轉變。當全民的起跑線是小學三年級的時候,比拼的是學校的好壞,教師的優劣。現在大家都在搶跑,起跑線被無限提前,比拼的是家庭的投入,父母的堅持。
  • 聚醚胺行業技術水平及重點領先企業(附報告目錄)
    在第二次世界大戰中,光學塑料被廣泛用來製造望遠鏡、瞄準鏡、放大鏡及照相機上的透鏡。戰後受塑料品種少、質量差,加工工藝落後等條件的限制,光學塑料在光學領域的應用一度下降。20 世紀 60 年代後,隨著聚合物合成技術和加工工藝的發展,以及表面改性技術的日趨成熟,光學塑料的研製與應用開始得到迅速發展。
  • 合成生物學企業瑞德林生物獲超億元人民幣A輪融資
    12月4日消息,近日,合成生物學領域領先企業深圳瑞德林生物技術有限公司宣布完成了超過億元人民幣的A輪融資。本輪融資由東方富海、力合科創聯合領投,弘富瑞盈、青島德臻跟投,公司管理團隊和天使輪機構地平線投資追加投資。本輪融資主要用於研發平臺的持續投入、產品管線快速擴充和商業化生產線的建設。
  • 合成樹脂瓦行業競爭激烈,弱肉強食,適者生存是市場法則
    中國合成樹脂瓦行業市場烽煙四起,企業生存與消亡往往只是剎那間的事。要想在硝煙中立於不敗之地,獲得更高利潤,就要學會控制成本。因為建材市場被看好,於是千軍萬馬湧進市場,各行各業都有絡繹不絕的投資擠進來。尤其是合成樹脂瓦行業,進入門檻較低,更是迎來了井噴式的品牌和企業出現。
  • 競爭對手的數據分析方法
    確定了你的競爭對手並收集到足夠數據後,我們就要對他們進行深度分析了。競爭對手分析路徑競爭對手分析共分為10個步驟,如圖1是分析路線圖。這個分析路線圖側重於企業前端即營運端的分析。
  • 增加企業競爭優勢,大數據業務的六大驅動因素
    打開APP 增加企業競爭優勢,大數據業務的六大驅動因素 發表於 2019-07-28 10:52:38 事實上我們不斷的強調:數據分析不僅是個人的技能,更是企業組織的技能企業招募人才之後,其實關鍵在於團隊如何將數據的價值發掘出來,而不是在乎「你」一個人的能力有多強,誕生「數據驅動型的企業」的首要關鍵就在此處個人技能很重要,可是大家都知道,有經驗的經理人所在關心的是:的團隊能力。
  • 我國檸檬酸產業市場現狀及競爭格局,領先企業仍在努力擴張產能
    一、檸檬酸的理化性質檸檬酸又稱枸櫞酸,是一種三元羧酸,其學名為3-羥基-3-羧基戊二酸,分子式C6H8O7(無水物),在自然界中存在於檸檬、柑桔、梅、李子、梨、桃、無花果等水果中。由於檸檬酸的口感為爽快的酸味,普遍用作於各種飲料、點心的酸性調味劑,或者食用油的抗氧化劑。此外,檸檬酸具有防止或者消除皮膚色素沉著的作用,因此檸檬酸可用於製藥和化妝品行業。
  • 中國企業持續領跑供應 全球鋰電池市場競爭「白熱化」
    中國持續主導鋰電池供應  根據彭博新能源財經(BNEF)最新發布的「全球鋰電池供應鏈排行榜」,中國迅速趕超了過去10年間一直領先全球的日本和韓國,成為全球鋰電池市場最大的供應來源。BNEF預計,2025年前,中國在全球鋰電池供應領域都將保持主導地位。
  • BOSS論健|醫科達中國區總裁龔安明:創新是保持行業領先的唯一出路
    龔安明認為,面對這類良性挑戰,「加大投入,保證創新」是唯一出路,這樣才有可能在行業保持領先。從龔安明的視角出發,行業內的這一變化在短期內並不會對醫科達造成太大的影響,醫科達依然會把更多的精力投入到技術的研發創新上;但從長期來看,醫科達將會進行更多的戰略布局。
  • 改造伊布才是AC米蘭保持領先的重中之重
    本賽季意甲第七輪比賽9日凌晨結束,伊布帶領的AC米蘭遺憾被對手逼平,但在積分榜上依舊保持領先。今天我們要探討的是,伊布將如何改造才能幫助AC米蘭繼續領先位置。伊布拉希莫維奇在回歸意甲之後表現搶眼。
  • 甲骨文商務智能五大產品助力企業提升數據分析與決策能力
    移動、一體機、雲計算與大數據,這幾大技術趨勢正深刻改變了企業面臨的信息環境。以智慧型手機的革命為例,如今移動端的社交軟體、行動支付、實時的智能軟體交互,無時無刻不在產生著海量的數據,同時為各行各業帶來不可逆的變革。數據顯示,全球90%的數據都是在不到2年的時間內被創建的,而企業如何有效捕捉並利用這些數據,為自身創造價值,正成為全球企業CIO面臨的挑戰。
  • 從Forrester Wave報告,看自建AI如何幫助企業轉型升級
    同時,報告中指出,中國數字經濟正在蓬勃發展,企業選擇正確的PAML產品可幫助企業快速、規模化構建AI應用,提高企業生產力。 因此,Forrester報告中,也著重總結了PAML產品所應具備的三大能力: 1、可為不同的團隊簡化模型開發 隨著企業業務的不斷發展,AI應用場景也將從幾個擴展至數千個。
  • 人工智慧在企業中有什麼作用
    隨著現代企業競爭意識的增強,越來越多的組織正在尋找將其實現數位化的方法,現在是他們決定整合人工智慧的時候了,因為從長遠來看,那些不使用人工智慧的企業在競爭可能會落後於人。   協助物流公司   物流公司的工作依賴於基於物理和數字級別的網絡,這些網絡需要解決各種挑戰,這些挑戰包括:   高效率、低利潤的高效工作。   多次支付。
  • ...列2015年Gartner數據倉庫和分析型數據管理解決方案魔力象限的...
    Teradata天睿公司在企業願景及其執行力上都處於領先地位,彰顯Teradata®統一數據架構™的思想領導力和技術成熟度,該架構也是業內首個實現Gartner邏輯數據倉庫理念的分析生態系統。Teradata天睿公司不斷致力於為客戶提供最重要的創新技術、最理想的產品服務選擇,為他們帶來最佳的價值,這也是我們吸引客戶持續投資的重要原因。」
  • 艾瑞視點:2012年MSIE將繼續保持全球瀏覽器市場的領先地位
    iResearch艾瑞諮詢根據Chitika2012年1月公布的研究數據發現,2012年1月全球瀏覽器市場的競爭格局基本與2011年12月保持一致。其中,MSIE成為研究期內所佔市場份額唯一不斷增長的瀏覽器,2012年1月其所佔市場份額達到60.8%,繼續佔據瀏覽器市場的主導地位。
  • 被稱為企業「變速齒輪」的數據中臺到底是什麼 | 推薦收藏
    隨著企業業務的發展壯大,因為後臺修改的成本和風險較大,所以驅使我們會儘量選擇保持後臺系統的穩定性,但還要響應用戶持續不斷的需求,自然就會將大的業務邏輯(業務能)直接塞到前臺系統中,引入重複的同時還會致使前臺系統不斷膨脹,變得臃腫,形成了一個個滾球的「煙囪式單體應用」。漸漸拖垮前臺系統的「客戶響應力」,用戶滿意度降低,企業競爭也隨之不斷下降。