by Darren Cooper
合成數據(Synthetic data)是使您的業務運營平穩運行的測試數據;如果這些操作通過人工智慧實現自動化,那麼使用主數據管理(MDM)來確保您的決策是無偏見的,這一點非常重要。
數據生成的數據反過來又生成更多的數據。我們如何知道產生的數據是否符合業務需求策略?舉例,如果一個機器人,旨在幫助我們做出明智的投資決策,或者是為我們的客戶服務問題提供最佳答案,但是在處理過程中卻出錯了呢?
顯然,從所有不同角落測試解集都很重要。隨著人工智慧在自動化決策過程中扮演著越來越重要的角色,確保由主數據管理(MDM)支持的機器學習操作(MLOps)從良好的可解釋數據(XAI)和無偏見的數據中工作變得至關重要。
在數據投入使用之前,通常需要將其組織成數據集,以支持不同類型的測試和建模需求,以便了解應用程式、分析模型和基於人工智慧的進程將如何針對這些真實世界/代表性/實驗數據集執行。這就是你需要合成數據的地方。
什麼是合成數據
合成數據是通過算法生成的,以補償真實世界的數據不夠豐富,數量不滿足測試需求的狀態。合成數據大部分來自於生產數據;合成數據通常會忠實於源信息的統計性質,而不是精確的副本。除了具有代表性的真實世界數據外,合成數據還可能包括一些數據集,這些數據集驅動「路徑」來測試特定條件下系統行為的預期,並促進預測分析。
顯然,為了能夠提供有用的結果,合成數據需要與操作型數據具有相同的信任級別。合成數據在被人工智慧應用程式使用時,應該不帶有偏見性。因此,首先必須正確獲取操作型或生產型數據,為合成數據生成提供良好的起點。同樣重要的是確保在生產數據中通常找不到的用例可以被組裝和組織起來。為此,主數據管理可以提供幫助。
什麼是主數據管理(MDM)?
當我們想到主數據時,我們主要想到的是操作型數據:1.用於支持銷售和服務運營的客戶主數據2.採購過程中從供應商處收集的產品主數據3.建模基本運營基礎設施所需的資產主數據
主數據管理(MDM)是提供業務關鍵信息(如客戶數據)的單一、可信視圖的關鍵驅動器。擁有可信賴的數據集成和可操作的應用程式集成可以幫助您降低成本。
使主數據既可信又有洞察力的關鍵在於對它有一個透明的視圖。透明度源於定義數據的含義、目的和治理政策。
主數據管理定義並實施數據治理策略,以保證主數據的質量,例如:1.來源2.準確性3.一致性4.可獲得性5.安全性6.可審計性7.道德性
接受業務監督,並根據業務目標進行衡量。主數據管理(MDM)可以幫助您管理數據集,以確保在生成為合成數據集時,數據集更加可靠和完整。良好的合成數據集提高了數據科學項目的能力,推動預測和機器學習產生更好的結果。
合成數據在零售業中的應用
讓我們想像一下新產品的上市。銷售戰略布局對銷售有什麼影響?哪些客戶群體更有可能購買它?
從數據科學的角度對產品介紹進行測試,需要獲得大量好的、有代表性的數據。這將從包含現有客戶和產品數據開始。這些數據的準確性和可見性是在進行任何分析之前進行測量和修正的關鍵。這是主數據管理(MDM)可以提供幫助的地方。
主數據管理(MDM)支持並確保客戶數據策略的正確實施,包括數據完整性和高質量標準性。零售商不一定需要客戶的360°全方位視圖,而只需要適合特定目的的視圖:創建綜合數據集,以加強對新產品銷售潛力的預測。
如果現實世界中的數據缺乏豐富性和數量來支持生成測試更多角落和決策路徑的數據,主數據管理(MDM)可以通過管理具有更高質量的匿名客戶數據集來提供幫助。
將主數據管理(MDM)中的數據規則與數據科學或機器學習(ML)項目的目標結合起來後,零售商現在能夠為後續的預測分析開發適當的合成數據集。
在幫助消費者做出明智的選擇方面,AI/ML正在成為客戶體驗中無處不在的一部分。例如,如果消費者創建一個已查看產品的集合,那麼ML算法可以查看產品的屬性,根據消費者的行為模式提出推介產品和服務。
人工智慧與機器學習中的合成數據
合成數據管理是人工智慧和機器學習的基本要求。機器學習(ML)模型需要訓練。要做到這一點,他們需要數據。合成數據可以為ML提供所需的數量和用例。主數據管理(MDM)通過為可解釋的AI驗證提供良好的數據支持。
合成數據在金融服務中的應用
金融部門擁有大量的合成數據管理案例。例如,銀行或保險數據可能包含一些非常敏感的個人可識別屬性。但與此同時,金融服務公司需要與商業夥伴和監管機構共享信息。生成合成數據集可以幫助刪除個人信息(也稱為數據屏蔽),同時保留內部複雜數據關係的本質。在訓練一個欺詐算法時,你不需要知道涉及的人的名字。然而,您需要識別一個代表可疑活動的統計模式。
在分析歷史趨勢時,如果要避免過去的錯誤,就需要生成既代表實際事件又代表假設情景的綜合數據集。展望未來時,需要創建能夠反映從當前趨勢到未來趨勢的數據集,這在設想下一個產品或服務時至關重要。
MDM將治理引入到合成數據中,以使結果可以解釋
MDM的使命在於確保原始生產數據集能夠產生具有代表性和有用的合成數據集。在某些情況下,可能需要MDM來掌握這些合成數據集的某些元素,以便對它們進行機器學習。雖然可以使用數據掩蔽和合成數據生成(有很多工具可以做到這一點)等技術來轉換單個屬性,但確保原始源的真實表示的能力可以受益於MDM應用的數據治理策略。
MDM通過實施業務流程來提高合成數據的針對性和可解釋性,以確保原始信息或合成信息的管理具有代表性、連貫性、高質量和洞察力。這反過來將使人工智慧更易於解釋,減少偏見。
相關話題:
主數據管理(MDM),零售業,金融業,數據透明度,合成數據
Darren Cooper的大部分職業生涯都是在軟體銷售諮詢方面度過的,他在多個行業工作。在過去的15年裡,他專攻信息管理,為全球藍籌股公司的數據治理戰略提供諮詢。今天,Darren通過展示我們獨特的技術如何幫助加快客戶的數位化轉型之旅,在幫助Stibo Systems(思迪博)發展業務方面發揮了領導作用。
關於Stibo Systems思迪博
主數據管理公司Stibo Systems(思迪博)是數據透明度理念的卓越推動者。我們的解決方案是世界各地具有前瞻性的公司背後的科技驅動力,這些公司已經釋放了其主數據的戰略價值。我們的解決方案推動他們改善客戶體驗,促進創新和成長,為數位化轉型創造堅實的基礎。這給了他們所需要和期望的商業理解及掌控——擁有對主數據的單一、準確的視圖——這樣他們就可以做出明智的決策,實現更大規模、更廣範圍和更加進取的業務目標。Stibo Systems(思迪博)是Stibo A/S集團的私有控股子公司,成立於1794年,總部位於丹麥奧胡斯。擁有超過40年管理主數據的行業經驗。