Aura 以機器學習為核心的數據驅動型應用開發平臺

2020-12-23 DOIT

3月18日,亞信數據與北京郵電大學聯合主辦的「開源技術與深度學習meetup」在北京郵電大學舉行。來自亞信數據矽谷研發中心高級數據科學家常劍發表了《Aura: 以開源機器學習框架為核心的數據驅動型應用開發平臺》主題演講。

常劍演講實錄:

現今大數據和人工智慧科技的發展大多是由開源技術驅動的。大家逐漸意識到獨自開發一項專有技術並推動其他人接受和使用是比較低效的,更有效率的方法是整合資源大家共同創造一個技術生態圈,這樣可以更好的推動進步。今天的題目是Aura – 以機器學習的技術為基礎進行高效的數據驅動型應用開發的平臺。希望借今天Meetup這個平臺和契機與大家共同交流。

先簡單介紹一下亞信,亞信是中國網際網路的締造者。多年以來,亞信一直以電信運營商領域為核心並向其他領域輻射,勤奮耕耘,積累頗豐。亞信數據是亞信集團旗下專注於大數據和人工智慧應用子公司。大數據產業本身是依靠諸多開源技術為基礎發展起來的,亞信數據在這方面一直大力投入,亞信數據橘雲團隊也以其技術實力強在業內聞名。橘雲團隊為Hadoop等大數據開源軟體貢獻了很多Contributors和Patches。亞信數據的橘雲產品集合了諸多先進的大數據處理平臺,是亞信數據一個強有力的產品。

大數據與人工智慧的歷史和未來

大部分企業的數據分析和應用一般屬於Business Intelligence (BI)這個範疇,企業內的數據分析師利用企業已經積累的客戶、產品等各方面數據,為企業發展提出更好的建議。傳統的企業BI分析大部分是Descriptive Analytics和Diagnostic Analytics。Descriptive Analytics是把數據中的事實呈現出來。Diagnostic Analytics是診斷性,它的作用是發現企業運營中的問題,並找出原因,通過深挖數據,尋找更多價值。這兩項分析是企業裡各種數據分析的支柱性任務。

隨著企業BI業務的不斷深入,大家發現可以應用這些數據做更多更智能的事情,並構建一些更智能的應用。也就是Predictive Analytics或者Prescriptive Analytics。企業不僅想要知道過去發生什麼,更希望能找到一些規律來幫助預測將來,幫助企業搶佔先機,為客戶提供更好的提供服務。根據這些預測和分析,指導企業行動,把這些信息和預測能力轉化成生產力。大數據平臺發展支撐了現代企業大部分的Descriptive Analytics和Diagnostic Analytics任務。而更有價值的Predictive Analytics或者Prescriptive Analytics就要靠各類人工智慧技術來實現。

想理解「人工智慧」就先要明確定義什麼是「智能」。人作為智能體的典範和非智能的物體有三個方面主要區別。首先,智能的人可以通過「感知」可以從非結構化的信息中獲取各類信息。人有語言並能利用語言進行交流,視覺聽覺等各類感知功能也給人提供各種信息。其次,智能體現在人可以根據獲得的信息做複雜的判斷。最後,智能體可以形成獲取信息,決策判斷、調整策略的反饋閉環。這三點是智能和非智能的重要區別。

機器學習這個領域正是關注智能中「決策分析「這個領域。計算機的程序原始碼就是計算機做決策分析全部邏輯的呈現。傳統方式一直是人通過程式語言將人類的決策分析過程以程序的形式輸出給計算機。而機器學習則提供了一個新的典範,它通過處理期望的輸入輸出數據,自動形成決策程序,大大提高效率。深度學習是機器學習中的一個子領域。深度學習受人腦結構啟發,進行端到端的模型訓練。近幾年來,深度學習領域發展很快,主要依靠理論不斷改進,並行計算能力提高,大數據技術提供海量數據這三個因素,不斷發展,使許多問題從不可能變成了可能。

Aura平臺的產品設計和架構

亞信一直在實踐把人工智慧帶入各個領域,我們做了大量的工作來幫助企業建立屬於自己的數據驅動型應用。什麼是數據驅動型應用呢?與「數據驅動型應用」相對的概念是「事務驅動型應用」。事務驅動型應用是業務專家的經驗固化為程序代碼。數據驅動型應用則是在已經積累了相關業務數據的條件下,利用機器學習和人工智慧技術來挖掘規律指導業務,這也是對企業本身的數據資源的開發。作為中國最大的大數據技術提供商,我們從與眾多企業的深入互動中獲得了寶貴的經驗,也使我們能夠深刻了解到數據驅動運營在實踐中的一些重要問題:

首先,要有過硬技術,人工智慧和機器學習是一個非常活躍的快速變化的領域,充分理解技術本質,並不斷的提供最新最好的技術是一切的基礎。其次,數據驅動型應用做的好,離不開對業務知識的熟悉。任何在數據中發現的規律和特徵,應該找到具體的業務意義來支撐,對於模糊的甚至是誤導性的發現,也可以通過業務知識的啟發進行規避。第三,是要有數據強有力的支撐,很多重要行業的數據是獨佔性的,如果想涉獵這個行業,技術和業務都要向數據靠攏。最後,是人員方面。傳統軟體功能往往是確定性的,開發之後可以維持相對穩定。而對於數據驅動型的應用,程序語義和數據本身的特性相關度高,很可能隨時間變化而需要進行增量訓練或者增強。這使得數據驅動型應用的生命周期對持續性的人員投入要求較高。

基於這些理解,我們設計了Aura,一個高效的數據驅動型應用程式開發的機器學習平臺。Aura把這四個重點有機的結合了起來,極大的提升了數據驅動型應用的開發效率。通過結合技術、業務、數據,並不斷的更新迭代,形成效能逐步提高的正反饋閉環過程。在Aura平臺上的最上層,我們為各種行業提供了廣泛的經過實踐檢驗的數據驅動應用程式,可以直接(或經過微調)應用於解決業務問題。提高數據驅動應用開發效率的最佳方案是已有應用的遷移,充分發揮業務與技術經驗結合的最大價值。

Aura通過使用「通用數據模型」 (Common Data Model),強調領域知識的保存,標準化和重用。Aura底層是業界最領先的技術,包括人工智慧和機器學習技術的領先框架和大數據處理技術。連接底層和高層應用開發的是科學高效的應用開發環境。Aura提供了兩種方式與用戶交互進行應用開發:(a)適用於數據科學家或具有編程技能的分析師的強大筆記本(b)積累了科學方法和最佳實應用開發踐的嚮導式的數據分析和建模場景。機器學習和人工智慧的技能知識門檻較高,為了簡化學習曲線。我們定義了一些非常典型的機器學習的場景,這些典型場景是我們經過很多探索和實踐抽象出來的。針對每個場景,我們都將最科學的分析建模過程形成一個嚮導式的流程。使用者只需要提供一些必要的信息,就可自動生成一個有效的應用模型,也使整個流程變得水到渠成。

數據驅動型應用實例 – 支付風控

與大家分享一個具體的數據驅動型應用的案例。隨著我國銀行業全面開放和深化改革,網際網路金融的不斷發展以及電子銀行、手機銀行交易系統的全面鋪開,與這些全新業務模式相伴而生的欺詐風險也在頻繁發生。各類跨業務、跨條線的欺詐風險更是層出不窮。這些欺詐問題,對銀行社會聲譽以及用戶財產安全都造成嚴重威脅。隨著大數據、人工智慧等技術的發展,也給金融領域各類新形態欺詐問題的解決帶來了新思路。

我們的支付欺詐檢測解決方案提供了4個方面的能力:首先,我們引入數據驅動的風控模型,以機器學習為基礎,科學設定反欺詐規則,實現從數據到業務語言以及機器代碼的轉化。其次,我們實現了包括電子、手機、網銀等多渠道的全面數據接入,提供完善的欺詐案件記錄和處置的功能,填補事中風險管控工作的空白。第三,系統提供了優化的交易風險處置,通過量化風險,觸發不同級別的防控策略,優化系統效果和用戶體驗。最後,我們提供全面的報表和分析功能,實時監控全局的風險情況,以便掌握信息。

一般來說,金融欺詐檢測的方法分為兩大類:第一類是依靠專家驅動的方法,這類方法把業務專家的經驗進行積累沉澱,把第一線接觸各類金融欺詐案件的專業人員的知識進行梳理。第二類的方法是數據驅動的,這類方法依靠數學模型進行數據挖掘和機器學習,並建立檢測模型,再利用檢測模型的預測能力進行實時的反欺詐檢測工作。 我們採用了專家經驗和數據驅動模型相結合的方法,有序的建立支付欺詐檢測的業務邏輯。

首先要對現有的數據進行梳理和清洗。然後利用各種適當的統計計算方法,大量廣泛的提取和預測目標相關的特徵信息。之後再利用系統性的方法來對提取的特徵進行進一步的篩選。經過這樣一個過程之後的準備好的數據特徵就可以輸出到適當的機器學習算法中去進行模型的訓練。訓練模型的時候,根據數據測試的效果,還要對一些先驗性的模型參數進行調整,使模型的預測性能到達最優。最後經過調優的模型就可以用到生產系統去進行使用。當然如果有新的數據或者新的特徵提取思路,可以快速重複和迭代整個過程,不斷的改進現有的模型。

我們也並不會簡單的拋棄已有的專家經驗和沉澱下來的業務知識,恰恰相反,特徵提取工程正是數據驅動模式下與現有專家知識的一個有效的集合點。特徵工程要做的工作往往是對現有的基礎數據進行進一步的統計,分級和變換,提取出和模型的預測目標可能相關的因素。這時專家經驗可以起到很好的指導作用,已知的相關因素,或者業務人員直覺上認為可能有效的因子都可以充分的引入到特徵提取工程中。特徵工程的原則就是要做到有效的發散。如果沒用充分有效的特徵信息,再好的機器學習算法也很難發揮它的作用。當然,特徵提取中所需的計算過程都要在Hadoop, Spark這樣的大數據平臺上進行實現,才能滿足在大數據集下的系統性能要求。

對於訓練出的模型,利用交叉驗證進行一些模型參數的選擇和調優工作,調優後的模型還有經過嚴格的歷史數據的回測,確認其在長周期下模型的可靠性。另外,如果單一的機器學習模行無法滿足預測性能的需要,可以利用同樣的數據,選擇不同算法訓練多個特性各異的模型,然後進行模型的綜合,讓不同的模型互相取長補短。

我們為實時金融欺詐提供了一整套完整的系統解決方案。剛才著重介紹的基於機器學習風控模型只是其中的一個子系統。整個系統的實時部分設計完全基於大數據流處理平臺和高性能的實時資料庫,保證了高並發、低延遲的實時響應能力。系統也提供全生命周期的金融欺詐檢測和防控功能。除了欺詐檢測模型,我們系統還會進一步的進行風險的量化評分,以便觸發相應的風險控制策略。這也是之前講到的決策引擎的主要算法邏輯。風險量化評分考慮到欺詐風險和交易金額兩個因素,欺詐風險越大,交易所涉及的金額越多,風險評分就會越高。根據風控模型實時計算的交易風險評分,系統自動採取對應的策略。主要策略包括:交易放行、警告、簡訊提醒、加強驗證、人工坐席核實,直至自動交易阻斷。客戶簡訊驗證,客服坐席核實的結果也都會及時反饋到大數據分析系統的資料庫中,以供模型更新使用,使整個系統中的信息形成閉環。也使模型可以快速迭代更新,大大提高模型預測準確度。

未經允許不得轉載:DOIT » Aura 以機器學習為核心的數據驅動型應用開發平臺

相關焦點

  • 機器學習實踐心得:數據平臺設計與搭建
    2、上面藍色部分代表機器學習:首先把樣本數據與我們的自有數據進行匹配,然後洞察這份數據並生成特徵,這個過程叫特徵工程。接下來基於這些特徵,選擇合適的算法訓練後得到模型,最終把模型具體應用到全量的數據中,輸出預測的結果。  標準的機器學習工作流:針對業務上產生的具體問題,我們把它轉化成數據問題,或者評估它能否用數據來解決。
  • 區別於數據科學:構建機器學習工程平臺意味著什麼?
    圖源:unsplash大約一年前我們已經開始在開源機器學習平臺Cortex上工作了,動機很簡單:從模型中構建應用程式實在是一種可怕的體驗,充滿了膠水代碼(gluecode)和樣板代碼我們在Cortex上的研究代表了過去一年來加速趨勢的一部分,即機器學習工程生態系統的發展。公司僱傭機器學習工程師的速度比以往任何時候都要快,發布的項目也越來越好。這讓我們感到很興奮。但有一個問題仍然時常出現:「什麼是機器學習工程?」本文將帶你找到答案,以及為機器學習工程師構建一個平臺意味著什麼。
  • BI系統,構建數據驅動型人力資源管理
    BI系統為人力資源管理培養了一批「數據分析師」,用數據思維方式解決了人力資源管理長期存在的各類問題。某企業是專業從事太陽能應用技術研究和太陽能熱利用產品製造、營銷的科技型企業。為了打通各業務系統形成的信息孤島,讓數據為決策服務實施了BI系統。
  • AI產品開發指南:5大核心環節搞定機器學習工作流
    於是,國外的問答網站Quora上就有了這個問題: 怎樣開發出一個AI系統或者產品?量子位覺得,有一個來自Sean McClure的回答很不錯。Sean是美國一家醫療公司的數據科學家,他從機器學習工作流的五個核心環節講起,系統地回答了這個問題。以下內容譯自他的回答。
  • 大數據機器學習庫spark mllib基礎及應用案例
    近日,飛馬網邀請業內資深大數據研發專家董西成為大家在線講解了大數據機器學習庫spark mllib基礎及應用案例。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    機器學習已經有了十分廣泛的應用,例如:數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、 DNA 序列測序、語音和手寫識別、戰略遊戲和機器人運用。機器學習的算法分為兩大類 : 監督學習和無監督學習 。
  • 基於複數神經網絡首發量子機器學習開發工具 「量槳」,飛槳布局...
    飛槳開源深度學習平臺部分,包含核心框架、基礎模型庫、端到端開發套件與工具組件,持續開源核心能力,為產業、學術、科研創新提供基礎底座。同時,隨著企業應用需求越來越強烈,飛槳升級產品架構,推出飛槳企業版,包含零門檻AI開發平臺EasyDL和全功能AI開發平臺BML,助力各個企業進行AI創新。
  • TalkingData大規模機器學習的應用
    計算平臺TalkingData的數據處理集群目前僅有32臺機器,除了承擔機器學習任務外,更多的工作是數據處理,集群的負荷是非常繁重的。為了儘可能提高集群計算效率和程序開發效率,我們選擇了Spark。我們認為Spark最大的兩個優點。一是數據處理效率高(相對於Hadoop MapReduce而言)。
  • 用於數據科學和機器學習的Python編程
    Python是一種流行的程式語言,因為它簡單易用,開源許可和可訪問性 - 它是著名社區的基礎 - 它為創建大量的包,教程和示例程序提供了很好的支持和幫助。Python可用於開發各種應用程式,從Web,基於桌面GUI的程序/應用程式到科學和數學程序以及機器學習和其他大數據計算系統。
  • 八個面向開發人員的機器學習平臺
    機器學習平臺已不是未來的潮流,它現在正在發生。開發人員更要知道如何利用機器學習的力量。比如用Filestack這樣的工具在機器學習環境中良好工作,可以使開發人員更容易創建能夠充分發揮其功能的高效算法。以下為各位推出一些機器學習平臺和工具,與按特定順序無關。只是列出現在可用作將機器學習功能無縫集成到日常任務中的資源。1.
  • 從YARN遷移到k8s,滴滴機器學習平臺二次開發是這樣做的
    本次演講從滴滴機器學習平臺的特點開始探討,分享了滴滴機器學習場景下的 k8s 落地實踐與二次開發的技術實踐與經驗,包括平臺穩定性、易用性、利用率、平臺 k8s 版本升級與二次開發等內容。此外,唐博還介紹了滴滴機器學習平臺是如何從 YARN 遷移到 k8s,以及 YARN 的二次開發與 k8s 的對比等。
  • 技術專欄丨基於Core ML的通用性機器學習開發框架探索
    歡迎將TalkingData設為星標每日精彩文章等著你~機器學習不僅是目前最火的技術,同時也是人工智慧最核心的內容。機器學習是一種能讓計算機無需不斷被顯示編程,而自我學習的人工智慧技術。自 iOS 11 開始,蘋果在 iOS 系統中引入了一種全新的,直接依附於硬體平臺的機器學習框架——Core ML,該框架使機器學習模型在 iOS 系統平臺下預測推理可以快速並易於實現。藉助 Core ML,可以將已訓練好的機器學習模型,集成到自己的應用當中,以實現智能化的應用程式,提升用戶體驗等。
  • 機器學習在生命科學中的應用
    機器學習(Machine learning)方法為drug-develop發現提供了一系列工具,同時為還提供了眾多高質量的數據信息。機器學習可以應用於drug-develop的所有階段,包括靶標驗證,預後生物標記物的鑑定和試驗中數字pathology數據的分析。目前許多公司已經將投資目標轉向機器學習領域,通過支持機器學習方法的開發,促進drug-develop研發。
  • 為什麼你需要一個數據科學平臺
    Gartner 將數據科學和機器學習平臺定義為具有一致性的軟體應用程式,它為用戶提供了必不可少的基本構建模塊創建多種數據科學解決方案,並將這些解決方案整合到業務流程,周圍的基礎架構和產品中。這些平臺的主要用戶通常是專業數據科學家,公民(或普通)數據科學家,數據工程師以及機器學習工程師或專家。
  • 不懂代碼也能開發應用?用友發布 YonBuilder 低代碼平臺
    還有拖拽式輸入數據之後,調用機器學習模型,完成數據分析和可視化的無代碼數據科學工具,都可以實現無代碼/低代碼開發。不過,這些工具大多是個人作者開發,面向的場景有限,難以在公司的實際商業運作中發揮太多作用。
  • MLOps正在改變機器學習模型的開發方式
    MLOps 的實際實現包括採用某些最佳實踐和為支持這些最佳實踐搭建的基礎設施。讓我們來看一下,MLOps 改變機器學習如何開發的三種方式:它對版本控制的影響,如何構建保障措施,以及關注機器學習流水線的必要性。一談到在組織內利用機器學習,就應該最先考慮版本控制。然而,這個理念並不僅僅適用於驅動模型的代碼。
  • 機器學習在領英的規模化應用
    這篇文章將討論領英如何規模化利用技術,幫助更多工程師提升機器學習的效率。近日,領英中國機器學習研發經理李子在IEEE數據挖掘國際會議(ICDM)上分享了領英是如何規模化開展機器學習,介紹領英的核心產品以及如何利用技術幫助更多工程師提升機器學習的效率。Pro-ML提升機器學習效率
  • 谷歌收購無代碼應用程式開發平臺AppSheet
    近日,Google以未公開的價格收購了無代碼應用開發平臺AppSheet,AppSheet執行長表示,現有的AppSheet服務不會很快消失,但最終會遷移到Google Cloud。戳右邊連結上 新智元小程序 了解更多!新年伊始,Google就開啟了瘋狂收購模式。
  • 中科院計算所開源Easy Machine Learning:讓機器學習應用開發簡單...
    機器學習算法已然成為諸多大數據應用中不可或缺的核心組件。然而,由於機器學習算法很難,尤其是在分布式平臺比如 Hadoop 和 Sparks 上,機器學習的全部潛能遠遠沒有發揮出來。關鍵障礙不僅來自算法本身的實現,還常常來自涵蓋多步操作和不同算法的實際應用過程。
  • 十大開發必備的Python庫,讓機器學習更簡單
    Python備受開發人員歡迎的一項主要原因是,它能夠為用戶提供大量可供使用的庫集合。在本文中,我們將和您討論Python中的一些庫。開發人員可以使用它們來編寫、清理和表示數據,並且能夠在現有的各種應用程式中實現機器學習的效果。