數據科學孤島如何破壞應用程式現代化

2020-12-06 智能甄選

了解數據科學孤島如何破壞應用程式現代化,並了解構建智能應用程式為何需要智能團隊建設。

現在是時候改造現代化了

我經常與在其組織中管理定製應用程式的業務主管進行對話。當話題集中在現代化這些自定義且通常為舊版的應用程式時,他們常常自豪地聲稱正在進行現代化,並向我解釋說他們正在遷移到雲中,也許將應用程式容器化,並且如果雄心勃勃,則重新構建應用程式以利用以下優勢微服務。

儘管這些都是值得的努力,但我很少觀察到這些努力在業務成果方面起了很大作用。出現在雲上不會改善營銷應用程式中的個性化,也不會減少保險系統中的欺詐性索賠,也不會優化製造商的供應鏈。應用程式肯定會更加敏捷。是的,那些容器編排和自動化方面的進步以及微服務重構可能能夠使開發人員提高生產力,但是如果有的話,它們很少最終會從根本上改變或改進應用程式本身。因此,儘管雲遷移和容器化很重要,但是什麼能真正推動業務成果發展的更具影響力的現代化呢?

為此,我認為有必要充分利用可用的大量數據源,並使用新的外部數據對應用程式進行增壓,然後使用這些數據來訓練能夠使應用程式適應經驗的機器學習模型。下一代的現代化將預測模型注入到應用程式中,以預測將來的某個特定結果,以便應用程式可以採取相應的措施。

構建智能應用程式需要智能團隊建設

但是,這就是磨擦。當公司嘗試使用AI和ML進行現代化改造時,他們的團隊通常組織得很差。

實際上,當您向IT應用團隊中的任何人提到AI或ML時,他們都會立即將您引導到數據科學團隊或數據湖團隊。這是筒倉的第一個跡象。這通常意味著能夠管理大量數據並「進行數學運算」的機器學習人員處於孤島。他們沒有採取行動-應用程式與客戶,供應商,員工等進行交互。這是從業務中移除的第一步。最近,當我與一家保險公司的數據科學團隊負責人會面時,他們說阻礙他們的工作正常運轉的一件事是應用團隊缺乏參與。

這對現代化產生了深遠的負面影響。我們最近從技術角度討論了其中一些問題(請參閱有關Hadoop發生了什麼的博客)。但是在這裡,我想重點關注人員和流程。從人員和過程的角度來看,筒倉如何影響現代化?

我的觀點是,將AI注入應用程式的現狀通常是由AI團隊發起的。他們從某個數據湖中獲取數據。他們創建了論文並嘗試了許多模型。有時,他們會根據可用數據在真空中創建這些模型。他們運行特徵,算法和參數的許多排列,如果做得好,他們將使用準確性指標正確地測量實驗,這些準確性指標可以客觀地衡量模型在測試集中預測新示例的程度。關於機器學習的實驗性最佳實踐的最佳讀物之一是Andrew Ng的新書《機器學習的渴望》。

但是這是重點。AI或數據科學團隊的設備不足,無法獨立完成工作。他們只是對業務或應用程式沒有足夠的深入了解,這些知識將無法部署模型以導致交付業務成果的生產運營。這對數據科學家來說一點也不難。我曾經是一個。但是成功團隊的秘訣在於多樣性。數據科學是一項團隊運動。數據科學家需要與了解業務和應用程式的人們並肩工作。這就是為什麼。

合適的團隊可以創造合適的功能

我多年來的觀察結果是,許多機器學習問題沒有像圖像,聲音,視頻和其他信號處理問題那樣的大量訓練示例,並且在這種情況下,預測信號來自爭奪數據的數據科學家。尋找產生一些預測信號的真正好的屬性。通常,數據科學家會以獨特的方式組合數據元素,或者最重要的是匯總數據。這些轉換後的數據屬性是數據科學家稱之為特徵的特徵,它們一起形成了特徵向量,這些特徵向量是監督或分類算法或非監督聚類算法的輸入。我認為,這整個過程稱為特徵工程,是處理企業結構化數據的實用ML項目成功的關鍵因素。

許多數據科學家撰寫了有關算法的中級文章,例如決策樹,隨機森林,boosting算法,貝葉斯算法或深度學習替代方案,儘管它們確實對模型精度產生影響,但獲得更好的預測信號的最有效方法是獲得正確的數據。例如,RFM轉換是關鍵-新近度,頻率和貨幣價值。這是將交易或行為數據轉換為某人最近進行交易或拜訪的頻率,頻率或平均花費(時間或金錢)為多少的過程。

在媒體個性化方面,公司經常以特定用戶訪問特定站點(例如豪華鞋品牌)為事實。但這是騙人的。事實證明,如果您使用訪問特定網站的時間(例如48小時內),則可以大大提高廣告的轉化率。您必須獲得代表的正確功能才能執行模型!

新近度是轉換的一個簡單示例。去年夏天,我們很幸運地收到了國際多發性硬化症會議(ECTRIMS)的摘要,以便與我們的客戶Precision Innovative Network(PIN)合作,該網絡將獨立的神經病學診所聯網在一起,以在非確定患者。該公司將為製藥公司,機器學習顧問以及預測疾病軌跡的診所提供寶貴的臨床研究數據。

在這個項目中,我們組成了一個由數據工程師組成的跨學科團隊,以準備數據,由數據科學家進行實驗以及作為主題專家的PIN創始人之一神經學家Mark Gudesblatt博士。Gudesblatt博士能夠將深厚的醫學知識轉化為我們可以用於特徵工程師的語言。我們從未想像為數據科學家的功能的一個示例是對患者負面影響的認知域(例如,記憶力,注意力,執行功能,視覺空間)數量的匯總(以標準差作為衡量標準)的意思)。當殘疾跨越功能網絡時,它與疾病的軌跡高度相關。

如上所述,我們與PIN的合作體現了不同團隊合作的價值。最初,數據科學家,數據工程師和主題專家正在推動該項目,而應用程式開發人員和業務分析師將大量參與項目的後續階段。

儘早吸引您的應用程式開發人員

當然,應用程式開發人員是團隊的關鍵組成部分。沒有它們,您將永遠無法弄清楚如何將模型注入業務邏輯。他們將幫助您回答重要問題,例如:

應用程式將如何使用預測分數來更改業務邏輯?從應用程式中提取數據的頻率如何,並用於重新訓練模型以使其保持最新狀態並反映當前狀況?重新訓練的模型何時,如何替換舊模型?如何監控模型行為的準確性?是否需要恢復為舊型號?如何將最新數據用作模型的輸入,以便它不會對過時的數據做出決策?不要等到建模項目結束時才將應用程式開發人員引入。從一開始就讓他們成為項目的一部分,以確保考慮到所有操作細節,並從整個過程中消除了儘可能多的延遲,以便模型準確反映了現實世界。

用功能工廠創建實驗文化

我將在以後的文章中詳細介紹這一點,但是關於ML項目,甚至可能比將主題專家和應用程式開發人員納入數據科學和數據工程團隊中更為重要。關鍵是要做好ML,您必須在公司中營造一種試驗文化,並且您必須意識到ML項目沒有上線日期,也沒有移交要維持生命的操作的機會。這是一個持續不斷的實驗過程。

實際上,團隊需要保持參與以創建我喜歡的功能工廠功能部件工廠正在不斷尋求增強信號的新功能。不幸的是,市場在變化,不良行為者不斷創新,氣候在變化,競爭者也在變化等等。上線時的最佳特徵向量可能會在2個月後或更糟(明天)產生噪聲。因此,秘訣是保持多樣化的團隊完整無缺,經常評估已部署的模型,最重要的是,使它們儘可能高效地嘗試新功能。

結論

總之,在對自定義應用程式進行現代化改造時,不要只停留在容器化或遷移到雲上。將具有機器學習功能的智能注入到應用程式中,以不斷改善業務成果。本身不要創建數據科學組織。與數據工程師,數據科學家,應用程式開發人員和運營商,主題專家和分析師一起創建「現代化的SWAT團隊」。採用使這些團隊能夠構建實驗文化的工具和流程。

相關焦點

  • 融合媒體平臺應用和數據的共融互通
    融合媒體雲平臺建設在向更深層次發展,將會面臨跨雲的互通、容器和現代化應用平臺融合等新的挑戰。未來媒體的競爭優勢將日益體現在數據和推動數字體驗的軟體洞察結果。因此,能夠取得成功的媒體組織將通過提供由數據支持的數字服務來實現這一點。要有效做到這一點,數位化轉型是必經之路。轉型成功的媒體機構意味著由數據驅動,提供數位化業務服務,在多雲世界中運行。
  • 免費應用程式如何賺錢?
    您是否曾經想過免費應用程式如何賺錢這個問題? 大多數情況下,您是從商店下載應用程式並開始使用它。 自然,免費提供應用程式的開發人員會期望通過其他渠道獲得回報。 如果您正在考慮開發應用程式,但不確定免費應用程式如何帶來利潤,下面的文章將提供說明。
  • 數據治理如何打破孤島效應?了解一下可驗證憑證|孤島|數據質量|...
    摘要針對我國監管科技數據治理中存在的數據孤島、數據質量、數據融合困難、數據濫用等問題,提出了將可驗證憑證數據模型用於數據治理的解決思路。本報告介紹了可驗證憑證的概念、數據模型、關鍵技術與主要技術特徵,並探討可驗證憑證用於數據治理的幾個方向,同時介紹了可驗證憑證技術的規範和應用成熟度。
  • 不可錯過的流量風口:小程序 & 快應用
    據阿拉丁數據統計,2019年小程序的DAU達到3.3億,累計GMV達到1萬億。預計到2020年年底,小程序的用戶量會達到4.5億人,小程序將打造出一個新的流量生態。與下載一個APP相比,用戶掃碼打開小程序的操作成本更低,拉新效率更高。「無域流量」:於私域流量和公域流量相比,小程序是不受平臺和用戶圈層限制的,很明顯的一個趨勢是:不論是入口還是推廣的渠道,小程序都正朝著無邊界化的方向發展,我將這個方向稱為「無域流量」。小程序即開即用和即用即走的生態特點決定了這個生態裡的流量不再會形成「流量孤島」。
  • 數據治理如何打破孤島效應?了解一下可驗證憑證
    (一)數據孤島問題 隨著數字經濟和大數據產業的發展,政府和企業都產生了大量的數據。「數據孤島」是指金融機構面臨的數據共享困境,由於缺乏數據共享激勵機制、數據共享交換協同機制、數據共享隱私保護機制,導致海量數據散落在眾多機構和信息系統中,形成一個個的「數據孤島」。
  • 如何優化Web應用數據訪問實現方式以提高軟體應用系統的響應性能
    軟體項目實訓及課程設計指導——如何優化Web應用數據訪問實現方式以提高軟體應用系統的響應性能在軟體應用系統中離不開數據訪問和數據處理兩個方面的功能,而數據處理之前首先要進行數據訪問,也就是只有快速地獲得了數據,才能進行下一步的數據處理。
  • Google Cloud推出基於Apigee和AppSheet的業務應用程式平臺
    【TechWeb】與某些競爭對手不同,Google雲最近開始強調如何將其大量的不同服務組合在一起以解決常見的業務問題。Google並未嘗試出售單獨的服務,而是專注於解決方案,這裡的最新成果是其所謂的業務應用程式平臺,該平臺將Apigee的API管理功能與Google 早先收購的AppSheet的無代碼應用程式開發平臺相結合。
  • 如何使用Google Play應用程式來掃描QR碼
    打開APP 如何使用Google Play應用程式來掃描QR碼 教育新聞網 發表於 2020-04-21 23:04:37 (文章來源
  • 有史以來25個最偉大的Java應用程式
    該應用程式可以為任何行星月球系統或小行星生成多維視圖和模型,並在密集的視覺搜索中過濾數百萬個點。3. NASA WorldWind。NASA發布了開源的WorldWind,這是一個虛擬地球的SDK ,所有人可以免費使用,該程序可以使程式設計師將美國航天局的地理渲染引擎添加到自己的Java,Web或Android應用程式中。
  • 華為mate30pro如何關閉程序,關閉應用程式的方式
    當手機後臺運行的程序比較多時,手機就會出現卡頓的現象,長時間的運行大量程序,也會對手機造成一定的損壞,因此在使用手機的過程中,應及時的關閉一些不使用的程序,保護手機的運行系統,那麼華為mate30pro如何關閉程序呢?今天就來講解一下關閉應用程式的方式吧。
  • 達濟AIEngine打通企業數據孤島
    系統煙囪應用會造成部門牆、組織隔離、產業孤島,讓產業中沒一個企業的業務無法順暢流轉運作。2.數據孤島因為系統煙囪的存在,每個應用系統的業務管理數據孤孤單單;系統之間數據沒有關聯、業務流程不能實現,沒有打通,系統之間的數據就像一座座孤島,彼此獨立而且無法對比或交叉驗證;企業數據的質量、價值就比較低,數據價值的挖掘意義就不大,數據孤島已經、正在造成嚴重的企業問題、產業問題、社會問題。
  • 理解數據類型:每個數據科學愛好者都應該知道的數據結構
    由於基礎設備不斷進步,現在可以擁有多個數據源,如傳感器、CRMs、事件、文本、圖像、音頻和視頻。現在的大量數據中,大部分是非結構化的,即沒有預定義模型/結構的數據。如圖像,是像素的集合,文本數據是沒有預定義儲存模型的字符序列,以及用戶在Web應用程式上操作的點擊流。
  • 應用程式無法正常啟動0xc000007b如何解決
    電腦提示應用程式無法正常啟動0xc000007b如何解決呢?我們玩一些遊戲時偶爾就會出現一些應用程式無法正常啟動0xc000007b的提示,解決0xc000007b錯誤的方法其實很簡單,今天小編就將0xc0000007b解決方案分享給你們。
  • 「半路出家」的Kaggle Grandmaster:如何正確打開數據科學競賽?
    通常,你需要了解在工業中作為數據科學家或軟體開發人員工作的事情,你可以自己學習這些你沒法在大學學習的東西。人們在學到的大部分有關工業界中應用的東西公司的全職工作中獲得。在我寫我關於理論物理和數據科學的研究的論文時,我試著找一份工業界的工作,但是很難。
  • 觀花|「FAIR原則與科學數據管理與應用服務」研討會
    01會議簡介為迎接數據管理與服務的挑戰,提供科學數據跨學科和跨倉儲的交流平臺,促進科學數據服務於科學研究和科技創新和交流分享各類應用案例,實現科學數據管理的FAIR原則目標,提升科學數據服務研究及實踐能力,12月5日-6日,中國科學院文獻情報中心在線召開「FAIR原則與科學數據管理與應用服務」學術研討會背景知識FAIR原則:FORCE11社區(一個由學者、圖書館員、檔案管理員、出版商和研究資助者組成的旨在促進知識的創造與分享非營利性組織
  • Mac小技巧|如何提取 Mac 應用程式圖標
    我經常會去網上搜索高質量的 Mac 應用程式的圖標圖片,有時候找到的圖片並不能滿足我的要求,通常情況下很難找到完美的,因為多數圖片都不是背景透明的,還需要進一步做後期處理,麻煩極了。本教程將著手於 OS X 應用程式本身,接下來我講一講如何提取出全尺寸的圖標圖片文件(.png 格式)。如何提取 Mac 應用程式的圖標第一步:打開 Finder,選擇「應用程式」文件夾,找到並選中需要提取圖標的應用程式(本次我以 Luminar AI 應用程式為例子)。
  • 谷歌為什麼不更新其iPhone應用程式了?
    新的應用程式隱私標籤就像你習慣於在食品和飲料上看到的營養標籤一樣。開發人員必須列出他們的應用程式可以收集或跟蹤的用戶數據,並向用戶請求權限。這項功能是在去年6月WWDC上宣布通過ios14更新後發布的。Facebook對蘋果此舉大做文章,指責蘋果損害了小企業和免費網際網路。反過來,Facebook受到了用戶、員工和EFF的批評。後者甚至呼籲谷歌效仿蘋果並為Android推出類似的功能。
  • 一個類似於iPhonePhotoswap應用程式的Android應用程式
    如果應用程式以空白屏幕開頭,因為沒有默認圖像,請不要擔心,只需按菜單鍵即可開始。Ive開發了一個類似於iPhone Photoswap應用程式的Android應用程式。對於那些不知道的人,Photoswap允許您拍攝照片並將其發送給隨機的人,作為回報,您將獲得隨機的照片。然後,您可以與接收照片的人進行圖片對話。
  • 歲末盤點,看IBM現代化架構如何「翻篇」?
    站在2019年的末尾回望,這也是IBM Systems為了幫助企業更好地架構未來,持續走向現代化、走向開放的一年,IBM Systems基於AI規模應用和混合多元兩大未來趨勢判斷提出的現代基礎架構走向深入,不管是在主機還是存儲方面,都有重磅產品支持現代化架構的落地,切實幫助企業乘混合多雲之風,真正邁向數位化重塑新階段。
  • Mac軟體卸載_如何從Mac上的啟動臺Launchpad刪除應用程式
    如果從Mac Apps Store下載應用程式,您將知道可以在啟動時從啟動板監視其進度,然後單擊以打開它們。但是,如何從啟動板中刪除應用程式呢?請仔細閱讀,找出答案。什麼是啟動臺?顧名思義,Launchpad是macOS的啟動器。