了解數據科學孤島如何破壞應用程式現代化,並了解構建智能應用程式為何需要智能團隊建設。
現在是時候改造現代化了
我經常與在其組織中管理定製應用程式的業務主管進行對話。當話題集中在現代化這些自定義且通常為舊版的應用程式時,他們常常自豪地聲稱正在進行現代化,並向我解釋說他們正在遷移到雲中,也許將應用程式容器化,並且如果雄心勃勃,則重新構建應用程式以利用以下優勢微服務。
儘管這些都是值得的努力,但我很少觀察到這些努力在業務成果方面起了很大作用。出現在雲上不會改善營銷應用程式中的個性化,也不會減少保險系統中的欺詐性索賠,也不會優化製造商的供應鏈。應用程式肯定會更加敏捷。是的,那些容器編排和自動化方面的進步以及微服務重構可能能夠使開發人員提高生產力,但是如果有的話,它們很少最終會從根本上改變或改進應用程式本身。因此,儘管雲遷移和容器化很重要,但是什麼能真正推動業務成果發展的更具影響力的現代化呢?
為此,我認為有必要充分利用可用的大量數據源,並使用新的外部數據對應用程式進行增壓,然後使用這些數據來訓練能夠使應用程式適應經驗的機器學習模型。下一代的現代化將預測模型注入到應用程式中,以預測將來的某個特定結果,以便應用程式可以採取相應的措施。
構建智能應用程式需要智能團隊建設
但是,這就是磨擦。當公司嘗試使用AI和ML進行現代化改造時,他們的團隊通常組織得很差。
實際上,當您向IT應用團隊中的任何人提到AI或ML時,他們都會立即將您引導到數據科學團隊或數據湖團隊。這是筒倉的第一個跡象。這通常意味著能夠管理大量數據並「進行數學運算」的機器學習人員處於孤島。他們沒有採取行動-應用程式與客戶,供應商,員工等進行交互。這是從業務中移除的第一步。最近,當我與一家保險公司的數據科學團隊負責人會面時,他們說阻礙他們的工作正常運轉的一件事是應用團隊缺乏參與。
這對現代化產生了深遠的負面影響。我們最近從技術角度討論了其中一些問題(請參閱有關Hadoop發生了什麼的博客)。但是在這裡,我想重點關注人員和流程。從人員和過程的角度來看,筒倉如何影響現代化?
我的觀點是,將AI注入應用程式的現狀通常是由AI團隊發起的。他們從某個數據湖中獲取數據。他們創建了論文並嘗試了許多模型。有時,他們會根據可用數據在真空中創建這些模型。他們運行特徵,算法和參數的許多排列,如果做得好,他們將使用準確性指標正確地測量實驗,這些準確性指標可以客觀地衡量模型在測試集中預測新示例的程度。關於機器學習的實驗性最佳實踐的最佳讀物之一是Andrew Ng的新書《機器學習的渴望》。
但是這是重點。AI或數據科學團隊的設備不足,無法獨立完成工作。他們只是對業務或應用程式沒有足夠的深入了解,這些知識將無法部署模型以導致交付業務成果的生產運營。這對數據科學家來說一點也不難。我曾經是一個。但是成功團隊的秘訣在於多樣性。數據科學是一項團隊運動。數據科學家需要與了解業務和應用程式的人們並肩工作。這就是為什麼。
合適的團隊可以創造合適的功能
我多年來的觀察結果是,許多機器學習問題沒有像圖像,聲音,視頻和其他信號處理問題那樣的大量訓練示例,並且在這種情況下,預測信號來自爭奪數據的數據科學家。尋找產生一些預測信號的真正好的屬性。通常,數據科學家會以獨特的方式組合數據元素,或者最重要的是匯總數據。這些轉換後的數據屬性是數據科學家稱之為特徵的特徵,它們一起形成了特徵向量,這些特徵向量是監督或分類算法或非監督聚類算法的輸入。我認為,這整個過程稱為特徵工程,是處理企業結構化數據的實用ML項目成功的關鍵因素。
許多數據科學家撰寫了有關算法的中級文章,例如決策樹,隨機森林,boosting算法,貝葉斯算法或深度學習替代方案,儘管它們確實對模型精度產生影響,但獲得更好的預測信號的最有效方法是獲得正確的數據。例如,RFM轉換是關鍵-新近度,頻率和貨幣價值。這是將交易或行為數據轉換為某人最近進行交易或拜訪的頻率,頻率或平均花費(時間或金錢)為多少的過程。
在媒體個性化方面,公司經常以特定用戶訪問特定站點(例如豪華鞋品牌)為事實。但這是騙人的。事實證明,如果您使用訪問特定網站的時間(例如48小時內),則可以大大提高廣告的轉化率。您必須獲得代表的正確功能才能執行模型!
新近度是轉換的一個簡單示例。去年夏天,我們很幸運地收到了國際多發性硬化症會議(ECTRIMS)的摘要,以便與我們的客戶Precision Innovative Network(PIN)合作,該網絡將獨立的神經病學診所聯網在一起,以在非確定患者。該公司將為製藥公司,機器學習顧問以及預測疾病軌跡的診所提供寶貴的臨床研究數據。
在這個項目中,我們組成了一個由數據工程師組成的跨學科團隊,以準備數據,由數據科學家進行實驗以及作為主題專家的PIN創始人之一神經學家Mark Gudesblatt博士。Gudesblatt博士能夠將深厚的醫學知識轉化為我們可以用於特徵工程師的語言。我們從未想像為數據科學家的功能的一個示例是對患者負面影響的認知域(例如,記憶力,注意力,執行功能,視覺空間)數量的匯總(以標準差作為衡量標準)的意思)。當殘疾跨越功能網絡時,它與疾病的軌跡高度相關。
如上所述,我們與PIN的合作體現了不同團隊合作的價值。最初,數據科學家,數據工程師和主題專家正在推動該項目,而應用程式開發人員和業務分析師將大量參與項目的後續階段。
儘早吸引您的應用程式開發人員
當然,應用程式開發人員是團隊的關鍵組成部分。沒有它們,您將永遠無法弄清楚如何將模型注入業務邏輯。他們將幫助您回答重要問題,例如:
應用程式將如何使用預測分數來更改業務邏輯?從應用程式中提取數據的頻率如何,並用於重新訓練模型以使其保持最新狀態並反映當前狀況?重新訓練的模型何時,如何替換舊模型?如何監控模型行為的準確性?是否需要恢復為舊型號?如何將最新數據用作模型的輸入,以便它不會對過時的數據做出決策?不要等到建模項目結束時才將應用程式開發人員引入。從一開始就讓他們成為項目的一部分,以確保考慮到所有操作細節,並從整個過程中消除了儘可能多的延遲,以便模型準確反映了現實世界。
用功能工廠創建實驗文化
我將在以後的文章中詳細介紹這一點,但是關於ML項目,甚至可能比將主題專家和應用程式開發人員納入數據科學和數據工程團隊中更為重要。關鍵是要做好ML,您必須在公司中營造一種試驗文化,並且您必須意識到ML項目沒有上線日期,也沒有移交要維持生命的操作的機會。這是一個持續不斷的實驗過程。
實際上,團隊需要保持參與以創建我喜歡的功能工廠。功能部件工廠正在不斷尋求增強信號的新功能。不幸的是,市場在變化,不良行為者不斷創新,氣候在變化,競爭者也在變化等等。上線時的最佳特徵向量可能會在2個月後或更糟(明天)產生噪聲。因此,秘訣是保持多樣化的團隊完整無缺,經常評估已部署的模型,最重要的是,使它們儘可能高效地嘗試新功能。
結論
總之,在對自定義應用程式進行現代化改造時,不要只停留在容器化或遷移到雲上。將具有機器學習功能的智能注入到應用程式中,以不斷改善業務成果。本身不要創建數據科學組織。與數據工程師,數據科學家,應用程式開發人員和運營商,主題專家和分析師一起創建「現代化的SWAT團隊」。採用使這些團隊能夠構建實驗文化的工具和流程。