本產品由和鯨科技投遞並參與「數據猿年度金猿策劃活動——2020大數據產業創新服務產品榜單及獎項」評選。
ModelWhale 是和鯨科技自主研發的一款數據科學雲端協作工具,為數據工作者提供了即開即用的雲端分析環境,用戶可以高效地完成數據管理、編程分析、模型訓練、模型管理、資源管理、任務管理等工作。此外, Jupyter Notebook 交互式和 Canvas 拖拽式兩種分析界面,還可支持團隊間的代碼級協作與高效的成果流轉,更有效地挖掘和利用數據價值,令數據科學團隊的工作更加輕鬆、便捷。
應用場景/人群
目前,基於「社區+工具」的商業模式,和鯨的「數據科學協同平臺」覆蓋高校、科研機構、企業三大場景。中國氣象局國家氣象信息中心、醫學信息研究所、鵬城實驗室、IBM、中國聯通、平安科技、百度、攜程、快手、拍拍貸、同盾科技、好未來等企業已在部分業務場景中使用了和鯨社區和 ModelWhale 工具進行數據價值的創造。
以醫學信息研究所為例,此機構擁有著豐富的文獻資源、醫學特色資源和醫藥衛生科學數據,並且希望能充分發揮醫學數據的價值,建成能夠對海量醫學數據進行分析和建模的醫學數據挖掘平臺,助力行業培養更多專業的醫學數據挖掘人才。同時,讓研究所的科研人員快速進行數據建模、數據挖掘、模型訓練等工作,最大化釋放醫學數據的研究價值,和鯨為其搭建了一個教學和科學研究一體化的醫學數據挖掘平臺,此平臺依託於 ModelWhale 可按需配置應用模塊的定製化功能,通過給學生和科研人員帳號配置不同模塊,實現教學和科研功能的區分,並幫助學院領導與導師在一個平臺完成科研任務、教學任務的統一和協同管理。有效提升信息所內部教學和科研工作開展效率的同時,也構造了良好的人才培養和科研轉化生態圈。
●ModelWhale 科研版
基於量化的科研生產與協作需求,為科研機構及團隊提供的科研協作平臺。支持 GPU、CPU 算力升級調用,提供開箱即用的 Python、R、Julia 語言生態,具備完善的論文生產功能,便捷的團隊協作分享機制和一體化代碼文獻管理。幫助導師精準把控項目細節,加快研究進度,讓團隊成員擺脫繁複的基礎工作,迅速進入研究重要階段,大幅提升科研探索效率和論文質量。
隨著科研數據體量、維度的大幅增加,科研課題的多元化。科研團隊對於數據處理和團隊協同難度逐漸提高,需要引入大量雲資源,並需要為團隊提供統一的協作系統,這不僅需要進行繁複的基礎工作,對於一些沒有計算機背景的團隊成員更是十分困難。從硬體到軟體,為科研實驗室專門配置一套高性能計算能力的設備往往需要花費上百萬甚至千萬,而硬體技術的快速更迭使得高性能計算集群頻繁換代,帶來潛在且不菲的更新成本。
和鯨科技旗下的數據科學工具 ModelWhale 科研版,不僅提供了Python、R、Julia 語言的豐富生態,覆蓋了上百種主流數據分析工具功能,也為團隊提供了統一的雲計算環境,只需一鍵環境配置和項目分享,從數據到模型甚至論文報告都可以一鍵共享,完成無縫實時協作。和鯨ModelWhale 科研版,實際上提供了一整套完整的數據科學相關科研解決方案。
對於科研導師來說,ModelWhale 科研版能夠幫助導師精準把控項目細節,加快研究進度,讓團隊成員擺脫繁複的基礎工作,迅速進入研究重要階段,大幅提升科研探索效率和論文質量。同時也讓科研團隊直接跳過瑣碎的運維管理,從繁重的基礎工作中解放,無需任何硬體部署和運維,快速在應用層開展研究工作,根據任務需求彈性調度雲算力,既高效又經濟。
具備雲資源彈性調度、開箱即用的環境配置、交互式編程、便捷的代碼庫、豐富的學習資源、多人實時在線協作、任務與權限靈活管理、論文復現等諸多優勢的 ModelWhale 科研版,不僅在深度學習等前沿科研領域有著很好的應用前景,在歷史、社科和經濟學這些人文學科也有著豐富的應用。據悉,ModelWhale 科研版推出後,受到了眾多高校與科研機構的廣泛關注,並已經在國內的頂級高校如清華大學、上海交通大學的科研團隊中得到應用。
●ModelWhale 教育版
除了科研版之外,和鯨還推出了 ModelWhale 教育版,包括實訓教學平臺、管理平臺、課程體系、課程內容、實訓項目、優質師資與師資培訓、就業與企業需求對接等全方位服務,使得數據科學的教學工作更加簡單高效,大幅提高學習效果與就業水平。教育版已被清華大學、北京大學、中國人民大學、上海交通大學、同濟大學等知名院校以及中國醫學科學院採用,作為在「數據科學與大數據技術」專業以及相關輔修專業、交叉學科中的數據科學教學平臺。
ModelWhale 教育版基於高校的學科建設與發展需求,為高校提供數據科學與人工智慧一站式教學解決方案,包括實訓教學平臺、管理平臺、課程體系、課程內容、實訓項目、優質師資與師資培訓、就業與企業需求對接等全方位服務,使得數據科學的教學工作更加簡單高效,讓學生擺脫純理論教學的桎梏,快速融入到實戰式學習中,大幅提高學習效果與就業水平。
產品功能
一、數據管理
●數據源接入:用戶可將分析所需的各類格式數據文件上傳至 ModelWhale ,進行安全統一的管理、展現與共享,也可遠程訪問資料庫直接調取使用,無需下載、存儲與重複維護等繁瑣流程。文件形式數據可以以數據集形式進行管理。對於結構化數據文件,可自動生成描述性統計、頻數可視化分布;對於關係型資料庫可在線查看、篩選各資料庫表與詳細欄位。
●數據源管理:ModelWhale 支持配置與管理不同數據源的訪問路徑、使用權限、描述文檔等信息。使用權限上,支持以用戶組形式對使用權限進行統一管理。針對數據集形式的數據源,掛載分析時可自動將該數據加載到分析環境中;針對資料庫形式的數據源,在分析時將自動在環境中嵌入訪問憑證,然後進行遠程訪問,避免出現訪問憑證的安全洩漏。
二、分析工具
●Notebook 交互式分析:ModelWhale 提供針對數據分析流程進行專業優化的Jupyter Notebook 環境,支持版本管理、變量管理、資源監控等專業功能,擁有不斷更新的數據科學常用算法代碼片段,涵蓋數據分析處理、可視化與常用模型功能,支持 Cell 輸入輸出的隱藏發布、PPT 模式演示、HTML、PDF 格式導出等多樣化的呈現方式。
●Canvas 拖拽式分析:ModelWhale 可基於圖形化、組件化的操作進行數據預處理、數據可視化、統計分析、機器學習建模工作,並支持一鍵轉換為 Notebook 進行深度代碼分析,幫助團隊快速搭建分析流程,進一步提升數據工作效率與體驗。
三、模型管理
●模型解析:ModelWhale 支持對主流機器學習框架輸出的模型文件進行可視化解析,用戶能夠直觀的獲取模型的內部結構,查看模型組成、模型結構以及每層網絡節點的輸入、輸出和對應的參數說明。
●訓練記錄:ModelWhale支持對每次模型訓練記錄當次使用的數據、運行的代碼、訓練過程中關注的參數以及運行中的性能情況進行查看,通過對比分析模型在訓練過程中的各種重要評價和硬體使用情況,進一步優化大規模模型訓練成本。
●模型服務:ModelWhale 支持將產出的模型文件通過一鍵部署的方式構建 RESTful API 服務。該服務以 API 的形式呈現,使得平臺內開發者能夠基於 API 進行模型的開發或調用,通過即時調用獲取推斷結果。此外,用戶還可將已經部署的服務,例如數據讀取、數據推斷、數據可視化等靈活組合,構建新的服務供其他研究人員調用,以提高服務的便捷性和可復用性。
四、協作管理
●任務規劃:ModelWhale 可進行任務拆解與分配、進度交流與分享,輕鬆同步團隊進展;用戶資料與成果在知識庫中可輕鬆沉澱與梳理,方便協作者直接查看與使用。
●代碼式協作:ModelWhale 可在項目中添加協作者實現團隊協同,團隊間可針對每個代碼塊的分析結果進行討論和批註,甚至一鍵輕鬆 Fork 他人代碼,實現 Notebook cell 級別代碼版本的比對與合併,還可定義項目輸出功能,支持基於數據和模型產出的工作流。
五、計算引擎
●鏡像管理:ModelWhale 為用戶提供即開即用的 Python 與 R 語言開發環境,並提供統一使用的數據科學鏡像,鏡像中包含常用機器學習框架與數據分析研究過程中的常用工具包,支持用戶根據分析需求快速構建自定義鏡像,以滿足不同應用的分析需求。
●彈性算力調度:ModelWhale 提供基於 Kubernetes 的調度服務,每次項目運行時將從對應實例類型的集群中,調度對應配置的機器並提供計算服務。當項目關閉後,可以自動釋放運算資源,使資源能夠服務於其它業務,實現計算資源利用率和可復用性的有效提升。SaaS 模式支持跨雲調度 AWS、阿里雲、華為雲、騰訊雲的計算資源,私有化模式可支持在公有雲和私有雲環境的獨立部署。
●離線訓練任務:ModelWhale 離線訓練任務可支持調度單機 CPU 實例、單機 GPU 實例與分布式 GPU 集群算力,用戶可指定實例類型、Notebook、鏡像進行離線訓練,實時返回訓練結果以及訓練過程中的資源使用情況,並將訓練結果在系統內進行同步與保存。GPU 集群支持基於 Horovod 的環狀規約(Ring - AllReduce)架構下的分布式機器學習方法,它是高性能計算中常用的技術,相比傳統的參數伺服器架構,它可以顯著分散網絡傳輸的壓力,且隨著集群的規模增大性能線性增加。用戶只需修改少量的單機代碼就可以將訓練腳本改為分布式的版本,大大優化調試成本。
產品優勢
細粒度的權限管理
對數據、算力、項目、成員進行細粒度的權限管理,保證企業內部的數據安全;通過自動測評模塊高效管理算法模型,實現對算法的生命周期管理。
功能豐富的專業化分析界面
ModelWhale 通過自主研發的Notebook、Canvas可直觀呈現研究過程,模型解析功能讓成果更好地被詮釋,雲端分析環境支持研究結果一鍵復現。
業界領先的資源調度能力
統一的開發環境:ModelWhale 在容器中預安裝所有主流數據科學的算法和框架,數據科學家一方面可以開箱即用地使用自己已經熟悉的算法,同時能夠實時與他人同步自己的分析成果;提供實時存儲的文件系統,雲端保存數據分析的中間結果。
拖拉拽式編程
Modelwhale提供拖拉拽的Canvas模塊化編程組件,組件搭建後,數據小白也可以輕鬆修改參數完成工作。
使用客戶/人群
和鯨科技的核心產品 ModelWhale ,擁有了出色的用戶體驗和產品口碑,贏得了包括了中國氣象局國家氣象信息中心、醫學信息研究所、金風科技、鵬城實驗室、清華大學、上海交通大學、同濟大學、華東師範大學、中國電信、中國銀聯、中電科等在內的,國內最優秀的一批機構客戶的信任。使用人數已超100萬人次。
市場價值
資料經驗分享,節約學習成本
ModelWhale 數據科學雲端協同平臺可支持一鍵分享自己的學習經驗、人工智慧算法及數據集,形成和鯨社區(目前已覆蓋了130,000+優質數據人才)的開放學習文化,方便社區內的成員互相幫助及分享研究成果,從而可加速人才提升,並降低學習成本。
協作效率提升,人力消耗降低
ModelWhale 數據科學雲端協同平臺是基於雲技術的原生平臺,方便協作並能夠提升數據科學技術的運用效率,可減少人工智慧研發人員在協作過程中產生的相關人力資源浪費。
分析門檻降低,數據價值擴大
ModelWhale提供便捷的代碼片段收藏與調用功能,更有拖拽式編程界面,降低數據科學技術使用成本,同時提供拖拉拽的Canvas模塊化編程組件,組件搭建後,數據小白也可以輕鬆修改參數完成工作。
智能人才匹配,減少時間浪費
通過基於 ModelWhale 的人工智慧及數據科學競賽以及眾包項目,能夠為企業更加精準、快速的找到最合適的人才,大幅降低人才與企業需求的匹配成本。
創新兼顧風險,試錯成本可控
ModelWhale 的人工智慧及數據科學競賽與眾包項目,能夠充分利用全社會人才之智,在降低人工智慧創新成本與風險的同時,最大化的產出優秀成果,促進企業的業務創新與增值、提升企業的核心價值,從而推動企業快速發展。
產品所屬企業·和鯨科技:
和鯨科技(主體為「上海和今信息科技有限公司」)2015年4月創始於上海,是愛分析評選的「中國數據智能創新企業50強」,專注於「數據科學協同平臺」的數據智能科技公司,以「connect people with data 數據與人的高價值連結」為使命,專注於挖掘商業數據和數據人才的價值。
和鯨社區(原「科賽網」)是中國知名的第三方數據科學社區之一,最早一批專注於大數據算法比賽的平臺,擁有近13+萬註冊數據科學家用戶,輻射超過30萬數據人才群體。和鯨科技旗下的ModelWhale(原K-Lab),是具備國際領先性的數據科學SaaS平臺,可滿足數據科學家、人工智慧工程師、商業分析師等數據工作者在線完成分類、建模、分析、可視化、結果輸出等任務,並支持私有化部署和雲端協同,幫助企業、高校、科研機構開展工業級數據科學應用與人工智慧研發。