【新智元導讀】現在國外現初創公司最頻繁使用的機器學習工具是什麼?本篇文章詳細總結,帶你全方位了解,想快速坐上人工智慧順風車的小夥伴們,請抓穩了!
有想法有創意,想快速自行發起項目?還在海量的工具包、軟體、平臺、庫和各種插件上毫無頭緒地尋覓?想加入初創公司一展身手,卻找不到補課切入點?
苦苦自學卻最後發現竟然是冷門技術?總是發愁資料掌握並不齊全?感嘆AI實戰技術發展太快,自己總是落伍?那這篇文章或許就很適合你!
機器學習工具,初創公司最愛哪款?
近日,Reddit上一則帖子火了:發帖者詳細總結了近幾年初創公司的機器學習團隊在各個環節使用的機器學習工具,從軟體開發設置IDE,機器學習框架,到實驗管理,可視化工具等等。
評論區也一片火爆,大家紛紛作出補充,極大的豐富了現有最新主流資源。
小夥伴們都知道,挑選最佳的各種工具,為機器學習團隊建立起良好的工作棧,對於提高項目工作效率以及按時交付工作來說,非常重要。
如果小夥伴中有人在初創公司工作過,就會對建立起一個可以隨團隊進步,用戶需求來快速發展的機器學習環境有著更加深刻的體會。
這裡我們正好為大家做個總結,將當前主流初創公司使用的,前沿的,時興的各種軟體和插件,平臺,工具包,算法等等,分享給大家!
為了使結構更加清晰,接下來,我們會將內容分成下面幾個主題,一一介紹:
軟體開發設置(Software Development Setup)
機器學習框架(Machine Learning Frameworks)
機器學習模型管理(MLOps)
其他
軟體開發工具Jupyter最熱
相信大家都有這麼一種感覺:開發環境是每個團隊工作流程的基礎,因此,如果能了解在世界範圍內,大部分公司認為的最佳工具有哪些,那就最好不過了!
IDE(集成開發環境)
對於集成開發環境(IDE),主要有兩個陣營:
1 Jupyter Lab+NB擴展(偶爾帶有Neepnote)+Colab
2 Pycharm/VScode
(PS:當然,R Studio顯然是R用戶的忠實選擇)
版本控制(Version Control)
那當然是每個程式設計師的家園—Github啦哈哈哈!
機器學習語言
經過統計,Python成為了最經常使用的語言,同時,還有一部分開發者在使用R語言~
機器學習經典框架依然受歡迎
面對花樣百出,種類繁多的選擇,現在海外的主流初創公司最經常使用的機器學習框架和庫都有什麼呢?
可視化:Pandas+Matplotlib+Plotly
這三個大名鼎鼎的工具包就不需要過多介紹了吧~這些工具可真的稱得上機器學習可視化利器了。
除此之外,研究者還經常使用Altair( Python )和Hiplot( R, 超參數可視化 )
經典算法庫:Sklearn+XGBoost
這兩款機器學習庫,包含了初創公司最經常使用的經典算法,也算是爆款工具了。
深度學習:Tensorflow+Keras 或Pytorch
大火的Tensorflow和Pytorch終於出場了~相信任何一個搞深度的朋友都已經無比熟悉了吧。有的時候,在同一家公司的深度學習項目中中,這兩種框架會出現同時存在的情況。
在這裡,值得注意的是,越來越多的正在更加頻繁地使用Pytorch訓練庫,比如Lightning, Ignite, Catalyst, Fastai和Skorch。
善用編排工具,管理好你的機器學習模型
看到這裡,你可能在想:「什麼是MLOps」,或者「為什麼要關心這個玩意兒??」
其實,這個術語其實在指DevOps,在這裡,用來描述用於機器學習活動和操作的工具。
那下面就來看看初創公司到底在用什麼工具來進行機器學習的DevOps吧:
編排工具:Kubeflow,Airflow,Amazon Sagemaker,Azure
模型封裝&部署:Kubeflow, MLflow, Amazon SageMaker
從訓練到推斷:Pytest-benchmark, MLperf
當開發人員將訓練好的模型用於實際情況下的推斷時,就會主要使用這兩個工具對模型進行分析和優化。
實驗管理:MLflow, Comet, Neptune
為了進行實驗跟蹤,研究者常常使用這些工具,除此之外,我們還能看到TensorBorad和Scared等等之類的開源軟體包。
有小夥伴還在評論裡補充了Google Sheet。
整個機器學習流程,還是人最重要
相信上面的很多工具,比如Pytorch和Pandas,Jupyter Lab等等,已經在大家的預期之內了,那在對初創公司的採訪中,還有什麼在預期之外呢?
Wetware
在我們說這個到底是個啥之前,大家可以往後退一步,跳脫出具體的某個庫某個框架,來從大局來看看:
初創公司Trust Insights的Christopher Penn說到,任何機器學習團隊都會使用一種相當有趣的「工具」
——"溼件(Wetware)"——它位於您兩個耳朵之間,是硬體和軟體的組合,這是您擁有的最重要,最有用,最強大的機器學習工具「
到目前為止,太多人們希望AI是一把無所不能的魔杖,在幾乎不需要人類輸入的情況下,它可以解決一切問題。但是,反之亦然,人工智慧比以往任何時候,都需要更多的管理和審查,因為,我們對複雜模型缺乏足夠的了解。
在網絡上爆發大量關於偏見和歧視的醜聞之後,可解釋性是人工智慧研究人員當前面臨的最大挑戰。
人工智慧供應商通常專注於模型的事後(post hoc)解釋(和具有內在可解釋性的模型相比,事後解釋就好比先訓練一個黑盒模型,比如一個深度網絡,然後應用一些可解釋的方法,比如度量特徵重要性,來作出「解釋」),而不是在模型中構建解釋和檢查點。
所以呢?溼件(Wetare)——也就是人類,將是2020年,以及未來人工智慧發展中,最有用的工具。
那直接說「多用腦子」不得了,還發明一個專業名詞,果然顯得高大上了一些...嗯,矽谷某些初創公司的腦迴路就是不一樣!
好啦,看到這裡,大家還有什麼想補充的嗎?如果大家還有什麼在實操中覺得特別好用的,可以留言評論哦~
本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
(責任編輯:張洋 HN080)