機器學習團隊常用工具總結,人生苦短,我用Python!

2020-12-11 和訊科技

 

  【新智元導讀】現在國外現初創公司最頻繁使用的機器學習工具是什麼?本篇文章詳細總結,帶你全方位了解,想快速坐上人工智慧順風車的小夥伴們,請抓穩了!

  有想法有創意,想快速自行發起項目?還在海量的工具包、軟體、平臺、庫和各種插件上毫無頭緒地尋覓?想加入初創公司一展身手,卻找不到補課切入點?

  苦苦自學卻最後發現竟然是冷門技術?總是發愁資料掌握並不齊全?感嘆AI實戰技術發展太快,自己總是落伍?那這篇文章或許就很適合你!

  機器學習工具,初創公司最愛哪款?

  近日,Reddit上一則帖子火了:發帖者詳細總結了近幾年初創公司的機器學習團隊在各個環節使用的機器學習工具,從軟體開發設置IDE,機器學習框架,到實驗管理,可視化工具等等。

  評論區也一片火爆,大家紛紛作出補充,極大的豐富了現有最新主流資源。

  小夥伴們都知道,挑選最佳的各種工具,為機器學習團隊建立起良好的工作棧,對於提高項目工作效率以及按時交付工作來說,非常重要。

  如果小夥伴中有人在初創公司工作過,就會對建立起一個可以隨團隊進步,用戶需求來快速發展的機器學習環境有著更加深刻的體會。

  這裡我們正好為大家做個總結,將當前主流初創公司使用的,前沿的,時興的各種軟體和插件,平臺,工具包,算法等等,分享給大家!

  為了使結構更加清晰,接下來,我們會將內容分成下面幾個主題,一一介紹:

  軟體開發設置(Software Development Setup)

  機器學習框架(Machine Learning Frameworks)

  機器學習模型管理(MLOps)

  其他

  軟體開發工具Jupyter最熱

  相信大家都有這麼一種感覺:開發環境是每個團隊工作流程的基礎,因此,如果能了解在世界範圍內,大部分公司認為的最佳工具有哪些,那就最好不過了!

  IDE(集成開發環境)

  對於集成開發環境(IDE),主要有兩個陣營:

  1 Jupyter Lab+NB擴展(偶爾帶有Neepnote)+Colab

  2 Pycharm/VScode

  (PS:當然,R Studio顯然是R用戶的忠實選擇)

  版本控制(Version Control)

  那當然是每個程式設計師的家園—Github啦哈哈哈!

  機器學習語言

  經過統計,Python成為了最經常使用的語言,同時,還有一部分開發者在使用R語言~

  機器學習經典框架依然受歡迎

  面對花樣百出,種類繁多的選擇,現在海外的主流初創公司最經常使用的機器學習框架和庫都有什麼呢?

  可視化:Pandas+Matplotlib+Plotly

  這三個大名鼎鼎的工具包就不需要過多介紹了吧~這些工具可真的稱得上機器學習可視化利器了。

  除此之外,研究者還經常使用Altair( Python )和Hiplot( R, 超參數可視化 )

  經典算法庫:Sklearn+XGBoost

  這兩款機器學習庫,包含了初創公司最經常使用的經典算法,也算是爆款工具了。

  深度學習:Tensorflow+Keras 或Pytorch

  大火的Tensorflow和Pytorch終於出場了~相信任何一個搞深度的朋友都已經無比熟悉了吧。有的時候,在同一家公司的深度學習項目中中,這兩種框架會出現同時存在的情況。

  在這裡,值得注意的是,越來越多的正在更加頻繁地使用Pytorch訓練庫,比如Lightning, Ignite, Catalyst, Fastai和Skorch。

  善用編排工具,管理好你的機器學習模型

  看到這裡,你可能在想:「什麼是MLOps」,或者「為什麼要關心這個玩意兒??」

  其實,這個術語其實在指DevOps,在這裡,用來描述用於機器學習活動和操作的工具。

  那下面就來看看初創公司到底在用什麼工具來進行機器學習的DevOps吧:

  編排工具:Kubeflow,Airflow,Amazon Sagemaker,Azure

  模型封裝&部署:Kubeflow, MLflow, Amazon SageMaker

  從訓練到推斷:Pytest-benchmark, MLperf

  當開發人員將訓練好的模型用於實際情況下的推斷時,就會主要使用這兩個工具對模型進行分析和優化。

  實驗管理:MLflow, Comet, Neptune

  為了進行實驗跟蹤,研究者常常使用這些工具,除此之外,我們還能看到TensorBorad和Scared等等之類的開源軟體包。

  有小夥伴還在評論裡補充了Google Sheet。

  整個機器學習流程,還是人最重要

  相信上面的很多工具,比如Pytorch和Pandas,Jupyter Lab等等,已經在大家的預期之內了,那在對初創公司的採訪中,還有什麼在預期之外呢?

  Wetware

  在我們說這個到底是個啥之前,大家可以往後退一步,跳脫出具體的某個庫某個框架,來從大局來看看:

  初創公司Trust Insights的Christopher Penn說到,任何機器學習團隊都會使用一種相當有趣的「工具」

  ——"溼件(Wetware)"——它位於您兩個耳朵之間,是硬體和軟體的組合,這是您擁有的最重要,最有用,最強大的機器學習工具「

  到目前為止,太多人們希望AI是一把無所不能的魔杖,在幾乎不需要人類輸入的情況下,它可以解決一切問題。但是,反之亦然,人工智慧比以往任何時候,都需要更多的管理和審查,因為,我們對複雜模型缺乏足夠的了解。

  在網絡上爆發大量關於偏見和歧視的醜聞之後,可解釋性是人工智慧研究人員當前面臨的最大挑戰。

  人工智慧供應商通常專注於模型的事後(post hoc)解釋(和具有內在可解釋性的模型相比,事後解釋就好比先訓練一個黑盒模型,比如一個深度網絡,然後應用一些可解釋的方法,比如度量特徵重要性,來作出「解釋」),而不是在模型中構建解釋和檢查點。

  所以呢?溼件(Wetare)——也就是人類,將是2020年,以及未來人工智慧發展中,最有用的工具。

  那直接說「多用腦子」不得了,還發明一個專業名詞,果然顯得高大上了一些...嗯,矽谷某些初創公司的腦迴路就是不一樣!

  好啦,看到這裡,大家還有什麼想補充的嗎?如果大家還有什麼在實操中覺得特別好用的,可以留言評論哦~

本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:張洋 HN080)

相關焦點

  • 開課吧:「人生苦短,請用python!」給你這幾大理由!
    「人生苦短,請用python!」Python基礎作為一個學習過程式語言的過來人,如果是自己自學編程,我推薦學Python。說說我看到的原因:1、python語法更簡潔,十分舒適基本上我上面列舉的所有程式語言中,python的代碼是最簡潔的看起來,很適合自學,容易理解2、python已經走入中小學課堂,入門難度低有省市已經將
  • python數據挖掘常用工具有哪幾種?
    python有強大的第三方庫,廣泛用於數據分析,數據挖掘、機器學習等領域,下面小編整理了python數據挖掘的一些常用庫,希望對各位小夥伴學習python數據挖掘有所幫助。1. Numpy能夠提供數組支持,進行矢量運算,並且高效地處理函數,線性代數處理等。
  • Python 機器學習庫 Top 10,你值得擁有!
    /preview.html新智元推薦 編譯:優達學員 - kevin 原作:Mantra Malhotra(源文地址見下)【新智元導讀】Python 超越許多其他程式語言,成為機器學習領域中最熱門最常用的程式語言之一。
  • 臥槽,又一款Python神器
    寫Python代碼最頭疼的兩件事是什麼?我一句話總結就是它是一個比Python官方更牛逼的安裝包下載 Anaconda直接在官網下載安裝包, 選擇 Python3.8 的安裝包進行下載,下載完成後直接安裝,安裝過程選擇默認配置即可,大約需要1.8G的磁碟空間。conda 是 Anaconda 下用於包管理和環境管理的工具,功能上類似 pip 和 vitualenv 的組合。
  • 38個常用Python庫:數值計算、可視化、機器學習等8大領域都有了
    一、數值計算數值計算是數據挖掘、機器學習的基礎。Python提供多種強大的擴展庫用於數值計算,常用的數值計算庫如下所示。1. NumPy支持多維數組與矩陣運算,也針對數組運算提供大量的數學函數庫。18. mysqlclient完全兼容MySQLdb,同時支持Python 3.x,是Django ORM的依賴工具,可使用原生SQL來操作資料庫,安裝方式與MySQLdb一致。19. PyMySQL純Python實現的驅動,速度比MySQLdb慢,最大的特點為安裝方式簡潔,同時也兼容MySQL-python。20.
  • python機器學習之使用scikit-learn庫
    scikit-learning庫python庫scikit-learn整合了多種機器學習算法。2007年,Cournapeu開始開發這個庫,但是直到2010年才發布它的第一個版本。這個庫是SciPy(scientific Python,python科學計算)工具集的一部分,該工具集包含多個為科學計算尤其是數據分析而開發的庫。
  • 令人讚嘆的8個Python新手工具!
    3、TheanoTheano是一個較老牌和穩定的機器學習python庫之一,雖然目前使用的人數有所下降。但它畢竟是一個祖師級的存在,一定有它的優點所在。4、SeleniumSelenium 是自動化的最佳工具之一。它屬於 Python 測試的自動化。它在 Web 應用程式中用於自動化框架。支持多款主流瀏覽器,提供了功能豐富的API接口,常被用作爬蟲工具。使用它可以用許多程式語言編寫測試腳本,包括Java、C#、python、ruby等。
  • 手把手教您Python機器學習項目
    你想用Python做機器學習,但你在入門時遇到了麻煩嗎在這篇文章中,你將使用Python完成你的第一個機器學習項目。在這一步一步的教程中,你將:下載並安裝Python SciPy,獲取Python機器學習最有用的包。
  • 2019 必知的 10 大頂級 python 庫
    在 TensorFlow 創建的所有庫都是用 C 和 C++編寫的,但是,它有一個複雜的前端,是用 python 實現的。你的 python 代碼將被編譯,然後在使用 C 和 C++構建的 TensorFlow 分布式執行引擎上執行。實際上,TensorFlow 的應用是無限的,這就是它美妙的地方。
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。
  • 腳踢java,拳打php,年薪百萬的python!該擔心找工作嗎?我勸你冷靜
    針對上面的問題我就打算先對比下幾個點,數據來源於職友集,拉鉤等各大網站對比之前,請讓我先喊一聲1、職位的問題這裡展示了前10名城市的職位個數,毫無疑問,北京、上海這種一線城市是職位最多的,但是一些二線城市也不少
  • 人生苦短,我選C++,Python,還是Java?
    人生苦短,我選C++,Python,還是Java? 很多時候,我們已經看到學生在為工作而選擇一種有價值的程式語言的困境中掙扎。儘管這種情況在世界範圍內可用的眾多程式語言中是合理的,但要找到一種可以幫助您獲得DREAM JOB的語言並不是一件容易的事。
  • python自學行嗎?python學好了能幹什麼-開課吧
    人生苦短,我用python.最直接的學習方法是,用Python來解決一個你真正想解決的問題。在解決這個問題的過程中,有不懂的就去查就去問,直到這個問題被徹底解決為止。計算機語言也只是一種語言而已,和我們學習其他語言的方法沒有什麼根本區別。只看教材是學不會新語言的,而且很容易忘掉。
  • 為什麼越來越多的人學習Python?
    1、網絡爬蟲網絡爬蟲是Python比較常用的一個場景,國際上,google在早期大量地使用Python語言作為網絡爬蟲的基礎,帶動了整個Python語言的應用發展。以前國內很多人用採集器搜刮網上的內容,現在用Python收集網上的信息比以前容易很多了。
  • Python300本電子書強力贈送,你敢來我就敢送!
    Python機器學習實踐指南(中文版帶書籤)、原書代碼、數據集8. python官方文檔9. Python編程(第4版 套裝上下冊)10. linux11. 徵服PYTHON-語言基礎與典型應用.pdf12. 與孩子一起學編程_中文版_詳細書籤.pdf13. 用Python做科學計算.pdf14.
  • 學python?不是一個python入門教程就行,學之前你必須知道這些
    機器學習:這也是python最有魅力的地方,善於做圖形分析,算法建模等等。所以python在人工智慧,機器學習的領域有著讀到的優勢。既然是就業那麼就要看市場,就是人才需求市場,這裡說的市場當讓是說python人才需求的市場了。說到市場當然python每個方向肯定有市場了,咱們直接看主要矛盾:一個是需求量,另一個是入行的難易程度。python全棧目前是市場的需求量最大,入行也是最容易的。要是為了就業那就先這樣入門入行,就不用想了。看重前景方向:那麼學python大數據分析或是python機器學習。
  • Python網頁爬蟲工具有哪些?
    不管文本處理,機器學習和數據發掘,都需求數據,除了通過一些途徑購買或者下載的專業數據外,常常需求我們自己著手爬數據,爬蟲就顯得分外重要。那麼,Python網頁爬蟲東西有哪些呢?3、 Python-GooseGoose最早是用Java寫得,後來用Scala重寫,是一個Scala項目。Python-Goose用Python重寫,依賴了Beautiful Soup。給定一個文章的URL, 獲取文章的標題和內容很方便,用起來十分nice。
  • Python文本預處理:步驟、使用工具及示例
    標籤:機器學習 Python 算法 模型 本文將討論文本預處理的基本步驟,旨在將文本信息從人類語言轉換為機器可讀格式以便用於後續處理。此外,本文還將進一步討論文本預處理過程所需要的工具。當拿到一個文本後,首先從文本正則化(text normalization) 處理開始。
  • 0基礎入門Python學習步驟如何安排?
    python是目前市面上,我個人認為是最簡潔&&最優雅&&最有錢途&&最全能的程式語言,沒有之一。所以既然你決定了要學習python,那麼就需要先下一個決心,至少決定要做為自己的主力語言。 python是全能語言,社區龐大,有太多的庫和框架。你只需要找到合適的工具來實現想法,省去了造輪子的精力。 coder可以寫儘可能少的代碼來實現同等的功能。「人生苦短,我用python」是至理名言。
  • Python程序突破微信小遊戲」跳一跳「
    我反應比較慢,上周看到朋友推薦了這個遊戲,但是我沒有及時更新微信,所以完不了。前天更新了一下微信,然後手機測試了一把,奈何技術太差,只打出了17分的成績。昨天晚上推薦給老婆玩,一下子被老婆秒殺了。老婆輕輕鬆鬆把分數推進到52分。於是我朋友圈求攻略,由此發現了python突破跳一跳小遊戲的方案。今天早上親自測試了一把,實戰通過。故此寫下攻略,與大家分享。