福利!GitHub上6個超強開源機器學習庫盤點

2021-01-11 讀芯術

全文共2433字,預計學習時長5分鐘

1. XLNet:下一代大型自然語言處理框架

自然語言處理是目前機器學習領域最熱門的話題,本文也將從這裡開始。如果說剛過去的2018年是機器學習發展的關鍵之年,那麼2019年已然超越了它。

XLNet是目前最先進的自然語言處理框架,它給自然語言處理領域,甚至整個機器學習領域帶來了翻天覆地的變化。XLNet採用Transformer-XL作為其主幹模型。與此同時,開發者還開源了其預訓練模型,以便大眾學習使用XLNet。

到目前為止,XLNet已經在20項自然語言處理任務上超過了BERT的表現,並且在18項任務上取得了當前最佳效果。下面列出了二者在閱讀理解任務的幾個常見衡量維度上的測試結果。

如果想了解更多,以下是文本分類任務的測試結果。

毫不誇張地說,XLNet的表現十分出色。

2. 在PyTorch上運行XLNet

想知道如何在自己的設備上安裝XLNet嗎?別急,這個機器學習庫可以給你及時的幫助。

如果你已經足夠了解自然語言處理的各種特點,那麼理解這個也不會太難。可是,如果是初次涉足這一領域,那最好能先花點時間通讀一下上文提及的相關資料,然後再開始。

除了預訓練模型,開發人員其實還在Google Colab上開源了全部的訓練代碼,因此大眾也可以免費利用其GPU。所以,這個自然語言處理框架絕對不容錯過。

3. Google Research Football—獨特的強化學習環境

Google Research和足球?這兩者之間有什麼關係呢?

實際上,這個機器學習庫包含一個基於開源遊戲Gameplay Football的強化學習環境。該強化學習環境由谷歌研究團隊打造,並且僅用於科學研究。以下就是在此環境中模擬出來的部分場景:

其中,智能體被訓練在一個先進的、基於物理的3D模擬環境中踢足球。過去幾年裡我也有見到一些強化學習環境,然而相比之下,這個的效果最好。

此篇論文十分有趣,如果你是一個足球迷或是一個強化學習的愛好者(或者兩者都是),那就更不容錯過。

4. CRAFT文本檢測器

這一概念非常有趣。CRAFT的全稱是Character Region Awareness for TextDetection,意為「用於文本檢測的字符區域識別」。如果你對計算機視覺感興趣,那麼最好了解一下這項技術。仔細觀察一下這些GIF圖片:

你能理解這一算法是如何運行的嗎?實際上,CRAFT能夠通過識別圖中出現的每一個字符區域來檢測文本區域。而文本的邊框只需通過在二值圖上找出最小邊界矩形即可檢測出。

如果你很熟悉目標檢測,理解CRAFT就容易的多。該倉庫已經包含了一個預訓練模型,因此無需從頭編寫這一算法。

5. MMAction—開源視頻動作分析工具箱

有過處理視頻數據經歷的人都知道,這個過程確實非常具有挑戰性,但是過後也一定會有所收穫。想想我們能從視頻中提取出的海量信息和能做的分析就可以理解這一點。

比如,該如何分析某個視頻幀中出現的動作呢?這項工作其實可以由MMAction完成。MMAction是一個基於PyTorch的開源動作分析工具包。按照它的代碼庫,MMAction能執行以下任務:

· 在剪輯後的視頻中進行動作識別。

· 在剪輯後的視頻中進行時域動作檢測(也叫做動作本地化)。

· 在剪輯後的視頻中進行時空動作檢測。

此外,MMAction的開發人員也提供了多種工具以處理不同類型的視頻數據集。為方便使用,該開源庫還提供了許多指導步驟。

6. TRAINS—神奇的自動化AI實驗管理器和版本控制器

軟體工程是成為一名數據科學家最重要、也是必備的技能,然而它的重要性卻常被忽視。知道如何建模確實很重要,但是,了解某個項目軟體層面的東西也同樣重要。

如果你之前從未聽說過版本控制,請趕緊去掃一下盲。TRAINS能夠「記錄並管理多種深度學習研究工作,並且幾乎不需要付出集成成本。」

雖然TRAINS的優點很多,但是最棒的還是它的免費開源,僅需兩行代碼即可集成TRAINS至環境中。此外,TRAINS也可以與PyTorch、TensorFlow和Keras無縫集成,並且支持Jupyter notebooks。

開發人員已經開放了相關Demo伺服器。趕緊去TRAINS試試你的代碼吧。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

如需轉載,請後臺留言,遵守轉載規範

相關焦點

  • 在GitHub上8800個開源機器學習項目中,選出了其中的Top30
    我們對比了過去一年中近8800個開源機器學習項目,並挑選了其中較好的30個(Top 0.3%)列舉於此。這是一份極具競爭性的列表,它精挑細選了發表於2017年1月-12月份的機器學習庫、數據集和應用類的優質項目。我們通過流行度、參與度和時近性來對其質量進行評級。有一項數據可以讓你對表單質量有一個直觀印象:這些項目的GitHub平均stars數是3558。
  • 盤點:2017年GitHub上30個優秀的機器學習項目
    我們比較了過去一年近8,800個開源的機器學習項目,從中選擇了30個表現優秀的,分享給讀者。這是一份非常精彩的名單,它仔細挑選了2017年1月至12月之間發布的最佳開源機器學習庫、數據集和應用程式。我們綜合考慮項目的受歡迎程度,參與度和進展程度來評估項目質量。為了給讀者更直觀的感受,使用GitHub上的關注量(星星數量)來表示項目熱度。
  • 面試資源、公共API、多樣化學習路徑,這10個GitHub庫開發者必看
    機器之心選自Medium作者:Simon Holdorf機器之心編譯參與:魔王本文介紹了十個適合軟體工程師的 GitHub 庫。GitHub 是共享各種技術、框架、庫和集合的頭號平臺,越來越多的人到該平臺尋找最有用的庫。本文作者全棧工程師 Simon Holdorf 列舉了十個能夠為所有軟體工程師提供巨大價值的 GitHub 庫。這些庫均具備大量 GitHub 星數,顯示其關聯性、流行性和效用。
  • 6月份Github上熱門的開源項目
    6月份GitHub上熱門的開源項目排行已經出爐啦,一起來看看上榜詳情吧!5. vanillawebprojectshttps://github.com/bradtraversy/vanillawebprojectsStar 6589這是一個使用HTML5,CSS和JavaScript構建的20多 個小型項目的集合,一共包含20個項目,諸如電影訂票頁面,視頻播放器界面、匯率計算器、
  • 2018 年最富含金量的 6 款開源機器學習項目
    此外,我們發現業內產生越來越多應用驅動型的研究工作,數量上甚至超過了理論驅動型研究。不可否認這種變化有其弊端,然而我們要看到它積極的一面,隨著能夠迅速被商業轉化的研究增多,對整個行業產生了不可估量的積極影響,這在機器學習開源領域尤其明顯。最後,一起看看過去一年中 6 個最實用的機器學習項目。
  • 值得mark的11個開源機器學習項目
    機器學習技術的興起不僅是因為硬體成本越來越便宜以及性能越來越強大,促使機器學習在單機或大規模集群上輕鬆部署的免費軟體激增也是重要因素。機器學習庫的多樣性意味著無論你喜歡什麼語言或環境,都有可能是獲得你喜歡的。1. Scikit-learn
  • 超強工具集——GitHub 熱點速覽 Vol.47
    作者:HelloGitHub-小魚乾本周 GitHub 趨勢榜精彩至極,先是 JetBrains 開源的圖像渲染引擎 Skia 有了 Java 封裝,一開源便獲得 500+ star,再是支持開發者在頁面展示網站運行狀態,實時報告的 upptime 憑藉單日 1k star 進帳,上了 Trending 榜。
  • 誰是2020年最強Python庫?年度Top10出爐
    蕾師師 發自 凹非寺量子位 報導 | 公眾號 QbitAI2020年已經過去了,國外的一家專門提供Python服務的網站Troy Labs,盤點出了2020年發布的Python庫Top10。它還可以安裝在Python REPL上,所有的數據結構都可以漂亮地輸出或標註。總而言之,它是彩色的、漂亮的、強大的。Rich兼容性也不錯,適用於Linux,Mac和Windows等多種系統。真彩色/表情符號可與新的Windows終端一起使用。但是請注意,Rich必須要Python 3.6.1或以上版本。
  • 中國氣象人也在github上擁有一席之地了!
    Python語言的強大和靈活受到了越來越多氣象從業者的青睞,今天我們給大家推薦一下MeteoAI在github上的awesome-atmos[1]項目。這個項目啟發於awesome-python[2],是氣象圈的awesome系列,主要整合了一些常用的氣象領域的工具,大多數為Python相關。
  • 盤點歷史上十大超強颱風 最強一次742.3萬人受災
    盤點歷史上十大超強颱風 最強一次742.3萬人受災 2019-08-11 17:23 來源:澎湃新聞·澎湃號·政務
  • 倉庫盤點制度--倉管員的福利
    適用範圍:適用於本公司與產品有關的原物料、半成品、成品的盤點作業。3. 內容:3.1 盤點方式1) 定期盤點:資材課在每月末、季末、年末應對在庫物品進行定期盤點,流動性較大或易於損耗的物品應不定期清查或重點抽查。倉管員負責具體的盤點工作,財務部需安排抽盤,以確保帳、物相符。
  • 最好的Python機器學習庫
    scikit-learnscikit-learn絕對是其中一個,如果不是最流行的,那麼也算得上是所有語言中流行的機器學習庫之一。它擁有大量的數據挖掘和數據分析功能,使其成為研究人員和開發者的首選庫。其內置了流行的NumPy、SciPy,matplotlib庫,因此對許多已經使用這些庫的人來說就有一種熟悉的感覺。
  • 盤點蝙蝠的五個秘密堪稱「天然病毒庫」
    文章還盤點了有關蝙蝠的5個秘密。    1.蝙蝠的四肢與人的骨骼特點相似。主要區別在於蝙蝠前肢的骨頭很長,而且前肢生有翼膜。蝙蝠是翼手目動物,翼手目的意思就是「手上長有翅膀」。    2.蝙蝠能發出人類無法聽到的高頻聲波,以在飛行和捕獵過程中為自己定向。有幾種蝙蝠很有趣,不同種群發出的聲波會帶有不同的「口音」。
  • 2020年六大機器學習Python庫!
    Scikit-learn:Scikit-learn(又名sklearn)是面向Python程式語言的免費軟體機器學習庫。它有各種分類、回歸和聚類算法,包括支持向量機、隨機森林、梯度提升、k均值和DBSCAN,旨在與Python數值庫NumPy和科學庫SciPy協同操作。
  • GitHub十大熱門Python項目 | 網際網路數據資訊網-199IT | 中文互聯...
    格蘭特在YouTube上經營著一個名為3Brown1Blue的頻道,他根據需要使用manim庫來創建和控制這些動畫,向受眾傳授高等數學知識。使用manim,你還可以創建動畫視頻,精確控制用於圖表和插圖的動畫。如果你覺得這是個有趣的想法,你應該去他的頻道看看這個庫的操作。2.
  • GitHub 原始碼洩露,CEO 回應:這是個意外
    疑似洩露代碼地址:https://web.archive.org/web/20201104050026if_/https://github.com/github上周五,在應美國唱片業協會(RIAA)的要求下, GitHub 下架了平臺上最受歡迎的項目之一:下載器項目 YouTube-dl。但 RIAA 的禁令起到了相反的效果,很多開發人員開始對此表示抗議,並發布了更多代碼副本。事件發生以前,在 GitHub 上搜索 Youtube-dl 相關的項目只有20多個,而現在至少能搜出4100多個。
  • 安全專業人士最愛的 19 個 GitHub 開源項目
    Metasploit可以在眾多平臺上運行,包括Windows、Linux、Mac、Android和iOS。Metasploit很全面,不過將其他項目添加到滲透測試工具包中大有助益。不妨看看瀏覽器漏洞利用框架(BeEF,https://github.com/beefproject/beef),這種滲透測試工具側重於Web瀏覽器。
  • PyTorch實現,GitHub4000星:微軟開源的CV庫
    微軟創建了一個庫,提供構建計算機視覺系統的大量示例和最佳實踐指導原則。項目地址:https://github.com/microsoft/computervision-recipes這個庫旨在構建一個全面的集合,涵蓋利用了計算機視覺算法、神經架構和系統運行方面近期進展的工具和示例。
  • 裝備升級新時代 《誅仙2》超強靈媒免費狂掉
    《誅仙2》雙旦新版「靈族秘庫」重磅回饋所有仙友,免費狂送超強靈媒混元天晶。作為修真高手夢寐以求的珍寶,超強靈媒混元天晶讓你輕鬆擁有140級+究極裝備,完全繼承原裝備的精煉等級!如何才能更快速免費獲得混元天晶呢?