這10個小工具 將引爆機器學習DIY潮流

2021-01-08 雷鋒網
機器學習十大不可忽視項目

前言:那些流行的機器學習項目之所以受歡迎,一般是因為其提供了一種多數人需要的服務,或是因為它們是第一個(也許是最好的)針對特定用戶提供服務的。那些最流行的項目包括Scikit-learn、TensorFlow、 Theano、MXNet 、Weka 等。根據個人使用的工作系統、深度學習目標不同,不同的人認為流行的項目可能會有些許差異。然而,這些項目共有的特性是它們都面向大量的用戶提供服務。但是仍然存在很多小型的機器學習項目:pipelines、wrappers、high-level APIs、cleaners等,通常來說這些項目都是針對小規模的用戶群提供好用且靈活的服務。

本文將介紹十種不那麼有名的機器學習項目,你也可能從這些項目中獲得一些不錯的啟發。不建議你去嘗試所有的項目,但是如果裡面剛好有你需要的某個功能,請儘管去試一試。

以下即十大你不可忽視的機器學習項目(排名不分先後):

1. Deepy

Deepy由Raphael Shu開發,是一個基於Theano擴展深度學習框架,它提供了一個簡潔的、高階的組件(如LSTMs)、批規範化、自動編碼等功能。Deepy宣稱其框架是十分簡潔明了的,它的官方文檔和示例也同樣如此。

Deepy工作原理:在給定訓練數據和參數(隨機初始化)下運行模型,將錯誤(或梯度)反饋並更新參數,這個過程反覆進行。

2. MLxtend

MLxtend 由Sebastian Raschka開發,是一系列有效工具的集合,也是針對機器學習任務的擴展。Sebastian Raschka提到MLxtend本質上是一些有效的工具集,也是與機器學習和數據科學相關的參考資料。他提到開發MLxtend主要是基於以下幾個原因:

一些其他地方找不到的特定算法(如序列特徵選擇算法、多數表決分類器、疊加預估、繪圖決策區域等)

用於教學目的(邏輯回歸、Softmax回歸、多層感知器、PCA、PCA內核等)這些實現主要關注於代碼的可讀性,而不是單純的效率

打包便利:tensorflow、Softmax回歸和多層感知器

MLxtend基本上是Sebastian Raschka所寫的一個機器學習運行常用的庫,其中很多功能的實現都與scikit-learn的API相似,但作者仍在持續更新中,且作者表示所有的新增特性與創新的算法都會一起打包在MLxtend中。

3. datacleaner

datacleaner由Randal Olson開發,他認為自己開發的datacleaner是一個「能自動清除數據集並且讓它們便於分析的Python工具。」他認為:datacleaner所做的將會節約你大量的編碼和清理數據的時間。

datacleaner還處於開發過程中,但目前已經能夠處理以下常規(傳統方式下耗時量巨大的)數據清洗任務:

在列的基礎上,用模式或中位數替換丟失的值

用數值等價物對非數值變量進行編碼等

4. auto-sklearn

auto-sklearn由德國弗萊堡大學機器學習自動算法小組開發,是針對Scikit-learn環境的自動機器學習工具。

auto-sklearn能將機器學習用戶從算法選擇和高參數調整中解救出來,它利用了近期在貝葉斯優化、元學習和集成構築上研究的優勢。其大致工作原理如下:

5. Deep Mining

Deep Mining由來自MIT CSAIL實驗室的Sebastien Dubois開發,是一個機器學習深管道自動調諧器。為了儘快實現最好的分類精度,該軟體將迭代、智能地測試一些超參數集。

另外值得一提的是文件夾GCP-HPO包含所有高斯過程(GCP)的實現代碼以及基於其基礎上的超參數優化(HPO)。高斯過程(GCP)可以看作是一種改進的版本。這項新技術被證明優於基於GP的超參數優化,已經遠比隨機搜索表現要好。

6. Rusty Machine

Rusty Machine是基於Rust的機器學習方法,Rust是由Mozilla贊助開發的一種與C和C++較為相似的計算機程式語言,其號稱「Rust是一種系統的程式語言,運行速度極快,可以防止錯誤,並保證線程安全。」

Rusty Machine的開發者是否活躍,目前支持一系列想學習技術,包括:線性回歸、邏輯回歸、k-均值聚類、神經網絡、支持向量機等等。

Rusty Machine還支持數據結構,如內置向量和矩陣。作為一種常見的模型接口,Rusty Machine為每個支持的模型提供了訓練和預測的功能。

7. scikit-image

scikit-image圖像是針對SciPy使用Python的圖像處理方法。scikit-image是機器學習嗎?它其實是一個機器學習項目(沒有確切地表示他們必須用機器學習方法),scikit-image就屬於數據處理和準備工具這一類。該項目包括一些圖像處理算法,如點檢測、濾波、特徵選擇和形態學等。

示例:

8. NLP Compromise

NLP Compromise是由Javascript語言編寫的,其在瀏覽器中進行自然語言處理過程。NLP Compromise非常容易安裝和使用,以下是它的一個使用範例:

9. Datatest

Datatest是一個依靠數據衝突的測試集,其由Python編寫。

Datatest擴展了數據校正的測試工具標準資料庫

Datatest是一種尋找數據衝突和準備的不同方式,如果你的大部分時間都被花在這個任務上,也許換一種新的方法是值得的。

10. GoLearn

GoLearn是一種針對Go語言的機器學習庫,自稱Go語言機器學習的「內置電池」學習庫。簡潔、易定製是其追求的目標。

對於一些想分支出來的Python用戶或者想嘗試下機器學習的Go語言用戶來說,GoLearn是一個不錯的選項。GoLearn實現了熟悉的Scikit-learn 適應/預測界面,可實現快速預估測試和交換。。

GoLearn是一個成熟的項目,它提供了交叉驗證和訓練/測試等輔助功能。如果你還記得的話,之前提到的 Rusty Machine還沒有實現這個功能。如果要嘗試一門新的Go語言的話,GoLearn可能是你所追求的那個。

總結:以上即十個機器學習項目概覽,既有小眾卻簡潔好用的學習框架,也有新興語言衍生出來的學習庫資料。再次重申不建議讀者去嘗試所有的項目,但是如果裡面剛好有項目能解決你目前所遇到的問題,請儘管去使用。

PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!

via KDnuggets等

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 小雕刻機多少錢一個?這些機器打破了萬元雕刻的想像
    有一群小雕刻機種族,他們的價格只在千元之間徘徊,但是功能絲毫不遜色於任何一款大機器,要不然你買一臺大雕刻機回去一年用的次數都有限,不說佔地面積大,性價比上也不合適。小雕刻的本質就是以強悍的核心技術,佔據最小的佔地面積,實施出最具有市場優勢的性價比,讓使用者能夠在舒服使用機器的同時,儘量減少經濟上的開銷讓我們來看一下家用雕刻機,最具玩賞價值的微型雕刻機,大人小孩都可以使用,操作起來智商都不用在線,呃,就是說很簡單的意思。
  • 谷歌推出首款基於機器學習的古埃及象形文字翻譯工具Fabricius
    來源:TechWeb.com.cn【TechWeb】7月15日消息,今天,谷歌藝術與文化今天推出了全球首個基於機器學習的埃及象形文字的數字翻譯工具Fabricius。不管是普通人還是學者都能利用這個工具體驗象形文字,或者助力學術 研究。
  • diy創意吸管可愛小兔子 幼兒園手工diy吸管
    幼兒園手工課是鍛鍊小朋友動手能力和思維能力,今天小編和大家分享一個幼兒園手工diy吸管小兔子的教程,希望小朋友喜歡哦!diy創意吸管小兔子需要的工具:幾張彩色紙、刻刀、小兔紙模、剪刀、膠棒和吸管。步驟1.用不同顏色的紙列印出可愛小兔子和雞蛋的紙模,可根據需要放大或縮小,然後用剪刀剪下小兔子和雞蛋,雞蛋留有黑邊,這樣比較完整;步驟2.用刻刀把小兔子的胳膊切開,要能正好抱住剪好的雞蛋紙膜哦,不同顏色的兔子配上不同顏色的雞蛋更漂亮哦;步驟3.切好後把雞蛋放在小兔的胳膊下面,測試下大小;步驟4.現在就介紹放在吸管上的小兔做法,如上圖所示,在小兔的肚子上切出兩個橫切口
  • 馬斯克的10大瘋狂預言:AI殺手、登陸火星、半機器人類……
    馬斯克堅信,除了火箭,將來所有交通工具都是電動的;20年後所有汽車都是自動駕駛的。他還稱,人工智慧比核武器危險多了,不用動武就能引爆戰爭。將來,人類為了生存必須把自己變成半人半機器。特斯拉電動汽車公司、美國太空探索技術公司SpaceX執行長伊隆·馬斯克(Elon Musk)向來以大膽預言未來著稱,以下為他的10大瘋狂預言盤點。
  • 讓機器學習為更小的設備服務,Qeexo AutoML 正式亮相
    10月7日消息,Qeexo奇手公司今日發布了全新的AutoML產品,這是一款一鍵式全自動化平臺,讓用戶能夠快速在邊緣設備上使用傳感器數據構建機器學習解決方案。這個產品將填補針對嵌入式邊緣設備的全自動化機器學習平臺的市場空缺。
  • 深度學習引爆下一次科技革命
    王威廉在《國際機器學習大會ICML2013參會感想》提到:「用半監督或無監督學習方法挖掘無標籤的數據,不僅是過去10年,還很可能是大數據時代的一個熱點。 這兩個領域都需要有海量數據支撐,因此,擁有高效、良性處理能力的深度學習技術就顯得尤為重要。大數據已經變成各個行業的基礎架構,而真正能幫助這些行業處理好數據,並最終實現具體應用的還是因為深度學習的出現。可以說,深度學習是大數據具體行業應用的必要工具。
  • Quora是如何使用機器學習的?
    作者丨Nikhil Dandekar譯者 丨 Teixeira10譯者註:在本文中,作者從提問,解答,閱讀等方面介紹了Quora在2017年是如何將機器學習應用於網站的,同時給出了使用的模型。以下為譯文:2015年,公司的工程副總裁Xavier Amatriain,關於如何在Quora上使用機器學習給了一個很好的答案。
  • 「深度學習」已經接近終點?下一代機器學習將會怎樣?|極客雲算
    直接串通這兩個領域有困難,所以他提出加個中間層,在中間進行計算,把計算結果返回兩頭。做個類比,相當做機器翻譯時,中文和英文不能直接翻譯,就都轉到日文上面;這可能不是非常準確的類比,但道理是一樣的,插入一個中間步驟,讓難度下降。
  • diy髮飾教程圖解 如何快速製作你知道嗎
    商店裡的髮飾有兩種,一種是機器生產的,另一種是手工的,機器生產的美得很刻板,細節也處理得不好,手工的大多價格不菲。diy髮飾由於是自己做的,所以經濟又結實。編者今天與大家分享的是雙生花發圈的做法。這是一款集小清新與仙氣於一身的發圈,做法簡單,只是需要我們有足夠的耐心。
  • 詳解Kubeflow這一K8S的機器學習利器
    由此可以看出,Kubeflow的目標是基於K8S,構建一整套統一的機器學習平臺,覆蓋最主要的機器學習流程(數據->特徵->建模->服務→監控),同時兼顧機器學習的實驗探索階段和正式的生產環境。1.
  • diy髮飾教程圖解 讓你輕鬆學會它的製作方法
    一、準備工作想要完成精美髮飾的製作,我們首先要做好準備工作,也就是將製作過程中要用到的一些用品羅列出來擺放整齊以便使用。diy髮飾的過程所要用到的東西就如上圖左邊所示,有日常的針線和細絲帶之類。還需要哦用到一些工具,例如剪刀。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    雖然研究者們在機器學習領域取得了讓人興奮的成果,不過我們仍然處於機器學習發展的早期階段。對於剛接觸機器學習的開發者來講,想要理解什麼是機器學習,首先要搞懂三個部分:輸入、算法、輸出。算法:如何處理和分析數據機器學習算法可利用數據執行特定的任務,最常見的機器學習算法有如下幾種:1.監督學習。監督學習使用以及標註過的和結構化的數據,通過制定一組輸入數據集合所需的輸出,機器可以學習如何識別目標並且映射到其他的學習任務上。
  • 15 個開源的頂級人工智慧工具
    (點擊上方公眾號,可快速關注)英文:datamation譯文:Linux中國/Chao-zhi連結:linux.cn/article-7830-1.htmlArtificial intelligence,AI是科技研究中最熱門的方向之一。
  • 外國人diy必備環氧樹脂,用它做張桌子太土了,放在國內沒人想用
    買不起紅木桌子,但我們還可以擁有一張與眾不同的桌子,沒錯,就是下面這張diy多功能桌子。這張桌子是一位外國小哥用花和環氧樹脂diy成的,光從外觀上看就很與眾不同的,而比較有創意的,這張桌子的臺面還能打開,底座外觀很紮實,裡面就更神奇了,竟然還藏了一個酒櫃,可以將一些酒和酒杯都放在裡面,再配上彩色的光,就是要這麼得與眾不同。
  • 科學家首次利用人工智慧和機器學習發現火星的隕石坑
    科學家首次利用人工智慧和機器學習發現火星的隕石坑(神秘的地球uux.cn報導)據cnBeta:在2010年3月至由此產生的隕石坑比較小,直徑為13英尺。星球表面的特徵越小,就越難從火星軌道器上發現。現在,科學家首次利用人工智慧和機器學習發現了該隕石的隕石坑。行星科學家表示,在這種精細的天文學研究上使用人工智慧是一個裡程碑。來自美國宇航局噴氣推進實驗室的人工智慧研究人員共同開發了發現撞擊坑的機器學習工具。研究人員希望新的AI能夠節省時間,增加發現量。
  • 朱正廷引爆短節目心引力上熱搜?朱正廷引爆短節目心引力 下次,你去...
    #朱正廷引爆短節目心引力#潮流體驗官@THEO-朱正廷 打卡東京最時髦文藝地標,三刷時下最火古著王國,「正」式搭配一學就會!與俊朗少年THEO-朱正廷 追風而行,詮釋潮流先鋒,釋放個性風採。朱正廷引爆短節目心引力 很棒的節目朱正廷引爆短節目心引力朱正廷引爆短節目心引力 太好看了朱正廷引爆短節目心引力 來啦朱正廷引爆短節目心引力 他說「潮流這種東西是無限的」,無限潮流,無限時尚。
  • 6個步驟,告訴你如何用樹莓派和機器學習DIY一個車牌識別器!(附詳細...
    這兩種方法都具有挑戰性。第一個意味著有一個龐大的「大腦」計算機系統,這既複雜又昂貴。第二個問題是有關延遲和基礎架構方面的挑戰,特別是使用GPU進行推理。在本研究中,作者偶然發現了一個名為cortex的開源項目。它對遊戲來說是很新的東西,但是作為AI開發工具的下一個發展方向,確實很有意義。基本上,cortex是一個將機器學習模型部署為生產web服務的平臺。
  • 《運營管理》雙師同堂紀實丨機器學習時代數字營銷與運營的新格局
    三大要素促成機器學習「超大規模數據、優異算法演繹及強大計算能力是機器學習應用的三大要素。」今天的消費數據是2010年的7倍,消費者從開始搜索目標信息到最終成交,期間需要進行約11次的比價;平均我們每天有5小時以上都在瀏覽網際網路,30億的網民約有70億的設備連接網際網路發出搜索指令……谷歌就是在這其中產生的海量數據中捕獲用戶的意願,最終形成自己實時的競價系統,平均每筆競價的響應時間不超過10毫秒。
  • 青島實現潮流能發電將迎來海洋能開發新局面
    近日,由中國海洋大學研製的我國首臺100千瓦潮流能發電裝置被成功投放到了黃島區齋堂島海域,據了解,這臺裝置突破了潮流能開發方面的關鍵技術,使得發電裝置能夠不再受海水流速限制,能夠適應不同海域。這標誌著我市在潮流能開發領域邁出了關鍵的一步,同時,也意味我國在海洋能開發領域將打開新局面。
  • 這10個開源安全工具你知道幾個?
    【IT168 評論】開源工具可以為IT安全人士實施安全措施和學習培訓奠定堅實的基礎。以下是人們應該知道的10個IT安全工具:  (1)Nessus(可見性)如果不將Snort引入討論中,IT安全人士就很難與開源安全軟體進行真正的對話,而這是業界和市場的重要組成部分。  (3)Nagios(可見性)