機器學習領域,最常討論到的一個話題就是機器學習項目。
學習或從事這個領域的小夥伴都會想要找一些機器學習的項目來進行練手,做項目好比練題,孰能生巧,能夠在機器學習這個領域獲取更多的知識和技能。
本篇目錄:
1、20個機器學習庫和框架
2、機器學習項目:
語言相關
計算機視覺
圖像處理
自然語言處理
預測
圖像處理
風格轉移
圖像分類
人臉識別
物體檢測
自動駕駛
遊戲AI
西洋棋AI
醫療AI
演講AI
3、數據集
經典數據集
圖像處理
情感分析
自然語言處理
音頻數據集
自動駕駛
01 TensorFlow
TensorFlow是一個採用數據流圖(data flow graphs),用於數值計算的開源軟體庫。
最初是由研究人員和工程師在Google機器智能研究組織的Google Brain團隊中開發的。
用於機器學習和深度神經網絡方面的研究,但這個系統的通用性使其也可廣泛用於其他計算領域。
貢獻者:1978,提交:55315,星級:127129。
Github網址: Tensorflow
https://www.tensorflow.org/
02 Scikit-learn
scikit-learn 是基於 Python 語言的機器學習工具。
它是一個簡單高效的數據挖掘和數據分析工具,可供大家在各種環境中重複使用,建立在 NumPy ,SciPy 和 matplotlib 上,開源,可商業使用 - BSD許可證。
貢獻者:1303,提交:23978,星星:34958
Github URL: Scikit-learn
http://scikit-learn.org/
03 Keras
Keras是一個高層神經網絡API,由python編寫,能夠在TensorFlow,CNTK或Theano之上運行。
keras具有高度模塊化,極簡,和可擴充特性,支持CNN和RNN,或二者的結合,無縫CPU和GPU切換。
貢獻者:795,提交:5110,星星:40986
Github網址: Keras
https://keras.io/
04 PyTorch
Pytorch是Facebook的AI研究團隊發布了一個Python工具包,是Python優先的深度學習框架。
作為numpy的替代品;使用強大的GPU能力,提供最大的靈活性和速度,實現了機器學習。
貢獻者:1034,提交:17856,星星:27849
Github URL: pytorch
http://pytorch.org/
05 Theano
Theano是一個Python庫,允許您定義,優化和有效地評估涉及多維數組的數學表達式。
它建立在NumPy之上,與Numpy緊密集成,具有透明使用GPU,有效符號區分,動態C代碼生成等優點。
貢獻者:333,提交:28080,星星:8782
Github網址: Theano
http://deeplearning.net/software/theano/
06 Gensim
是一個免費的Python庫,具有可擴展的統計語義,分析語義結構的純文本文檔,檢索語義相似的文檔等功能。
貢獻者:313,提交:3810,星星:9153
Github網址: Gensim
https://radimrehurek.com/gensim/
07 NuPIC
Taylor 說,許多機器學習算法無法適應新模式,而 NuPIC 的運作接近於人腦。
nupic是一個在github上開源了的AI算法平臺,相比於深度學習,其更為接近人類大腦的運行結構。
其算法的理論依據,就是純粹的生物神經學知識,類似突觸連接與分解,神經元,多個腦皮層的交互,動作電位等等。工程實現也基於此。
貢獻者:87,提交:6623,星星:5902
Github URL: NuPIC
http://numenta.org/
08 Neon
Neon是Nervana開發的基於Python的深度學習庫。它易於使用,同時性能也處於最高水準。
貢獻者:77,提交:1117,星星:3763
Github URL: Neon
http://neon.nervanasys.com/
09 Nilearn
Nilearn是一個Python模塊,用於快速簡便地統計NeuroImaging數據。
它利用scikit-learn Python工具箱進行多變量統計,並使用預測建模,分類,解碼或連接分析等應用程式。
貢獻者:88,提交:7610,星星:520
Github網址: Nilearn
https://nilearn.github.io/
10 Caffe
Caffe是一個深刻的學習框架,以表達,速度和模塊化為基礎。它由伯克利視覺和學習中心( BVLC)和社區貢獻者開發。
貢獻者:266,提交:4154,星星:28032
Github網址: Caffe
http://caffe.berkeleyvision.org/
11 Chainer
chainer是一種基於python的靈活框架,用於輕鬆直觀地編寫複雜的神經網絡架構,適用於深度學習模型。
利用chainer可以輕鬆使用多GPU實例進行訓練,還會自動記錄結果、圖表損失和精度並生成用於使用計算圖來可視化神經網絡的輸出。
貢獻者:227,提交:26266,星星:4772
Github URL: Chainer
http://chainer.org/
12 Statsmodels
Statsmodels 是一個Python模塊,允許用戶瀏覽數據,估計統計模型和執行統計測試。
描述性統計,統計測試,繪圖函數和結果統計的廣泛列表可用於不同類型的數據和每個估算器。
貢獻者:182,提交:11544,星星:3882
Github URL: Statsmodels
http://statsmodels.sourceforge.net/
13 Shogun
是機器學習工具箱,提供各種統一和高效的機器學習(ML)方法.工具箱無縫地允許輕鬆組合多個數據表示,算法類和通用工具。
貢獻者:158,提交:16977,星星:2444
Github URL: Shogun
http://shogun-toolbox.org/
14 Pylearn2
Pylearn2是一個機器學習庫,它的大部分功能都建立在 Theano之上 。
這意味著你可以使用數學表達式編寫Pylearn2插件(新模型,算法等),Theano會優化和穩定這些表達式,並將它們編譯為你選擇的後端(CPU或GPU)。
貢獻者:113,提交:7119,星星:2666
Github URL: Pylearn2
http://deeplearning.net/software/pylearn2/
15 Annoy
Annoy是一個帶有Python綁定的C ++庫,用於搜索空間中接近給定查詢點的點。
它還創建了大型只讀基於文件的數據結構,這些數據結構映射到內存中,以便許多進程可以共享相同的數據。
貢獻者:43,提交:645,星星:5346
Github URL: Annoy
https://pypi.python.org/pypi/annoy
16 PyBrain
PyBrain是一個用於Python的模塊化機器學習庫,其目標是為機器學習任務和各種預定義環境提供靈活,易用且功能強大的算法。
貢獻者:31,提交:1124,星星:804
Github URL: PyBrain
http://pybrain.org/
17 Fuel
是一個數據管道框架,可為機器學習模型提供所需的數據。
貢獻者:32(10%以上),提交:1116,
Github URL: Fuel
https://fuel.readthedocs.io/
18 Orange3
Orange3是新手和專家的開源機器學習和數據可視化工具,具有大型工具箱的交互式數據分析工作流程。
貢獻者:71,提交:10651,星星:1780
Github網址: Orange3
https://pymc-devs.github.io/pymc/README.html
19 Pymc
Pymc是一個python模塊,它實現貝葉斯統計模型和擬合算法,包括馬爾可夫鏈蒙特卡羅。其靈活性和可擴展性使其適用於大量問題。
貢獻者:40,提交:2726,星星:818
Github URL: Pymc
https://pymc-devs.github.io/
20 Deap
Deap是一種新穎的進化計算框架,用於快速原型設計和思想測試。
它旨在使算法明確,數據結構透明,與多處理和 SCOOP等並行機制完美協調 。
貢獻者:44,提交:1982,星星:2845
Github網址: Deap
https://pypi.python.org/pypi/deap
01 語言相關
1.python語言相關
網址:https://github.com/vinta/awesome-python
2.hph語言相關
網址:https://github.com/ziadoz/awesome-php
3.java語言相關
網址:https://github.com/akullpp/awesome-java
4.nodejs相關
網址:https://github.com/sindresorhus/awesome-nodejs
5.ios相關
網址:https://github.com/vsouza/awesome-ios
6.android相關
網址:https://github.com/snowdream/awesome-android
7.shell相關
網址:https://github.com/alebcay/awesome-shell
8.spider相關
網址:https://github.com/facert/awesome-spider
9.go相關
網址:https://github.com/avelino/awesome-go
02 計算機視覺
1.計算機視覺的資源列表
網址:http://t.cn/RwjDvTD
2.計算機視覺的深度學習資源的精選列表
網址:http://t.cn/RLvTzjn
03 自然語言處理1.學習溝通
概述新的OpenAI研究,開發自己的語言。
網址:http://t.cn/EKba21p
2.自然語言處理
專門針對自然語言處理(NLP)的精選資源列表。
網址:https://github.com/keon/awesome-nlp
3.一種新穎的神經機器翻譯方法
使用一種新穎的卷積神經網絡(CNN)語言翻譯方法發表了研究成果,該方法以復現神經系統速度的九倍達到了最先進的精度。
網址:http://t.cn/EKbKKaa
4.如何在沒有真正嘗試的情況下製造種族主義者的AI
製作一個情緒分類器。
網址:http://t.cn/RKN4XpX
1.uber時間序列預測的神經網絡工程不確定性估計
介紹一種新的端到端貝葉斯神經網絡(BNN)架構,可以更準確地預測時間序列預測和大規模的不確定性估計。
網址:http://t.cn/RpqIwnF
2.如何輕鬆預測股票價格
網址:http://t.cn/RiLyUGN
1.高解析度圖像合成與條件GAN的語義處理
提出了一種使用條件生成對抗網絡(條件GAN)從語義標籤圖合成高解析度照片真實圖像的新方法。
網址:http://t.cn/EK4NHTw
2.使用OpenCV(Python)進行高動態範圍(HDR)成像
學習如何使用不同曝光設置拍攝的多張圖像創建高動態範圍(HDR)圖像。
網址:http://t.cn/EK4pgjj
1.通過深度圖像類比轉換視覺屬性
用於跨圖像的視覺屬性傳遞的新技術,通過視覺屬性轉移,將視覺信息(例如顏色,色調,紋理和樣式)從一個圖像轉移到另一個圖像。
網址:http://t.cn/EK48MYY
2.深度照片風格轉換
本文介紹了一種深度學習的攝影風格轉換方法,可以處理各種圖像內容,同時忠實地傳遞參考風格。
網址:http://t.cn/EK4uR8l
3.深度圖像優先
本文表明, 深度網絡的結構足以在任何學習之前捕捉大量的低級圖像統計數據。 隨機初始化的神經網絡可以作為手工製作的優先在標準的逆問題, 如去噪, 超解析度。
網址:http://t.cn/EK43mZA
1.特徵可視化:神經網絡如何建立對圖像的理解
非常簡單的方法可以產生高質量的可視化。本文介紹了一些技巧,用於探索神經元反應的變化,它們如何相互作用以及如何改進優化過程。
網址:http://t.cn/EKbvwWM
2.絕對新手的神經網絡圖像分類指南
使用機器學習來高度確定地預測數據/未經訓練的樣本中的圖像。
網址:http://t.cn/EKbPjVM
08 人臉識別1.通過直接體積CNN回歸從單個圖像重建大姿態三維人臉
3D人臉重建是一個非常困難的計算機視覺基礎問題。本文建議通過在由2D圖像和3D面部模型或掃描組成的適當數據集上訓練卷積神經網絡(CNN)來解決許多這些限制。
網址:http://t.cn/EKbAgH1
2.使用OpenCV,Python和dlib進行眨眼檢測
網址:http://t.cn/EKbLPUb
3.使用面部檢測在Python中處理它
程序將採用命令行參數,即輸入圖像。然後,它將使用Dlib中的面部檢測算法來查看是否有任何面部。如果有,它將為每個面部創建一個結束位置。
網址:http://t.cn/EKb4jEx
1.對象檢測:深度學習時代的概述
快速了解對象檢測中最常見的問題,深入了解實際應用的細節,並了解如何解決它的方法。
網址:http://t.cn/RNf1Ap9
2.使用深度學習和OpenCV進行實時對象檢測
使用深度學習和OpenCV應用實時對象檢測來處理視頻流和視頻文件。
網址:http://t.cn/EKbc32W10 自動駕駛
1.使用Python自動駕駛俠盜獵車手
探索使用Python玩Grand Theft Auto 5,主要用於創建自動駕駛汽車和其他車輛。
網址:https://github.com/sentdex/pygta5
2.AirSim
是微軟的開源自動駕駛仿真平臺這裡主要用於自動駕駛仿真研究。
網址:https://github.com/Microsoft/AirSim
1.OpenAI Baselines:DQN
重現強化學習算法,RL算法實現的一些最佳實踐。
網址:http://t.cn/EKGo4YB
2.Dota 2強化學習
創造一個機器人,在標準比賽規則下,在Dota 2的 1v1比賽中擊敗世界頂級專業人士。機器人通過自我遊戲從頭開始學習遊戲,並且不使用模仿學習或樹搜索。
網址:http://t.cn/EKG9cTE
3.創建AI DOOM bot
利用VizDoom平臺進行基於強化的深度學習的探索之旅。目標是創建一個能夠在死亡競賽環境中茁壯成長的Doom AI。
網址:http://t.cn/EKGNxCL
4.用於字符控制的相功能神經網絡
使用一種稱為「相位神經網絡」的新型神經網絡來創建適合遊戲的角色控制器。
網址:http://t.cn/EKGpsY7
5.遊戲模仿:用於快速視頻遊戲AI的深度監督卷積網絡
提出了一種僅用於遊戲AI的視覺模型,它使用在純粹受監督的模仿學習環境中訓練的後期集成深度卷積網絡架構。
網址:http://t.cn/EKGWXJd
1.掌握西洋棋和將棋
利用強化學習算法通過自學習掌握西洋棋和將棋。
網址:http://t.cn/EKG85YH
2.AlphaGo Zero:從頭學習| DeepMind
本文介紹了AlphaGo Zero,它是AlphaGo的最新發展,以前版本的AlphaGo最初訓練過成千上萬的人類業餘和專業遊戲,以學習如何玩Go。AlphaGo Zero跳過這一步,從完全隨機的遊戲開始,只是通過玩遊戲來學習玩遊戲。
網址:http://t.cn/EKGEvDs
http://t.cn/RWY4GZy
1.CheXNet:放射學家檢測胸部X射線與深度學習的肺炎
網址:http://t.cn/EKGuyqG
2.你能改善肺癌的檢測嗎?
Kaggle舉辦的競賽的解決方案的部分內容,挑戰的目標是在給定一組CT圖像的情況下預測患者肺癌的發展。
網址:http://t.cn/EKG3LBJ
3.通過深度學習改善姑息治療 - Andrew Ng
使用深度學習建立一個程序,通過檢查患者的電子健康記錄數據,在接下來的3-12個月內識別出具有高死亡風險的住院患者。
網址:http://t.cn/EKG13tt
1.Tacotron
Tacotron,一種端到端的生成文本到語音模型,它直接從字符合成語音。
網址:http://t.cn/EKGdip1
2.CTC序列建模
用CTC進行序列建模,用於在語音識別,手寫識別和其他序列問題中訓練深度神經網絡的算法。
連結:http://t.cn/EKGgtQs
3.深度語音
Deep Voice,一種完全由深度神經網絡構建實現文本到語音的系統。該系統包括五個主要構建塊,通過為每個組件使用神經網絡,系統比傳統的文本到語音系統更簡單,更靈活。
網址:http://t.cn/EKGk93S
4.Siri's Voice的深度學習
01 經典數據集
1.Iris 鳶尾花卉數據集 150 分類和聚類
連結:http://t.cn/EKaE0uv
2.Adult 美國人口普查數據 48842 分類和聚類
連結:http://t.cn/zlvhR8S
3.Wine 葡萄酒數據 178 分類和聚類
連結:http://t.cn/EKan9Az
4.20 Newsgroups 新聞數據集 19997 文本分類和聚類
連結:http://qwone/20Newsgroups/
5.MovieLens 電影評分的數據集 26000000 推薦系統
連結:https://datasets/movielens/
6.MNIST 手寫字識別數據集 70000 手寫字識別
連結:http://exdb/mnist/
02 圖像處理
1.Labelled Faces in the Wild:13000 張貼有標籤的人臉圖像,用於開發涉及人臉識別的應用。
連結:http://vis-www.cs.umass.edu/lfw/
2.Stanford Dogs Dataset:包含 20580 個圖像和 120 個不同品種的狗類別。
連結:http://t.cn/zTNMWy3
3.Labelme:注釋圖像的大數據集。
連結:http://t.cn/EKq2lMr
4.ImageNet:根據 WordNet 層次結構來組織,其中層次結構的每個節點都由成百上千個圖像來描述。
連結:http://image-net.org/
5.LSUN:場景理解和許多輔助任務(房間布局估計、顯著性預測等)。
連結:http://lsun.cs.princeton.edu/2016/
6.MS COCO:ImageNet 之外另一個常用的圖像數據集,包含通用圖像理解和注釋。
連結:http://cocodataset.org/
7.COIL100:100 個不同的物體在 360°旋轉中以每個角度成像。
連結:http://t.cn/EKqLjzo
8.Visual Genome:非常詳細的視覺知識庫,配有約 100K 個圖像的注釋。
連結:http://visualgenome.org/
9.Google's Open Images:Creative Commons 下的 900 萬個圖片的網址集合。
連結:http://t.cn/EKqyzQF
10.Indoor Scene Recognition:包含 67 個室內類別,總共 15620 個圖像。
連結:http://web.mit.edu/torralba/www/indoor.html
03 情感分析
1.Multidomain Sentiment analysis dataset:有點舊的一個數據集,以亞馬遜的產品評論為特色。
連結:http://t.cn/R6yTsJV
2.IMDB reviews:用於二進位情感分類的較舊的、相對較小的數據集,具有 25000 個電影評論。
連結:http://t.cn/EKq5nB1
3.Stanford Sentiment Treebank:帶有情感注釋的標準情感數據集。
連結:http://t.cn/EKq5sUY
4.Sentiment140:一個流行的數據集,使用 16 萬條預先刪除表情符號的推文
連結:http://t.cn/EKqtUAC
5.Twitter US Airline Sentiment:2015 年 2 月以來美國航空公司的推特數據,分為正面、負面和中性。
連結:http://t.cn/EKqtiAY
04 自然語言處理
1.Jeopardy:機智問答節目 Jeopardy 中存檔的 20 多萬個問題。
連結:http://t.cn/EKqGyIB
2.SMS Spam Collection in English:由 5574 條英文簡訊垃圾郵件組成的數據集。連結:http://t.cn/EKqbg3h
3.Yelp Reviews:Yelp 發布的開放數據集包含 500 多萬條評論。
連結:https://www.yelp.com/dataset
4.UCI's Spambase:大型垃圾郵件數據集,可用於垃圾郵件過濾。
連結:http://t.cn/EKqbT7z
5.Enron Dataset:Enron 公司高層管理人員的電子郵件數據,整理成文件夾。
連結:https://www.cs.cmu.edu/~./enron/
6.Amazon Reviews:包含來自亞馬遜長達 18 年的約 3500 萬條評論。數據包括產品和用戶信息、評級和明文審查。
連結:http://t.cn/RhpYJUu
7.Google Books Ngrams:Google 書籍中的詞彙集合。
連結:http://t.cn/EKqq3Jh
8.Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每個博客至少包含 200 個常用英語單詞。
連結:http://t.cn/EKqqAHL
9.Wikipedia Links data:維基百科全文。數據集包含 400 多萬篇文章中的近 19 億字。你可以根據單詞、短語或段落本身的一部分進行搜索。
連結:http://t.cn/EKqGrJr
10.Gutenberg eBooks List:古騰堡計劃電子書注釋清單。
連結:http://t.cn/EKqGOfk
11.Hansards text chunks of Canadian Parliament:加拿大第 36 屆國會記錄 130 萬對文本。
連結:http://t.cn/EKqGJai
05 音頻數據集
1.TIMIT,英文語音識別數據集,包含630個揚聲器的寬帶錄音,八個主要方言的美式英語,每個閱讀十個語音豐富的句子。
連結:https://catalog.ldc.upenn.edu
2.CHIME,包含環境噪音的用於語音識別挑戰賽的數據集。
連結:http://chime_challenge
3.大型音樂分析數據集FMA
連結:https://github.com/mdeff/fma
4.音頻數據集AudioSet
連結:https://audioset/ontology
5.2000 HUB5 English Evaluation Transcripts,僅包含英語的語音數據集
連結:https://catalog.ldc.upenn
6.LibriSpeech,包含文本和語音的有聲讀物數據集,由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。
連結:http://www.openslr.org/12/
7.VoxForge,帶口音的語音清潔數據集
連結:http://www.voxforge.org/
06 自動駕駛
1.Cityscape Dataset:記錄 50 個不同城市街道場景的大型數據集。
連結:https://www.cityscapes-dataset.com/
2.CSSAD Dataset:該數據集可用於自主車輛的感知和導航。數據集在發達國家的道路上出現嚴重偏差。
連結:http://t.cn/R97oqgG
3.KUL Belgium Traffic Sign Dataset:比利時佛蘭德區數以千計截然不同的超過 10000 個的交通標誌標註。
連結:http://t.cn/EKq40MF
4.Berkeley DeepDrive BDD100k:目前最大的自動駕駛人工智慧數據集。
連結:http://bdd-data.berkeley.edu/
5.Baidu Apolloscapes:百度 Apollo 計劃開放的大規模自動駕駛數據集。它定義了 26 個不同語義項目,如汽車、自行車、行人、建築物、路燈等。
連結:http://apolloscape.auto/
6.Comma.ai:7 小時以上的公路行駛體驗。詳細信息包括車速、加速度、轉向角和 GPS 坐標。
連結:https://archive.org/details/comma-dataset
7.Oxford's Robotic Car:一年內在英國牛津同一條路線重複 100 多次的行駛。數據集捕捉天氣、交通和行人的不同組合,以及建築和道路工程等長期變化。
連結:http://robotcar-dataset.robots.ox.ac.uk/
8.MIT AGE Lab:在 AgeLab 收集的 1000 多個小時的多傳感器驅動數據集樣本。
連結:http://lexfridman.com/carsync/
9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數據集包括交通標誌、車輛檢測、交通燈和軌跡模式。
連結:http://cvrr.ucsd.edu/LISA/datasets.html
本文轉自:DC黑板報 ;獲授權;
END
合作請加QQ:365242293
數據分析(ID : ecshujufenxi )網際網路科技與數據圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟覆蓋5000萬人群。