...Feature Engineering for Machine Learning》翻譯及代碼實現

2021-01-19 騰訊網

由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(國內譯作《精通特徵工程》)一書,可以說是特徵工程的寶典,本文在知名開源apachecn組織翻譯的英文版基礎上,將原文修改成jupyter notebook格式,並增加和修改了部分代碼,測試全部通過。這個資料可以說是特徵工程的寶典,值得推薦。

資料說明

《Feature Engineering for Machine Learning》由知名開源apachecn組織翻譯,原版英文書可以在網上試讀(免費讀10天),試讀地址:

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

這本書可以說是特徵工程的寶典,值得推薦。

本站在得到apachecn同意後,對翻譯版本進行了潤色和代碼實現,將原文修改成jupyter notebook格式,並增加和修改了部分代碼,測試全部通過,同時所有數據集已經放在百度雲下載。

翻譯代碼放在數據科學的github倉庫提供下載,倉庫地址:

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

備註:本文的翻譯版本與人民郵電出版社出版的《精通特徵工程》有所不同,屬於獨立完成。

文件目錄

一、引言

二、簡單數字的奇特技巧

三、文本數據:展開、過濾和分塊

四、特徵縮放的效果:從詞袋到 TF-IDF

五、類別特徵:機器雞時代的雞蛋計數

六、降維:使用 PCA 壓縮數據集

七、非線性特徵提取和模型堆疊

八、自動化特徵提取器:圖像特徵提取和深度學習

九、回到特徵:將它們放到一起(更新中)

附錄、線性模型和線性代數基礎

內容簡介

第 1 章從數字數據的基本特徵工程開始:過濾,合併,縮放,日誌轉換和能量轉換以及交互功能。

第 2 章和第 3 章深入探討了自然文本的特徵工程:bag-of-words,n-gram 和短語檢測。

第 4 章將 tf-idf 作為特徵縮放的例子,並討論它的工作原理。

第 5 章討論分類變量的高效編碼技術,包括特徵哈希和 bin-counting。

第 6 章中進行主成分分析,我們深入機器學習的領域。

第 7 章將 k-means 看作一種特徵化技術,它說明了模型堆疊的有效理論。

第 8 章都是關於圖像的,在特徵提取方面比文本數據更具挑戰性。在得出深度學習是最新圖像特徵提取技術的解釋之前,我們著眼於兩種手動特徵提取技術 SIFT 和 HOG。

第 9 章中完成了一個端到端示例中的幾種不同技術,為學術論文數據集創建了一個推薦器。

內容截圖

總結

本文將《Feature Engineering for Machine Learning》修改成jupyter notebook格式,測試全部通過,並提供下載。

翻譯代碼的倉庫地址:

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

參考

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

https://github.com/alicezheng/feature-engineering-book

https://github.com/apachecn/feature-engineering-for-ml-zh

相關焦點

  • A Little Learning is a Dangerous Thing的下半句出處及翻譯
    三、如何翻譯a little learning is a dangerous thing及其整句詩1.作為諺語或成語的a little learning is a dangerous thing的翻譯由引用Alexander Pope的An Essay on Criticism而成的英語諺語或成語在英語國家和地區是廣為人知,而漢語也有個眾所周知的成語即一知半解,那麼,從翻譯的角度看,兩者似乎可以對應,但如果仔細比較,前者的a little learning
  • 推薦下載 | WWW-18上Representation Learning on Networks的輔導講義PPT!
    However, recent years have seen a surge in approaches that automatically learn to encode network structure into low-dimensional embeddings, using techniques based on deep learning and nonlinear dimensionality
  • Feature flag,一個讓軟體發布輕鬆不掉發的神技
    簡而言之,可以把feature flag簡單地視為一個包圍你新功能代碼的「if」語句。如果flag被設置為on,則執行新代碼(即啟用新功能),否則就不執行。真的就是這麼簡單!今天我們要使用的feature flag即服務來自提供商Floodgate。Floodgate提供了開箱即用的feature flag解決方案,你很容易地就可以將其集成到代碼中,軟體發布中的風險立馬就降低了。是時候揭開面紗了!我叫Eugene,是Floodgate的創始人。話雖這麼說,但我所提供的建議適用於上面說的任何一種實現方式。
  • 用 Python Featuretools 庫實現自動化特徵工程
    (給Python開發者加星標,提升Python技能)英文:Prateek Joshi,翻譯:數據派/張玲簡介
  • 基於PaddlePaddle的機器翻譯教程 | 深度學習基礎任務系列
    本文轉載自PaddlePaddle量子位 編輯 | 公眾號 QbitAI機器翻譯(machine translation, MT)是用計算機來實現不同語言之間翻譯的技術。需要翻譯的語言通常稱為源語言(source language),翻譯成的結果語言稱為目標語言(target language)。
  • Chaos Mesh 的 Chaos Engineering as a Service 探索之路
    改造後,在 Chaos Daemon、Chaosd 中集成了 node_exporter,實現節點 Metrics 採集;K8s 集群內部署 kube-state-metrics ,結合 cadvisor,實現 K8s Metrics 採集。配合 Prometheus + Grafana 即可實現對 Metrics 監控,基於 Metrics 監控可以便捷的查看實驗結果狀態。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...
    編 |智東西 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
  • 人工智慧翻譯逐步取代人工 那還用學英語?(雙語)
    在未來,機器可能會實現多少?為了何種目的,到了什麼程度,日本人應該發展他們的英語技能嗎?   We asked an American translator who teaches English at a university and the president of a machine translation company about these issues.   我們諮詢了一名在大學教英語的美國譯者以及一家專注這些問題的機器翻譯公司的總裁。
  • ACL2020|使用強化學習為機器翻譯生成對抗樣本
    當前神經機器翻譯(neural machine translation, NMT)系統在實用場合常常會出現用戶難以預計的錯誤,這些錯誤甚至存在消極的社會影響。而基於用戶反饋進行的維護通常也是在這些錯誤產生後才能進行,開發者更希望在上線前就能進行大量的測試進行預防性維護。直接的魯棒性測試通常需要專家編制大量對應的測試數據並進行標註,但對於機器翻譯這類任務而言成本過高。
  • 【Machine Learning系列】利用PYTHON實現KNN算法
    原圖文參考來源:計算機傳播網,「利用Python實現KNN算法」,作者:中國傳媒大學新聞學院,羅晨,以及百度百科。本文部分文字進行刪減。原文請點擊左下「閱讀全文」。。
  • 英語中的一些疊詞,及feature與future的用法
    那今天我來考考大家,there there怎麼翻譯?字面上看「there there」就是「那裡那裡」,但它的意思和這個相差大著呢!它常常用於安慰別人,可以翻譯成「沒事沒事」、「好啦好啦」。There there.
  • 《Attention is all you need》全文翻譯
    對兩個機器翻譯任務的實驗表明,這些模型在質量上更加優越、並行性更好並且需要的訓練時間顯著減少。我們的模型在WMT 2014英語-德語翻譯任務上達到28.4 BLEU,超過現有最佳結果(包括整合模型)2個BLEU。在WMT 2014英語-法語翻譯任務中,我們的模型建立了單模型新的最先進的BLEU分數41.8,它在8個GPU上訓練了3.5天,這個時間只是目前文獻中記載的最好的模型訓練成本的一小部分。
  • 2019微信翻譯表白代碼大全 用微信翻譯我喜歡你
    微信翻譯表白代碼相信很多人都是想知道他是有哪些,又是怎麼製作的,其實這個表白的代碼在以前就曾經出來過,不過現在這個代碼又再次的火了起來!2019最新微信翻譯表白代碼分享。微信翻譯表白代碼是非常有意思的,通過阿拉伯文來翻譯,比如我喜歡你,我愛你,這是一種令人意想不到的表達愛意的方式。