等你在2118:探索機器學習算法生命周期

2021-03-06 專知

【導讀】1月22日,統計學家Venkat Raman發布了一篇比較有意思的博文,作者探討了到2118年,即未來一百年中機器學習中一些算法可能的興衰存亡。具體分析了「回歸」算法和「神經網絡」兩種算法未來的走勢。作者引經據典,主要藉助林迪效應(Lindy effect)分析算法的生命周期。本文的有趣之處不在於它給出我們一個確切的結論,而是作者能為自己的分析提供佐證。

作者homepage:https://medium.com/

Which Machine Learning Algo will continue to be in use in year 2118?

你認為哪個機器學習算法會在2118年繼續使用?

 

你的腦海會浮現什麼答案呢? 隨機森林(Random forest),SVM,K-means,KNN甚至深度學習的其他變種?

一些人可能會笑了,問:「你到底能如何預測的,預測未來100年的事情是很瘋狂的事?」

 

究竟是什麼讓你認為「回歸」將在2118年繼續使用呢?

  

答案是林迪效應(Lindy effect)。我是受林迪效應的啟發進行預測的。

那麼,下一個問題,什麼是林迪效應?

林迪效應

 

維基百科定義了林迪效應:

使用時間越久,越不容易消失。比如一樣東西,人們已經使用了十年,可能還會繼續使用十年;已經使用了一百年,還會繼續使用一百年。

 

林迪效應是一個概念、一些技術或想法等,提出一個很難消失事物的未來預期壽命與他們現在的年齡成正比,所以每一個額外的生存期都意味著其有著更長的剩餘壽命。

我最喜愛的作家之一Nassim Taleb在他著名的書Antifragile寫道:從無序的事物定義了林迪效應,例子如下:

如果一本書已經印刷了四十年,我可以期待它繼續出版另一個四十年,如果它還能存活十年,那麼預計它還會存在五十年的時間。 這就是說,一般來說,長期存在的東西不像人一樣「老化」,而是繼續生存下去。 如果每年沒有消失,額外的預期壽命增加一倍。 這是一個非常魯棒的指標。 一件物品的未來存在的時間與其壽命成正比!

我極力推薦讀一下他的關於林迪效應的文章『An Expert called Lindy』。

https://medium.com/incerto/an-expert-called-lindy-fdb30f146eaf

 

那麼為什麼「回歸」會存活那麼久

 

是因為它已經存活了這麼久。回歸(最小二乘法)這個概念最初是由Carl Friedrich Gauss和Adrien-Marie Legendre在1800年提出的。 他們用它來確定太陽周圍的行星和其他物體的軌道。

「回歸」這個詞是弗朗西斯·高爾頓(Francis Galton)所創造的,用來形容這樣一種現象:高個子的父親較大概率擁有相對較矮的兒子,而較矮的父親較大概率擁有相對較高的兒子。

很明顯回歸已經存在有200多年了! 所以根據林迪效應,回歸將會持續存在200年。 所以保守估計,回歸在2118年會繼續使用。

 

回歸長壽背後的秘密是什麼?

舉例來說,2016年Kdnuggets調查報告如下

 

事實上,在2011年的Kdnuggets進行的另一項調查中,回歸結果排名第二,離第一很接近。 所以根據林迪效應,它已經成為5年來的榜首!

 

回歸仍然是廣泛使用的機器學習算法。 人們正在使用回歸或繼續使用回歸,因為

 

「它有效」的方面

很多不同領域的人們都在使用回歸,因為它在它們工作中起到重要作用。 通過使用回歸,人們可以計算投資回報。 例如,在市場營銷中,市場混合模型(Market Mix Modeling)背後的動力是回歸。 它仍然是一種流行的技術,許多快速消費品公司都相信MMM的結果。 其他領域也一樣。

那麼神經網絡及其變體它們會在2118年使用嗎?

到目前為止,從林迪效應來看,神經網絡(AI)結果並不是很好。 它已經經歷過AI寒冬。 神經網絡及其變體的壽命在20世紀受到「AI寒冬」的阻礙。 這樣的中斷對於技術或者算法的長久性來說不是一個好兆頭。

但是,在過去的十年裡,AI相關的進步使得其應用前景不斷壯大。 而我作為一名永遠的學生,將繼續熱衷於最新的AI突破。 所以一個安全的賭注可能是我們可以看到神經網絡及其變種再生存10 - 20年,希望Elon Musk表達的「奇異(Singularity)」不會導致另一個AI冬天。

 

是什麼阻礙機器學習算法突破林迪效應?

 

你真的需要用機器學習?殺雞焉用牛刀:機器學習算法的錯誤應用和過度使用,將阻礙機器學習突破林迪效應。 我遇到過很多人們不必要的使用機器學習算法的情況,因為有時候簡單的基礎方法就能起作用,為了趕時髦卻非要用機器學習方法。 Rama Ramkrishnan先生在他的文章中很好地說明了這一點。

https://towardsdatascience.com/first-create-a-common-sense-baseline-e66dbf8a8a47

 

此外,數據科學相關工作的爆發式流行也是另外一個隱患。 目前機器學習算法已經變成數據科學家手中的一個萬金油,不論什麼任務都被拿來使用(機器學習像數據科學家手中的錘子, 一切都看起來像一個釘子)。 錯誤或過度地應用機器學習算法,都會導致人們在機器學習不靈在有些任務不靈的時候,因自己心中過高的期望而產生心理落差,這時候人們自己將導致「AI的冬天」。但目前為止「回歸」可能笑道最後,甚至一直到2118年。

如果你喜歡我的文章,可以在文章下面進行評論。

 

你可以聯繫我

http://www.linkedin.com/in/venkat-raman-Analytics

https://twitter.com/venksaiyan

https://analyticsloka.blog/blog/

 

原文連結:

https://towardsdatascience.com/which-machine-learning-algo-will-continue-to-be-in-use-in-year-2118-59d0461160f3

人工智慧領域主題知識資料查看獲取【專知薈萃】人工智慧領域26個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)

請PC登錄www.zhuanzhi.ai或者點擊閱讀原文,註冊登錄專知,獲取更多AI知識資料

請掃一掃如下二維碼關注我們的公眾號,獲取人工智慧的專業知識!

請加專知小助手微信(Rancho_Fang),加入專知主題人工智慧群交流!

點擊「閱讀原文」,使用專知

相關焦點

  • MLflow:一種機器學習生命周期管理平臺
    編者註:文中超連結如果不能訪問可以點擊「閱讀原文」訪問本文原頁面;查看 2018年9月11日至13日在紐約Strata數據會議上的「模型生命周期管理
  • 谷歌大腦開源項目 AutoML-Zero:用數學運算能探索出機器學習算法
    在 AutoML 中使用的這些手工設計的組件的另一種方法是從頭開始搜索整個算法,這很有挑戰性。因為它需要探索廣泛而稀疏的搜索空間,但它有很大的潛在好處:它不會偏向我們已知的內容,而且有可能發現新的、更好的機器學習架構。
  • 新的研究表明,機器學習可以讓技術設計周期縮短一年
    美國桑迪亞國家實驗室開發了一種機器學習算法,能夠以比正常速度快近4萬倍的速度為材料科學家進行模擬。資料來源:桑迪亞國家實驗室的埃裡克·倫丁 如果一切都以40000倍的速度移動,你就可以在播種三分鐘後吃下一個新鮮的西紅柿。你可以在半秒鐘內從紐約飛到洛杉磯。你要在機場安檢處為那趟航班排隊等待30毫秒。 多虧了機器學習,為新先進技術設計材料的速度可以大大加快。
  • 機器學習預測非周期超晶格結構的熱導率
    然而,這仍然是一個很困難的問題,例如如何定義非周期結構的無序程度,以及該無序程度與結構熱導率之間的關係猶未可知。圖1 周期性超晶格結構(上),非周期超晶格結構(下),不同顏色代表不同的材料 針對以上問題,內華達大學王巖助理教授與華中科技大學胡潤副教授合作,首先從結構層數的排列順序的方面定義了兩個參數——基於厚度的無序指數Rd和基於周期的無序指數Rp。
  • 機器學習算法一覽
    尷尬的是,按理說,機器學習介紹與算法一覽應該放在最前面寫,詳細的應用建議應該在講完機器學習常用算法之後寫,突然莫名奇妙在中間插播這麼一篇,好像有點打亂主線。 老話說『亡羊補牢,為時未晚』,前面開頭忘講的東西,咱在這塊兒補上。我們先帶著大家過一遍傳統機器學習算法,基本思想和用途。
  • 【機器學習】監督式和非監督式機器學習算法
  • 終極算法:機器學習裡的「牛頓三定律」
    在本書中,全球著名的算法問題專家、機器學習領域的先驅人物佩德羅·多明戈斯(Pedro Domingos)為我們揭開了算法的神秘面紗,讓我們一窺谷歌以及你的智慧型手機背後的機器學習原理。你也可能和孩子們在Xbox 上玩遊戲,Kinecta學習算法確定你在哪裡、在做什麼。你在睡前吃藥,醫生通過學習算法的輔助來設定和檢測吃藥的最佳時間。醫生也可能利用機器學習來幫你診斷疾病,例如,分析X射線結果並弄明白一系列非正常症狀。機器學習參與了你人生的每個階段。如果你為了參加SAT大學入學考試(美國學術能力評估測試)而在網上學習,某學習算法會給你的練習短文打分。
  • 新手必看的十種機器學習算法
    雷鋒網 AI 科技評論按:在神經網絡的成功的帶動下,越來越多的研究人員和開發人員都開始重新審視機器學習,開始嘗試用某些機器學習方法自動解決可以輕鬆採集數據的問題。然而,在眾多的機器學習算法中,哪些是又上手快捷又功能強大、適合新手學習的呢?Towards Data Science 上一篇文章就介紹了十種新手必看的機器學習算法,雷鋒網 AI 科技評論全文編譯如下。
  • 機器學習常見算法分類匯總
    機器
  • 機器學習入門篇|面向初學者的十大機器學習算法
    為了舉例說明機器學習的影響,Man group的AHL Dimension計劃是一個51億美元的對衝基金,部分由AI管理。 該基金開始運作後,到2015年,儘管其管理的資產遠遠少於該基金,但其機器學習算法卻貢獻了該基金一半以上的利潤。
  • 算法應用|機器學習python應用,初識機器學習是怎樣滴感受?
    其中有些算法適合多種問題,有些只適合解決一種問題,下面列出一些常見的一些機器學習算法。2、必須非常深入地學習和理解在scikit- learn中使用的機器學習的理論和算法。實際上也不需要,除非你是這一方向的碩士甚至博士學位的學習者。機器學習不同的算法涉及的知識點是非常廣闊的,要做到每一種算法的理論知識的學習都非常深入,是比較難的,實際上簡單的機器學習應用中,只需要了解不同算法的基礎知識就可以使用了。
  • 機器學習在領英的規模化應用
    ;Recruiter Search可以幫助企業了解趨勢,更好地進行招聘;職位推薦系統(Job Recommendations System)可以幫你找到工作或者跳槽到更好的企業。具體來說Pro-ML採用分層解決方案,目標是提高整個模型開發周期的效率,從模型探索和構建(Exploring and Authoring),到模型訓練(Training)、模型部署(Deploying)、模型運行(Running),再到持續監控模型狀態。領英希望把所有常規工作自動化,這樣算法工程師就能更加聚焦於創新。
  • 尋找生命的基礎算法
    (原標題:尋找生命的基礎算法) 編者注
  • 機器學習中的聚類算法有哪幾種?
    來源:博學谷 作者:照照目前,聚類算法被廣泛應用於用戶畫像、廣告推薦、新聞推送和圖像分割等等。聚類算法是機器學習中一種「數據探索」的分析方法,它幫助我們在大量的數據中探索和發現數據的結構。那麼機器學習中的聚類算法有哪幾種呢?
  • 如何選擇正確的機器學習算法
    4 - 實現機器學習算法 設置一個機器學習管道,使用一組精心選擇的評估標準比較每個算法在數據集上的性能。另一種方法是在不同的數據集子組上使用相同的算法。對此,最好的解決方案是只執行一次,或者讓一個服務在添加新數據時每隔一段時間執行一次。
  • 常見的機器學習算法,你知道幾個?
    誕生於1956年的人工智慧,由於受到智能算法、計算速度、存儲水平等因素的影響,在六十多年的發展過程中經歷了多次高潮和低谷。最近幾年,得益於數據量的上漲、運算力的提升,特別是機器學習新算法的出現,人工智慧迎來了大爆發的時代。提到機器學習這個詞時,有些人首先想到的可能是科幻電影裡的機器人。
  • 問答系統中機器學習算法應用:Quora 2017年ML平臺規劃
    到今天,Quora 在機器學習的使用已經得到廣泛增長,不僅在構建更大更好的模型方面走得更深入,同時也擴大了機器學習使用的領域。本文將給大家介紹 Quora 在 2017 年機器學習規劃的全景圖。機器學習用例下面將通過 Quora 產品的不同部分,來介紹我們是如何應用機器學習算法。1.
  • 五分鐘了解機器學習十大算法
    本文為有志於成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。機器學習是該行業的一個創新且重要的領域。我們為機器學習程序選擇的算法類型,取決於我們想要實現的目標。現在,機器學習有很多算法。因此,如此多的算法,可能對於初學者來說,是相當不堪重負的。
  • 14種機器學習常見算法分類匯總!
    很多人在平時的工作中都或多或少會用到機器學習的算法。這裡總結一下常見的機器學習算法,以供您在工作和學習中參考。機器學習的算法很多。很多時候困惑人們都是,很多算法是一類算法,而有些算法又是從其他算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是算法的類似性。根據數據類型的不同,對一個問題的建模有不同的方式。
  • 我的機器學習算法之路
    掌握人工智慧技術,需要從基礎的機器學習算法開始學習,逐漸建立機器學習知識體系。本篇文章 :1.帶大家克服心理上對於機器學習的敬畏,繞開彎路(本人入過很多坑),進入機器學習領域。2.從基本概念和機器學習的應用領域入手,幫助大家建立機器學習的概念模型。3.用最基本的線性回歸和邏輯回歸算法,讓大家掌握機器學習神秘的「三板斧」方法論。