陳天奇:機器學習科研的十年

2020-12-04 機器之心Pro

機器之心轉載

作者:陳天奇

陳天奇是機器學習領域著名的青年華人學者之一,本科畢業於上海交通大學ACM班,博士畢業於華盛頓大學計算機系,研究方向為大規模機器學習。上個月,陳天奇在Twitter上宣布自己將於2020年秋季加入CMU任助理教授,成為加入CMU的年輕華人學者之一。在本文中,陳天奇回顧了自己做機器學習科研的十年。

十年前,MSRA 的夏天,剛開始嘗試機器學習研究的我面對科研巨大的不確定性,感到最多的是困惑和迷茫。十年之後,即將跨出下一步的時候,未來依然是如此不確定,但是期待又更多了一些。這其中的變化也帶著這十年經歷的影子。

起始: 科研是什麼

我從大三開始進入交大 APEX 實驗室,有幸隨著戴文淵學長做機器學習,當時的我覺得「機器學習」這個名字十分高大上然後選擇了這個方向,但是做了一年之後依然摸不著頭腦,心中十分嚮往可以做科研,獨立寫論文的生活,卻總是不知道如何下手。文淵在我進實驗室的一年後去了百度。當時還沒有得到學長真傳的我,開始了我科研的第一階段,從大四到碩士的第二年,期間一直自己摸索,不斷地問自己「科研是什麼」。

和課程作業不同,學術研究沒有具體的問題,具體的方法,具體的答案。文淵的離開讓我一下子不知道該怎麼做,當時的我的想法很簡單,快點尋找一個具體的方向,完成一篇論文。因為 ACM 班的機會暑假在 MSRA 的短暫實習,雖然學會了很多東西,但並沒有給我答案。MSRA 回來之後,在實驗室薛老師的建議下,我選擇了一個現在看來正確而又錯誤的方向 -- 深度學習。那是 AlexNet 出現之前兩年,深度學習的主流熱點是非監督學習和限制玻爾茲曼機。沒有導師的指導,沒有工具,當時我靠著實驗室的兩塊顯卡和自己寫的 CUDA 代碼開始了死磕深度學習的兩年半。實驗室的學長問我,你準備要幹啥,我說:「我要用卷積 RBM 去提升 ImageNet 的分類效率。」這一個回答開啟了圖書館和實驗室的無數個日日夜夜,為了給實驗室的老機器多帶一塊高功率的顯卡,我們打開了一臺機器的機箱,在外面多塞了一個外接電源。我的生活就持續在調參的循環中:可視化權重的圖片, 看上去那麼有點像人臉,但是精度卻總是提不上來,再來一遍。從一開始 hack 顯卡代碼的興奮,到一年之後的焦慮,再到時不時在樹下踱步想如何加旋轉不變的模型的嘗試,在這個方向上,我花費了本科四年級到碩士一年半的所有時間,直到最後還是一無所獲。現在看來,當時的我犯了一個非常明顯的錯誤 -- 常見的科學研究要麼是問題驅動,比如「如何解決 ImageNet 分類問題」;要麼是方法驅動,如「RBM 可以用來幹什麼」。當時的我同時鎖死了要解決的問題和用來解決問題的方案,成功的可能性自然不高。如果我在多看一看當時整個領域的各種思路,比如 Lecun 在很早的時候就已經做 end to end,或許結局會不那麼一樣吧。

當然沒有如果,賭上了兩年半的時間的我留下的只是何時能夠發表論文的緊張心情。焦慮的我開始打算換一個方向,因為 RBM 當時有一個比較經典的文章應用在了推薦系統上,我開始接觸推薦系統和 kddcup。比較幸運的是,這一次我並沒有把 RBM 作為唯一的一個方法,而是更加廣泛地去看了推薦系統中的矩陣分解類的算法,並且在實驗室搭建了一個比較泛用的矩陣分解系統。推薦系統方向的耕耘逐漸有了收穫,我們在兩年 KDDCup11 中獲得了不錯的成績。KDD12 在北京,放棄了一個過年的時間,我完成了第一篇關於基於特徵的分布式矩陣分解論文,並且非常興奮地投到了 KDD。四月底的時候,我們收到了 KDD 的提前拒搞通知 -- 論文連第一輪評審都沒有過。收到拒搞通知時候的我的心情無比沮喪,因為這是第一篇自己大部分獨立推動完成的文章。轉折在五月,KDDCup12 封榜,我們拿到了第一個 track 的冠軍,我依然還記得拿到 KDDCup12 冠軍的那一個瞬間,我在狀態裡面中二地打了 excalibur,仿佛碩士期間的所有陰霾一掃而盡。那時候的我依然還不完全知道科研是什麼,但是隱隱之中覺得似乎可以繼續試試。

第零年: 可以做什麼

我對於科研看法的第一個轉折,在於我碩士臨近畢業的時候。李航老師來到我們實驗室給了關於機器學習和信息檢索的報告,並且和我們座談。在報告的過程中,我異常興奮,甚至時不時地想要跳起來,因為發現我似乎已經知道如何可以解決這麼多有趣問題的方法,但是之前卻從來沒有想過自己可以做這些問題。聯繫了李航老師之後,在同一年的夏天,我有幸到香港跟隨李航和楊強老師實習。實驗室的不少學長們曾經去香港和楊強老師工作,他們回來之後都仿佛開了光似地在科研上面突飛猛進。去香港之後,我開始明白其中的原因 -- 研究視野。經過幾年的磨練,那時候的我或許已經知道如何去解決一個已有的問題,但是卻缺乏其他一些必要的技能 -- 如何選擇一個新穎的研究問題,如何在結果不盡人意的時候轉變方向尋找新的突破點,如何知道整個領域的問題之間的關係等等。「你香港回來以後升級了嘛。」-- 來自某大俠的評論。這也許是對於我三個月香港實習的最好概括的吧。香港實習結束的時候我收穫了第一篇正式的一作會議論文 (在當年的 ICML)。因為 KDDCup 的緣故,我認識了我現在博士導師 Carlos 的 postdoc Danny,Danny 把我推薦給了 Carlos(UW) 和 Alex(CMU)。我在申請的時候幸運地拿到了 UW 和 CMU 的 offer。在 CMU visit 的時候我見到了傳說中的大神學長李沐,他和我感嘆,現在正是大數據大火的時候,但是等到我們畢業的時候,不知道時代會是如何,不過又反過來說總可以去做更重要的東西。現在想起這段對話依然依然唏噓不已。我最後選擇了 UW 開始了我六年的博士生活。

感謝博士之前在 APEX 實驗室和香港的經歷,在博士開始的時候我似乎已經不再擔心自己可以做什麼了。

第一年: 意外可以收穫什麼

如果給我在 UW 的第一年一個主題的話,或許是「意外」。在交大時候因為興趣的關係一直去蹭系統生物研究員敖平老師的組會探討隨機過程和馬爾可夫鏈。到 UW 的第一個學期,我無意看到一篇探討如何用 Lagevin 過程做採樣的文章,我想這不就是之前組會上探討過的東西麼,原來這些方法也可以用到機器學習上。我直接借用了原來的交大學會的知識完成了第一篇高效採樣 HMC 的文章。我後來並沒有繼續在這個方向上面耕耘下去,不過另外一位同在組會的學弟繼續基於這個方向完成了他的博士論文。

同樣的在這一年,我和導師開始「質疑深度學習」-- 如果別的的機器學習模型,有足夠大的模型容量和數據,是否可以獲得和深度學習一樣的效果呢?當時 Carlos 看好 kernel methods,而我因為過去的一些經歷決定嘗試 Tree Boosting。雖然最後在 vision 領域依然被卷積網絡打敗而嘗試挑戰失敗,但是為了挑戰這一假說而實現高效 Tree boosting 的系統經過小夥伴建議開源成為了後來的 XGBoost。

在第一年暑假結束的時候,因為偶然的原因,我開始對 quantile sketch 算法感興趣。這裡主要的問題是如何設計一個近似的可以合併的數據結構用來查找 quantile。這個方向有一個經典的方案 GK-sketch 的論文,但是只能夠解決數據點沒有權重的情況。經過一兩天的推導,我在一次去爬山的路上終於把結論推廣到了有權重的情況。有趣的是新的證明比起原來的證明看起來簡單很多。這個結論沒有單獨發表,但是後來意想不到地被用到了分布式 XGBoost 算法中,證明也收錄在了 XGboost 文章的附錄中。

研究並不是一朝一夕,做想做的事情把它做好,開始的時候興趣使然,而在幾年之後意想不到的地方獲得的收穫,這樣的感覺走非常不錯。

第二年和第三年: 選擇做什麼

在新生聚會上,Carlos 對我說,你已經有論文的發表經歷了,接下來要靜下心來做發大的,「只做 best paper 水平的研究」。和很多 nice 的導師不同,Carlos 對於學生的要求非常嚴格,說話也是非常直白甚至於「尖刻「。很多的老師不論我們提出什麼樣的想法,總會先肯定一番,而 Carlos 則會非常直接地提出質疑。一開始的時候會非常不習慣,感覺到信心受到了打擊,但是慢慢習慣之後開始習慣這樣風格。到現在看來,誠實的反饋的確是我收益最大的東西。我進入博士的一年之後,主要在想的問題是做什麼樣的問題,可以值得自己深入付出,做紮實有影響力的工作。

在博士的第三年,Carlos 在建議我把 XGBoost 寫成論文,用他的話說:「寫一篇讓讀者可以學到東西的文章」。和傳統的寫法不同,我們在文章的每一個章節插入了實驗結果驗證當章節提出的觀點。而他對於做圖的處理也成為了我現在的習慣,直接在圖裡面插入箭頭注釋,減少讀者的閱讀負擔。經過幾次打磨論文終於成為了我們想要的模樣。

博士前對於深度學習遺憾讓我又逐漸把目光轉回到深度學習。這個時候,我選擇了不再一個人作戰,在博士的第二年和第三年,我和興趣使然的小夥伴們合作,一起開始了 MXNet 的項目。項目從零開始,在短短的一年時間裡面做出完整的架構。我第一次看到集合了大家的力量齊心協力可以創造出什麼樣的東西。研究的樂趣不光是發表論文,更多還是可以給別人帶來什麼,或者更加大膽地說 -- 如何一起改變世界。

博士第二年暑假,我在小夥伴的介紹下進入 Google Brain 跟隨 Ian Goodfellow 實習。當時 GAN 的論文剛剛發表,我也有幸在成為 Ian 的第一個實習生。實習的開始,我們討論需要做的問題,Ian 和我把可能要做的項目畫在一個風險和回報的曲線上,讓我選擇。到最後我選擇了自己提出的一個課題,在這個曲線裡面風險最高,回報也最高。我一直有一個理想,希望可以構建一個終身學習的機器學習系統,並且解決其中可能出現的問題。這個理想過於模糊,但是我們想辦法拿出其中的一個可能小的目標 -- 知識遷移。如果一個機器學習系統要終生學習,那麼在不斷收集數據之後必然需要擴充模型的規模來學習更廣或者更深,按照現在的做法我們在模型改變之後只能拋棄原來的模型重新訓練,這顯然是不夠高效的。是否有一個方法可以從已經訓練好的網絡上面進行知識遷移也就成為了一個重要的問題。我先花了一個半月的時間嘗試了比較顯然的 Knowledge distillation 的方法一直沒有得到正面的結果。在最後的一個月,我改變了思路。實習結束的前一個星期,我打開 Tensorborard 上最近一組實驗的結果:實驗表明新的思路正面的效果。這最後幾步的幸運也讓我的這一個冒險之旅有了一個相對圓滿的結果。這篇論文最後被發表在了 ICLR 上,也是我最喜歡的結果之一。

博士的第三年,我和小夥伴們開發了一種可以用低於線性複雜度就可以訓練更深模型的內存優化算法。當時我非常興奮地把這一結果寫下來然後把稿子後給導師看。他和我說:Hmm, 這個結果如果投到 NeurIPS 的話或許可以中一篇 poster,但是這並不是特別有意思。在我沉默之後他又補充了一句:論文並非越多越好,相反你可能要嘗試優化你的論文裡面最低質量的那一篇。最後我們只是把這篇論文掛在了 Arxiv 上。Carlos 的說法或許比較極端(這篇論文依然影響了不少後面的工作),但也的確是對的,用李沐之前說過的一句話概括,保證每一篇論文的質量接近單調提升,已經是一件難以做到但是又值得最求的事情。

選擇做什麼眼光和做出好結果的能力一樣重要,眼界決定了工作影響力的上界,能力決定了到底是否到達那個上界。交大時敖平老師曾經和我說過,一個人做一件簡單的事情和困難的事情其實是要花費一樣多的時間。因為即使再簡單的問題也有很多瑣碎的地方。要想拿到一些東西,就必然意味著要放棄一些其他東西,既然如此,為什麼不一直選擇跳出舒適區,選一個最讓自己興奮的問題呢。

第四年之後: 堅持做什麼

博士第三年,我和小夥伴們參加 GTC,結束後老黃 party 的角落裡,我一個人在發呆。深度學習的框架發展已經鋪開,可接下來應該做什麼,我一下子感到迷茫。第三年的暑假我沒有去實習,而是決定一個人在學校嘗試開發腦海中顯現的抽象概念 -- 深度學習中間表示。暑假結束之後,我完成了第一個版本,可以比較靈活地支持深度學習系統裡面的計算圖內存優化。但是總是覺得還缺少著什麼 -- 系統的瓶頸依然在更接近底層的算子實現上。暑假之後在去加州的飛機上,我嘗試在紙上畫出為了優化矩陣乘法可能的循環變換,回來之後,我們決定推動一個更加大膽的項目 -- 嘗試用自動編譯生成的方式優化機器學習的底層代碼。

這個項目早在之前我也有一些想法,但是一直沒有敢去吃這個螃蟹。原因是它的兩個特點:從零開始,橫跨多領域。因為要做底層代碼生成和想要支持新的硬體,我們需要重新重新搞清楚很多在之前被現有的作業系統和驅動隱藏掉的問題,這就好象是在一個荒島上一無所有重新搭建起一個城堡一樣。而這裡面也涉及了系統,程序語言,體系結構和機器學習等領域。這讓我想起之前在 ACM 班時候重頭搭建編譯器和 MIPS 處理器並且連接起來的經歷。也是那段經歷讓我覺得為了解決問題去吃多個領域的螃蟹是個讓人興奮的事情。那段經歷給我留下的第二個印記是理解了合作和傳承的重要性。這門課程設計有一個傳統,每一門課程的老師都由上一屆學長擔任。每一屆的同學都會在之前的基礎上有所改進。我也曾經為這門課做過一些微小的貢獻。演化到現在,這門課程已經從只做簡單的答辯,到現在已經有在線評測的 OJ。大家一起的合作塑造了這個課程。推動新的機器學習系統和塑造這門課程一行,需要各個團隊的同學合作,足夠時間的耐心關注和不斷地改進。

我的合作者們也被「捲入」到了這個項目中。我的體系結構合作者一直想要設計新的 AI 硬體,我在雛形完成之後花了大量的時間討論如何協同設計新的硬體的問題。我們開始討論怎麼管理片上內存,怎麼可以比較容易地生成指令集,甚至怎麼調度內存讀寫和計算並行的問題都暴露出來。有一天,我和合作者說我們需要引入虛擬線程的概念來隱藏內存讀寫開銷,然後他很快和我說,這是體系結構裡面經典的超線程技術,發明人正是我們的系主任 Hank。我們也在不斷地重新發現經典的問題的解決方法在新場景的應用,讓我覺得上了一堂最好的體系結構課程。

兩年間的不少關鍵技術問題的突破都是在有趣的時候發生的。我在排隊參觀西雅圖藝術博物館的 infinity mirror 展覽的途中把加速器內存拷貝支持的第一個方案寫在了一張星巴克的餐巾紙上。到後來是程序語言方向的同學們也繼續參與進來。我們爭論最多的是如何如何平衡函數式語言和經典計算圖做讓大家都可以搞懂的中間表達,這一討論還在不斷繼續。經過大家的努力,TVM 的第一篇論文在項目開始的兩年之後終於發表。兩年間參與項目的同學也從兩個人,到一個團隊,再到一個新的 lab 和一個社區,這兩年也是我博士期間最充實的兩年。

因為做了不少「跨界」的工作,我常被問起你到底屬於哪個領域。過去半年一直在各地給報告,報告這樣開頭:算法突破,數據的爆發,計算硬體的提升三者支撐了機器學習的變革,而整合這三者的,則是機器學習系統。這也是為什麼我要做機器學習系統的原因。曾經一個教授問我這樣的問題,如果明天有一樣新的化學反應過程可能帶來機器學習的變革,你會怎麼做。我答道:「我投入會去學習研究這個化學過程」。雖然我不知道遙遠的未來會需要什麼,到底是系統,算法,還是化學,從問題出發,用盡所有可能的方法去最好地解決機器學習問題,應該這就是我想要堅持的研究風格吧。

總結

在寫這篇總結的時候,心中有不少感嘆。我常想,如果我在焦慮死磕深度學習的時候我多開竅一些會發生什麼,如果我並沒有在實習結束的時候完成當時的實驗,又會是什麼。但現在看來,很多困難和無助都是隨機的漲落的一部分,付出足夠多的時間和耐心,隨機過程總會收斂到和付出相對的穩態。

每個人的研究道路都各不相同,我的經歷應該也是千萬條道路中其中一條罷了。博士的經歷就好像是用五年多時間作為籌碼投資給自己,去突破自己做自己原來想不到的事情。中不管坎坷曲折都是無可替代的一部分。

科研從來不是一個人的事情,對於我來說特別是如此。我在交大的時候和一群年輕的同學一起摸索推薦系統的算法,而在博士期間搭建的每一個系統都包含了很多合作者一起的努力。也正是大家一起的努力才帶來了現在的成果。我個人在這十年間受到了不少老師,同學,家人的鼓勵和幫助,感謝他們他們給予了我這無比珍貴的十年時光。

原文連結:https://zhuanlan.zhihu.com/p/74249758?utm_source=wechat_session&utm_medium=social&utm_oi=36286488379392&from=timeline&s_s_i=0Adl1SNt%2FB3gEe0APUZZYAVRCRw%2F801frkyc0v%2BsfIo%3D&s_r=1

相關焦點

  • 陳天奇做的XGBoost為什麼能橫掃機器學習競賽平臺?
    新智元報導 編輯:元子【新智元導讀】XGBoost號稱「比賽奪冠的必備大殺器」,橫掃機器學習競賽罕逢敵手,堪稱機器學習算法中的新女王!XGBoost號稱「比賽奪冠的必備大殺器」,橫掃機器學習競賽罕逢敵手。最近甚至有一位大數據/機器學習主管被XGBoost在項目中的表現驚豔到,盛讚其為「機器學習算法中的新女王」!XGBoost最初由陳天奇開發。陳天奇是華盛頓大學計算機系博士生,研究方向為大規模機器學習。
  • 2017中國AI英雄風雲榜技術創新人物候選人之陳天奇
    陳天奇陳天奇,華盛頓大學計算機系博士生,此前畢業於上海交通大學ACM班,研究方向為大規模機器學習。
  • 陳天奇明年將加入CMU出任助理教授
    華盛頓大學博士生、SAMPL Lab和MODE Lab成員陳天奇,今天在推特上宣布,將於明年秋天加入卡內基梅隆大學(CMU),擔任助理教授。陳天奇在AI領域有諸多貢獻,他參與構建了三個廣為使用的機器學習系統,包括:TVM、XGBoost以及Apache MXNet。2012年,陳天奇還曾獲得KDDCup的冠軍。
  • 陳天奇將於2020年加入CMU任助理教授
    6月17日消息,據報導,陳天奇他將於2020年秋季加入CMU任助理教授,成為加入CMU的年輕華人學者之一。陳天奇是機器學習領域著名的青年華人學者之一,本科畢業於上海交通大學ACM班,博士畢業於華盛頓大學計算機系,研究方向為大規模機器學習。
  • 華盛頓大學成立SAML實驗室:陳天奇參與,探索跨系統堆棧多層問題
    安妮 發自 凹非寺量子位 出品 | 公眾號 QbitAI△ 陳天奇昨天,TVM、XGBoost、cxxnet等機器學習工具的作者陳天奇宣布,自己所在的華盛頓大學新成立了一個實驗室陳天奇本人在微博上介紹說,實驗室將有整合系統、體系結構、機器學習和程序語言4個方向的團隊推進深度學習算法、系統的硬體和協同設計研究和TVM等開源項目。△ 陳天奇微博截圖四個方向華盛頓大學為什麼想建立這個實驗室?
  • 陳天奇任 CTO,華盛頓大學TVM團隊創業,獲390萬美元種子輪融資
    > 不久之前,機器之心曾報導,華盛頓大學 TVM 團隊成立創業公司 OctoML ,陳天奇擔任作為機器學習領域知名的青年華人學者,陳天奇加入創業公司的消息引起了業內極大的關注。今日,OctoML 宣布完成 390 萬美元種子輪融資,主要面向缺少源或知識來構建優化深度學習模型的群體。 本輪融資由麥德羅納風險投資集團領投,Amplify Partners 參投。
  • 資料| 陳天奇介紹Xgboost原理的PPT
    【 圖片來源:https://xgboost.apachecn.org/  所有者:https://xgboost.apachecn.org/ 】它在 Gradient Boosting 框架下實現機器學習算法。XGBoost提供並行樹提升(也稱為GBDT,GBM),可以快速準確地解決許多數據科學問題。相同的代碼在主要的分布式環境(Hadoop,SGE,MPI)上運行,並且可以解決數十億個示例之外的問題。
  • 陳天奇創業公司首個SaaS產品:快速構建部署ML應用,跨平臺優化
    去年,知名人工智慧青年學者、華盛頓大學博士陳天奇參與創建了 ML 創業公司 OctoML。該公司致力於打造一個可擴展、開放、中立的端到端棧,用於深度學習模型的優化和部署。這不,他們推出了首個 SaaS 產品 Octomizer,其能夠幫助開發者或數據科學家更方便、更省事省力地將 ML 模型部署到設備上。
  • 認知智能——AI的下一個黃金十年
    遠在1956年一個盛夏,人工智慧的理念首次被提出,它在美國達特茅斯大學召開的科技交流會議之上閃亮登場,吸引了無數科學學者以及科研工作者對智能化的探索以及對智能未來的美好描繪。不過,當時還在圖像識別、抽象思維、自我認知等基礎性功能缺失的現狀中,導致人工智慧的發展從門庭若市到冷冷清清,甚至遭到了不少科研學者的唾棄。
  • 陳天奇:深度學習編譯技術的現狀和未來
    作者:陳天奇傳統的深度學習框架採用人工優化算子,然後建立運行時圖解釋器來解決內存分配調度等問題。深度學習編譯器技術路線一般指在優化過程中採用了自動或者半自動的代碼生成用以替代人工優化。深度學習編譯器無疑是最近非常熱門的話題。本文主要探討深度學習編譯技術的現狀和未來。
  • 機器學習未來十年:你需要把握的趨勢和熱點
    看趨勢:把握機器學習的未來機器學習雖然取得了長足的進步,也解決了很多實際問題,但是客觀地講,機器學習領域仍然存在著巨大的挑戰。首先,主流的機器學習技術是黑箱技術,這讓我們無法預知暗藏的危機,為解決這個問題,我們需要讓機器學習具有可解釋性、可幹預性。
  • 陳天奇的tvm更新了:VTA,開源AI晶片棧
    陳天奇 發表於 tvm社區 量子位 搬運 | 公眾號 QbitAI華盛頓大學陳天奇博士近日在tvm社區介紹了VTA(Versatile Tensor Accelerator)項目,量子位全文搬運如下。
  • 機器學習算法的新女王——XGBoost
    字幕組雙語原文:  基於決策樹的XGBoost算法演化XGBoost算法是華盛頓大學的一個研究項目。此外,在選擇獲勝算法時還有其他一些考慮因素,例如計算複雜度、可解釋性和易於實現。這正是機器學習開始從科學走向藝術的起點,但老實說,這就是奇蹟發生的地方!未來會怎樣?機器學習是一個非常活躍的研究領域,已經有幾種可行的XGBoost替代方案。微軟研究院最近發布了LightGBM框架來增強梯度,顯示出巨大的潛力。
  • 青春擁抱時代|本科生馬雲飛在Physical Review C發表機器學習方法探究原子核半徑科研成果
    我校理學院2016級應用物理學專業本科生馬雲飛的科研成果《基於貝葉斯機器學習預測原子核電荷半徑》(Predictions of nuclear charge radii and physical interpretations based on the naive Bayesian probability classifier)在《Physical Review C》在線發表。
  • 機器學習在領英的規模化應用
    ,近年來湧現出越來越多本科生或者非人工智慧專業出身的工程師,他們努力學習和使用技術來改進產品,幾乎每天都有新的機器學習技術和框架發布。這篇文章將討論領英如何規模化利用技術,幫助更多工程師提升機器學習的效率。近日,領英中國機器學習研發經理李子在IEEE數據挖掘國際會議(ICDM)上分享了領英是如何規模化開展機器學習,介紹領英的核心產品以及如何利用技術幫助更多工程師提升機器學習的效率。
  • 機器學習,人工智慧也被成功應用到同步輻射光源上
    解決一個數十年的問題但是一些光束特性仍然表現出性能的波動,這對某些實驗提出了挑戰。其中許多同步加速器設備為數十個同時進行的實驗提供不同類型的光。並且在這些單獨的光束線上增強光束屬性的小調整可以反饋到整個設施整體光束性能中。同步加速器的設計者和操作員幾十年來一直在與各種方法搏鬥,以補償這些波動中最頑固的部分。
  • 機器學習、深度學習,然後軟體裡面的流程是機器學習之前要做好的
    就是現在大家談的這個ai智能工廠,要建設的是一個標準化的工廠,能夠用標準化的產品、規範化的流程來去生產產品和生產過程中的那些環節,要把現在我們大部分從事科研、在工廠裡的工作都轉換成標準化的、規範化的流程。對於人工智慧目前的應用,我們來看要有前端算法、後端軟體的流程,在前端來說,先定好一個算法,比如機器學習、深度學習,然後軟體裡面的流程是機器學習之前要要做好的。
  • 物理所等利用機器學習方法預測材料性能獲進展
    近二十年來,機器學習方法的發展為我們的生活帶來許多便利。智能網絡搜索、語音識別,乃至無人超市、無人駕駛汽車等,依託於機器學習方法的新事物正迅速地在生活中普及。Alpha Go的橫空出世更讓世界驚嘆於人工智慧的潛在價值。在科研領域,大數據的理念正在改變著科研人員對未知世界的探索方式。