年輕人的第一塊金牌:我是如何成為 Kaggle 全網第一的

2021-03-02 AI有道

點擊上方「AI有道」,選擇「星標」公眾號

重磅乾貨,第一時間送達

選自 | towardsdatascience

作者 | Andrew Lukyanenko

編譯 | 機器之心

能在 Kaggle 競賽中取得金牌已經是一項挑戰了,而成為 Kernel Grandmaster 甚至是可遇不可求。而近日,畢業於莫斯科國立大學的數據科學家Andrey Lukyanenko在一次競賽中達成Kaggle金牌,並在Kernel Grandmaster排名全網第一。本文是他的心路歷程。

參加Kaggle競賽對於任何人來說都是一項嚴峻的挑戰。你需要花費大量時間和精力來學習新知識、嘗試新技巧,努力獲得高分。但這些往往還是不夠,因為你的競爭對手可能擁有更多經驗、更多空閒時間、更多硬體甚至其他莫名其妙的優勢。

但是,獲得 Kaggle 金牌,甚至取得全網第一的排名似乎也不是完全不可能。一位來自俄羅斯的數據科學家就寫下了他的心得,供讀者參考。

雖然剛剛在競賽中拿下第一塊金牌,但Lukyanenko已經在Kernel上排名第一了。

以前,我能在一些競賽中獲得銀牌,有時歸功於運氣,有時得益於自己做了大量工作。但儘管我花費了大量時間,還是只能在很多競賽中獲得銅牌(甚至一無所獲)。
當看到一場新的競賽將於5月底啟動時,我就立即對它產生了興趣。這是一場特定領域的競賽,旨在預測分子中各原子之間的相互作用。
眾多周知,核磁共振(NMR)技術利用類似於MRI的原理來了解蛋白質和分子的結構與動態。全世界的研究人員進行NMR實驗來進一步了解跨環境科學、藥物科學和材料科學等領域的分子的結構與動態。

在此次競賽中,選手們試圖預測一個分子中兩個原子之間的磁相互作用(標量耦合常數)。當前量子力學最先進的方法可以計算這些耦合常數,並且只需要一個3D分子結構作為輸入即可。但這些計算會耗費大量資源,所以不常使用。

因此,如果機器學習方法可以預測這些值,則能夠真正地幫助藥物化學家洞見分子結構,並且速度更快、成本也更低。
就自身而言,我通常會為新的Kaggle競賽編寫EDA內核,所以這次也不例外。在這一過程中,我發現這次競賽非常有意思,也非常特別。我們獲得了有關分子及其內部原子的信息,所以可以使用圖來表徵分子。Kaggle競賽中常見的表格數據處理方法是利用大量的特徵工程和構建梯度提升模型。


在最初的嘗試中,我也使用了LGB,但知道還有更好的方法來處理圖。這種挑戰令我著迷,所以決定認真參與到競爭之中。
我沒有一點相關領域知識(上一次看化學式還是在學校時),所以我決定完全使用機器學習技術:大量特徵工程、創建折外元特徵(out-of-fold meta-feature)等等。和往常一樣,我在Kernels上公開了自己的工作。從下圖中你可以看到,它們很受歡迎。



這次,該方法在leaderboard上取得了相當好的得分,我也得以保持白銀段位。

此外,追蹤當前一些最新的Kaggle Kernels和論壇觀點也非常重要。

其中真正幫到我的是論壇和Kaggle Kernels。從競賽開始直至結束,我瀏覽了所有的Kernels和論壇帖子,這其中包含很多不容錯過的有用信息。即使是一些不太流行的Kernels也會包含有趣的新功能。論壇帖子裡會有其他人的一些觀點,這也有助於提高競賽分數。

幾乎從一開始,我就意識到,領域專業知識將為團隊帶來很大優勢,因此我尋找每一條這樣的信息。當然,我關注了幾個活躍的專家並拜讀了他們撰寫的文章以及創建的kernels。

有一天,我收到了Boris的一封郵件,他是這一領域的專家,認為我們的技能可以實現互補。通常來說,我喜歡在比賽中單打獨鬥,但這一次,團隊合作似乎是更好的選擇。事實證明的確如此。
起初,我們的方法存在很大分歧。我用的是特徵工程技術,而Boris則致力於創建描述符。一段時間之後,我們發現我的模型在一些原子對類型上表現更好,而他的模型在其他情況下表現更佳,因為我們為不同的類型訓練了不同的模型。

幸運的是,Psilogram加入了我們的團隊。沒過多久,他的模型就表現出了優於我們模型的性能。另一名成員Bojan幫助我們進一步改進了結果。他們都是很棒的機器學習專家。


那時我們已經看到了神經網絡在此次競賽中的潛力:著名的kaggle大師Heng發布過一個MPNN模型的例子。一段時間之後,我甚至可以在自己的PC上運行這個模型,但是結果並不如LGB模型。但無論如何,現在我的團隊知道了,如果想達到更高的目標,我們需要使用這些神經網絡。

我們讓Christof加入我們的團隊,他能很快構建出一個新的神經網絡。因此,我們停止訓練LGB,因為LGB遠遠比不上Christof構建的神經網絡。
從那時起,我在團隊中的角色就變成了輔助。我用我們的神經網絡進行了多次實驗:嘗試使用不同的超參數和不同的架構,對訓練計劃和損失進行微小的調整等。有時,我會基於我們的預測進行EDA,以發現好的和不好的例子,然後利用這些信息進一步改進模型。

我看了很多關於神經網絡架構的論文,包括EAGCN、3DGNN等;

我嘗試了不同的損失函數,如Huber。我甚至找到了一篇用於回歸的焦點損失函數論文,但實現起來並不可行;

當然,我還嘗試了RAdam、Ranger等新的熱門優化器,但簡單的Adam在此次競賽中更加好用。

但最後,還是Christof實現了架構,這給我留下了非常深刻的印象,也令我頗受啟發。


好的硬體對於訓練這些神經網絡來說非常重要。我們用到了很多硬體,但我們也經常用kaggle kernels:你可以用P100以相同的時間在4個kaggle kernels中訓練模型,所以即使沒有額外的硬體,我們也可以拿到金牌。
我們最後的解決方案拿到了第八名,贏得了金牌。


值得一提的是,我們的團隊可以獲得比-3 Imae更好的分數(平均所有類型的絕對值誤差對數)。在這個帖子中,樓主表示達到-3是一個驚人的成就:https://www.kaggle.com/c/champs-scalar-coupling/discussion/98375#569312

事實上,我們做到了!
從這次競賽中我學習到了很多東西,總體來說,想要在Kaggle上成功我們需要:

瀏覽Kernel和論壇,其中會提供大量有用的信息;

準備好屢敗屢戰。當你試圖找到一種可以提高分數的方法時,大多數是行不通的,但不要氣餒;

不斷尋找新的想法、新的論文和核心的文章。你永遠不會知道下一個神奇工具會從哪裡出現;

在團隊內構建一個驗證效果的機制,從而令工作結果更加直觀;

一個強大的團隊是由很多不同特長的人組成的,我們應該涵蓋不同領域;

Kaggle比賽非常具有挑戰性,當然在這個過程中我們也可以收穫諸多樂趣:)

我很幸運可以和這些了不起的人一同工作,感謝他們!

原文連結:https://towardsdatascience.com/a-story-of-my-first-gold-medal-in-one-kaggle-competition-things-done-and-lessons-learned-c269d9c233d1


重磅!AI 有道學術交流群成立啦

掃描下方二維碼,添加 AI有道小助手微信,可申請入林軒田機器學習群(數字 1)、吳恩達 deeplearning.ai 學習群(數字 2)。一定要備註:入哪個群(1 或 2 或 1+2)+ 地點 + 學校/公司 + 暱稱。例如:1+上海+復旦+小牛。 

長按掃碼,申請入群

(添加人數較多,請耐心等待)

 

最新 AI 乾貨,我在看 

相關焦點

  • 我是如何成為 Kaggle Kernel Grandmaster 第一的
    作者:Andrew Lukyanenko能在 Kaggle 競賽中取得金牌已經是一項挑戰了,而成為 Kernel Grandmaster 甚至是可遇不可求。而近日,畢業於莫斯科國立大學的數據科學家Andrey Lukyanenko在一次競賽中達成Kaggle金牌,並在Kernel Grandmaster排名全網第一。本文是他的心路歷程。參加Kaggle競賽對於任何人來說都是一項嚴峻的挑戰。你需要花費大量時間和精力來學習新知識、嘗試新技巧,努力獲得高分。
  • Freesound ,kaggle金牌第9名技術分享,高中生如何2個月內拿到kaggle master?
    Freesound Competition,kaggle金牌第9名技術分享!?來看看昂太客頂尖會員&曾經的老學員如何取得金牌成績的!
  • Freesound Competition | Kaggle金牌第9名技術分享
    第一時間送達作者:昂鈦客AIhttps://www.angtk.com/article/132前言以前我作為昂鈦客ai[angtk.ai]一名學員&成員參加了一些cv類比賽,angtk社群聚焦各種算法實戰項目.通過參加kaggle算法大賽提高成員&學員水平。
  • 分享一項斬獲無數金牌的kaggle技巧!
    本次給大家分享一個斬獲無數Kaggle金牌的技能
  • Kaggle美女自述:我是怎麼成為競賽中Top 0.3%的
    最近,自動化數據準備及協作平臺Dataland的聯合創始人Lavanya Shukla,在博客上分享了她在Kaggle競賽中最終成為0.3%的獲獎經驗。小姐姐在推特中表示,這份攻略裡全都是乾貨,網友紛紛為其點讚。有網友表示,這份攻略非常棒,才知道脊回歸如此強大!
  • 人生中第一塊表,我的卡西歐G-SHOCK
    人生中很多第一次都是難忘的,談到人生中第一塊表,相信也會引起很多表友的回憶。既然是手錶,那麼肯定會有人問應該買多貴的名表?腕錶圈也時常流傳這樣一句話:男人一定要有一隻勞力士,又有人說我的夢想是一隻pp。
  • Kaggle大牛小姐姐自述:我是怎麼成為競賽中Top 0.3%的 | 乾貨攻略
    但每年的Kaggle參賽團隊眾多,通常一個項目都有數千人至上萬人報名,如何在其中脫穎而出?最近,自動化數據準備及協作平臺Dataland的聯合創始人Lavanya Shukla,在博客上分享了她在Kaggle競賽中最終成為0.3%的獲獎經驗。小姐姐在推特中表示,這份攻略裡全都是乾貨,網友紛紛為其點讚。
  • Kaggle競賽開源項目匯總
    1、Kaggle Titanic 一個Kaggle競賽的案例,演示基本的數據轉換、分析和可視化技術https://github.com/agconti/kaggle-titanic2、https://github.com/bfortuner/pytorch-kaggle-starter8、
  • 8歲女孩不慎摔倒,不斷趕超成就人生第一塊金牌!
    8歲女孩不慎摔倒,不斷趕超成就人生第一塊金牌!北京8歲女孩馬子惠用行動給出了一個精彩答案1在2020—2021年度北京市青少年短道速滑聯賽第一站U8組500米四分之一決賽中8歲的馬子惠剛出發就不慎摔倒
  • 年輕人的第一臺車,請告訴我卡羅拉、伊蘭特、名爵6如何選?
    如果你的預算剛好在這個價位,或者還能向上靠一靠,那麼這三臺車:卡羅拉、伊蘭特和名爵6或許就會進入你的視線,下面我們就來看一看年輕人買第一臺車,它們應該如何選? 目前多地優惠都才幾千塊,但月銷量已趨近萬輛。滿血歸來的第七代伊蘭特,在設計上堅持顏值至上的思路,以激進的Sensuous Sportiness語言打造車身,同時2720mm的軸距較之競品也具備一定優勢。
  • 盛世華誕 | 新中國第一枚奧運金牌
    電視實況:……Representing the People's Republic of China Olympic champion Xu Haifeng……1984年7月29日,在第23屆洛杉磯奧運會上,射擊運動員許海峰以566環的成績獲得自選手槍慢射金牌,為中國實現奧運金牌「零的突破」。
  • 顏值,價值我全都要,年輕人的第一輛車怎麼選?
    市場變化一朝一夕,在如今用戶主導的市場中,如何滿足用戶智能化時代出行新需求成了突破重圍的關鍵點,基於"個性化"服務實現用車生活的全場景覆蓋更是精準切中年輕用戶的購車痛點。而作為SUV銷量王者的哈弗抓住關鍵點,推出了專為年輕人打造的哈弗初戀,完美契合新青年用車需求,重新定義"年輕人的第一臺車"提到哈弗這個品牌,很多人都會聯想起"專業"、"高品質"、"SUV領導者"等關鍵詞,事實上,哈弗之所以能在近幾年取得高質量的發展,還離不開他們對於用戶個性化需求的重視,把年輕人想要的,一次性全給到。
  • 運動基因太強大 陳一冰女兒綜藝首秀獲得人生第一塊金牌
    近日,奧運冠軍陳一冰在平臺分享女兒第一次獲得運動金牌的感受:"祝賀yiyi拿到人生第一塊金牌,以前從沒試過立定跳遠,原來一一也是個隱藏的運動小超人,為她感到驕傲,
  • 競賽總結:Kaggle MLB運動員互動預測
    評價指標多變量平均列平均絕對誤差 (MCMAE)比賽總結利用球員、比賽記錄、獲獎記錄等資料及參賽者自行提取之特徵,預測下一個時間點的粉絲參與度 (target1 - target4),數值介於0~100;其中,時間序列資料以天為單位。
  • 宇宙第一網紅我只認水冰月
    ,也不看什麼《創造101》,所以我對類似溫婉和王菊這樣的詞彙一臉懵逼。各大公眾號為了維持生計對流量網紅踩一捧一,煽動著群眾的情緒。作為自媒體,營銷號根本不把年輕人的審美,品味,態度,以及獨立思考的能力放在眼裡。一首《Gucci Prada》,一檔選秀節目能讓現代文明高潮成這樣也是匪夷所思。而恰恰對女性的審美最能衡量時代的進步和倒退。
  • 國際第一!長沙市一中學子獲第51屆國際物理奧賽金牌
    新湖南客戶端12月16日訊 北京時間12月15日晚,第51屆國際中學生物理奧林匹克競賽順利閉幕,長沙市一中張意飛同學以理論、實驗、總分三項全球第一的成績勇奪金牌,創造了中國中學生參加國際物理競賽成績的新記錄。
  • 中國隊連續獲得三屆帕運會金牌數與獎牌榜第一
    帕運會是1960年開始舉辦的,中國第一次參加帕運會是在1984年,即第七屆帕運會,盲人姑娘平亞麗奪得中國帕運會金牌。這屆比賽中,中國隊奪得2枚金牌,有九人次打破世界紀錄。1988年第八屆帕運會上,中國隊奪得17塊金牌,有11人次打破世界紀錄。1992年第九屆帕運會上,中國隊獲得11塊金牌,有14人次打破世界紀錄。1996年第十屆帕運會上,中國隊獲得16枚金牌,16人次打破世界紀錄。
  • 「半路出家」的Kaggle Grandmaster:如何正確打開數據科學競賽?
    兜兜轉轉,他也最終來到Lyft公司自動駕駛部門,成為了一名真正的數據科學家。最近,這位小哥組織了一場「粉絲見面會」,回答了好奇網友的諸多問題。文摘菌對這次問答進行了編譯整理。Kaggle超級大師究竟如何煉成?讓文摘菌帶你一探究竟。
  • 2018亞運會中國金牌數破百穩坐第一
    在為自己量身定製的班卡蘇拉項目上大包大攬的東道主印度尼西亞今天露出原形,29日金牌數為0,僅得到1銀1銅。但憑藉在班卡蘇拉項目上得到的14塊金牌,印尼還是牢牢佔據金牌榜第四位。朝鮮和巴林同為12枚金牌,排名第九和第十。哈薩克斯坦得到3金2銀4銅,升至金牌榜第11位,獎牌總數達到60枚,超過泰國升至獎牌榜第五。泰國9枚金牌,排名獎牌榜第12位。
  • 同樣都主張「年輕人第一臺車」,哈弗初戀是如何定義的?
    哈弗初戀聚焦於「敢享敢愛」的新青年市場,定位「年輕人的第一臺車」,此話是不是聽著似乎有點熟悉,的確在此之前很多網際網路品牌都也提出過類似的口號,那麼哈佛對「年輕人第一臺車」到底是如何定義的?從內而外的青春氣息