大師也作弊,昔日Kaggle Grandmaster面臨終身禁賽,僱主:此人今後與...

2020-12-10 澎湃新聞

原創 Synced 機器之心

機器之心報導

參與:張倩、蛋醬

Kaggle 一項競賽的討論頁面顯示,一個名為「Bestpetting」的冠軍團隊因作弊被 Kaggle 取消了參賽資格,團隊成員還包含一位 Grandmaster。這位 Grandmaster 被永久禁賽,因為有證據表明,他是該作弊活動的關鍵人物

該團隊通過作弊的方式獲取了測試集的答案,而且為了讓分數看起來更加真實,他們只用了其中一部分答案。

作為最著名的數據科學競賽平臺,Kaggle 成立於 2010 年,並於 2017 年被谷歌收入旗下。迄今為止,這一平臺上已經舉行了三百多場各種類型的數據競賽。

很多公司、政府研究機構都會把自己的數據放上來,開放給全球範圍內的參賽者,讓他們幫助自己建模型。為了提高參賽積極性,他們也會設置一定的獎金,用來獎勵模型精度最高的幾個隊伍,有些競賽的獎金甚至可以高達百萬美元。

於是乎,Kaggle 源源不斷地吸引了成千上萬的開發者來參加競賽,許多數據科學家在 Kaggle 上投入了大量的時間和精力。在諸如機場安全、衛星數據分析這類的任務上,不乏數十年經驗的優秀團隊加入比賽。

在機器學習愛好者們心中,Kaggle 是一個燈塔般的存在。

為了激勵參賽者不斷挑戰新的難題,Kaggle 設置了一個排行榜,將參賽者分為「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四個等級。

其中,「Novice」、「Contributor」等級最低,註冊就能成為「Novice」,添加一些資料、探索一下 Kaggle 並與社區進行一些交流就能升級為「Contributor」。

但從「Expert」開始,參賽者就要實打實地拿出成績了。要晉升到競賽的「Grandmaster」,你需要至少獲得 5 枚金牌。

違反公益初衷的作弊行為

此次被曝作弊的團隊參與的是一項預測寵物領養速度的競賽。研究表明,寵物被領養的速度與它們在網上的照片、描述等信息存在相關性。參賽者的任務就是找出這種相關性,幫助寵物領養機構優化寵物的電子檔案,使其看上去更加「可愛」,從而提高被領養的速度,減少「安樂死」的數量。

此次競賽在去年三月份展開,獎金池總共 2.5 萬美元,冠軍團隊可以獲得 1 萬美元的獎勵。

Kaggle 信息顯示,該團隊在比賽中存在以下作弊行為:

1. 他們通過作弊的方式獲取了私有測試數據的領養速度答案(可能是通過爬取 Kaggle 網站);

2. 這些數據和答案被編碼、模糊處理並混入一個 ID 欄位,偽裝成他們名為「cute-cats-and-dogs-from-pixabaycom」的外部數據集的一部分;

3. 在處理數據時,他們混進來的 ID 欄位被解碼,答案在預測階段可以被檢索到;

4. 他們只使用了其中一部分被編碼的答案,以使分數看起來更加「真實」;

5. 這些經過處理的代碼被精心隱藏並混淆在許多嵌套的函數和代碼層下,故意被設計成高度不可讀和平淡無奇的樣子。

一位 Kaggle 網友「Benjamin Minixhofer」最早發現了其中的貓膩,在嘗試將這項比賽的幾個優秀方案轉化為生產系統的過程中,他發覺了冠軍方案似乎不太對勁,隨後就將這項違規行為報告給了 Kaggle 組委會,組委會也立馬展開了相關調查。

在事件曝光後,這位舉報者小哥撰寫了一個詳細文檔來說明該團隊的作弊行為:https ://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80665

他說:「這件事破壞了 Kaggle 比賽的公平性,而且我費了半天勁想把他們的方案轉化為生產系統,結果竟然是作弊。也許 Kaggle 官方不希望我發表這篇公開了許多私人測試數據的文章,但我希望參賽者們都能從中得到一些啟發。」

曾經的 Kaggle Grandmaster 被終身禁賽

確認作弊行為後,Kaggle 組委會取消了冠軍團隊的資格,目前已經重新修改了排行榜。不過當時頒發給冠軍團隊的 10000 美元獎金已經覆水難收。

這件事的問題在於,「預測寵物領養速度」本是一個公益性的賽題,初衷也是挽救小動物的生命。在這樣的前提下,團隊僅僅為了經濟利益而採取作弊手段,更令人不齒。

此前也發生過獲獎者被取消資格的事情,但都是在比賽前。這是第一次在比賽結束 9 個月之後才被挖出來的作弊行為,也是 kaggle 平臺創立以來,第一次有人因為作弊被徹底取消參賽資格。

被舉報團隊中的 Kaggle Grandmaster 同時也在矽谷一家開源軟體公司 H2O.ai 任數據科學家職位。

這個「Former」也是耐人尋味。

這家公司主要的產品是一款數據科學和機器學習開源平臺,叫做「H2O」,為許多世界 500 強企業提供人工智慧產品解決方案。

事發後,公司已經作出了回復,稱「已進入調查程序,此人與我司不再有任何關係」。

先是被禁賽名譽掃地,接著又面臨被公司開除的命運,有人開始同情這位 Grandmaster,覺得這種做法未必太過嚴苛,懲罰的公平性也有待商榷。也有人因為 Kaggle 的嚴厲做法而被圈粉,覺得這麼做是理所當然。而且 ta 認為,欲戴王冠,必承其重,Grandmaster 本身就對遵守規則負有更大的責任。

但也有人爆料稱,這位 Grandmaster 在 Kaggle 比賽中出現不端行為已經不是第一次了。在去年的一項谷歌地標檢索競賽中,他們也有類似的行為並被取消了參賽資格。

吃瓜通道:https://www.kaggle.com/c/landmark-retrieval-2019/discussion/95136

目前,這個帖子已被刪除,但從評論區我們依然可以大體還原爭論的焦點所在:Kaggle 在這項比賽中出現了數據洩漏問題,該團隊發現了這一漏洞並充分利用,以此為優勢取得了很好的結果。

數據洩漏問題在各種數據競賽問題中屢次出現,有些團隊發現之後會將這一問題報告給組委會。如在 Kaggle 的某個 NLP 比賽中,一些團隊的準確率達到了 100%(NLP 領域出現這種準確率是非常不可思議的)。有人發現了洩漏的數據集並將其合併提交了上去。

但也有團隊會利用其作為秘密武器取得高分。對此,批評者一致認為這種做法是不道德的,對之後的競賽和參賽者都沒有借鑑意義,也不利於科學的進步。

對此,這位 Grandmaster 辯解稱,他們沒有向大眾隱藏自己的方法,所以沒有違反規則,而且是誠實的行為。至於為什麼利用漏洞,他解釋說,「如果比賽本身就有漏洞,那總會有人去利用。不用的話就會失去優勢,得到令人失望的結果。所以擺在參賽者面前的只有兩個選擇:要麼退賽,要麼利用漏洞。」

由此可見,這種作弊行為的不斷出現不只是參賽者個人道德的問題,賽事的設計者也負有不可推卸的責任。參賽者的道德參差不齊、難以把控,只有在賽事設計上多下工夫才是解決問題的根本方法。

參考連結:

https://www.reddit.com/r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/

https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436

原標題:《大師也作弊,昔日Kaggle Grandmaster面臨終身禁賽,僱主:此人今後與我司無關》

閱讀原文

相關焦點

  • 想在Kaggle中脫穎而出?先聽聽這位GrandMaster怎麼說
    Artur 大師,感謝您百忙之中接受我的採訪。現在,您是一名 Kaggle 競賽大師,也是 Kaggle 的討論專家及 Kernels 論壇專家。實際上,您擁有物理學和應用數學的學術背景。那麼,您當初是如何對機器學習和 Kaggle 產生興趣的呢?Artur Kuzin:當我還是一名學生的時候,我在實驗室工作的同時嘗試參與了許多不同的活動。
  • 騎共享單車跑馬拉松被終身禁賽,作弊為啥屢禁不絕
    11月22日晚,上海國際馬拉松官方網站發出公告,處罰違規女跑者和她身旁的男性跑友終身禁止參加上海國際馬拉松賽以及相關系列賽事,並報送中國田徑協會追加處罰。多名跑者遭到上馬官方處罰,包括替跑並騎車作弊的一名女跑者。騎車+替跑,她和同伴遭終身禁賽在今年上馬結束後,原本網上被討論最多的「史上最熱上馬」的話題,很快被幾張照片取代。
  • Kaggle Grandmaster是怎樣煉成的
    Iglovikov 是一名 Kaggle 頂級大師(Grandmaster),曾獲得過 Carvana 圖像遮蔽挑戰的冠軍,以及 Dstl 衛星圖像特徵檢測挑戰的第三名。他曾在 UC Davis 獲得過理論凝聚態物理學博士的學位,現在是一名 Lyft 的計算機視覺工程師,主要研究自動駕駛。最近,Vladimir 分享了自己成為 Kaggle 高手的經驗。
  • Kaggle Grandmaster 的 NLP 方法
    雷鋒網 AI 開發者按,相信很多數據科學從業者都會去參加 kaggle 競賽,提高自己的能力。在 Kaggle Competitions 排行榜中,有一個頭銜是眾多用戶都十分嚮往的,那就是「Kaggle Grandmaster」,指的是排名 0.1‰ 的頂級高手。
  • kaggle grandmaster 專訪:不要被太多資源分心,最好的學習方法是...
    在這一期的 Kaggle Grandmasters 訪談中,我將帶給大家的是,一位大師級故事講述者的驚人而令人鼓舞的旅程:Shivam Bansal——Kaggle Kernels Grandmaster 和 H2O.ai 的資深數據科學家。他目前在新加坡工作,參與了 H 2O.ai 在亞太地區的活動。
  • 韓國圍棋天才少女用AI作弊,被禁賽一年
    韓國圍棋天才少女用AI作弊,被禁賽一年 李大傑 盧星海/央視新聞 2020-12-23 18:46
  • 終身禁賽!
    成馬組委會對兩人給予終身禁賽的處罰,並報請中國田徑協會追加處罰。通報:成都馬拉松組委會在相關處罰決定中透露,經核查,今年成都馬拉松賽事中2人存在違規行為。具體為:1、塗某某,使用偽造號碼布參賽;2、王某某,使用偽造核酸檢測報告領取參賽裝備。
  • 除孫楊禁賽八年外,還有一人終身禁賽!
    最近一段時間,孫楊被禁賽的消息,引起了網友熱議。其實中國近九年裡,被禁賽的遊泳運動員不止孫楊一人,最嚴重的一名運動員直接終身禁賽,相比他孫楊還算幸運,當然孫楊這是第二次被處罰。2008年歐陽鯤鵬被終身禁賽歐陽鯤鵬是非常出色的遊泳運動員,2000年亞錦賽上一人拿到了5項冠軍,2006年世錦賽的50仰泳米項目上更是打破了亞洲紀錄,成為當時亞洲泳壇的名將。
  • 韓國圍棋少女利用AI作弊 被禁賽一年
    不過,今年9月韓國棋壇被曝出有選手在線上比賽中利用人工智慧,也就是AI作弊的事件,讓圍棋線上比賽的公平性遭到了質疑。日前,總臺記者就此事獨家採訪了韓國棋院院長梁宰豪,這也是韓國棋院上個月開出罰單後,梁院長首次面對媒體。
  • 半年5戰5金:Kaggle史上最快GrandMaster是如何煉成的
    Kaggle profile:https://www.kaggle.com/shentaoSueTao 擅長計算機視覺(Computer Vision),半年 5 戰 5 金,也許是史上最快的 GrandMaster。截至目前共斬獲 9 金 3 銀,kaggle 最高排名全球第 10。
  • 韓國圍棋天才少女利用AI作弊 被禁賽一年
    不過,今年9月韓國棋壇被曝出有選手在線上比賽中利用人工智慧,也就是AI作弊的事件,讓圍棋線上比賽的公平性遭到了質疑。日前,總臺記者就此事獨家採訪了韓國棋院院長梁宰豪,這也是韓國棋院上個月開出罰單後,梁院長首次面對媒體。
  • 參賽3年,斬獲6金3銀2銅:Kaggle Grandmaster親授實戰經驗
    kaggle profile:https://www.kaggle.com/senkin13他 3 年前開始參加 kaggle 競賽,曾多次取的前十名的成績。截至目前共斬獲 6 金 3 銀 2 銅,kaggle 最高排名全球第 91。以下是本期活動的問答集錦:Q1: 首先來個自我介紹?
  • 馬拉松騎車遭禁賽事件始末 「騎車姐」成績被取消遭終身禁賽
    馬拉松騎車遭禁賽事件始末 「騎車姐」成績被取消遭終身禁賽時間:2019-03-27 18:59   來源:錢江晚報   責任編輯:沫朵 川北在線核心提示:原標題:馬拉松騎車遭禁賽事件始末 騎車姐成績被取消遭終身禁賽 近日,有跑友爆料,上周日開跑的徐州馬拉松中,有一位女選手疑似在賽道中騎共享單車參賽,且查詢發現她的完賽成績為
  • 斯諾克名將望對涉賭者終身禁賽 唯獨火箭持不同聲音
    騰訊體育訊 中國球員中國球員曹宇鵬、於德陸二人因違反會員準則,被世界職業斯諾克聯合協會分別被禁賽10年9個月,以及6年。一時間,斯諾克圈內人士紛紛拍手稱快,甚至還有球手堅決表示如此處罰太輕,應該終身禁賽!而唯獨有一人,卻提出相反的態度。
  • 1隊+31人終身禁賽 足協公布業餘賽事違規違紀黑名單
    新華社北京12月16日電(記者王楚捷、公兵)中國足協日前公布各會員協會各級業餘賽事違規違紀人員和俱樂部、球隊黑名單,其中有1支球隊和31名球員遭到終身禁賽的處罰。
  • 「半路出家」的Kaggle Grandmaster:如何正確打開數據科學競賽?
    Kaggle超級大師究竟如何煉成?讓文摘菌帶你一探究竟。問:你是如何兼顧全職工作和kaggle競賽的?答:我把參加Kaggle競賽當作是我的第二份全職工作,只不過是不發工資的。當然,我這麼做是有原因的。Kaggle活躍用戶都很喜歡尋找新大陸,我也不例外。當我從學術界轉到業界後,我開始參加挑戰賽。
  • 孫楊暴力抗檢禁賽八年,他吃燒烤被終身禁賽,難道泳協也「雙標」
    中國泳壇當中,孫楊並不是第一個被處以禁賽的人,在十二年前,曾經就有一個遊泳運動員同樣被禁賽了,這位運動員的遊泳天賦,一點都不會比孫楊差勁,但是就是因為一場意外,中國泳協直接宣判他終身不得參賽,這是最要命的事情,再怎麼說孫楊也只是八年,而他是職業生涯宣布告終,他就是歐陽鯤鵬。
  • 他兩次服禁藥,本該終身禁賽卻只禁4年!憑什麼?這麼看孫楊真冤
    除了服藥外,以前還有一個著名的作弊方法:在比賽開始前幾天抽一定劑量的血液出來,在比賽當天再把血液注射回去,這樣可以顯著提高運動表現。不過,如今的藥檢極為嚴苛,藥檢不合格的後果也很是嚴重,輕則剝奪冠軍頭銜,重則終身禁賽。比如曾經的環法霸主阿姆斯特朗,就曾遭受過剝奪所有冠軍頭銜並終身禁賽的重罰。
  • CSGO大事件:Fierce Tiger戰隊及選手LEo因作弊被官方永久禁賽
    今晨,經完美對戰平臺配合Valve VAC團隊調查確認:Fierce Tiger戰隊的選手LEo在CAC中國區預選賽的比賽中有違規程序注入,並被Valve判定作弊,已被VAC系統永久封禁。因此完美世界官方對涉事選手以及戰隊作出以下處罰:1.Fierce Tiger戰隊的選手LEo 侯坤被官方永久禁賽。2.取消Fierce Tiger戰隊的CAC正賽晉級資格,Fierce Tiger戰隊被完美世界官方永久禁賽。
  • 騎共享單車參加馬拉松被「終身禁賽」 應更嚴格篩選參賽者
    徐州馬拉松賽組委會也在昨日迅速做出回應,宣布取消該選手的比賽成績,並終身禁止其參加徐州馬拉松賽。然而,這一鬧劇再次引發網友對「目前國內馬拉松運動發展迅猛,但辦賽水平甚至跑者素質卻遠跟不上發展」這一問題的討論。