原創 Synced 機器之心
機器之心報導
參與:張倩、蛋醬
Kaggle 一項競賽的討論頁面顯示,一個名為「Bestpetting」的冠軍團隊因作弊被 Kaggle 取消了參賽資格,團隊成員還包含一位 Grandmaster。這位 Grandmaster 被永久禁賽,因為有證據表明,他是該作弊活動的關鍵人物
該團隊通過作弊的方式獲取了測試集的答案,而且為了讓分數看起來更加真實,他們只用了其中一部分答案。
作為最著名的數據科學競賽平臺,Kaggle 成立於 2010 年,並於 2017 年被谷歌收入旗下。迄今為止,這一平臺上已經舉行了三百多場各種類型的數據競賽。
很多公司、政府研究機構都會把自己的數據放上來,開放給全球範圍內的參賽者,讓他們幫助自己建模型。為了提高參賽積極性,他們也會設置一定的獎金,用來獎勵模型精度最高的幾個隊伍,有些競賽的獎金甚至可以高達百萬美元。
於是乎,Kaggle 源源不斷地吸引了成千上萬的開發者來參加競賽,許多數據科學家在 Kaggle 上投入了大量的時間和精力。在諸如機場安全、衛星數據分析這類的任務上,不乏數十年經驗的優秀團隊加入比賽。
在機器學習愛好者們心中,Kaggle 是一個燈塔般的存在。
為了激勵參賽者不斷挑戰新的難題,Kaggle 設置了一個排行榜,將參賽者分為「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四個等級。
其中,「Novice」、「Contributor」等級最低,註冊就能成為「Novice」,添加一些資料、探索一下 Kaggle 並與社區進行一些交流就能升級為「Contributor」。
但從「Expert」開始,參賽者就要實打實地拿出成績了。要晉升到競賽的「Grandmaster」,你需要至少獲得 5 枚金牌。
違反公益初衷的作弊行為
此次被曝作弊的團隊參與的是一項預測寵物領養速度的競賽。研究表明,寵物被領養的速度與它們在網上的照片、描述等信息存在相關性。參賽者的任務就是找出這種相關性,幫助寵物領養機構優化寵物的電子檔案,使其看上去更加「可愛」,從而提高被領養的速度,減少「安樂死」的數量。
此次競賽在去年三月份展開,獎金池總共 2.5 萬美元,冠軍團隊可以獲得 1 萬美元的獎勵。
Kaggle 信息顯示,該團隊在比賽中存在以下作弊行為:
1. 他們通過作弊的方式獲取了私有測試數據的領養速度答案(可能是通過爬取 Kaggle 網站);
2. 這些數據和答案被編碼、模糊處理並混入一個 ID 欄位,偽裝成他們名為「cute-cats-and-dogs-from-pixabaycom」的外部數據集的一部分;
3. 在處理數據時,他們混進來的 ID 欄位被解碼,答案在預測階段可以被檢索到;
4. 他們只使用了其中一部分被編碼的答案,以使分數看起來更加「真實」;
5. 這些經過處理的代碼被精心隱藏並混淆在許多嵌套的函數和代碼層下,故意被設計成高度不可讀和平淡無奇的樣子。
一位 Kaggle 網友「Benjamin Minixhofer」最早發現了其中的貓膩,在嘗試將這項比賽的幾個優秀方案轉化為生產系統的過程中,他發覺了冠軍方案似乎不太對勁,隨後就將這項違規行為報告給了 Kaggle 組委會,組委會也立馬展開了相關調查。
在事件曝光後,這位舉報者小哥撰寫了一個詳細文檔來說明該團隊的作弊行為:https ://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80665
他說:「這件事破壞了 Kaggle 比賽的公平性,而且我費了半天勁想把他們的方案轉化為生產系統,結果竟然是作弊。也許 Kaggle 官方不希望我發表這篇公開了許多私人測試數據的文章,但我希望參賽者們都能從中得到一些啟發。」
曾經的 Kaggle Grandmaster 被終身禁賽
確認作弊行為後,Kaggle 組委會取消了冠軍團隊的資格,目前已經重新修改了排行榜。不過當時頒發給冠軍團隊的 10000 美元獎金已經覆水難收。
這件事的問題在於,「預測寵物領養速度」本是一個公益性的賽題,初衷也是挽救小動物的生命。在這樣的前提下,團隊僅僅為了經濟利益而採取作弊手段,更令人不齒。
此前也發生過獲獎者被取消資格的事情,但都是在比賽前。這是第一次在比賽結束 9 個月之後才被挖出來的作弊行為,也是 kaggle 平臺創立以來,第一次有人因為作弊被徹底取消參賽資格。
被舉報團隊中的 Kaggle Grandmaster 同時也在矽谷一家開源軟體公司 H2O.ai 任數據科學家職位。
這個「Former」也是耐人尋味。
這家公司主要的產品是一款數據科學和機器學習開源平臺,叫做「H2O」,為許多世界 500 強企業提供人工智慧產品解決方案。
事發後,公司已經作出了回復,稱「已進入調查程序,此人與我司不再有任何關係」。
先是被禁賽名譽掃地,接著又面臨被公司開除的命運,有人開始同情這位 Grandmaster,覺得這種做法未必太過嚴苛,懲罰的公平性也有待商榷。也有人因為 Kaggle 的嚴厲做法而被圈粉,覺得這麼做是理所當然。而且 ta 認為,欲戴王冠,必承其重,Grandmaster 本身就對遵守規則負有更大的責任。
但也有人爆料稱,這位 Grandmaster 在 Kaggle 比賽中出現不端行為已經不是第一次了。在去年的一項谷歌地標檢索競賽中,他們也有類似的行為並被取消了參賽資格。
吃瓜通道:https://www.kaggle.com/c/landmark-retrieval-2019/discussion/95136
目前,這個帖子已被刪除,但從評論區我們依然可以大體還原爭論的焦點所在:Kaggle 在這項比賽中出現了數據洩漏問題,該團隊發現了這一漏洞並充分利用,以此為優勢取得了很好的結果。
數據洩漏問題在各種數據競賽問題中屢次出現,有些團隊發現之後會將這一問題報告給組委會。如在 Kaggle 的某個 NLP 比賽中,一些團隊的準確率達到了 100%(NLP 領域出現這種準確率是非常不可思議的)。有人發現了洩漏的數據集並將其合併提交了上去。
但也有團隊會利用其作為秘密武器取得高分。對此,批評者一致認為這種做法是不道德的,對之後的競賽和參賽者都沒有借鑑意義,也不利於科學的進步。
對此,這位 Grandmaster 辯解稱,他們沒有向大眾隱藏自己的方法,所以沒有違反規則,而且是誠實的行為。至於為什麼利用漏洞,他解釋說,「如果比賽本身就有漏洞,那總會有人去利用。不用的話就會失去優勢,得到令人失望的結果。所以擺在參賽者面前的只有兩個選擇:要麼退賽,要麼利用漏洞。」
由此可見,這種作弊行為的不斷出現不只是參賽者個人道德的問題,賽事的設計者也負有不可推卸的責任。參賽者的道德參差不齊、難以把控,只有在賽事設計上多下工夫才是解決問題的根本方法。
參考連結:
https://www.reddit.com/r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/
https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436
原標題:《大師也作弊,昔日Kaggle Grandmaster面臨終身禁賽,僱主:此人今後與我司無關》
閱讀原文