AI 網紅老師、號稱擁有100萬學生的 YouTuber Siraj Raval,最近被大舉聲討,一夜跌落神壇。
Siraj Raval 因長期在油管發布免費 AI 教學視頻而火起來,顯眼的髮型、誇張的肢體語言、自詡「使命是傳播數據科學」的人設,其視頻自信的誇誇而談為他吸引了很多粉絲。
Siraj Raval
Siraj 有多火爆?看看他曾經的關注者們就知道了:Jeff Dean,Ian Goodfellow,François Chollet…(均已取關)
本科畢業於哥倫比亞大學(被網友質疑是肄業),2016年開始在 YouTube 上傳人工智慧、區塊鏈相關課程,Siraj 以這樣的畫風——
被稱為 AI 界的最強 Rapper。
他還創辦了 AI 學習社區 School of AI,並稱這是一個非營利組織,旨在為地球上的任何人提供世界一流的AI教育。
據稱,有超過百萬學生看過他的網課。而他在 GitHub 上的每個項目也都幾千個星星。
他自己在 YouTube 頻道的自我介紹曾經是「我被稱為計算機科學的 Bill Nye,代碼界的 Kanye,神經網絡的碧昂絲、學習界的博爾特,Python 界的 Chuck Norris、機器學習界的耶穌……」
不過,這些人設一夜崩塌,Siraj Raval 成了眾矢之的,更被扒出許多「黑料」。
然而,這些聲討對他來說似乎不疼不癢,他繼續在 Twitter 和 YouTube 上活躍,開課,開直播,發布視頻。歐洲航天局(ESA)甚至邀請 Siraj 作為他們 ESAC 數據分析和統計研討會的嘉賓。
但就在這兩天,Siraj Raval 可能要徹底玩完了:他剽竊了論文。
從Twitter到Reddit,從吃瓜群眾到Jeff Dean、Ian Goodfellow等 AI 大牛都譴責他厚顏無恥的行為,推特上發起了一波「取關Siraj」的風波:
"如果你關注了著名的騙子&剽竊者@sirajraval,動動手指取關他!不要給這個無賴任何信譽,這會幫助欺騙他的學生。」
剽竊論文這種行為確實引起眾怒,Siraj無法洗白了。接下來,我們看看他是如何剽竊的。
事情是這樣,前天,Siraj 在直播中提到他最近寫了一篇關於「Neural Qubit」的論文。
很快,ML 工程師 Andrew M. Webb 發現,Siraj 的這篇論文大部分內容剽竊 Nathan Killoran、Seth Lloyd 以及其他作者的論文。
左邊是Killoran et.al 的論文,上傳時間是2018年6月;右邊是Siraj的論文,上傳時間是2019年9月
Webb 表示:「我選擇公開曝光 Siraj 的造假行為,因為他有很多粉絲,而且目前有很多付費學生。這些粉絲真的信任這個傢伙,我不認為他會改變。」
Siraj 的剽竊手段有多麼猖狂呢?他僅僅在摘要中引用了 Killoran et al. 的觀點,並表示他提出了一個與之「相似」的模型,但他的論文與 Killoran et al. 幾乎是逐字逐句相同的,甚至連圖形、表格和說明文字都一模一樣。有些部分則用毫無意義的「同義詞」替代。
這種令人啼笑皆非的替換還不止一處。
Reddit網友評論
另一個毫無意義的同義詞,大概是為了隱藏剽竊行為:「complicated Hilbert space」,原文「complex Hilbert space」是一個術語,Siraj 用「complicated」替換了「complex」。
這是更多剽竊內容。很容易就能找到抄襲的地方,因為他公式的序號都是一樣的:他甚至不是自己寫一遍公式,而是直接截圖粘貼到文檔中!
這是另一頁。這部分只是對經典神經網絡的描述。Siraj 正在運行一個在線課程,有1000多名學生,每人收費200美元,而他甚至連解釋經典神經網絡都是抄襲的。
還有人指出,Siraj論文中使用的示例應用是一個「欺詐檢測」模型,當然,這部分內容也是抄襲的。
可以說這完全是一篇ctrl-C & ctrl-V+截圖+一些可笑的同義詞替換堆砌出來的論文。
曝光這些剽竊行為的 Webb 說:「有一件事情我怎麼也不明白:如此厚顏無恥的剽竊行為,他(Siraj)怎麼會指望能僥倖逃脫懲罰?他以為他的粉絲們形成了一個封閉的社區,不會看到或不會相信這種曝光嗎?」
白紙黑字證據確鑿,對比圖調色盤等石錘一應俱全,這事根本沒法洗了。消息曝出後,網友表示,這人已經沒救了吧。
我們以為之前的拒絕退款事件之後,這事總不會更壞了,看來還是太天真……
這人論文中的公式都是從原文中複製粘貼出來的,解析度低不說,連公式的序號都一樣。文字就是換了個人稱,其他完全一樣,這也太省事了吧。我們能不能集體抵制這個人?
這種是真的噁心,讓我想起了大學的時候有人做作業時,就用書上的幾個截圖一拼就提交了。結果長寬比失真,解析度奇低,或者圖片被壓縮得不成樣子。
由於事情敗露,在社交網絡上迅速發酵,Siraj Raval 不得不在 twitter 上發帖道歉,承認為了趕進度而「部分抄襲」,但同時表示他更多考慮的是「能夠啟發他人的研究」。
現在有人說我的那篇關於神經量子比特的論文有一部分是抄襲的,事實確實如此,我對此表示道歉。我現在每周的計劃是發2個視頻,所以這篇論文(和視頻)是在1周時間內趕出來的。我的目的是希望能夠啟發他人的研究。今後我會放慢節奏,對出品的內容更加慎重。
4年來,我每周做2-3段教學視頻,檢測這些內容在社交網絡上產生的影響,儘量滿足越來越多的觀眾的需求,對我的精神健康造成了不小的壓力。明年我會休息一下,計劃用更健康的方式為他人服務。
Siraj Raval還表示,涉事論文和相關視頻已經刪除。 這兩條「道歉」推特發出之後,大部分網友並不買帳,他們認為這個態度與其說是道歉,還不如說是在找理由推卸責任,避重就輕,迴避實際問題。
首先:抄襲就是抄襲,什麼叫「部分抄襲」?
有人做過對比,這篇文章的抄襲比例將近90%,且大部分都是直接複製粘貼。
有網友簡單回顧了Siraj Raval最近的連續不當行為,頗有些翻舊帳的意思:
看了這個所謂道歉我更火大了,你知道大家為什麼對你這些公關之辭不買帳嗎?
1、你的注水課程買到200美元的高價,還不給退款;
2、你道歉說那篇論文是「部分剽竊」;
3、說自己精神健康有問題,工作壓力過大,把這些當成之前犯錯誤的理由;
能不能別避重就輕,能不能直截了當地跟那些對你不爽的人坦率交流一下?
你在這條道歉推文上花的時間怕是和那篇論文一樣多吧?
還有人抓住了道歉推特中「一周出一篇論文」的字眼,這一看就是慣犯啊,一周抄一篇的節奏?
你一周就能寫出一篇論文?大家注意,被他抄襲的這篇論文可能要一個團隊的人花上一年多的時間才能寫出來,絕不是一個人在一周內就能完成的。
還有赤裸裸嘲諷的:
來,我來翻譯一下這個「道歉」:「啊,這次抄襲太明顯了,讓人發現了,我錯了。以後我一定注意不要做的這麼明顯。」
如果你去搜索 Siraj Raval,首先出現的肯定是他的個人品牌:他的主頁、YouTube、LinkedIn、Twitter、GitHub、medium 等等,這些頁面把他塑造成一個優秀的、樂於助人、廣受好評的「AI傳道士」形象。
他自己在 YouTube 頻道的自我介紹曾經是 「我被稱為計算機科學的 Bill Nye,代碼界的 Kanye,神經網絡的碧昂絲、學習界的博爾特,Python 界的 Chuck Norris、機器學習界的耶穌……」
要想真正了解他的背景,就有點難找了。大多數採訪他播客和博客都將他描述為「數據科學家、暢銷書作家和 YouTube 明星」。但是他在哪裡工作,做什麼?他是如何開始製作機器學習視頻的?
原來他在休斯頓長大,後來去了哥倫比亞大學。在哥倫比亞大學,他學的第一個專業是金融。在因偷了一臺筆記本電腦而被停學一個學期後,他決定「嘗試做一些積極的事情」,並改修計算機科學,成為一名軟體開發人員。
他在哥倫比亞大學只待了 7 個月就輟學,儘管他聲稱:「網際網路是我的大學,也應該成為你的大學!」
根據他在領英上的介紹,他在紐約的一家機器人公司、Meetup.com、CSB Interactive 和 Twilio 等公司各待了一年左右。他最初的網站上有他在 iOS 開發方面的工作連結,並自稱「軟體開發者」。
2016年,他的 YouTube 頻道出現了。這時候他可能還在 Twilio 工作,職位是「開發者教育家」。所以,他開始走上教學這條路,創造數據科學內容。這時他已經離開大學三年了,是一名開發者,但沒有任何數據科學經驗。
對於機器學習研究人員、技術人員,以及對於任何擁有當今網際網路理性的人來說,我們應該從 Siraj Raval 身上得到什麼教訓呢?
Vicki Boykis 給出了幾點建議:
我們需要為人們提供合適的工具和內容,評估他們所觀看的技術教學內容;如果看到周圍有人需要技術支持,我們需要幫助他們,並在這個過程中提高自己的水平。我們需要學會在發一條諷刺性的推特或評論之外,提出建設性的批評。先是教學視頻注水,被發現後拒絕退款,大肆拉黑,現在又是論文抄襲,被逼之下的道歉毫無誠意,避重就輕百般找理由,看來這次這位網紅教師這次怕是要涼涼。
討論:對於「網紅AI教師」Siraj Raval近期陷入的一系列風波,你怎麼看?
*內容及圖片來源於網絡,侵權請聯繫小編。