#人工智慧時代#
在周三就一些電子郵件和一篇研究論文發生爭執後,人工智慧倫理先鋒科學家蒂姆尼特格布魯不再任職於谷歌。根據VentureBeat獲得的未發表論文的草稿,圍繞她離職的研究論文質疑建立大型語言模型是否明智、誰從中受益、誰會受到部署這些模型的負面後果的影響,以及語言模型過大是否有其他類似影響。
格布魯的研究對算法的公平性、偏見和面部識別都有影響。谷歌人工智慧主管傑夫迪恩周四在發給谷歌研究人員的一封電子郵件中說,他接受了格布魯的辭呈,此前他對這篇論文存在質疑。但格布魯說,她從未提出辭職。
「……事實上,大多數語言技術首先是為滿足那些已經在社會上擁有最大特權的人之需求而建的,」這篇論文寫道。「因此,依賴於大到無法記錄的數據集的方法具有內在的風險。文檔記錄意味著潛在的問責制,類似於我們如何讓作者對其所產生的文本負責,而無文檔記錄的訓練數據使傷害永久化,而無法追索。如果訓練數據被認為大到無法記錄,人們就不能試圖理解它的特徵,以減少其中一些已記錄的問題,甚至是未知的問題。」
在這篇題為《隨機性鸚鵡的危險:語言模型可能太大嗎?》的論文中,作者們表示,部署大型語言模型的風險包括環境種族主義——由於人工智慧的碳足跡對邊緣化社區的影響比其他人更大,以及模型如何「從訓練數據中吸收霸權世界觀」。此外,人工智慧還可能保留辱罵性語言、仇恨言論、微攻擊、刻板印象和可能異化某些群體的其他形式的語言,並從「訓練數據中吸收霸權世界觀」。
還有一個後果是,與訓練大型語言模型相關的成本會對深度學習研究的進入造成障礙,並增加了人們信任語言模型所作預測而不質疑結果的可能性。
格布魯是該論文的第一作者,一起列為作者的還有谷歌研究員艾米麗·丹頓。其他作者包括谷歌人工智慧聯合負責人梅格·米切爾,谷歌研究人員本·哈欽森,馬克·迪亞茲和維諾庫馬·普拉巴卡蘭,以及華盛頓大學博士生安吉麗娜·麥克米蘭-梅傑。
周四,丹頓與230多名谷歌員工以及200多名來自學術界、工業界和民間社會的支持者一起籤署了一封信,信中提出了一系列要求,包括進行透明度評估,公開是誰決定讓丹頓和格布魯撤回發布給普通公眾和谷歌用戶研究結果。
信中寫道:「這已經成為公眾關注的一個問題,需要有公眾問責制,以確保谷歌研究的未來得到信任。」
谷歌人工智慧執行長傑夫迪恩周四在發給谷歌研究人員的一封電子郵件中對這篇論文提出批評,他說,經過審查發現,這篇論文「忽略了太多關於大型語言模型的相關研究」,也沒有考慮到最近關於減輕語言模型偏見的研究。
由於Transformer體系結構的使用,以及從Reddit或Wikipedia等網站收集的大量訓練數據,創建具有更多參數和訓練數據的語言模型成為了一個趨勢。
谷歌的BERT及其變體,如ALBERT和XLNet等,引領了這一趨勢。與其相當的模型還有Nvidia的Megatron和OpenAI的GPT-2及GPT-3等。其中谷歌的BERT有3.4億個參數,Megatron有83億個參數,微軟的T-NLG有170億個參數,而Open AI在5月份推出的GPT-3,也是今年早些時候發布的迄今為止最大的語言模型,有1750億個參數。隨著規模的增長,大型模型在自動問答或閱讀理解等任務中獲得更高的分數。
大量的研究已經發現了大型預訓練語言模型中的各種偏倚。例如,今年春天,NLP研究人員引入了StereoSet 數據集,基準和排行榜,並發現幾乎所有流行的預訓練語言模型都表現出基於族裔、種族和性別的偏見。
合著者建議基於其他指標評估語言模型,如能源效率和模型訓練的二氧化碳排放量估計,而不是用GLUE這樣的表現基準評估在一系列任務上的性能。
他們認為,大型預訓練語言模型的趨勢也有可能誤導人工智慧研究人員和公眾,使他們誤以為由大型語言模型(如OpenAI的GPT-3)生成的文本是有意義的。
論文寫道:"如果一個擁有數千億參數,在一個非常龐大的數據集上訓練的大型語言模型能夠很好地操縱語言形式,從而在本來需要語言理解的測試中作弊,那麼我們在如何構建機器語言理解方面是否學到了什麼有價值的東西,或者我們是否被引向了花園之路(註:指人們傾向於容易理解而非正確的方法)?總而言之,我們主張採取一種研究方法,以即將受到技術影響的人為中心,對技術可能影響人們的方式有一個全局的看法。"
該論文推薦了一些解決方案,如與受影響的社區合作、價值敏感設計、改進的數據文檔,以及採用諸如本德的NLP數據語句或在格布魯在微軟研究院時聯合提出的datasheets for datasets方法等框架。
與這份報告的結論類似,麥肯錫今年早些時候對商業領袖進行的一項調查發現,在部署AI模型的十大風險方面,應對工作進展甚微。
2020年人工智慧研究的一個顯著趨勢是,使用網絡大規模數據集訓練的大型模型受到了批評。
華盛頓大學語言學家艾米麗本德與人合著了一篇獲獎論文,敦促NLP研究人員質疑關於「大型語言模型能夠理解」的炒作。在接受VentureBeat的採訪時,她強調了更好的測試方法的必要性,並對語言模型研究中過於追求模型與基準任務相匹配的文化表示遺憾,她說這種追求可能會阻礙"好的科學"。
在計算機視覺領域,一項對「80 Million Tiny Images」(今年夏天發布的一個大型圖像數據集)的審核,揭示了其包含一些種族主義、性別歧視和色情的內容。結果,麻省理工學院和紐約大學的創建者沒有採取建議的步驟來改變數據集,而是停止使用它,並刪除現有的副本。
上個月,研究人員對會議上發表的論文進行了分析,發現精英大學和大型科技公司在深度學習時代享有競爭優勢,深度學習造成了計算鴻溝,權力集中在少數人手中,加劇了不平等。