分析17萬篇AI頂會論文,揭示了計算資源貧富分化的證據

2020-12-04 澎湃新聞

原創 文摘菌 大數據文摘

大數據文摘出品

作者:龍葳、mickey

「權力、專家、數據,正在向少數幾家巨頭公司匯集。」

2019年,當圖靈獎得主Yoshua Bengio說出這句話的時候,所有人其實都早有感知。

的確,深度學習時代,學術界計算能力的不平等正在進一步加劇不平等。但最近,第一次有學者將「人工智慧資源的壟斷」作為研究對象進行了詳細的分析,並且將結果用論文呈現了出來。

這一研究來自維吉尼亞理工大學和西方大學的人工智慧研究人員。作為「非精英大學」的代表,他們分析了60場全球頂級人工智慧峰會(包括ACL, ICML, and NeurIPS )的171394篇論文後得出結論,學術界算理的不平等正在加劇,特別是排名中下的大學,學術資源每年都在被蠶食。

論文給出了幾個有意思的結論:

自2012年深度學習的意外增長以來,公司,尤其是大型技術公司和精英大學增加了對主要AI會議的參與;這裡的精英大學指的是在QS世界大學排名中排名1-50的大學;

此外,研究人員發現了兩種策略,可以通過這些策略來提高公司在人工智慧研究領域中的影響力:首先,公司為單獨發表人的論文研究發布數量在逐年增多;其次,公司主要與精英大學合作進行論文研究。因此,公司和精英大學在人工智慧研究中的不斷增長,擠佔了排名中等(QS排名201-300)和排名靠後(QS排名301-500)大學的資源。

此外,研究還發現,大批研究人員正離開大學,從事高薪產業工作,這正在對學術界造成重要影響。

論文地址:

https://arxiv.org/pdf/2010.15581.pdf

「深度學習壟斷」:中低排名高校的研究資源正在被蠶食

Nur Ahmed和Muntasir Wahed在一篇題為《人工智慧的去民主化:人工智慧研究中的深度學習和計算鴻溝》的論文中表達了對於「深度學習壟斷」的看法。這篇論文最近發表在arXiv上,並於10月底在戰略管理學會(Strategic Management Society)一個商業研究研討會上發表。

論文分析了近60個全球人工智慧研討會,包括171394篇論文。這些研討會都是人工智慧領域最有影響力的峰會,比如ACL、ICML和NeurIPS,領域涉及計算機視覺、數據挖掘、機器學習和NLP。

「人工智慧越來越受到少數參與者的影響,並且這些參與者大多隸屬於大型技術公司或精英大學。要真正讓人工智慧實現『民主化』,需要政策制定者、學術機構和企業層面的參與者共同努力,解決計算鴻溝問題。」

事實上,富裕的大學和大公司在深度學習方面具有優勢,這一點並不奇怪。像AlphaGoZero和GPT-3這樣的大型現代網絡需要數百萬美元用於算力的訓練,並且2019年12月的一份分析報告將谷歌、史丹福大學、麻省理工學院、卡內基梅隆大學、加州大學伯克利分校和微軟列為引領人工智慧研究研討會的前六大貢獻者。

與此同時,規模較小的學校往往缺乏資金來顧及深度學習的應用,這種局限性可以定義學術界研究人員探索的人工智慧的種類,或者加速學術界人才流失。近期,大量學術人才正湧向有足夠資金的大型科技公司。

該論文通過數據分析證實了這一「機會差距」,論文稱自深度學習興起以來,QS排名排名301-500位的「低等大學」在人工智慧研究會議上發表的論文,每年平均減少6篇;

與此相對,與《財富》500強企業、大型科技領袖和精英大學的論文發布量一直居高不下。

AI研究壁壘:計算資源和數據增加知識生產成本

這也是第一次直接有證據表明,對專業資源、社備的需求增加會導致科學領域的貧富差距。論文稱,深度學習的興起大大增加了計算和數據的重要性,而這反過來又增加了知識生產成本,從而增加了進入壁壘。

研究人員表示,他們的研究揭示了一系列社會斷層線導致的「計算鴻溝」。精英大學往往擁有更多富有的學生,但其多樣性通常較少。同樣的情況其實也存在於大型科技公司,其同樣缺乏多樣性,尤其是在工程師、產品設計人員和人工智慧研究方面。

由於人工智慧已經成為影響商業、公共服務和私人生活各個方面的通用技術,這種人口上的單一性造成了廣泛的後果。

在分析這一趨勢時,Ahmed和Wahed將人工智慧的歷史分為兩個時代。他們將第一次定義為從1960年代到2012年,那時通用硬體被用來訓練人工智慧。在第二個時代,深度學習和GPU這樣的專業硬體已經定義了這個產業,因為在ImageNet圖像分類競爭中,這兩類因素可以有效地提高計算機視覺。

在第二個時代,如上圖所示,500強科技企業對人工智慧的投入進入了一個爆發期:他們在頂會發布的論文數量每年以極高的速度增長。

解決方案:建立全國性的「人工智慧研究雲」

當談到解決方案時,研究者稱他們的發現提供了「具體的證據」,來證明學術機構需要一個全國性的「人工智慧研究雲」。

今年6月,美國各大大學、科技公司和美國參議院議員支持了美國建設國家人工智慧研究雲的構想,共享的公共數據集可以幫助訓練和測試人工智慧模型,這對資源受限的組織尤其有利。

這篇論文最後提議,美國政府應該通過擴展共享的公共數據集和其他資源來幫助大學。像國防創新委員會(Defense Innovation Board)和美國國家安全委員會(National Security Commission on AI,NSCAI)這樣的組織建議五角大樓和國會增加公私合作夥伴關係、政府基金以及與遠程工作的開發者的聯繫,以此來吸引非傳統背景的人才。

在接下來的幾個月裡,或許我們將很快看到進展,美國新當選總統拜登之前曾做出承諾,將投資3000億美元用於5G和人工智慧等領域的研發。

Ahmed和Wahed的發現也得到了最近其他論文的支持,例如,一篇名為《人工智慧、人力資本與創新》的論文發現,在2004年至2018年期間,人工智慧造成了學術界前所未有的人才流失,導致200多人離開大學到產業就職。這篇發表於2019年秋季並於上月更新的論文中發現,頂尖大學、博士生和深度學習的初創企業都是從當前人工智慧人才短缺中受益最多的。分析還發現,卡內基梅隆大學、麻省理工學院和史丹福大學在校友們繼續創辦人工智慧創業公司的大學中排名最高。此外,最近還有不少論文評估了人工智慧生態系統,以及該技術在使學術界和產業界更緊密聯繫方面的作用。

除了頂會論文的數據分析,Ahmed和Wahed的論文還是基於對高校計算機系主任的採訪後寫出的。受計算機研究協會(CRA)委託,他們對200多名高校計算機科學系主任進行的關於產業對學術界影響進行了調查採訪,這項研究確定了學術界和產業界密切合作的積極和消極結果,包括計算機研究人員正在向產業工作流失。

一份關於調查的白皮書寫道:「這種轉變有可能對所做研究的種類、研究質量、計算機科學系的文化以及本科生和研究生的培養產生負面影響,需要特別關注與系文化、潛在利益衝突、智慧財產權相關的問題,並確保學生繼續得到足夠的教師指導和聯繫,為他們的職業生涯做好準備。」

相關報導:

https://venturebeat.com/2020/11/11/ai-research-finds-a-compute-divide-concentrates-power-and-accelerates-inequality-in-the-era-of-deep-learning/

https://cra.org/cra-committee-on-industry-academia-interactions-releases-report/

實習/全職編輯記者招聘ing

加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長。坐標北京·清華東門,在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至zz@bigdatadigest.cn

志願者介紹

原標題:《深度學習「壟斷」!分析17萬篇AI頂會論文,他們首次揭示了計算資源貧富分化的證據》

閱讀原文

相關焦點

  • 2018年中國卓越科技論文超31萬篇,臨床醫學論文數最多
    新華社北京11月19日電 中國科學技術信息研究所19日發布的中國卓越科技論文產出狀況報告顯示,2018年中國卓越科技論文共計31.59萬篇,比2017年增加12.4%,包括卓越國際科技論文14.45萬篇,卓越國內科技論文17.15萬篇。
  • 又一輪貧富分化在路上
    現在我們在經歷疫情之後,又站在了一個經濟發展的關鍵路口,但是又一輪貧富分化在路上。未來會如何?我今天早上在微博上寫下一段話:「一方面要延遲退休,一方面就業有35歲歧視,這提醒我們,誰也靠不住,練一身本事很重要。當然,你如果跟對了老闆和企業,也是可以的。
  • 多所大學研究者呼籲:要填上AI中的計算鴻溝
    這種AI創新「貧富分化」的背後,是算力的不平等,是只有大公司和名牌強校才能承擔得起的研究成本。Research)》的論文,該論文從頂會論文發表、研究資金投入和科研人才流動等方面解釋了AI研究不平等的產生。
  • 楊散逸:治理貧富分化——財產稅、金融監控,還是全要?
    【文/ 觀察者網專欄作者 楊散逸】近日,中國人民銀行調查統計司城鎮居民家庭資產負債調查課題組發布了對城鎮居民家庭資產負債調查的報告,雖然2016年國家統計局、西南財大、北大所統計的基尼係數巨大的差距之爭已經告訴我們我國貧富分化情況不容忽視,但是報告中的數據還是令人有些意外。首先,這份報告內容是城鎮居民家庭而不是城鄉居民收入差距。
  • 物以類聚:計算生物學家發現新證據
    在《美國國家科學院院刊》(Proceedings of the National Academy of Sciences)刊登的一篇論文中,冷泉港實驗室(Cold Spring Harbor Laboratory)計算生物學家亞當·西佩爾(Adam Siepel)教授以及康奈爾大學(Cornell University)和以色列赫爾茲利亞跨學科中心(Herzliya Interdisciplinary
  • 2018 年重磅復盤:中國產出全球 25% AI 論文、政府署名 AI 論文...
    第一份報告《AI Index 2017》於 2017 年 12 月份正式推出,上個月 17 日,第二份報告《AI Index 2018》如期發布。經雷鋒網 AI 科技評論分析,與上一年相比,《AI Index 2018》的分析指標更全面細緻,同時不再只注重於北美地區的 AI 活動分析。
  • 2013年至今各大AI頂會最佳論文整理分享
    其中A+類屬於頂級會議;A類是僅次於頂會的高級別會議;B類的會議論文錄用難度相對比較容易,當然也有非常多論文質量很硬的會議。C類和L類會議相對知名度比較低,論文發表也很容易,但是認可度不高。 本資源收集了自2013年開始各大計算機領域頂會的最佳論文,涉及交叉領域的頂會(AAAI、IJCAI、WWW、ICML、ICLR等),數據挖掘與信息抽取(KDD、SIGIR、CIKM、WSDM等),計算機視覺(CVPR、ICCV)和自然語言處理(NLP、EMNLP)。
  • 二十載AI論文大調查,十萬多篇論文分析「學界鴻溝在加劇」
    QS排名前五十的學校平均發表66篇頂會論文,是第二、三層次學校(QS51-100、QS101-200)的近乎兩倍,而AI相關公司的生產力也遠超這些學校,平均發表約42篇論文。 自深度學習興起以來,QS 301-500的大學在頂會中的論文平均減少了六篇,比預期少了25%。 2004年至2018年之間學術界前所未有的人才流失。 對於這些現象的背後原因,文章作者歸納為:GPU。作者表示,以GPU為代表的AI資源正在像大企業和頂級名校集中,會導致兩極分化的馬太效應。
  • LPG露點計算與管道氣態供氣的防凝動態分析—燃氣探索6
    例如:式中     Psi——第i組分的飽和蒸汽壓, MPa;            t——溫度,℃;            ai,bi——的係數和冪。可以得出各組分在-15~+20℃區間的ai,bi擬合值。我們可以看到丙烷、丙稀的bi值分別為1.71和1.61,各C4組分的都接近於2,在LPG中主要組分是C3和C4。
  • 廣東專家發表論文 揭示多能幹細胞分化過程中關鍵機制
    近日,中山六院胃腸病學研究所袁平團隊在國際著名期刊Nucleic Acids Research(IF:11.147)上發表研究論文,深入揭示了Hippo-YAP信號通路在多能幹細胞分化過程中的關鍵作用機制,將有助於指導多能幹細胞向不同胚層細胞的分化,對於多能幹細胞的臨床應用有重要意義。若在胃腸疾病中能挖掘出更多基於超級增強子的特異基因調控機制,將會為疾病的治療和藥物篩選提供新的思路和靶標。
  • 頂會抄頂會?SIGIR論文作者回應質疑,ACM主席已介入
    被指責抄襲的作者親自下場分辨,卻被反駁「漏洞百出」,頂會抄頂會的故事還沒有最終定論。在最新的回帖中,SIGIR 2019 論文作者針對這些「證據」逐條進行了反駁。
  • 跨物種單細胞分析揭示靈長類小膠質細胞程序的分化
    跨物種單細胞分析揭示靈長類小膠質細胞程序的分化 作者:小柯機器人 發布時間:2019/12/14 21:47:03 德國弗萊堡大學Marco Prinz、Daniel Erny、以色列威茲曼科學研究所Ido Amit等研究人員利用跨物種單細胞分析
  • AI計算量每年增長10倍,摩爾定律也頂不住|OpenAI最新報告
    曉查 發自 凹非寺 量子位 編譯 | 公眾號 QbitAI今天OpenAI更新了AI計算量報告,分析了自2012年以來AI算法消耗算力的情況。根據對實際數據的擬合,OpenAI得出結論:AI計算量每年增長10倍。
  • 南京古生物所等揭示中生代傳粉昆蟲麗蛉生態位分化
    南京古生物所等揭示中生代傳粉昆蟲麗蛉生態位分化 2018-09-18 南京地質古生物研究所 該研究於9月17日在線發表在《自然-通訊》(Nature Communications)上。
  • 數學院等通過調控網絡數學建模揭示幹細胞分化關鍵轉錄因子
    這一成果提出了利用匹配的基因表達和染色質可及性數據刻畫轉錄因子和調控元件結合調控下遊基因表達的數學模型,構建了描繪細胞狀態轉化的染色質調控網絡,通過網絡分析鑑定出TFAP2C和p63分別為表面外胚層起始和角質形成細胞成熟的關鍵因子,並揭示了譜系定型過程中TFAP2C-p63對表觀遺傳轉換的反饋調節機制。
  • 行業頂會連發兩篇論文,華為雲醫療AI新突破
    近日,第23屆醫學圖像計算和計算機輔助介入國際會議(The 23th Medical Image Computing Computer Assisted Intervention,MICCAI 2020)論文錄用結果公布,華為雲醫療AI團隊的2篇科研成果被收錄,在醫學圖像邊緣分割領域實現了人工智慧技術的新突破。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    語義分析(semantic parsing)是人工智慧的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。近日,在雷鋒網 AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果,並介紹了關於 output embedding 對於 semantic parsing 的影響。公開課回放視頻網址:http://www.mooc.ai/open/course/544?
  • AAAI 2021論文接收列表放出,IJCAI 2020即將召開!AI頂會最新動態...
    在這新的一年交替之際,AI科技評論整理了AI頂會的最新動態以及2021年1月份AI相關的頂會日程,以方便大家參考。  作者| 陳大鑫  AAAI 2021最新動態  IJCAI-PRICAI 2020暨第29屆國際人工智慧聯合會議和第17屆環太平洋人工智慧國際會議(International Joint Conference on Artificial Intelligence-Pacific
  • 單細胞測序揭示肺泡中毛細血管類型的分化
    單細胞測序揭示肺泡中毛細血管類型的分化 作者:小柯機器人 發布時間:2020/10/17 22:46:16 美國史丹福大學醫學院Ross J. Metzger、Mark A.
  • 「直播預告」ACL 2020百度論文作者與你暢聊頂會論文
    4月初,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果,百度共有11篇論文入選,展現出了百度在自然語言處理領域出色的技術實力。5月21日、22日,我們將邀請百度技術委員會主席、百度自然語言處理首席科學家吳華博士攜6位 NLP 研發工程師為大家帶來2場「聽大咖講論文」直播活動,對百度入選 ACL 2020的6篇論文進行詳細解讀。