「GNN,簡直太爛了」,一位Reddit網友的深度分析火了

2021-01-18 量子位

金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

圖神經網絡(GNN)這個概念近幾年很火,確實如此。

然而今天,一位Reddit網友卻「背道而馳」地提出了強烈反對觀點。例如:

過去5年中,大多數GNN論文提供的結果,對從業者沒有太多幫助。我太煩Node2Vec了,引用量不應該達到7500這個數量。就玩那些沒用的、小數據,效率提不上來,很難取得進步。添加一些新的圖層/超參數,編一個可愛的數學故事來解釋它為什麼重要。當前的圖形數據結構,簡直糟糕透了。全局方法,是個死胡同。……點評、分析之犀利,瞬間引來了眾多網友的圍觀。

接下來便來細看下這位網友,為什麼對GNN如此之厭惡。

(為了方便閱讀,以下內容將以第一人稱進行表述)

模型與壓縮有關

先來簡單回顧一下基礎知識。

大家都說圖(graph)是一種「非歐幾裡得」數據類型,但事實並非如此。

一個正則圖(regular graph)只是思考特殊矩陣(鄰接矩陣)的另一種方式而已。

很奇怪的一點就是,當我們看到滿滿都是實數的矩陣時候,就決定稱之為「非歐幾裡得矩陣」。

但這背後也有其實際的原因,因為大多數的圖都是非常稀疏的,也就是說矩陣裡面大多數的數值都是零。

基於這一點,矩陣裡面非零的數字就顯得格外重要。這就使得問題更加接近離散數學,而不是簡單連續、梯度友好的數學。

如果你有一個全矩陣(full matrix),那事情就會變得相當容易

如果我們暫時不考慮這些惱人的點,假設用一整個鄰接矩陣也沒什麼大不了的,那我們就決絕了一大堆的問題。

首先,網絡節點嵌入(network node embedding)就不再是個難題了。一個節點只是矩陣中的一行,所以它已經是一個數字向量。

其次,還解決了所有的網絡預測問題。

一個足夠強大且經過良好調優的模型,將提取網絡和我們附加到節點上的任何目標變量之間的所有信息。

NLP也只是花式的矩陣壓縮

讓我們從圖形切入到NLP。

正如我們將要看到的,我們所做的大多數NLP問題,都可以用圖來表示,所以這並不是什麼「題外話」。

首先,請注意,像Word2Vec和GloVe這樣的Ye Olde詞嵌入模型,只是矩陣分解。

GloVe 算法是對舊的詞袋(bag of word)矩陣的一種變形。它遍歷這些句子,並創建一個(隱含的)共現圖(co-occurence graph),其中節點是單詞,而邊則根據單詞在句子中出現的頻率進行加權。

然後,GloVe對共生圖的矩陣表示進行矩陣分解,Word2Vec在數學上是等價的。

甚至語言模型也只是矩陣壓縮

語言模型風靡一時,可以說,它們主宰了 NLP 的大部分技術。

讓我們以BERT為例,BERT會根據句子的上下文,來預測了一個單詞:

這使得我們要構造的矩陣,從對單詞的平均共現(co-occurence),增加到了對句子上下文的條件共存:

正如 Hanh 和 Futrell 的論文中所指出,我們正在組合地構造「理想矩陣」:

人類語言和語言模型具有無限的統計複雜性,但是在較低的層次上可以很好地近似。這個觀察結果有兩個含義:1)我們可以用相對較小的模型獲得較好的結果;2)我們的模型有很大的擴展潛力。語言模型處理如此大的問題空間,以至於他們可能近似於柯氏複雜性(Kolmogorov Complexity)意義上的整個語言的壓縮。也有可能龐大的語言模型,只是記住了大量的信息,而不是壓縮信息。

那我們能像語言模型一樣,對圖進行上採樣嗎?

答案是:我們已經在做了。

我們把圖的一階嵌入,稱為直接分解圖的鄰接矩陣或拉普拉斯矩陣(Laplacian Matrix)的方法。

如果使用拉普拉斯特徵映射或者取拉普拉斯主分量來嵌入圖,則為一階。

同樣,GloVe 方法也是對詞共現圖的一階方法。

我最喜歡的圖的一階方法之一是ProNE,它和大多數方法一樣好用,但是速度快兩個數量級。

高階方法就是我們在圖上做的 「上採樣」。

在大型鄰域「上採樣」的 GNN 和 node2vec 等基於隨機漫步的方法都是在做高階嵌入。

性能增益,在哪兒呢?

過去5年中,大多數GNN論文提供的結果,對從業者沒有太多幫助。

正如OpenGraphsBenchmark(OGB)論文所指出的那樣,GNN論文的實證部分是在少數具有2000-20000個節點的小圖(Cora、CiteSeer、PubMed)上進行的。

這些數據集不能區分不同的方法。

最近的一些研究工作雖然解決了這個難題,但是為什麼研究人員長期關注小型的、無用的數據集,是值得討論的問題。

性能表現受任務分類的影響

一個讓很多可能會感到驚訝的事實是,即使語言模型在很多NLP任務中有著良好的表現,但如果你所做的只是將句子嵌入到下遊模型中,那麼通過簡單的方法,比如將單個 Word2Vec單詞嵌入相加,從語言模型嵌入中並不會得到多少好處。

類似地,我發現對於許多圖而言,簡單的一階方法在圖聚類和節點標記預測任務上的表現,與高階嵌入方法一樣好。

事實上,高階方法對於這些用例來說,在計算上是非常浪費的。

但高階方法並不是說沒有用,它通常在鏈路預測任務中表現得更好。

有趣的是,連結預測性能的差距,在人工創建的圖中是不存在的。這表明高階方法,確實學習了一些真實世界圖形固有的結構。

但對於可視化而言,一階方法會更好一些。高階方法的可視化往往有其採樣的偽影。

例如,Node2Vec可視化往往具有拉長/絲狀結構,這些結構來自於長單鏈隨機漫步的嵌入。

下面是 Owen Cornec 的可視化效果:

最後,有時簡單的方法勝過高階方法(在 OGB 論文中有一個實例)。

這裡存在的一個問題是,我們不知道一個方法什麼時候比另一個方法會更好些,我們絕對不知道其中的原因。

不同的圖類型,對於不同的方法表示所反映出來的性能好壞,是有其原因的,但這是一個懸而未決的問題。

很大一部分的原因,是研究領域被沒用的新算法給淹沒了。

為什麼會這樣呢?繼續往下看。

學術的激勵(incentive),與學術的進步背道而馳

下面是「憤世嫉俗者」對機器學習論文製作的一些觀點:

採用現存的一些算法添加一些新的圖層/超參數,編一個可愛的數學故事來解釋它為什麼重要網格搜索你的超參數,直到你打破原始文件的基線絕對不要在你的搜索結果區域中,將你正在比較的東西網格化為你的新方法做一個可愛的首字母縮寫,把不可能使用的Python2代碼放到GitHub上BTW:我太討厭Node2Vec了

我一個副項目是一個節點嵌入庫,目前最流行的方法是 Node2Vec。

不要使用Node2Vec!

取p=1和q=1的Node2Vec是Deepwalk算法,Deepwalk是一種實際的創新。

Node2Vec 的作者們緊跟著剛才提到的那5個步驟,包括步驟5提到的名字上的加分(因為word2vec很出名)。

這並不是什麼學術造假,而是讓ML社區變得更糟。

當然,Node2Vec也不應該被引用7500次。

學術進步,應該更加關注實際

40多年來,我們已經知道如何訓練神經網絡。然而,直到2012年,它們才在 AlexNet 上大受歡迎。

是因為實現和硬體達到了深度學習可行的程度。

類似地,我們至少在20年前就知道把單詞共現矩陣分解成單詞嵌入。

但詞條嵌入直到2013年,隨著Word2Vec才爆發。

這裡的突破在於,基於小批量(minibatch)的方法,可以讓你在硬體上訓練維基百科規模的嵌入模型。

如果對少量數據進行訓練,還需要數天或數周,那麼一個領域的方法就很難取得進展。

效率對於學術進步至關重要

深度學習研究之所以能夠取得如此成功,是因為它提高了效率,並且擁有了更好的庫和硬體支持。

學術規範太糟糕

你花費在 p 和 q 上的 Node2Vec 網格搜索的時間,都可以更好地利用 Deepwalk 本身的網格搜索。

問題是人們不會在Deepwalk中網格搜索,因為實現都很糟糕。

體系結構並不重要

今年最重要的論文之一是 OpenAI 的「Scaling laws」論文,其中模型中參數的原始數量是整體性能最具預測性的特徵。

這一點,甚至在原始的BERT論文中也有所提及,並且推動了2020年大規模語言模型的增長。

Transformer也可能取代卷積。正如Yannic Kilcher所說,Transformer正在毀掉一切,他們在圖上進行研究,事實上,它是在基準測試時似乎是比較成功的方法之一。

研究人員似乎在結構上投入了大量的精力,但是最終這並不重要,因為你可以通過疊加更多的層來近似任何東西。

效率的勝利是偉大的,但神經網絡架構只是實現這一目標的一種方式,而且由於對這一領域的過度研究,我們將在其他地方留下遺憾。

圖形數據結構簡直糟糕透了

NetworkX是個糟糕的庫。

如果你在為嬰兒做小圖,它很好,但對於任何嚴肅的事情,它都會讓你窒息,迫使你重寫所有的東西……

這叫庫?Really?

在這一點上,大多數處理大型圖的人,最終都會手工滾動一些數據結構。

但這很困難,因為你的計算機內存是一個由1和0組成的一維數組,一個圖沒有明顯的一維映射。

如果我們考慮更新圖表(添加/刪除一些節點/邊),這就更難了。

全局方法是個死胡同

一次處理整個圖的方法不能利用計算,因為它們在一定規模上耗盡了RAM。

因此,任何希望成為新標準的方法,都需要能夠對圖的某些部分進行逐段更新。

今後,採樣效率(Sampling Efficiency)將在未來更加重要:

邊緣局部方法:我所知道的包括GloVe 和 GGVec。隨機漫步採樣:Deepwalk 及其後代使用這種方法,通常用於節點嵌入,而不是 GNN 方法。近鄰採樣:這是目前GNN中最常見的一種,可以是低階或高階,這取決於鄰居的大小。網友評論

但對於這樣的猛烈抨擊,Reddit網友們mhwalker,似乎有不一樣的聲音。

大多數情況下,規模問題在工業上得到了解決。我們在數十億個節點和數百億個邊上訓練GNN。我們可以毫無問題地水平擴展。但也正如你說的,這些文獻大多數是無用的。

至於被問如何解決的,帖子作者做出了回復,並提到了阿里巴巴的一篇論文:

阿里巴巴有一篇關於其基礎設施的論文,闡述了他們是如何做到這一點的。Pinterest主要使用GraphSAGE與鄰裡抽樣。Instagram使用一個node2vec實現(可能是handrolled)。

那麼對於這樣的討論,你怎麼看?

參考連結:

https://www.reddit.com/r/MachineLearning/comments/kqazpd/d_why_im_lukewarm_on_graph_neural_networks/

相關焦點

  • 川普遭全面「禁言」,Reddit關了2000多個社群,「美國鬥魚」Twitch直接封號
    」。 終於有人來給川普「禁言」了。近期,一大波社交媒體都站出來頒布了內容政策,有的給川普發的帖子貼標籤,有的直接封號。Facebook只因對川普言論「雙標」,引起員工罷工,同時遭到多家客戶的強烈抵制,股價暴跌,小扎損失了近70億美元。見此情景,各大社交平臺紛紛抓緊「站隊」。
  • 外國網友自製「椰子飛機杯」連玩一個禮拜後...
    下面要分享的就是一位reddit網友的經歷,而他的故事就跟每位男孩的初次經驗一樣,饒富興味,也濃濃腥味。--內容來自reddit網友coconutthrowaway69是這樣的,8年前,我住在東非國家莫三比克,那是個氣候溫暖潮溼的地方。當時我媽對於健康飲食有種莫名的狂熱,她只買她認為營養價值高的食物,而椰子正是其中之一。
  • 網友票選「跟墨鏡超搭的動漫角色」不是反派這只是一種造型的表現
    「跟墨鏡超搭的動漫角色」,我們就來看看在網友的心中,有著這樣形象印象最深刻的人物有哪些吧~不看不知道,一看居然有這麼多墨鏡男~ 啊啊~第20名「鯰川魚紳」天才小釣手第19名「松平片慄虎」銀魂第18名「賈米爾·內特」機動新世紀 鋼彈X第17名「柏葉英二郎」TOUCH 鄰家女孩第
  • 「動森」復活節兔子背後,那些詭異的秘密
    4 月 1 日早上,「動森」迎來了復活節主題限時活動,這個主題活動除了為玩家帶來了新的 DIY 製作手冊和復活節彩蛋外,也帶來了一位新的神秘客人,復活節兔子「蹦蹦」。圖源:推特用戶 xyahaha網友:拜拜了您嘞,走好不送「在這隻奇怪的兔子沒有離開之前,我是不會再打開這個遊戲的。」
  • 【PS4/V】《伊蘇8》公布丹娜的童年玩伴「歐魯佳」與「莎拉伊」的個人資料
    在這次的報導中將介紹與在冒險家亞特魯(アド兒)夢中出現的少女・丹娜(ダーナ)(另一位主角可見相關報導 http://gnn.gamer.com.tw/3/128593.html)有著密切關係的童年玩伴「歐魯佳(オ兒ガ)」(聲優:鹿野優以)與「莎拉伊(サライ)」(聲優:金子有希)的個人資料。不論是哪位都是年齡不詳的美麗角色。
  • IT男再也不擔心眼「瞎」!Github黑暗模式正式發布,Reddit4k高贊
    你是否有過打開電腦被晃「瞎」的感覺?最近,在GitHub Universe上,一款「暗黑」模式被推了出來。官方自稱:「2020年宇宙新功能」。設置黑暗模式的地址如下:https://github.com/settings/appearanceDark Mode 一經宣布,就在reddit上面獲得了4k的高贊,網友也紛紛:這是有史以來最好的體驗!
  • GNN、RL強勢崛起,CNN初現疲態?這是ICLR 2021最全論文主題分析
    但與相比,卷積神經網絡(convolutional neural network)的熱度驟降,「元學習」、「表徵學習」、「圖神經網絡」的熱度均有上升。由提交論文關鍵詞組成的詞雲更加直觀地展示了不同研究方向的熱門程度:論文得分分布情況今年 ICLR 的論文評審得分集中在 5 分左右,平均值為 5.169。
  • 用泡麵修家具的板凳師傅火到國外去了,不少網友認為這是東方秘術
    那個用零食小吃修補家具的板凳師傅徹底火了,不僅坐擁抖音700多萬粉絲,還引發大量外國網友熱議。
  • 美國隊長「真實年齡」曝光!網友精確分析「打臉官方」,贊聲一片
    近日於巴西聖保羅所辦的《CCXP巴西聖保羅動漫展》,吸引了大批的民眾前往參加,可說是南半球最大的動漫盛事,而「Marvel Studios」區也成為外界關注的焦點。日前舉辦的《CCXP巴西聖保羅動漫展》中,「Marvel Studios」湧入眾多人潮,官方不僅在公開了《The Falcon & The Winter Soldier》及《WandaVision》的首張劇照,更公開了電影《復仇者聯盟4:終局之戰》劇本以及其中的冷知識。
  • 趣讀丨「我們是誰」刷爆朋友圈,這個魔性的漫畫到底咋來的?
    ▼/ 美國女畫家創作漫畫原型 / 漫畫原型出自美國一位女畫家,國外網友在此基礎之上進行了再創作/ 隨後2011年6月,在歐美著名論壇、也是很多網絡文化發源地的reddit上,有人以這個振臂高呼的角色再創作了多幅作品,以此表達某些情緒。這些再創作的漫畫在reddit上迅速流傳開來,被很多人重新配以文字加以傳播。但是都還沒有形成對話形式的多格漫畫。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    微分方程真的能結合深度神經網絡?真的能用來理解深度神經網絡、推導神經網絡架構、構建深度生成模型?我們將從鄂維南、董彬和陳天琦等研究者的工作中,窺探微分方程與深度學習聯袂前行的路徑。近日,北京智源人工智慧研究院開展了第一次論壇,其以「人工智慧的數理基礎」這一重大研究方向為主題,從數學、統計和計算等角度討論了智能系統應該怎樣融合數學系統。
  • 深度| 如何理解深度學習的優化?通過分析梯度下降的軌跡
    任何僅依靠臨界點性質的圖景分析都難以解釋這一現象,因為通過這樣的方法,因為優化一個具有單個臨界點且該臨界點是全局最小值的凸目標是最困難的。解決方案?圖景方法在分析深度學習優化上的局限性說明它可能拋棄了太多重要細節。比起「圖景方法是否優雅」,也許更相關的問題是「來自特定初始化的特定優化器軌跡(trajectory)具有怎樣的行為?」
  • GNN、RL強勢崛起,CNN初現疲態?ICLR 2021最全論文主題分析
    該會議被認為是深度學習領域的頂級會議之一,它與 CVPR、ACL、NeurIPS 等學術會議一樣,被 CCF 評選為一類會議。ICLR 的創始人包括深度學習三大巨頭之二的 Yoshua Bengio 和 Yann LeCun。與其他頂會一樣,該會議旨在為深度學習提供一個專業化的交流平臺。
  • ku遊官網-粉絲自製萊昂納多、湯姆哈迪「性轉」女孩照,簡直美翻
    嚴禁抄襲 抄襲必究英國男演員湯姆哈迪(Tom Hardy)和奧斯卡影帝萊昂納多迪卡普裡奧(Leonardo DiCaprio)毫無疑問都是當今好萊塢一線票房號召力男星,這兩大演員不僅在2015 年合作了電影《神鬼獵人》(The Revenant),讓萊昂納多終於雪恥拿到憧憬已久的第一座奧斯卡影帝小金人獎盃,同時兩人在私下交情也相當好,之前更發生過湯姆哈迪刺上「李奧納多全都知道
  • 簡直是在打臉!這部電影也配叫「釜山行」?
    作為熱門電影《釜山行》的續作,《釜山行2:半島》不僅在亞洲各國創下疫情後的首個票房高峰,而且國內某些電影院在實施「隔位」和戴口罩的情況下仍十分賣座,取得亮麗的成績。票房大賣是大賣,卻難掩電影之劣評如潮。有的網友甚至發出了靈魂拷問:這樣的作品也配叫「釜山行」?這不是在打臉嗎?
  • 《冰與火之歌》「夜王」最終季鎖定一目標!五名可能死亡角色分析
    以下選出較有可能的五名人物一一來分析。一、丹妮莉絲坦格利安飾演者:艾蜜莉亞克拉克(Emilia Clarke)若夜王的目標為丹妮莉絲的話,那麼這場大戰就真的是名副其實的冰與火對決。不難想像為了獲得勝利,夜王必須剷除剷除剩下兩隻對他造成極大威脅的龍,而殺死牠們的主人不失為一個好方法,讓擁有坦格利安純正血統、不怕火的後人滅亡。
  • 這就是所謂的「直男自信」?簡直令人窒息…
    」,這種發言便很難拉回好感。前段時間《脫口秀大會3》中,「溫柔一刀」楊笠關於「直男自信」的梗直接出圈了:「有些男生明明看起來那麼普通,卻可以那麼自信。」(別急,等下給你們分析視頻裡楊笠在說過分自信,而現實中,某些直男就真實的表演出了什麼叫「迷之自信」。不信,我們挑選了一些典型的男性自戀故事,一起來看看什麼叫「真·行為藝術」。
  • 沒想到中途就「領便當」的動畫角色排名~艾斯排名首位 學姐僅列第四
    看各種文藝作品多了,對於某些套路也就很了解了,有些重要的角色是不會死,但一些創作就利用了大家的這個思維定式反其道而行,就讓一些看起來不會死很重要的角色死去,造成巨大的戲劇衝突,以至於讓大家對此這些角色都難以忘懷,下面就是goo根據網友的投票排出的沒想到會中途退場動畫角色的TOP10。