深度高能粒子對撞追蹤:Kaggle TrackML粒子追蹤挑戰賽亞軍訪談

2021-01-16 雷鋒網

雷鋒網 AI 科技評論按: Kaggle TravML 粒子追蹤挑戰賽的頒獎儀式即將在 NIPS 2018 大會上進行。這個比賽不僅是機器學習助力其它領域科學研究的經典案例,而且來自中國臺灣的 Pei-Lien Chou 也獲得了挑戰賽的第二名。

TrackML 粒子追蹤挑戰賽介紹

為了探索我們的宇宙是由什麼構成的,歐洲核子研究中心的科學家們正在碰撞質子,本質上就是重現了小型大爆炸,並且用複雜的矽探測器仔細觀察這些碰撞。

 

雖然編排碰撞和觀測已經是一項巨大的科學成就,但是分析由實驗產生的大量數據正成為一個最為嚴峻的挑戰。

實驗的速率已經達到了每秒數億次的碰撞,這意味著物理學家必須每年對數十千兆字節的數據進行篩選。而且,隨著探測器解析度的提高,需要更好的軟體來實時預處理和過濾最有用的數據,從而產生更多的數據。

為了幫忙解決這個問題,一個在 CGRN(世界上最大的高能物理實驗室)工作,由機器學習專家和物理學家組成的小組,已經與 kaggle 和著名的贊助商合作來回答這個問題:機器學習能幫助高能物理學發現並描述新粒子嗎?

具體來說,在這次競賽中,參賽者們面臨著一個挑戰,那就是建立一個算法,它需要能夠從矽探測器上留下的 3D 點快速重建粒子軌跡。這一挑戰包括兩個階段:

●在 kaggle 上的調整精確度的階段是從 2018 年 5 月到 2018 年 8 月 13 號(獲獎者將在 9 月底公布)。在這一階段,主辦方只關注最高分數,而不會管得到這個分數需要運行的時間。這個階段是一個正式的 IEEE WCCI 競賽(會議地址在裡約熱內盧, 2018 年 7 月舉辦)。

●生產階段將在 2018 年 9 月開始,參與者將提交他們的軟體,由平臺進行評估。激勵取決於系統達到良好的分數時,評估的吞吐量(或速度)。這個階段是一個官方的 NIPS 競賽(會議地址在蒙特婁,2018 年十二月舉辦)。

在 Kaggle 比賽官方頁面(https://sites.google.com/site/trackmlparticle/)上可以獲得精確度調整階段的所有必要信息。

挑戰賽亞軍 Pei-Lien Chou 訪談

Pei-Lien Chou 是 TrackML 粒子追蹤挑戰賽亞軍。他帶領了一隻研究用深度學習方法解決圖像相關問題的團隊參加了這次比賽。Pei-Lien Chou 在視頻監控領域有 12 年經驗。他在國立臺灣大學讀取了數學學士學位,並在中國臺灣國立清華大學攻讀了語音信號處理的碩士學位。

在這次競賽中,kaggle 參賽者被要求建立一個算法,這種算法能夠快速地從矽探測器上留下的3D點重建粒子軌跡。 這是這個比賽兩階段挑戰的一部分。在 2018 年 5 月至 8 月 13 日的精確度調整階段,只關注最高分數,而不考慮評估需要的運行時間。第二階段是正式的NIPS競賽,這個階段重點關注準確性和算法速度之間的平衡。

比賽結果出爐後,Kaggle Team 與 Pei-Lien Chou 進行了訪談,雷鋒網(公眾號:雷鋒網)編輯整理如下。

基礎知識

在參加這次比賽前,你的背景是什麼?

我擁有數學學士學位和電子工程碩士學位。從去年開始,我就一直是以基於圖像的深度學習的工程師。  

你是如何開始在kaggle上參加比賽的?

大約 1.5 年前,我加入了 Kaggle 來練習深度學習,這對我的工作幫助很大。我在第一次比賽中就進入了前 1%,在接下來的下一次比賽中就贏了。參加 kaggle 比賽真令人興奮。

是什麼促使你參加這次比賽的?

起初我沒有注意到這次比賽,因為它不是基於圖像的,儘管我在這次比賽中嘗試了一些點雲方法。但當我意識到組織者是歐洲核子研究中心(CERN),也就是製造黑洞的那些人時,我毫不猶豫地加入了。

有關技術

你的方法是什麼?

我的方法是從一個簡單的想法開始的。我想建立一個模型,這個模型可以把每個事件的所有軌道(模型輸出)映射到檢測器中(模型輸入),就和我們使用 DL 解決其他問題的方法一樣。

如果一次事件有 N 個命中(通常 N 在 100k 左右),則輸出可以很容易地用 NxN 矩陣表示,如果 i 和 j 在同一軌道上,則 Mij=1,否則為 0 。但是模型太大了,所以我把它分成了最小的單元:輸入兩個點擊並輸出它們的關係(如圖 1 )。和真實的只連接相鄰的點的「連接點」遊戲不一樣,為了穩健性,我連接了所有屬同一軌道的點。此時,我已經準備好了參加這次比賽。

你是怎麼做的?

首先,我使用命中位置(x,y,z)作為輸入,通過 10 個項目的訓練,很容易獲得 99% 的準確率。但我很快發現這並不足以重建軌道。問題是,即便誤差率 0.01,對於給定的命中,負對數目可以達到 0.01*100k = 1000,而實際的負對數目在 10 左右(軌道的真實平均長度)。但是為了得分,我們需要真實的數據和模型有超過 50% 的部分是重疊的。

接下來怎麼做?

我第一次在自己的計算機上嘗試運行的時候就得到了 0.2 的得分,這與當時的公共內核相同。我猜也許我做到 0.6 就能贏,並且希望通過我的方法可以做到。天曉得!

你是如何得到更好的預測結果的?

我嘗試了很多方法,並且我的進步大大超出了我的預期。

●採用更大的模型,更多的訓練數據。

具有 4k-2k-2k-2k-2k-1k 神經元的 5 個隱層 MLP,總共訓練 3 組,5310 次事件,大約 24 億個正例對和更多的負例對。

●選取更好的特徵

一對 27 個特徵:x,y,z,count(cell),sum(cell.value),兩個單位向量來自神經單元,用於估計命中方向和訓練時的隨機反轉(如圖2),並且假設兩個擊中是線性的或螺旋形的 (0,0,z0),用前兩個估計向量和曲線的切線計算 abs(cos()),並且最後一個是 z0。

 

 ●更好的負樣本

多對接近正例對的負例對進行採樣(也就是重點提高模型分辨相近的正例負例的能力),並且我做了一些很難負例的挖掘。

最後,在 0.97TPR 下,對於給定的命中,我平均得到了 80 個負對,並且只有 6 個假陽性對的概率大於真陽性對的平均值。並且只有 6 個負對的概率大於正對的平均值。

你是如何重建軌跡的?

到目前為止,我有一個不太精確的 NxN 關係矩陣,但如果我把它們全部用上,就可以得到很好的軌跡。

重建:找到 N 個軌跡

1. 以一次撞擊作為種子(例如第 i 次命中),找到最高概率(這個概率大於閾值)對 P(i,j),然後將第 j 次撞擊添加到軌道。

2. 求最大值 P(i,k)+P(j,k),如果兩對概率大於閾值,則將第 k 次撞擊添加到軌道 。

3. 測試新的命中,看看它是否和 x-y 平面上的圓匹配,圓是有兩三次命中的軌跡後面的圓。(這句話也不是很懂)(沒有這一步,我只能得到0.8分)。在軌跡有兩次或者三次撞擊後,根據現有的命中在 x-y 平面中組成一個圓,然後看新一次的撞擊是否在這個圓內

4. 找到下一個撞擊,直到沒有更多的撞擊符合這個圓。

5. 循環步驟1用於所有 n 次撞擊(如圖 3)。

合併擴展

1. 計算所有軌道的相似度作為軌道的質量,這意味著在軌道中,如果所有撞擊(作為種子)對應的軌道相同,則軌道的合併優先級較高。(圖 6)  

2. 首先選擇高優先級軌跡,然後通過放鬆重構步驟中的約束條件對其進行擴展。

3. 循環

其它的工作

我最後添加了 z 軸約束和兩個模型的集成,得到了 0.003 改進。

我還嘗試應用 PointNet 在預測的樣本中找到軌跡並細化跟蹤。這兩種方法都表現良好,但沒有更好。

 

圖 3:用 6 個命中重建一次事件的例子

 

圖 6:合併優先級確定的一個實例

 

                       圖 4:x-y 平面上的種子(大圓)及其對應的候選(匹配顏色)。很明顯種子是在一條軌道上的。

 

                                        圖 5:每個命中的直徑與九個真命中(紅色)的預測概率之和成正比。

這裡是一個參考的內核。

我把這個過程稱為無止境的循環,這離我原來的想法很遠。儘管如此,當我的準確率超過 0.9 的時候,我還是很高興。

訓練和預測獲勝方案的運行時間是多少?

你知道,我的訓練數據有 5k 個事件,而且我還要做難的負例的挖掘。對於每個測試事件,我必須預測 100k*100k 對,重建 100k 軌道(實際上在獲勝解決方案中是 800k+),合併它們並擴展到 10k 軌道。所以運行時間是天文數字。在一臺計算機上再做一次這項工作可能需要幾個月的時間。

賽後感想

DL 適合這個主題嗎?

在我看來,這取決於目標能否被很好的描述。如果目標可以被描述,那麼基於規則的方法應該更好。換句話說,在這種競賽中,使用聚類的方法就可以得到0.8的準確率,所以用深度學習來做簡直是自找麻煩。但是這依然是有趣的。

對於剛剛開始從事數據科學的人,你有什麼建議嗎?

你如果還沒有加入 Kaggle,那一秒鐘都不要耽擱,現在就加入吧!

雷鋒網 AI 科技評論整理。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 什麼是粒子對撞?如果粒子對撞失敗會發生什麼?可能導致滅頂之災
    引言:為了更深入地研究基本粒子的性態,科學家們研發出了各種各樣的粒子對撞機,它們的作用就是利用兩個粒子對撞後產生的碎片來進行研究,粒子的速度越大撞擊的程度越劇烈,產生的碎片也越多。那麼很多人想知道,粒子對撞安全嗎?
  • 粒子加速器出現故障,此人把頭伸進去查看,不料被高能粒子流擊中
    高能粒子流攜帶的能量可以輕易穿透人體,並對人體造成傷害。甚至會讓人失去生命,所以科學家在做實驗的時候,都會做好保護措施,而且嚴格按照要求操作實驗儀器。即使是這樣,科學家被輻射傷害的概率依然不小,兩彈元勳鄧稼先就是受到了核輻射才去世的。科學家研究高能粒子的時候,都要承擔風險。
  • 以「手機探測器」追蹤宇宙射線
    用戶在智慧型手機的攝像頭安裝一款特別的傳感器,以探測宇宙射線的粒子。應用程式自動檢測傳感器的信號,全球智慧型手機用戶可以下載應用程式,自行加入搜索、跟蹤宇宙射線的網絡大軍。研究人員希望以大眾網絡方式追蹤宇宙射線的來源。高能射線粒子來自宇宙天空的不同地方,它們或者來源於超新星、或者來源於我們未知的星體,天體物理學家將宇宙射線看成是神秘的「天外來客」。
  • 上帝粒子的發現 上帝粒子對人類意味著什麼?
    &nbsp&nbsp&nbsp&nbsp2016年5月1日,上帝粒子的發現,上帝粒子對人類意味著什麼?上帝粒子是在宇宙誕生的時候發現的,有研究所正在對上帝粒子進行研究,那上帝粒子對於人類而言到底意味著什麼呢?下面科技訊小編帶你看下上帝粒子的發現。
  • 光線追蹤研究公開課下周直播!中科院高能物理研究所助理研究員林韜...
    光線追蹤技術最初是由一位來自數學應用組的科學家在20世紀60年代發明的,但由於其計算量過於龐大,以前的GPU無法提供足夠的算力支持。直到NVIDIA推出「Turing」圖靈架構的RTX系列處理器,首次支持光線追蹤,才使得光線追蹤技術開始被大規模使用。目前,光線追蹤被廣泛應用於遊戲、影視等動畫效果的渲染,能夠營造出更加真實的光影效果。
  • 粒子對撞機
    為了看得更遠,人類建造了各種各樣的射電望遠鏡,而為了尋找更小的基本粒子和弄清它們的性質,科學家們便建造了巨大的粒子對撞機,試圖通過對撞粒子得到粒子的碎片。 早期,科學家們用使用運動的粒子撞擊靜止的粒子,操作簡單方便,但後來粒子學家發現,單是以運動的粒子去撞擊靜止的粒子,會發生動量傳遞,動碰靜的粒子撞擊產生的能量不足以擊碎原子核,難以進一步探索質子的內部結構。於是上世紀50年代,挪威的科學家提出同時加速兩束粒子讓它們在一處相撞可以實現更高能的對撞實驗。
  • 2013諾貝爾物理學獎深度解讀:「上帝粒子」希格斯粒子
    這種力之所以微弱,大約是因為攜帶這種力的粒子——W玻色子和Z玻色子——質量幾乎是質子的100倍。創造出這樣的粒子需要大量能量。在通常條件下,如果可以的話,物質粒子更願意交換沒有質量的光子來發生相互作用。在極高的能量下,比如在宇宙誕生的最初一瞬間,或者粒子加速器的對撞當中,這些差異就消失了。電磁力和弱核力,在日常生活中相差如此之巨的兩種作用力,變成了統一的「弱電力」。
  • 新聞背景:粒子加速器和粒子對撞機
    新華網北京4月13日電 1919年,盧瑟福用天然放射源實現了第一個原子核反應,即利用阿爾法粒子轟擊氮、氟、鉀等元素的原子核發現了質子。不久,人們就提出了用人造快速粒子源來改變原子核的設想。  簡單地說,粒子加速器是一種用人工方法產生快速帶電粒子束的裝置。
  • 俄研究人員追蹤到高能宇宙中微子的來源:類星體
    據外媒New Atlas報導,俄羅斯的研究人員現在已經追蹤到了一些超高能中微子的來源--來自活躍類星體的射電耀斑。中微子是帶著中性電荷的基本粒子,幾乎沒有質量。它們非常常見,在核反應堆和武器、太陽、超新星和宇宙射線與地球大氣層相互作用時產生。
  • 高能粒子對撞機有望統一量子力學和相對論,楊振寧忍痛放棄
    在劉慈欣的科幻小說《三體》中,幹擾高能粒子對撞機的實驗結果就能鎖死全人類的科學進步,無法開啟下一個科學紀元,足見它對科學的重要性。那麼這場引起全民大討論的高能粒子對撞機到底能「撞」出什麼,對人類的貢獻有多大,楊振寧與王貽芳到底在爭什麼,相信很多人也只是看個熱鬧,今天本文就做個全面的科普。
  • 粒子對撞機歷史回顧與展望 | 「小粒子 大宇宙」科學公開課
    歡迎來到「小粒子 大宇宙」系列課程。這裡是中國科學院高能物理研究所。我是高傑。今天我們講的這一堂課,題目是《粒子對撞機歷史回顧與展望》。大家知道宇宙的構成有三大部分,它是由物質、暗物質和暗能量構成。其中物質大約佔百分之五,暗物質佔百分之二十幾,還有接近百分之七十是暗能量。
  • 2013諾貝爾物理學獎深度解讀:希格斯粒子,賦予其他所有粒子以質量
    幸運的是,標準模型預言出了我們需要知道的、有關希格斯玻色子的一切——除了它確切的質量。對於每一個可能的質量,我們能夠預言大型強子對撞機(LHC)中能夠產生的希格斯粒子的數量,並且預言它們會衰變成什麼。例如,希格斯粒子有時應該會衰變成一對高能光子。由於粒子衰變時動量守恆,這兩個光子的動量就可以換算為產生這兩個光子的粒子的質量。
  • 天文學家追蹤到神秘高能中微子的來源,指向超大質量黑洞
    天文學家追蹤到神秘高能中微子的來源,指向超大質量黑洞  Emma Chou • 2020-05-18 15:35:59 來源:前瞻網 E4245G0
  • 中科院高能所:歐洲最新粒子物理戰略路線與環形對撞機設想一致
    中新社北京6月20日電 (記者 孫自法)記者20日從中國科學院高能物理研究所(中科院高能所)獲悉,歐洲核子中心(CERN)理事會當地時間19日全票通過歐洲粒子物理2020戰略,其確定基於正負電子對撞機的「希格斯(Higgs)工廠」是「優先級最高的未來對撞機項目」,並期望建設能量儘可能高的質子對撞機的路線圖
  • 曼德拉效應(27)2012粒子對撞實驗進行過嗎?
    進行過對撞實驗嗎?有一些人記得新聞報導過要在2012年年底進行對撞實驗,當時還有很多反對者,反對者認為這會製造出黑洞把地球吞滅。但是後來粒子對撞的討論就平息了。現在好像也查不到任何2012年末歐洲粒子對撞機對撞的歷史記載。相反讓人困惑的是好像粒子對撞機還沒完全造好。究竟2012進行過粒子對撞實驗嗎?這只能是一些人記憶中的迷了。
  • ...著「上帝粒子」之稱的神秘粒子,被認為是宇宙中所有基本粒子的...
    CMS探測器捕抓的一次質子團對撞瞬間的復原圖  大名鼎鼎的理論物理學家史蒂芬ATLAS和CMS這兩個獨立的研究組均在相似的能區附近觀察到很可能是這一粒子衰變之後留下的痕跡。  「這預示著一種發現的可能性。」ATLAS實驗項目中國組負責人金山對中國青年報記者說。CMS實驗項目中國組物理分析負責人陳國明持有相同的觀點,同時強調這亦可能只是一次「統計漲落」。在尋找希格斯粒子的道路上,這兩位來自中國科學院高能物理研究所的研究員已經花了超過10年的時間。
  • 高能粒子對撞機,美國停建日本下馬,中國為什麼要建?
    (LHC)2012年,歐洲的科學家通過位於瑞士日內瓦附近的大型強子對撞機第一次發現了傳說中的「上帝粒子」希格斯玻色子,這一發現轟動了世界物理學界。2013年,希格斯玻色子的發現者Fran?oisEnglert和Peter Higgs 被授予諾貝爾物理學獎,因為他們「理論上發現了一種機制,有助於我們理解亞原子粒子的質量來源「。希格斯玻色子是怎麼被發現的?
  • 科學家進行實驗質子對撞,發現了上帝粒子
    CERN公司跨越兩個國家的領土,在瑞士有四個公司,在法國有一個;公司裡有一架升降機,可以直達地下100米全世界最大的粒子加速器(LHC)。這裡主要工作就是每天把兩個質子加速接近至光速並讓其碰撞,科學家們想通過碰撞實驗了解宇宙的起源。
  • ...上帝粒子」之稱的神秘粒子,被認為是宇宙中所有基本粒子的質量...
    CMS探測器捕抓的一次質子團對撞瞬間的復原圖  大名鼎鼎的理論物理學家史蒂芬·霍金要輸了!ATLAS和CMS這兩個獨立的研究組均在相似的能區附近觀察到很可能是這一粒子衰變之後留下的痕跡。  「這預示著一種發現的可能性。」ATLAS實驗項目中國組負責人金山對中國青年報記者說。CMS實驗項目中國組物理分析負責人陳國明持有相同的觀點,同時強調這亦可能只是一次「統計漲落」。在尋找希格斯粒子的道路上,這兩位來自中國科學院高能物理研究所的研究員已經花了超過10年的時間。
  • 各國爭相研製的粒子對撞機是什麼裝置?有何大用處?
    而利用粒子加速器可以產生極高的能量,模擬宇宙形成初期的高能物理環境,「產生」一些新的粒子,幫助我們解開宇宙形成的謎題,同時粒子加速器還廣泛應用在工業生產、醫療中。 粒子對撞機使用的是高能同步加速器,對撞機呈環形,沿環安放著磁鐵系統、高頻系統、真空系統以及探測和校正系統等。 此外,它沿圓環還有兩個或兩個以上專供對撞用的特殊長直線節,探測儀器就被安置在長直線節內的對撞點附近的空間中。