雖然高能物理和宇宙學在絕對規模上似乎是天壤之別,但阿貢國家實驗室物理學家和宇宙學家正在使用類似的機器學習方法來解決亞原子粒子和星系的分類問題。高能物理和宇宙學在純粹的尺度上似乎是天壤之別,但構成其中一個領域的無形成分告訴了另一個領域的組成和動力學——塌縮恆星,恆星誕生星雲,或許還有暗物質。幾十年來,兩個領域的研究人員研究各自領域的技術似乎也幾乎互不相容。
高能物理依靠加速器和探測器從粒子的能量相互作用中收集一些洞察,而宇宙學家則通過各種望遠鏡來揭示宇宙的秘密。雖然兩個領域都沒有放棄特定領域的基本設備,但美國能源部(DOE)阿貢國家實驗室(DOE)的物理學家和宇宙學家,正在使用稱為機器學習的各種人工智慧技術來解決複雜的多尺度問題。
機器學習已經應用於許多領域,通過從輸入數據中學習並逐步改進對新數據的預測,可以幫助識別隱藏的模式。它可以應用於視覺分類任務或快速再現複雜且計算昂貴的計算。由於有可能從根本上改變科學的開展方式,這些人工智慧技術將幫助我們更好地了解星系在整個宇宙中的分布,或者更好地可視化新粒子的形成,可能會從中推斷出新的物理。
粒子物理學家和阿爾貢領導計算設施(ALCF)的計算機科學家Taylor Childers說:幾十年來,科學家開發重建了我們感興趣的各種粒子籤名的傳統算法。開發它們花了很長時間,但它們非常準確,與此同時,了解谷歌和Facebook成功使用機器學習圖像分類技術是否可以簡化或縮短識別3-D探測器中粒子籤名算法的開發,這將是一件有趣的事情。
Childers與Argonne高能物理學家合作,他們都是歐洲核子研究中心(CERN)大型強子對撞機(LHC)ATLAS實驗合作的成員,LHC是世界上最大和最強大的粒子對撞機。為了解決廣泛的物理問題,ATLAS探測器有八層樓高,測量質子以接近光速碰撞產生的產物。每秒鐘在ATLAS探測器中發生超過10億個粒子相互作用,數據速率相當於地球上每個人同時進行20次電話對話。雖然這些碰撞中只有一小部分被認為值得研究(大約每秒100萬次)但它仍然為科學家提供了大量的數據進行研究。
這些高速粒子碰撞在它們的尾跡中產生新粒子,就像電子或夸克簇射,每個都在探測器中留下一個獨特的標記,Childers希望通過機器學習來識別這些籤名。挑戰之一是在複雜的3-D空間中將這些能量信號捕獲為圖像。例如,照片本質上是具有垂直和水平位置的3-D數據的2-D表示。像素數據,即圖像中的顏色,是面向空間的,並在其中編碼了空間信息,例如貓的眼睛在鼻子旁邊,耳朵在左邊和右邊的上方。所以它們的空間方向很重要,在LHC拍攝的圖像也是如此。當一個粒子穿過探測器時,它會在空間模式中留下特定於不同粒子的能量信號。
再加上不僅在籤名中編碼的數據量,而且在籤名周圍的3-D空間中編碼數據量也是如此。在圖像識別的傳統機器學習示例中(同樣是那些貓)處理數十萬像素,ATLAS的圖像包含數億檢測器像素。因此,這個想法是將探測器圖像視為傳統圖像,使用一種叫做卷積神經網絡的機器學習技術(它學習數據是如何在空間上相關的)可以提取3-D空間,以便更容易地識別特定的粒子特徵。Childers希望這些機器學習算法最終將取代傳統的手工算法,大大減少處理類似數量的數據所需的時間,並提高測量結果的精度。
還可以取代對新探測器長達十年的開發,並用未來探測器的新培訓模式來減少這種需求。阿貢國家實驗室的宇宙學家,正在使用類似的機器學習方法來解決分類問題,但規模要大得多。Argonne計算科學部的部門主任兼高能物理部門的臨時副主任Salman Habib說:宇宙學的問題是,我們正在觀察的物體是複雜和模糊的,因此,以更簡單的方式描述數據變得非常困難。利用Argonne和其他美國能源部國家實驗室的超級計算機,逐個星系地重建宇宙的細節。
研究人員正在創建非常詳細的模擬星系目錄,這些目錄可以用來與觀測望遠鏡獲得的真實數據進行比較。比如大型天氣觀測望遠鏡,這是美國能源部和國家科學基金會之間的合作項目。但要使這些資產對研究人員有價值,它們必須儘可能接近現實。機器學習算法非常善於挑選出可以很容易地通過幾何特徵來表徵的特徵,就像那些貓一樣。然而,類似於汽車後視鏡上的警告,天空中的物體並不總是它們看起來的樣子以強引力透鏡現象為例,背景光源(星系或星系團)被中間的物質質量所扭曲。
由於引力來自光源的光線軌跡偏轉導致背景光源的形狀、位置和方向失真。這種失真提供了關於介入對象的質量分布的信息,然而,實際的觀測情況並不是那麼簡單。例如,透鏡化的完全圓形斑點可能在一個方向或另一個方向上顯示為拉伸,而如果部分沿邊緣觀察,則圓形的、透鏡的圓盤狀對象可能看起來是橢圓形。為了做到這一點,研究人員創建了數百萬個看起來逼真的物體訓練樣本,其中一半是鏡頭。然後,機器學習算法開始嘗試學習透鏡對象和未透鏡對象之間的差異,針對一組已知的合成透鏡和非透鏡對象驗證結果。
但是結果只告訴了一半的故事,算法在測試數據上的效果如何。為了進一步提高對真實數據的精確度,研究人員將一些百分比的合成數據與先前觀察到的數據混合併運行算法,再次比較他們在訓練樣本中選擇透鏡對象與組合數據的程度。最後,你可能會發現它做得相當好,但可能沒有你想要的那麼好。你可能會說,好吧,這些信息本身是不夠的,需要收集更多,這是一個相當長而複雜的過程。現代宇宙學的兩個主要目標是理解為什麼宇宙的膨脹在加速,以及暗物質的本質是什麼。
暗物質的含量大約是正常物質的五倍,但它的最終起源仍然是個謎。為了能遠程接近答案,科學必須非常深思熟慮,非常精確。在現階段,研究人員不認為我們可以用機器學習應用程式解決所有問題。但機器學習在不久的將來對精確宇宙學的各個方面都將非常重要。隨著機器學習技術的發展和完善,它們對高能物理和宇宙學的用處肯定會成倍增長,提供了新發現或新解釋的希望,這些新發現或新解釋將改變我們在多個尺度上對世界的理解。
博科園|研究/來自:阿貢國家實驗室
博科園|科學、科技、科研、科普
關注【博科園】看更多大美宇宙科學哦
交流、探討、學習、科學圈
請下載我們手機軟體:博科園