去年 7 月中旬的一天,一年一度的中國天文學會青年天文論壇正在山東威海舉行。會議一如往常,但這次卻有一位「不速之客」找到了中國科學院國家天文臺黨委書記、副臺長趙剛博士,他們將會就將雲計算、大數據、人工智慧等網際網路新技術與天文學研究與科學普及的合作等事項進行商議,這位「不速之客」就是時任阿里巴巴集團技術委員會主席的王堅。
經過雙方的協商,很快,在 10 月,雙方就達成了戰略合作協議,並於今年 1 月成立了天文大數據聯合研究中心,將雲計算、大數據、人工智慧等網際網路新技術應用到天文科研及科普教育工作,共同開展跨領域的前沿科學研究和應用。
阿里雲攜手國家天文臺上雲目前中國虛擬天文臺主節點已成功遷移到阿里雲,成為一個集成超過 500TB 科學數據、1.5PB 存儲能力、700 多 Tflops 計算能力和 100 多種軟體的天文資料庫與綜合服務門戶,其中包括我國自主研發的郭守敬望遠鏡(LAMOST)巡天數據。
(郭守敬望遠鏡 LAMOST 概念圖)
當時,在嚴肅科學領域還沒有太多接入雲計算平臺的案例,而作為阿里雲主要的締造者,王堅選擇從天文學作為跟科學領域合作的切入點,這裡面有不同學科之間研究性質及特點上的不同:
首先,相比其他的基礎研究的學科領域,就是數理化等等,天文學無論是從從業的人數來講,還是對社會經濟產生的影響來講,都要小得多。按國家天文臺崔辰州博士的說法,「可能影響的利益、規模可能都要有幾個 0 的差距」。但這種規模上的「小」反而適合它首先作為嚴肅科學研究的代表試水雲計算平臺。其次,天文學又是典型的大數據的學科。因為天文學是觀測的一個學科,觀測就會產生數據。隨著技術的進步,天文學是最有代表性的一個大數據的學科。只要提到大數據,只要提到科學數據,沒有一個不承認天文學是裡面最具有代表性之一的。第三,從科學推廣及科普意義上講,天文學相比其他基礎研究學科,又比較被大眾所接受、喜愛,尤其受到小朋友們的歡迎,也就是有「情懷」加成。就連《人民的名義》裡面的孫連城區長都說道:「喜歡上天文學之後,方知宇宙之浩淼,時空之無限。人類算什麼,李達康、高育良、沙瑞金又算什麼,不過是螞蟻、塵埃罷了。」這些都說明天文學的優勢也比較適合它在後期做更多面向大眾的活動和工作。而從雙方現在的合作來講,主要作用也體現在三個方面:
第一, 將數據部署在阿里雲上。舉個例子,僅以中國虛擬天文臺為例,這是由隸屬於中國科學院的國家天文臺、紫金山天文臺、上海天文臺、雲南天文臺、新疆天文臺與眾多合作單位共同打造的一個數據密集型的網絡化科學研究和科普教育平臺,在今年 3 月以前,如果你訪問他們的服務,為你提供資源的其實是位於北京奧林匹克公園旁中國科學院國家天文臺的伺服器。但在 3 月上雲之後,用戶訪問的就是阿里雲上的雲主機。另外,諸如像國家天文臺的郭守敬望遠鏡(LAMOST)的科研數據等資料也都已經遷移到了阿里雲上,要知道,它從 2009 年開始做觀測,到現在已經積累了 800 多萬的天體光譜的數據,是全世界最大的全體光譜的資料庫。這些對於幫助國家天文臺提升工作效率、節約工作成本都有很大的幫助。
(中國虛擬天文臺現在已經遷到了阿里雲的服務上)
第二, 對數據進行更智能化的處理和研究。前面我們已經提到,天文學研究會產生大量的觀測數據,但如何去處理這個數據,過去用的都是比較傳統的數學的方式去處理,運算也是靠硬的計算機去算。但今天雲計算提供了新的能力,算法也好,智能化識別也好,其實提供了很多新的方法。同時,崔博士也表示他們未來的目標也將會集中在對數據的挖掘方面。
第三, 在延伸層面,向科普教育這個方向做工作。舉個例子,國家天文臺在國內(大陸),包括在南極,都有一些站點,「我們也是設想通過技術、網絡能夠把不同地方的星空能夠給大家直播過來。」與科研機構合作,既有利於企業,也有利於社會同時,為了加深合作與研究,雙方也於今年 1 月成立了天文大數據聯合研究中心,並且在剛剛過去的 4 月南京雲棲大會上,宣布進一步加深合作,成立了天文大數據聯合研究中心科學技術指導委員會。
而這種科研機構和雲計算平臺的合作也已經是一種國際趨勢了。就在阿里雲和國家天文臺籤署合作一個月之後,亞馬遜跟美國國立天文臺也建立類似的合作。這些都證明,雲計算技術在科學研究領域有著廣泛的應用空間。
事實上,就在這次合作之前,阿里雲已經和華大基因展開了合作,幫助他們在基因測序這樣擁有龐大計算量的步驟中降低其成本。更早之前,在 2015 年的時候,阿里雲計算也宣布與中國科學院籤署成立了「中國科學院–阿里巴巴量子計算實驗室」,共同開展在量子信息科學領域的前瞻性研究,研製量子計算機。
而這裡面的邏輯也很清楚,一方面,科研市場有著巨大的潛力,僅中國科學院在「十二五」期間用於科研信息化應用推進項目的投入就超過了 1000 萬,面對整個國內的科研市場轉型進程,其中的市場空間非常大。同時,與科研院所合作,對於企業自身在技術、資源以及合作關係等方面也有著很多「看不見」的好處。
另外,就像 LAMOST 運行與發展中心常務副主任趙永恆博士說的那樣,天文學這些數據本來就是共享的,通過網際網路的技術可以到達用戶這邊,接入者可以是大學研究生,甚至到科普公眾,使得科學研究的門檻會相對降低。也讓天文學的數據在教育、在科普方面,對公眾起到很好的積極作用。