日前,SciPlus科研雲於上海浦江創新論壇正式發布。作為行業雲解決方案,SciPlus科研雲基於雲計算技術構建,具有資源共享、彈性收縮等雲平臺共性,專注於管理與存儲,將計算資源和數據資源合理高效整合到雲端,包括多雲異構雲管平臺、通用分布式計算框架、流式編程計算框架,為科研工作者提供科研數據的計算分析能力與數據共享、學科領域資料庫建設、科研協同協作等服務。
作為SciPlus科研雲的重要技術合作夥伴,青雲QingCloud CEO黃允松受邀出席發布儀式,並發表主題演講《科研加速器——軟體定義的多維雲計算》,本文根據演講內容整理。
在中國有一個非常熱門話題——「下一代汽車」。如果你開過特斯拉,就會知道,駕駛汽車的體驗就像是在駕駛iPhone。傳統汽車行業也在改變,即使最傳統的GM通用汽車也無例外。對「下一代汽車」的投入,最重要的崗位就是軟體工程師。簡單來說,汽車公司會變成軟體公司,汽車功能都會解耦成各種組件,而在科研中也有類似的情況。
軟體定義無處不在
回顧軟體定義的發展,軟體定義網絡差不多是十年前開始的。在此之前,已經開始的是軟體定義伺服器。做科研一定要用伺服器,但是在數據傳輸過程中也一定要用到網絡。越來越多科研設備接入,網絡能力變得至關重要。青雲QingCloud 從創立之初就在建設軟體定義網絡的能力。
整個SDN(軟體定義網絡)體系發展過程,就是將傳統的交換和路由功能從硬體轉變為軟體,快速進行迭代創新。SDN的工作邏輯,是讓軟體駕馭數據轉發和數據控制,使創新成本幾乎為零。以手機為例,現在的智慧型手機沒有鍵盤;以前有鍵盤的時代,研發鍵盤並開模的周期長、成本高、調節難度大;現在將鍵盤變成軟體之後,鍵盤來自於輸入法提供商,創新成本幾乎為零。
網絡從單域模式拓展到多域,需要實現跨邊界的網絡連接。以前需要昂貴的設備,現在只要一套軟體,大概率還是開源軟體。這讓調節成本變得非常低,並且問題修復和升級不需要涉及硬體的更換。
從單一實驗室到多個實驗室,從一個省份到多個省份,從一個國家到多個國家,需要跨越區域網路成為廣域網絡,新一代的SDN就是SD-WAN,當然還會繼續演進。現在廣域網的路由從數據中心推到移動端,我們在手機和Pad 上就可以操作,讓網絡更加貼近實際需求,靠的就是軟體定義。
科學研究正在改變
如何能拿到儘量多的數據?要靠物聯網和邊緣計算。對疾病防治及其他科學的研究需要大量數據的輸入,靠人工去收集數據不太現實,靠傳感器收集的方式更加快速、及時。傳感器通過多樣化的連接,到達邊緣端。大量數據通過物聯網平臺接入到資料庫裡的結構化或者非結構化的存儲介質裡,在雲端進行分析,這個過程稱之為「訓練」。訓練的結果,在人工智慧領域叫模型,在科學領域就是「結論」。比如說,分叉樹怎麼分叉的,這個模型有版本,一個版本在迭代中有不同代際,進行版本標註之後,信息下發至邊緣側的終端上,當類似情況再出現時,可以自動發現和識別。
自動化過程變得很關鍵,算力足夠、存儲足夠,最重要的是足夠廉價。我們經常到全國各地出差或者旅遊,會發現疫情防治的檢測繁重、成本高、有效性低,通過人工智慧及大數據的技術方案,成本變得很低,有效性也能得到提升,進一步推動資源投入到更加底層的病毒研究,使模型更精確。
容器提升數據處理能力
通過網絡連接得到的數據,在雲端處理邏輯有很多方式。比如,科研工作者常用的HPC(高性能計算),屬於傳統的計算方法;還有新興方法,將容器用於對無狀態型大量數據的並髮式處理及流式處理。向雲原生時代過渡,容器屬於計算領域的基礎設施。以前科學家們做數據處理買的就是伺服器,後來是虛擬機,現在基本上是容器。在極短的時間內處理數以億計的數據就是依靠這樣並行的方式,對工作拆分再拆分。
如果科學形成割裂式的研究,一個團隊只做自己的計算集群,得到的結果是沒有意義的。比如,耳垂摺痕和一個基因組MRPS22相關,同時這個基因又和心臟病相關的,如果沒有數據交叉與分享,這個體徵和心臟病就不能聯繫起來。科學一定是交叉的,支持科研的雲形態變得至關重要。
雲計算行業的演進過程很簡單。最早是2004年3月,矽谷創業教父Paul Graham提出的「軟體吞噬世界」,軟體帶來了開源。接下來是雲計算,現在是雲原生時代,並行能力變強,加上存儲與網絡的能力,讓數據處理過程變得更快,幫助科研工作者節省大量時間,在數據中找到邏輯和關聯性。
從「軟體定義」到「數字孿生」
要特別提一下「數字孿生」。舉例來說,港口做危險品檢測,之前主要靠經驗數據,是二維的,複雜的。做數字孿生就變得很簡單,港口原封不動地呈現在屏幕上,因為有很多數位化設施和傳感器安裝在港口的角角落落,把港口幾乎100% 還原在屏幕上,和真實世界一樣,並且每個環節是可編碼的。
將物理事件在線上進行純數位化還原,稱之為數字孿生。這個模式對科學研究非常有效,比如說病毒,無論原宿主還是中間傳播者,通過數字孿生方式做到非常接近真實的還原,追溯效率極高。
開源是全世界的基礎架構技術協作
以前,我們大部分中國人對開源是沒有概念的,但整個計算機行業完全靠開源推動。信息行業作為一個年輕行業,之所以發展快,關鍵在於開源帶來的高協作性。
現在,越來越多人認識到開源的重要性,開源對中國來說更加重要,需要強調的是「開源是全世界的基礎架構技術協作」。因為基礎架構不會存在國別,就像音樂一樣,一定是全球一體化的。所以青雲QingCloud都是通過全球化運作方式運作所有開源基礎架構技術,前面提到的容器項目KubeSphere,從第一天就是這個理念。
雲計算對GDP具有高度的正向推動,對科學研究亦是如此。實際上在新冠疫情中,我們已經看到很多領域的研究都是大量使用分布式做數據處理,帶來了巨大便利。進入雲原生時代,雲計算作為新基石,一定會發揮更大的作用。
(文章來源:砍柴網)