Filecoin運維工程師在做什麼

2021-01-05 IPFS原力區

本文由IPFS原力區Joss原作

前 言

固然運維這個職能範疇對於絕大多數人來說認知模糊,特別是在分布式存儲領域,「運維」常常和「機房」「IDC」等名詞相伴,導致很多異業者對於運維的了解停留在物理層面,以搬運機器、上下架伺服器、管理網電等為標杆,好似網管般維護機器運行。事實上運維工程師從工作方式上分為多類,如:運維工程師、運維開發工程師、運維平臺研發工程師、資料庫工程師、資料庫研發工程師等,體現運維能力更多於針對業務的定製化原生工具開發的方面。

運維工程師負責維護並確保整個服務的高可用性,同時不斷優化系統架構提升部署效率、優化資源利用率提高整體的ROI。

伴隨著Filecoin的主網臨近,「運維」重要性的共識在業界基本達成一致,隨著行業布道信息量和內容程度的升級,越來越多的投資參與者也步入理性分析,無論是從Filecoin項目的階段性動態,亦或是對挖礦服務商的甄選,在主網上線的黎明前夕,現階段最重要的運維工程師們,確定準備好了麼?

初識運維

1.1運維是什麼

運維普遍是指網際網路運維,是和研發、測試、系統管理並頭的4大技術部門。

細分來說運維的技術方向包含服務監控技術、服務故障管理、服務容量管理、服務性能優化、服務全局流量調度、服務任務調度、服務安全保障、數據傳輸技術、服務自動發布部署、服務集群管理、服務成本優化、資料庫管理、平臺化的開發、分布式存儲平臺的開發優化等等,分布式是其中很明確的一個技術要領。

同時在運維工作中,運維人員要照顧到Web伺服器、監控、自動部署、配置管理、負載均衡、傳輸工具、備份工具、資料庫、分布式平臺、分布式資料庫、容器、虛擬化、安全、問題追查等大而全、小而細的事項。

運維工程師通過軟體或命令行實時與第三方系統做數據同步,實現可視化監控平臺與各系統的無縫對接,確保系統數據的精準與穩定,及時處理告警信息,提高動環(動力環境)監控管理效率。

動環監控自2008年出現至今已有十二年的時間,主要包括以下模塊:

配電系統:UPS及直流電源、自備發電機、配電櫃、防雷檢測等。環境系統:空調、溫溼度監測、漏水監測、氣體監測等。消防系統:煙感、溫感、早期預警系統、其它消防設備等。保安系統:圖像監控、門禁監控、紅外探測、玻璃破碎探測等。IT網管監控:網絡設備、PC伺服器、作業系統、資料庫及應用等。

除此之外,運維工程師們還需要關注:

聯動控制:電子開關、聯動錄像、數據存儲、運動操控等。事件記錄:操作記錄、狀態記錄、異常記錄、確認記錄等。異常報警:聲光報警、語音廣播、電話報警、簡訊報警、郵件通知等。運維人的一天從上班打卡開始到下班打卡結束,忙忙碌碌周而復始,「007」的工作模式屢見不鮮。

1.2運維發展史

運維要做的是將系統運行存在的變量做到可控,但運維環境的異構和複雜化導致日常運維工作需要付出的人力、時間成本越來越高。

從初級運維發展到最高新的智能化運維,主要是四個階段的過渡:

腳本時代工具時代自動化時代智能化時代兩年前,「智能化運維」開始被大家廣泛關注,隨著大數據分析、APM(應用性能管理)、智能異常檢測、機器學習等技術的興起和逐漸成熟,運維需求也逐漸向自動化和智能化過渡。

自動化的意義

2.1自動化的運維方式

自動化是智能化的前提。自動化的運維方式解決硬體和網絡的自動管理、虛擬機的自動管理、作業系統和軟體的自動化安裝、配置,我們看到了很多「管理」,自動化的意義一方面是提高效率、優化成本、優化資源,更好的做一些彈性,把資源釋放出來去幹點別的;另一方面更是將運維結果標準化可複製。

當然,從工具化到自動化的過程並沒有那麼的容易,對整個行業來講,目前更多的工作是在探尋自動化,深耕分布式存儲多年和Filecoin原始碼近兩年的IPFS原力區作為為數不多的實現自動化運維服務的提供商,在此致敬為行業發展服務努力的技術大佬們。

說回運維,在Filecoin這個領域,標準的運維軟體研發和其他相對傳統的運維軟體不太一樣。比如說阿里從工具化到自動化這個過程中,筆者認為工具化挑戰相對小,即使傳統的運維人員也很容易寫一些工具,比如用Python去寫更多的工具體系。但是如果開發者的工具最終要變成能夠到自動化這個階段,就意味著對工具的要求會越來越高,比如說工具的質量,如果開發者寫出來的工具經常有問題,規模一大就扛不住壓力,這時從人性的角度來講,開發者將會慢慢失去信任感,最後會很難完成這個過程。

當自動化運維實現監控、問題診斷、可視化等,運維人只留下一部分手工任務包括容災切換、應急操作、應用部署和起停等,這樣留下的大量精力就可以傾注於運維開發,給用戶帶來更好的服務體驗。

2.2實現自動化的方式

一套完善的綜合動環監控系統可以對分布的各個獨立的動力設備、機房環境、安保監控等進行實時採集、實時監視系統和設備、安保的運行狀態,記錄和處理相關數據;及時偵測故障,並作必要的遙控遙調操作,適時通知駐場和遠程運維處理;實現機房的少人甚至無人值守,以及電源、空調的集中監控維護管理,提高供電系統的可靠性和通信設備的安全,為機房的管理自動化甚至智能化和決策科學化提供有力的技術支持。

但目前Filecoin領域業內真正的自動化運維的落地實踐佔比不大,突出的、原生的定製運維系統更是少之又少,原力礦池佔其一。

運維對Filecoin的重要性

3.1DEVOPS理念

3.1.1DevOps 的工作原理

在 DevOps 模式下,開發團隊和運維團隊不再「孤立」,他們會在應用程式的整個生命周期(從開發測試到部署再到運營)內相互協作,開發出一系列不限於單一職能的技能。這些團隊會使用實踐經驗自動執行之前手動操作的緩慢流程,使用能夠幫助其快速可靠地操作和發展應用程式的技術體系和工具,進一步提高團隊的工作速度。

3.1.2DevOps 的文化理念

向 DevOps 的過渡需要文化理念和心態上的轉變。DevOps 的宗旨是消除兩個傳統上孤立的團隊之間的壁壘。他們力求頻繁溝通、提高效率,並改善客戶服務的質量,他們能夠完全掌控自己的服務,並且經常越過自己的既定角色或職能的傳統工作範疇,思考最終用戶的需求以及解決這些需求。

3.1.3DevOps 實踐說明

有一些重要的實踐經驗能夠通過自動實施和簡化軟體開發與基礎設施管理流程,幫助組織加快創新速度,這些實踐經驗有大部分需要通過適當的工具來完成。其中一個基本實踐經驗就是要頻繁地進行小規模更新。

這是組織能為客戶快速提供創新的有效方式。與傳統發布實踐中偶爾的更新相比,這種更新通常更具漸進性質。頻繁的小規模更新能夠降低每次部署的風險。它們可以幫助團隊更快速地處理錯誤,因為團隊能夠確定引發錯誤的最近一次部署。雖然更新的節奏和規模可能有所不同,但使用 DevOps 模式的組織與使用傳統軟體部署實踐的組織相比,會更頻繁更新。

此外,組織還可以使用微服務架構來提升應用程式的靈活性,從而加快創新步伐。微服務架構將大型的複雜系統拆分為簡單的獨立項目。應用程式被拆分為許多單個組件(服務),每個服務限定到單個目的或功能,這些服務既可以與其同級服務相互獨立運行,也可以與應用程式一起作為整體運行。這種架構降低了更新應用程式的協調開銷,當每個服務都與掌控各項服務的敏捷小型團隊一一對應時,組織就可以實現更快的發展。

但是,微服務與較高的發布頻率相結合會導致部署量大幅度增加,會帶來運維挑戰。因此,持續集成和持續交付等 DevOps 實踐經驗有助於解決這些問題,讓組織能夠以安全可靠的方式快速交付。與基礎設施即代碼和配置管理一樣,基礎設施自動化實踐經驗也有助於維持計算資源的彈性和對頻繁變更的適應性。此外,進行監控和記錄這一實踐經驗可幫助工程師追蹤應用程式和基礎設施的性能,以便他們快速應對出現的問題。

3.2Filecoin運維與傳統運維的區別

Filecoin礦商的運維相較傳統網際網路運維難度呈數倍甚至數十倍提升,這主要受挖礦模式影響,比如當用整機串聯並行方式參與時,難度僅圍繞單一固件上的程序穩定性做工,但如果採用集群化或者分布式礦池的形式,集群間的各種請求調度和需求分鐘級部署的高標準對於運維工程師來說是一大挑戰。當Filecoin全網算力需求急劇提升時,集群化礦池模式的運維依然可以自如面對,而其他模式的運維就需要堆人堆資源來解決此類情況。

如果說Filecoin運維和傳統運維的具體不同,這裡舉幾個方向的例子:

物理層:因類似阿里雲的服務商,沒有標準化的服務支持,Filecoin雲服務更需要注重底層架構,需要定製化的自建IDC,這遠遠不止硬體範疇。SaSS:Filecoin軟體服務層也需要大量運營工具以支持數據可視化,這樣運維需要將開發平臺化,將工具可視化,這個過程中運維參與了大量的研發工作。運維流程:傳統運維因參與個體少、邏輯簡單,多以Web形式訪問接口,做好埠監聽,反饋結果基本可控絕大多數變量,流程簡單;而Filecoin流程複雜,需要維護的模塊多、自動化難度高、監聽數據複雜且高頻,特別是懲罰機制,猶如達摩克立斯之劍,時刻告誡礦工們即使如此難度也不容出錯,客戶的數據存儲需求服務是Filecoin第一要務。準確性:運維需要物理層監控,但對於Filecoin來說,監控出塊時間、出塊率、算力走勢、Lotus同步高度準確性等維度的重要程度不亞於物理層運行狀態。在傳統運維場景下,一個異常處理的要求可能在小時級,千萬級用戶的應用服務可能在分鐘級,但Filecoin網絡任何一個參數的異常都有可能對礦工造成巨額收益的損失及抵押的懲罰,易造成得不償失的情況。除此之外,原力區運維要針對官方的Lotus代碼給予優化,考驗運維的開發能力、程序運行結果的穩定性,要實現健康狀態檢查、故障自動重啟、故障自愈等,這一切的一切為的是提升CPU使用率,從而提升算力、出塊量、收益,效率提升達2-3倍。

3.3項目發布的區別

3.3.1頻率

傳統網際網路項目發布的頻率固定、時間固定,如每周三,部署的原因多為修復BUG及功能新增,而就當前Filecoin網絡狀況,目前原力運維要做到的是靈活部署、隨時可部署、隨時更新鏈版本,實現在第一時間可以推倒已有集群,並重新部署一遍全流程,對於任何細節的調整要有數十倍的複查測試,實現對網絡變化的快速反應,這也是實現實時最優挖礦收益的前置準備。

3.3.2顆粒度

Filecoin挖礦服務在實現數據監控可視化、運維應用狀態監控可視化之外,顆粒度也是極細,比如做Sector的過程中自動化監控P1-P7狀態及返回值。

當原力區運維工程師將數據化、自動化、精細化、平臺化(後臺)顆粒度足夠精細後,海內外的自動化部署即達到分鐘級執行完畢,通過後臺一鍵管理全部伺服器,並行部署新代碼,自動化工具壓縮部署時間,實現節省99%耗時的效率優化,這少則百兆的數據包的分鐘級遠程部署對行業來說是一個挑戰,對Filecoin礦池技術的推進卻是一個跨越。

自動化大體量運維

Filecoin大礦工測試中原定「5PB」的大礦工標準,在目前看來對行業已然不是挑戰,據評估Filecoin主網在上線前3-6個月將達到1000PB,這個數據帶來的是Filecoin運維工程師們提前準備的一項作業:如何大體量運維?

門背後是凌晨3點的原力礦池團隊

目前看來自動化運維是解決大規模集群運維的唯一方式,也是運維工程師面對的最大挑戰。如何管理好幾十萬臺伺服器上的服務,同時保障服務的高可用性,這裡需要集群複製能力,但相較傳統運維項目,複製部署複雜度數十倍增長。做好24小時駐場維護保障設備上架;高頻定時環動監控及日誌記錄保障設備運行;自動化分布式部署、分布式監控系統保障系統運行;核心網絡監控,護航設備&系統&應用連通率;成熟的1保5冗餘保護策略保障數據安全;攻防防護保障等等等等,這依然遠遠不夠,運維的路很長,沒有盡頭……

總 結

當我們翹首以盼的主網來臨,Filecoin開發工程師將逐漸歸隱,Filecoin的發展終將交付於社區,網絡運行狀況且看大礦工的運維工程師們的本領。

在太空競賽這最後一關,運維工程師們的忙碌將得以回報,具體當前未可知,我們且看8月25日。

/End.

【IPFS原力區】

價值觀:價值 共建 共享 榮耀

總部位於上海,聚集基於分布式網絡&存儲的眾多技術大咖和愛好者,深耕基於 IPFS 的商業生態建設和社區發展。

每周二舉辦「分布式存儲網絡」主題沙龍,聚集了眾多技術大咖和 IPFS 愛好者,通過持續輸出全面、精細、優質的IPFS諮詢和技術支持,將生態中的愛好者轉化為IPFS支持者和參與者,共建IPFS生態的健康發展。

相關焦點

  • 「至暗時刻」Filecoin運維工程師在做什麼?
    事實上運維工程師從工作方式上分為多類,如:運維工程師、運維開發工程師、運維平臺研發工程師、資料庫工程師、資料庫研發工程師等,體現運維能力更多於針對業務的定製化原生工具開發的方面。運維工程師負責維護並確保整個服務的高可用性,同時不斷優化系統架構提升部署效率、優化資源利用率提高整體的ROI。
  • IPFS與Filecoin什麼關係?
    什麼關係?IPFS是一個底層網絡協議,而Filecoin則是一個基於IPFS的去中心化存儲項目。Filecoin項目是IPFS網絡的激勵層,Filecoin項目主要是為了激勵大家貢獻硬碟資源,因為IPFS項目的本質就是共享自己的存儲空間,即「共享硬碟」。
  • filecoin挖礦必知-解析網絡特點和運維
    在接下來解析專業化運維之前,我想先講講為什麼要選用專用的IDC機房。我認為主要的原因有三個。首先第一個是因為管理的問題,因為目前filecoin網絡挖礦的方式主要是通過集群方式挖礦。因為目前filecoin網絡處於一個初期階段,還沒有發展出規模,所以filecoin團隊前期肯定是想招收一些有能力有實力的大礦工來穩定規模,只有當規模達到一定程度後才有可能推廣真正的分布式存儲,讓所有閒置的存儲資源都加入進來。
  • 什麼是Filecoin,與IPFS是什麼關係?
    但該算法仍有弊端,依賴關係比較單一,所以filecoin團隊在最新的論文裡提出了用depth robust graph來編碼數據,depth robust graph上節點之間的依賴關係更強,可以更好的抵禦攻擊,右側同樣是一個含有5個節點的有向圖,但是計算單元之間的依賴關係更複雜。
  • Filecoin太空競賽只是開始,主網上線才是狂歡
    今天是太空競賽第十天,經過一周時間的調整和適應,Filecoin官方和礦工都逐漸適應了太空競賽的節奏。一方面官方開啟維護窗口期快速修復錯誤;另一方面各大礦工也持續發力,目前已解鎖50萬FIL獎勵。太空競賽的重要太空競賽從協議實驗室的層面來講等於就是主網上線前的最後一次壓力測試,所以也是下了血本,拿出425萬枚filecoin對全球礦工進行獎勵,當然成效也是有的,剛上線的時候信息過濾器就觸發了bug
  • 什麼是IPFS?什麼是Filecoin?
    鑑於太多小型合作夥伴對什麼是IPFs、什麼是filecoin以及如何參與都知之甚少。為了明確網際網路上有很多信息,網際網路上會有很多信息。什麼是IPFs?IPFs是一種P2P分布式文件系統,通常被翻譯為「星際文件系統」。
  • 從懲罰機制窺探Filecoin網絡的未來
    最新發布的公告中,官方認為,當前扇區故障費還偏低,後期會依據網絡運行情況適當提高,官方的該項舉措直接勸退了那些堆大算力、大存儲而不重視長期穩定運維的礦工。算力規模的發展有其內在的規律,如果盲目的堆砌,而自身運維能力又跟不上,在filecoin的機制下,很容易造成巨大的虧損。
  • Filecoin經濟模型解讀(二):Filecoin經濟
    Filecoin不僅僅是一個網絡,該協議為圍繞存儲和檢索數據創建市場經濟奠定了基礎。網絡前所未有的增長需要網絡參與者做前所未有的協作。這需要市場經濟中的研究人員、工程師、利益相關者、礦工和用戶的共同協作,不斷改進網絡使其能適應並支持更多的應用場景。1. 數據市場通常,供求關係由市場平衡以確定商品或服務的價格。
  • 私聊幾個Filecoin礦工後,我發現了這些Filecoin不為人知的真相
    ——致Filecoin礦機投資者火星財經旗下礦業品牌火星雲礦聯合礦機廠商上線filecoin雲算力。BTC礦機上市第一股嘉楠耘智宣布布局filecoin礦機。北上廣深Filecoin/IPFSd的峰會絡繹不絕,成為圈內不可繞開的熱點話題。
  • 什麼是IPFS?什麼是Filecoin?
    filecoin是IPFS代幣,它的邏輯和BTC類似,但是比BTC更加優秀的是,天生帶有落地功能。因此,在未來發展潛力上,是一種超越BTC和以太坊的存在。隨著5G和物聯網的普及,數據儲存在未來,將是網際網路技術發展的基建。
  • 重磅:Filecoin走進美國國會
    會議上MARVIN AMMORI對Filecoin、協議實驗室等做了詳細的說明和介紹。Marvin Ammori在證詞中對協議實驗室、Filecoin、存儲等做了詳細說明,這一說明不但推動了政府對區塊鏈行業的了解,也能讓聽證會上的各委員理解Filecoin的價值,對Filecoin的上線和落地應用都有著巨大意義。
  • 揭秘Filecoin獲利機制
    Filecoin不僅僅是一個網絡,該協議為圍繞存儲和檢索數據創建市場經濟奠定了基礎。在5G時代,網絡數據前所未有的增長需要每一個網絡參與者的協作。包括市場經濟中的研究人員、工程師、利益相關者、礦工和用戶,不斷改進網絡使其能適應並支持更多的應用場景。為什麼要有FIL代幣我們都知道,供求關係決定商品或服務的價格。
  • Filecoin經濟模型詳解及未來生態預測
    1.Filecoin礦工經濟模型作礦工成本包括礦機成本、電力成本、運維成本及抵押成本等四個部分,在一定的時間內,全Filecoin網絡成本是時間函數:礦機成本:M=M(t)電力成本:E=E(t)運維成本:O=O(t)抵押成本:K=k(t)在一段時間內,全網總算力成本:C(t)=M(t)+E
  • IT運維工程師,主要是做什麼的?
    現如今幾乎所有行業都無法離開網絡、計算機、印表機等等一系列IT設備,大部分公司還需要有自己公司的系統、OA、網站、網絡店鋪等等相關衍生產品,因此IT運維工程師對於任何一個企業來說都是至關重要的,有些公司有專門IT部門,有些公司為了節省公司成本將IT人員與辦公室或行政人員安排在同一個部門進行辦公。
  • Filecoin挖礦原理
    mining:2.一旦創建了礦工,我們可以運行以下程序來開始挖掘:go-filecoin mining startgo-filecoin挖礦開始了Congrats, you are now mining blocks on the Filecoin network!
  • Filecoin如何挖礦指南
    什麼是挖礦?在大多數區塊鏈協議中,「礦工」是網絡上的參與者,他們做必要的工作來保持區塊鏈的有效性和安全性。為了提供這些服務,礦工得到本機加密貨幣的補償。「礦工」一詞的出現,是為了將確保區塊鏈的工作與為擴大黃金供應而消耗資源的黃金礦商的工作進行比較。
  • 對於filecoin挖礦來講,運維才是關鍵,脫離運維其他都是空談!
    目前,Filecoin挖礦以集群礦池為主流形式,越大型的集群越需要更強的運維能力。當前,集群挖礦面臨兩大挑戰,挑戰一:集群系統如何能夠合理調度、資源充分調動,使得資源能夠被最大化利用;挑戰二:集群一旦出現故障,將面臨算力丟失或質押罰沒,如何避免故障並做好應急處理至關重要。
  • Filecoin挖礦為什麼要託管在IDC機房,不能放家裡挖嗎
    首先介紹了IDC機房是什麼。網際網路數據中心(Internet Data Center)簡稱IDC,就是電信部門利用已有的網際網路通信線路、帶寬資源,建立標準化建設的專業級機房環境,為企業、政府提供伺服器託管、租用以及相關增值等全方位服務。
  • 締造File coin經濟
    Filecoin經濟Filecoin不僅僅是一個網絡,該協議為圍繞存儲和檢索數據創建市場經濟奠定了基礎。網絡前 所未有的增長需要網絡參與者做前所未有的協作。這需要市場經濟中的研究人員、工程師、利 益相關者、礦工和用戶的共同協作,不斷改進網絡使其能適應並支持更多的應用場景。2.1 數據市場 通常,供求關係由市場平衡以確定商品或服務的價格。
  • 「怪盜」IPFS Filecoin礦機投資評測,避免踩雷騙局
    我們的配置性能高於官方推薦的NVIDIA RTX 2080TI(一塊就造價10000元),並且由我們團隊資深晶片工程師團隊, 匠心定製GPU晶片, 使其和Filecoin挖礦軟體結合, 運算性能呈幾何級倍增,理論速度提升100倍, 保證不丟塊,最大限度保障投資者利益.內存:挖礦過程極其佔用內存, 加裝256GB -512G DDR4高速內存,遠高於一般的32G標配礦機。