IDC機房運維經驗淺談

2021-02-15 數據中心運維管理

IDC機房運維涉及到方方面面的問題,它不同於其他運維,處理的問題都是比較低沉的問題。在很多公司可能都是將伺服器託管的到專門的IDC機房讓專業的人士進行維護,還有些大公司建有自己的IDC機房,但管理層面上可能只是網絡信息部門的一個子部門,但我們仍要面對很多機房管理的問題。IDC機房運維可以簡單的從五個方面來概括:主機監控、信息統計、硬體維護、系統維護、網絡維護。處理這些問題就是IDC機房的運維。

我認為我們所熟知的計算機能有今天的成就很大一個成功是在於它的模塊化設計,以及分層體系,現在我們用的PC的硬體是由CPU、內存、硬碟、主板、輸入輸出設備等組成。正是這些模塊化的構造讓人們對計算機的維護更加的方便,快捷。

現在我們正在步入雲計算時代,雲計算的實施卻是阻礙重重。但是雲計算是必然的趨勢,因為這是人們對信息自由的渴望、是對資源合理利用的迫切需要。所以說雲計算的發展也少不了用模塊化,分層次的進行設計和優化。

我們來看看雲計算的分類 雲計算可以認為包括以下幾個層次的服務:基礎設施即服務(IaaS),平臺即服務(PaaS)和軟體即服務(SaaS)。

我覺得我們現在的系統分層多且繁雜,無法體現我們在IDC機房的運維,我認為IDC機房的運維應該根據服務提供的角度去對IDC機房進行維護,從終端角度來看,所有提供網絡服務的資源都是一朵朵的網雲。我們在IDC機房中的運維都是為了面向終端進行服務。所以說我們應該根據服務來對我們的IDC機房進行運維。

我根據云計算服務的分類認為我們在運維分層的問題上應該和雲服務的分類相呼應來進行維護,所以我認為,IDC機房的運維應該分成:基礎設施維護,耦合層維護,應用服務維護三個層面。

基礎設施維護

基礎設施維護顧名思義,指的是對設施設備的維護,包括設備的環境維護,設備的統計等等。在這個層面我們需要保證每一臺機器是可以正常連接的,是可以正常使用對外提供服務的,並且我們得保障機器的正常運行並且是可管理的。總的來說基礎設施層的維護是為了對耦合層的交付使用而服務的。

耦合層維護

在這個層面我們對設備有了統一的管理,在這個層面有系統性的架構統一的管理系統,指令系統,和監控系統,在這個層面我們可以發現底層的問題,並交由底層處理,並在這個層面保證應用服務的正常運行。在這個層面將會涉及負載均衡和備份等技術。

應用服務維護

在這個層面主要是客戶對自己應用的維護,在這個層面裡客戶對自己運行的運營軟體進行維護。

當然這個分層的維護只是個萌生概念,如果有一天這個理論可以被建立,相信會被更加的完善。並且為我們更好的理解運維體系服務。

在我之前有很多人都對運維工程師進行過很多定義,大家都說運維工程師是神仙,不是人幹的活。因為運維工程師所承擔的東西太多了,這讓很多做運維工作的朋友們都表示傷不起啊。我們可以來看看以前別人是怎麼來定義運維工程師的。

運維工作師需要什麼樣的技能及素質

做為一名運維工程師需要什麼樣的技能及素質呢,首先說說技能吧,如大家上面所看到,運維是一個集多IT工種技能與一身的崗位,對系統->網絡->存儲->協議->需求->開發->測試->安全等各環節都需要了解一些,但對於某些環節需熟悉甚至精通,如系統(基本作業系統的熟悉使用,*nix,windows..)、協議、系統開發(日常很重要的工作是自動運維化相關開發、大規模集群工具開發、管理)、通用應用(如lvs、ha、webserver、db、中間件、存儲等)、網絡,IDC拓樸架構等等,但是我們知道每個人不肯能樣樣都很精通,每個人的知識層面不可能像水桶一樣,我不否認這種人的處在,但是人的精力是有限的,一個人挖10口1米的井估計很難挖出水來,但是一個人挖一口10米的井我想挖出水的可能性還是很高的。所以說如果運維工程師通過分層運維將運維的知識面分開來進行突破,我想運維水平的提高指日可待,運維工程師的工作負擔也會相應的減輕。

那麼運維工程師在技能和個人素質方面需要什麼要求呢?

我覺得在技能方面不需要過分去強求,只要懂得計算機的基本原理等計算機知識就可以,其他的個方面知識都可以通過後天的培養獲得。

在個人素質方面應該具備以下幾點:

1、 溝通能力、團隊協作:運維工作跨部門、跨工種工作很多,需善於溝通、並且團隊協作能力要強;這應該是現代企業的基本素質要求了,不多說。

2、工作中需膽大心細:膽大才能創新、不走尋常路,特別對於運維這種新的工種,更需創新才能促進發展;心細,運維工程師是網站admin,最高線上權限者,一不小心就會遺憾終生或打入十八層地獄。

3、主動性、執行力、精力旺盛、抗壓能力強:由於IT行業的特性,變化快;往往計劃趕不上變化,運維工作就更突出了,比如國內各大公司伺服器往往是全國各地,哪裡便宜性價比高,就那往搬,進行大規模服務遷移(牽扯的伺服器成百上千臺),這是一個非常頭痛的問題;往往時間非常緊迫,如限1周內完成,這種情況下,運維工程師的主動性及執行力就有很高的要求了:計劃、方案、服務無縫遷移、機器搬遷上架、環境準備、安全評估、性能評估、基建、各關聯部門扯皮,7X24小緊急事故響應等。

4、其它就是一些基本素質了:頭腦要靈光、邏輯思維能力強、為人謙虛穩重、親和力、樂於助人、有大局觀。

5、最後一點,做網站運維需要有探索創新精神,通過創新型思維解決現實中的問題,因為這是一個處於幼年的職業(國外也一樣,但比國內起步早點),沒有成熟體系或方法論可以借鑑,只能靠大家自已摸索努力。

在機房中我們要面對各種各樣的事情,如伺服器上架,伺服器下架,處理問題伺服器等等。在機房運維中我覺得也應該建立起我們的技術體系,從這幾方面入手使得我們的機房運營的更加平穩健康。

1、  監控體系,一個健壯的身體裡不開每天的觀察,我們需要時時刻刻觀察我們的機房,看看機房發生的細小問題,所以說強大而有健全的監控體系有利於我們更好的維護我們的機房。

2、統計體系,在IDC機房我們管理著數以百計的伺服器,統計工作可馬虎不得,每一臺機器的配置,存放位置等等,都關係著數千元的設備的物理安全,其他的還有帶寬安全等等。數量少還好,數量一多就有可能出錯,如何快速高效的統計,並不出錯也是門技術。所以單獨為一個體系也是有必要的。

3、  故障管理體系,在機房中我們要處理每一臺伺服器發生的故障,有些問題很棘手,有些問題很簡單,但大多數問題都有相似性,可以參考其他問題的處理過程處理,良好的故障管理體系肯定是有助於我們快速的響應和處理問題的。

4、  自動化體系,太多的手動執行大大影響了我們處理問題的工作效率,機房運維引入自動化的理念開發自動化管理工具可以大幅度的提高我們機房的管理效率。

5、  評估優化體系,正所謂人無完人,在好的東西也有不好的地方,如IPONG待機時間短,建立評估優化體系使得我們可以在定期的時間內發現我們不足的地方,更好的優化我們的不足之處。

我認為做好IDC機房的運維就是要保障最底層的運維維護安全。如何高效的維護好底層的設備是每一個IDC運維工程師應當具備的職責。我們可以做好以下幾個方面。

第一、   統計記錄好機房機器運行的信息。如上下架記錄,故障處理記錄,監控記錄等等,做到高效快速的統計好所有機房信息。

第二、   監控。熟悉和掌握監控軟體的使用,做到可以更具監控工具的組合應用定位故障點,初步反應故障原因等。

第三、   通過創新思維以及熟練操作提高並解決運維效率問題;目前各公司大部份運維主要工作還是依賴人工操作幹預,需要儘可能的解放雙手。以及熟悉每一個運維環節的操作。

第四、   運維知識的積累與沉澱、文檔的完備性。運維是一個經驗性非常強的崗位,好的經驗與陷阱都需積累下來,避免重複性範錯。並且可以在相似問題發生的情況下快速反應。

第五、   有計劃的做事;工作有計劃,計劃後想方設法達到目標,不找藉口。機房運維工作大多都比較少,通常都是處理問題,但有很多事情是需要定期去做的,比如統計、評估、優化等等。

運維崗位不像其它崗位,如研發工程師、測試工程師等,有非常明確的職責定位及職業規劃,比較有職業認同感與成就感;而運維工作可能給人的感覺是哪方面都了解一些,但又都比上專職工程師更精通、感覺平時被關注度比較低(除非線上出現故障),慢慢的大家就會迷惘,對職業發展產生困惑,為什麼會有這種現象呢? 除了職業本身特點外,主要還是因為對運維了解不深入、做得不深入導致;其實這個問題其它崗位也會出現,但我發現運維更典型,更容易出現這個問題;針對這個問題我談一下機房運維的現狀及發展前景(也在思考中,可能不太深入全面,也請大家斧正補充)

運維現狀:

1、處於剛起步的初級階段,各大公司有此專職,但重視或重要承度不高,可替代性強;小公司更多是由其它崗位來兼顧做這一塊工作,沒有專職,也不可能做得深入

2、技術層次比較低;主要處於技術探索、積累階段,沒有型成體系化的理念、技術。

3、體力勞動偏大;這個問題主要與第二點有關係,很多事情還是依靠人力進行,沒有完成好的提練。

發展前景:

2、從個人角度,運維工程師技術含量及要求會越來越高,同時也是對公司應用、架構最了解最熟悉的人、越來越得到重視。

3、運維將成為一個融合多學科(網絡、系統、開發、安全、應用架構、存儲等)的綜合性技術崗位,給大家提供一個很好的個人能力與技術廣度的發展空間。

4、運維工作的相關經驗將會變得非常重要,而且也將成為個人的核心競爭力,具備很好的各層面問題的解決能力及方案提供、全局思考能力等。

5、特長發控和興趣的培養;由於運維崗位所接觸的知識面非常廣闊,更容易培養或發揮出個人某些方面的特長或愛好,如內核、網絡、開發、資料庫等方面,可以做得非常深入精通、成為這方面的專家。

6、如果真要以後不想做運維了,轉到其它崗位也比較容易,不會有太大的局限性。當然了,你得真正用心去做。

7、技術發展方向、網站/系統架構師。

歡迎大家加入「數據中心運維管理」微信群,加小編微信:suifengerqu-2013或掃描以下二維碼添加小編好友,拉你入群!

相關焦點

  • 什麼是idc機房?
    IDC機房,又被稱為數據中心。數據中心是為電商、企業、個人等各類網站提供專業級機房環境中的伺服器託管服務、伺服器租用服務及其相關增值方面的服務。idc機房idc機房的起源為了解決這個問題,IDC機房應運而生,保證客戶託管的伺服器從各個網絡訪問速度都沒有瓶頸。
  • 如果你的女朋友是IDC運維工程師
    我的職業呢是一名IDC運維工程師,IDC是Internet Data Center的縮寫,就是數據中心機房的意思,運維工程師就是守護機房的工兵。我的日常工作就是維護機房的IT設備網絡系統的穩定,還有維護客戶和公司和諧關係,簡稱"維穩"人員。今年是我在老兵idc部門第七個年頭了,算一算還有一年就是「抗日」八年了。
  • IDC數據機房的動力與IT設備專家運維職責的各有哪些?
    要支撐數據中心業務穩定,須按照運行維護要面向網絡、面向產品、面向客戶的要求,結合客戶系統設備特點,本著提供高質量代維服務為原則,不斷提高運維意識和業務素質,進一步增強做好運維工作的責任心。數據中心運維部門應借鑑國內外計算機機房的運維經驗,並採用電子運維平臺和其他自動化維護方式,進一步規範數據運維。
  • 廣州idc許可證辦理需要什麼材料?
    相信很多從事網際網路的人都用過阿里雲的伺服器,效果和質量都是很不錯的,但是在價格上是偏貴的,因此,這也會讓一些企業萌生了要自建數據機房的念想。對於企業自建數據機房,那麼,idc許可證就是缺少不了的,因為這是企業從事機房服務的基礎資質。
  • 潮陽機房空調運維系統【運圖機電】
    潮陽機房空調運維系統【運圖機電】這一點他們比我們有經驗多了。大可對深圳格力空調放心。準備好空調專用的插座,一般都是16A的。漏電保護器其實也是很重要的。在不要的時候關掉就可以了,既方便又安全。
  • IDC從業十多年在機房遇到的7大靈異事件
    確實是很多無法用科學解釋的問題都可以統稱靈異現場,靈異現象不止在荒郊野外,陰森恐怖的地方,在高科技唯物主義思想集中的地方,哪怕是機器密布,網線複雜的雲計算IDC機房也一樣出現。比如我們網盾科技IDC運維工作的通常最靈異的現場:平時一點事情沒有,系統正常,資料庫正常,存儲正常,但一到放假,過年,必定出問題。
  • 智能化運維時代到來 京東數科機房巡檢AI機器人落地機構數據中心
    據悉,機房巡檢AI機器人每年能夠為金融機構數據中心的機房運維成本降低50%。  據了解,此次投入使用的京東數科機房巡檢AI機器人集成了雷射雷達、超聲、工業相機、深度相機、熱成像相機、溫溼潔淨度等多種傳感器,可實時監測機房內的溫度、溼度、粉塵、煙霧、噪音等環境指標,並對伺服器的儀錶盤、設備指示燈、屏顯、開關等六項設備信息進行精確檢測。
  • 網盾極風雲IDC機房——武漢規模最大的網際網路數據中心
    並採用高功效模塊化UPS系統、2N冗餘配置;電池配置每路可保證機房滿負載運行至少15分鐘(可定製到120分鐘)。輔助供配電系統的供電由市電直接供電,保證機房供配電系統的安全運行。系統運維極風雲IDC機房有嚴格的管理方針,維護和檢查,包括配電,空調,消防等設施的檢查,以及檢測安全消防設備,維修空調設備,除塵,玻璃隔斷的調整加固,照明設備維修,安全防盜,協調相關設備的維護等。都有專門的人員進行維修並安排相關的維護工作。
  • 武漢網盾科技和極風雲IDC大數據中心教你:一分鐘識別真假BGP機房
    國內不少IDC服務商都建立起不少所謂「真正的雙線」、「多線」、「幾星級」的IDC機房,但是,這其中有沒有水分?他們都真的是BGP線路機房嗎?其實很個很重要的基礎就是BGP線路需要有自己的機房,因為你不可能在電信運營的機房再接一條聯通的線路,同理,你也不可能在聯通的機房拉一條電信的線,雙方都會互掐相愛相殺,所以只能第三方服務商自建機房,然後跟多個ISP拉線才是BGP線路的基礎。
  • IT運維工程師的現狀
    大家都說運維就是背鍋俠,受累不討好,工資低……為了更加深入地了解這個行業特意做了一些工作(期間瀏覽了多個網站,論壇以及貼吧還加了一些IT運維相關的QQ群微信群),對IT運維人員目前的現狀進行一個總結,全部都是真實案例,作為「搞運維」的你是否也對以下情況呢?
  • IT運維工程師,主要是做什麼的?
    現如今幾乎所有行業都無法離開網絡、計算機、印表機等等一系列IT設備,大部分公司還需要有自己公司的系統、OA、網站、網絡店鋪等等相關衍生產品,因此IT運維工程師對於任何一個企業來說都是至關重要的,有些公司有專門IT部門,有些公司為了節省公司成本將IT人員與辦公室或行政人員安排在同一個部門進行辦公。
  • 金鴿科技新品發布---機房運維助手:網絡設備斷網、斷電、網線故障...
    金鴿科技發布新品---機房運維助手:斷網、斷電、網線故障遠程監測告警控制系統採用無線物聯網技術,遠程監測網絡故障原因,可以自動重啟設備或遠程重啟設備,大大降低機房以及網絡設備運維成本。
  • 藍盟淺談:「救火式」IT運維和主動式IT外包,CIO們更傾向於後者
    對於企業的IT部門來說最大的職能是管理和規劃好企業的IT基礎設施,支撐好企業的核心業務、維護好企業的系統,讓OFFICE辦公室的每位同事享受IT工具的便利性,高質量的網絡和運維服務帶來企業員工工作效率最大化,這也是為什麼IT部門被賦予企業最重要的職能之一。
  • 伊頓9395進駐北京聯通土城IDC機房
    在北京聯通土城IDC機房節能改造項目中,全球領先的UPS產品製造商伊頓公司旗下9395系列UPS以其「高效、高可靠性、綠色環保「的設計理念和技術優勢,一舉中標,為聯通IDC機房提供多套9395 系列UPS。
  • 什麼是IDC,你知道嗎?
    維護運營維護目的保障機房設備正常運行,通過對機房環境支撐系統、監控設備、計算機主機設備定期檢測、維護和保養,保障機房設備運行穩定,通過保養延長設備生命周期,降低故障率。確保機房在突發事故導致硬體設備故障,影響機房正常運作情況下,可及時得到設備供應商或機房服務維護人員的產品維修和技術支持,並快速解決故障。
  • 解放運維工程師 你需要伺服器智能運維
    隨著網際網路、5G、IoT等技術的飛速發展,全球大型數據中心數量將以3.6%的複合年增長率增長,數據中心規模不斷擴大,數據中心伺服器規模已經達到10萬級,這不僅需要更多的運維工程師,給企業增加運維成本,同時給運維工程師也帶來了極大的難度和挑戰:如何及時發現異常設備?異常根因是什麼?故障是否能自愈?是否能預測故障?
  • 核心網運維的前世今生
    從窄帶交換、NGN到2G、3G、4G、5G時代,我們見證了核心網技術的飛速發展,也目睹了各代設備你方唱罷我登場於機房,更收穫了一框框滿滿的核心網運維回憶。那你否還記得這些年來核心網運維都經歷了怎樣的發展變遷?是否也在展望今天5G時代又會出現怎樣的景象?嗯,我們今天就來聊聊核心網運維那些事吧。前世篇:我從哪裡來?
  • 淺談IT運維分析.
    轉載自微信公眾號「運維老兵傑瑞兔」,已獲得作者授權。當我們談IT運維分析(ITOA)的時候,可以從不同的角度或專業領域來入手。今天,我們僅從應用性能管理(APM)的領域來和大家做個探討、交流。Why ITOA?
  • 宇信科技遠程智能運維解決方案,保障IT運維「不缺位」
    方案通過採用「不間斷實時監控+遠程運維支持」的運維模式,實現IT系統智能化運維的全生命周期管理,確保疫情期間「員工零感染、運維不斷線、系統零中斷」。疫情期間,宇信科技智能運維專家及時有效處理故障7起,保障近30家金融機構數據中心的安全運行,受到客戶高度好評。
  • 從月薪3K到年薪百萬,運維工程師職業晉升之路,全幫你規劃好了!
    01 月薪3K-7K求職關鍵詞:維護、監控、巡檢職位描述:1、負責機房設備上/下線、維護;2、機房網絡規劃、資源管理;各地機房網絡監控>3、熟悉Windows/MAC/linux系統基本操作;(北京,2020年3月,崗位:IDC機房運維)可以看得出來,這個薪酬區間的工作,只要對計算機和網絡有著基礎的理解,就可以勝任了。