【IT168 評論】目前國內的IT運維還處於救火隊員的初級階段,除了髒活就是累活,天天疲於奔命。什麼網絡中斷、應用卡頓、響應速度慢,伺服器宕機啊,各種突發故障都可能讓業務成交失敗,而查找系統運行的日誌又特別費時費力,挖故障如同大海撈針啊,這著實讓運維人員急得團團轉。作為運維工程師的您,有木有遇到過很苦逼的經歷?ChinaUnix社區的網友呼聲一片,各自談起了自己的傷心往事。(http://bbs.chinaunix.net/thread-4162292-1-1.html)
yestreenstars回憶起了自己剛入職時的情景,」剛入職時平臺就一堆問題等著我處理,DMZ被ARP攻擊了,所有伺服器之間都不能正常通信,平臺隔三差五就出現問題,客服大半夜就打我電話,還好大部分問題都能通過遠程處理,不然每次要跑公司就更苦逼了,那天晚上就不用睡了,今年的五一是我有生以來過得最苦逼的一次,三天假,兩天半夜被叫醒,有一夜要得親自跑公司。後來,我試過查殺伺服器上的ARP病毒,結果殺軟把業務程序當成木馬給殺了,額的神呀!我在想我還沒過試用期就要被炒魷魚了嗎,還好後來發現有備份程序,將備份程序複製過來,啟動,能用,頓時心情又好起來了。還有一次,公司的平臺網址突然訪問不了了,後來經過各種排查,發現是公網IP被封了,問了電信,原因是國內IP使用了國外的域名,國內IP必須使用國內域名並且域名需要備案才能使用,解封IP又要一個月的時間,於是和開發一起加班加點,將平臺遷移到亞馬遜上。」
lgatuk幹了三年運維,也遇到過不少苦逼的事,但是既然做了這行,就得認真對待。他說,「那幾次也是咬牙堅持下來了。既然做運維,又是關鍵行業的運維,管理著單位的好幾個核心系統,必然要做到24小時開機,30秒內接聽,30分鐘內到達現場。單位每逢周末的晚8點檔黃金時間還會電話撥測,看看我們的電話是否暢通,一個月連續3次未接到電話即被開除,可憐的外包啊。
說說我遇到的最苦最無奈的一個case吧,作為底層硬體運維工程師,必然會被應用運維、業務運維欺負,因為他們發覺應用、業務稍微有點慢或者真的有問題,他們就指責是硬體、網絡問題,讓我們一頓亂查。有一次,業務反應FTP業務過慢,讓我們查原因,各方面都查了沒有發現問題,業務那邊非得讓我們查,領導也無奈,說就查吧,最後查的主機都宕了,然後更換備件,CPU啊電源啊主板啊,主機起來了,業務死活起不來,後來更換了整機,對,整機,業務還是那死樣,然後把業務遷移到別的主機上,業務還是起不來,我們已經覺得不用說什麼,已經證明了跟硬體無關,可是人家還是不承認FTP有問題。後來不了了之了,上述所有過程均在下午6點到凌晨3點完成。因為上面證明硬體沒問題,所以按照規定整機必須替換回來,我倆想著趁著現在(凌晨3點)FTP還未啟動,業務那邊也不著急,想趕緊把整機更換過來,請示領導後領導怕麻煩,說就先這樣吧。我擦了,等以後業務起來更換更麻煩,又是申請停業務,又是寫實施計劃的,哎服了領導了。後來快4點了,業務都在別的主機上恢復了,我們就陸續回家了。可是就在當天早上8點,突然接到電話說趕緊趕到現場,更換回整機。CNM!」
幹運維工作五年多的fengzhanhai 結合雙十一也在吐槽:「每天不在救火的途中就在救火中,想想也是挺苦逼的,每天24小時隨時待命,休假也只能在家附近轉悠,感覺最刺激事情的就是把資料庫的數據給搞丟了,公司的大BOSS都驚動了,更苦逼的這個環境沒有做過備份,當時想死的心都有~哎想想都不堪回首啊~~ 對於雙十一什麼的,我們公司也是非常重視,不過由於在上線時我們就對架構進行了一些前瞻性的規劃,比如流量控制、ESB消息隊列的部署、服務降級、合理調整批量計劃來規避來至各電商企業的支付請求的業務高峰~所以雙十一加班也只是睡睡大覺,有什麼問題監控組的同事去休息室喊一聲就得了~最多的問題也就是單筆業務交易時間在某個峰值稍微變長一些,沒有太激動人心的事比如核心crash什麼的()對於運維工具我感覺更多的還是進行定製吧,畢竟每個公司的業務都不盡相同,當然對於一些基礎需求還是可以通過一些開源工具進行解決吧比如cacti、zabbix、nagios等等。感覺監控不僅要從監控基礎資源還要從監控業務方面多下工夫比如監控業務流程、每筆業務的響應時間等方面入手才能把運維工作做的更好一些~以上就這麼多吧,其實還有很多細節需要我們運維工程師進行掌握,比如你所負責的系統的最大容量是多少,存儲IOPS多少後會是瓶頸或者影響業務的表現、是否可以根據業務發展進行平滑的在線擴容等等。」
更雷人的是fengzhanhai為我們爆料了一名運維工程師離職前的故事,「記得在上一家公司的門戶架構從設計到實施都是我一個人負責的,後來和總監之間鬧得不愉快,他緊急招了幾個系統工程師和一個dba來接替我的工作,一步步的把db、媒資及負載均衡設備從我工作中分割出去~記得當時的那個資料庫管理員是剛剛入行,也沒有做過運維工作~他來了的第二天總監就讓他上生產了,結果把3臺生產資料庫集群搞宕機了兩臺,最後還是我大晚上打車到機房通過linux的救援模式恢復系統的參數得以恢復環境正常運轉,還有一次他重啟了其中的一臺db卻沒有告訴我重啟應用,導致應用有時能訪問有時訪問超時,總監一口咬定是我的web集群配置有問題,當時記得我從晚上八九點搞到凌晨2點都沒解決,快凌晨三點了dba把我拉倒一邊悄悄的告訴我他昨天下班後重啟了db沒告訴我重啟web服務,到此我才知道了為啥生產會產生此種問題,最後通過重啟所有web集群問題得以解決。也正是這一次生產事故讓我意識到是時候離開這裡了,當然這件事應dba的請求我沒有告訴任何人,總是感覺現在找個工作都不容易沒有必要讓別人為此砸了飯碗~其實我在這裡想表達的觀點有以下幾點:
第一、作為運維人員要對生產系統保持敬畏之心,要深刻理解你正在執行的命令;
第二、公司就像一個營盤而我們只是一個兵,我們無須為別人的錯誤買單~不是你的問題就大膽喊出來,既然是屌絲,我們在工作中懦弱給誰看~~
第三、公司是我們的衣食父母,我們當然要懷感恩之心,當然每個公司都有不盡人如意的地方,緣起緣滅是該離開的時候就爽快的走吧~不過走之前要保持你的風度
第四、就算這個公司的領導再混蛋他也是你的領導,就算他沒有對你委以重任沒能發現你的亮點也至少請你對他的位置保持尊重,否則你就像我一樣會輸的一塌塗地~明明付出了太多,看著公司從創建到慢慢長大卻無法分享公司成長所帶來的豐厚回報,記住永遠不要跟領導作對,即使你掌握了公司所有技術,不要自以為是,暫時不可替代不代表永遠不可替代,作為領導想要幹掉一個人太簡單了,要不他就不是的領導了,所以對技術人員任何時候都至少要對領導假裝謙恭有禮~這樣你會如魚得水。」
從入職時的初級運維工程師,到跳槽時高級運維工程師,他們究竟在企業中處於什麼樣的角色?談及前景,幾家歡喜幾家愁啊!
seesea2517倒是表現出了處事不驚的風度,」閒時高瞻遠矚,急時救火救災。平時要做好規劃和監控,減少緊急情況的出現,緊急情況發生時,則要有果斷的判斷和熟練的處理能力。」
yestreenstars 直言不諱,「運維工程師在業務正常時就是個閒人,偶爾需要發布和部署新平臺,出問題時又要火急火燎地解決問題,因為你花的時間越多說明你能力越差,老闆心情不好就把你給炒了,所以說運維工程師在企業中處於一個舉足輕重的角色,業務正常穩定說明運維工程師的能力好,但在老闆眼裡可能覺得花錢養了個閒人,他看不到你是怎麼將一個頻繁出問題的平臺變得穩定。運維又分成了很多種,一個大的公司有專門的運維部門,有負責業務運維的,有負責網絡運維的,還有負責硬體運維的和開發運維的。
我挺看好運維工程師的職業前景的,其實苦逼的都是低級運維,等你做了高級運維、運維主管、運維經理、運維總監之後你才發現越往高走事情越少,最起碼一般的事情都不需要你半夜起來處理。「
jie190122 倒是一臉平靜:「a.運維工程師在企業中應該起的應該是管家的角色,日常起碼能保證企業系統(硬體和軟體)的正常運行,同時能對企業信息建設做出前瞻性的計劃和操作(購買硬體/引入各種系統/提出系統整合等),並且能承擔起系統開發人員與使用人員的橋梁和潤滑劑(運營的優勢是比系統使用人員更懂開發,比開放人員更懂系統使用)
b.其他行業不熟悉,但在旅遊行業,因為業務相對複雜,但從業人員的入行檻較低,導致業務系統的開發人員一直在抱怨使用人員笨啊/懶啊/亂操作啊等, 而從同行也了解到基本每家旅行社都是這情況,而各家社的系統使用深入度基本都是很淺,都是只用到了信息錄入和同步這些功能,而深入的流程監管基本沒幾家社能做到,這個的差別很多時候就是因為運維的團隊跟不上,無法起到橋梁的作用
c.運維小組了解過的最專業的是順豐的,據用友的哥們說,順豐的運維團隊在和用友的開發團隊對接的時候,第一次就已經把所有資料準備好了,甚至有些資料用友的都沒注意到;
d. 運維工程師的職業前景,我認為會越來越重要,因為隨著企業的信息化越來越普及和深入,對運維工程師的要求會越來越高,運維工程師的價值型也會越發的凸顯;」
lgatuk義正言辭,為運維工程師們搖旗助威,「之前跟一位EMC的老工程師聊天,聊到某公司裁員的事情,他說如果一個公司到了裁運維人員的程度,那說明這個公司已經快不行了。事實確實如此,好的運維工程師能把系統維護的很好,並不是因為工程師解決各種疑難故障的能力高,而是他們有良好的運維習慣,比如詳細記錄各種變更,無論多小的變更都要先申請後操作,最後記錄,方便以後排查問題時的回溯。
目前只有特別大的公司才會注重運維人員,其他公司都把運維人員當成了做苦力的,並且待遇不高。他們不怕人員流失,你走可以,跟其他人把情況都交接清楚再走。這種公司不明白,再怎麼交接,新的維護人員都需要一段時間來熟悉系統,並且交接過程中很容易遺漏問題。久而久之,遺留問題越來越多,等以後問題爆發時會很難處理。
我建議如果做運維,儘可能的去一些大公司,專業公司,這樣接觸到的知識、流程更專業、更規範,有利於以後的發展。正所謂近朱者赤。」
臺上一分鐘,臺下十年功。有木有「萬能」的工具可以解救運維人員,脫離苦海呢?大家開始出謀劃策了,談到最多的是監控工具,其次是幫助文檔。
seesea2517 :「監控還是大頭,用cacti、zabbix。然後就是ssh客戶端putty、SecureCRT,上傳下載WinSCP、filezilla,其它一大票Linux工具以及性能和進程查看命令、mysql相關命令集等。」
yestreenstars :「最常用的自然是SSH工具了,我個人比較喜歡用xshell,因為它可以配合xftp使用,使用起來又比較順手。還有就是TeamViewer了,這個工具的好處就是不需要公網IP也能建立遠程桌面連接,有了這個工具我才可以在家裡遠程處理問題,而且這個軟體也有手機客戶端,平時在外面玩的時候,平臺出現小問題也可以遠程解決,因為平時在外也不會帶筆記本,也難以找到電腦來處理,所以用這個工具還是挺方便的。
還有另外一個遠程桌面工具是RD Client,這是個手機客戶端軟體,是微軟開發的,可以利用它從手機連接伺服器,因為我用慣了TeamViewer,所以這個用得比較少。管理MYSQL的話我推薦用SQLyog,這是個圖形界面管理工具,非常好用。監控的話我推薦使用zabbix,它幫助我發現了很多問題,而且自帶報警功能,同時可以配合Python使用。
cu_shell:」網絡分析工具,比如wireshark,監控軟體,比如zabbix,CactiEZ,Tivoli等等。目前主要用CactiEZ監控網絡設備和伺服器流量和負載,,準備學習zabbix。「
除了監控工具,jie190122補充: 」如果真的說是萬能的工具的話,那就是幫助文檔,無論是給自己看給同事還是給前臺的用戶看,只要不斷的積累,就會越來越實用,特別是團隊的內部幫助文檔,儘量把每次的解決思路給寫進去,慢慢的你會發現大部分問題都可以用常用的幾種思路解決,之前的團隊在我離開前,甚至都開始能實用實習生去做日常的維護,就是因為有了幫助文檔,很多操作都是傻瓜式了,但這些就需要團隊一起堅持不懈的積累.「
本話題由大話IT欄目發起,更多話題討論詳情,請點擊連結:http://www.chinaunix.net/talk
2015第六屆中國資料庫技術大會(DTCC)即將於4月16-18日在北京新雲南皇冠假日酒店召開,屆時將有資料庫運維專場,大咖為你把脈最新前沿技術,歡迎大家報名:http://dtcc.it168.com/