致IT之家所有讀者,
今日早間5:00-7:00期間,我們完成了IT之家核心數據從阿里雲平臺至百度雲平臺的遷移工作,並切換更新了域名解析。7點之後到下午4點,基本完成了遷移工作的「後遺症」處理,解決各種遷移帶來的一些訪問或者報錯問題,到現在全平臺的各項網絡服務基本全部OK。
遷移網站是個龐大繁瑣的事情,最近一直在做各項準備,最終選定今日早5點(每天訪問的低谷時段)進行了遷移,避開白天時段最大程度實現站點底層平臺的平滑過渡。
這兒要特別對大家說聲抱歉,畢竟從7月初遭遇隨機故障到後來的持續性問題,已經過去了3個半月,在此期間我們一刻也沒有鬆懈,持續與原服務平臺做各種交涉和等待改進,直到最後不得不重新接洽選擇雲服務商。下面我就把個中的具體情況和大家解釋說明一下——
本次遷移主要起因和過程簡要說明:
2016年3月份IT之家正式使用阿里雲平臺,2016年7月10日開始,大約每周會出現1-3次的間歇性訪問卡頓、無法訪問故障,尤其是在21:00-22:30這個晚高峰期間,頁面加載慢或加載不了,登錄失敗……但是基本上都是5-30分鐘之後恢復正常,一般這邊接到簡訊通知異常開始排查,那邊很快就正常了。我們在這期間保持高度關注,但基本處於可忍受狀態。
2016年8月14日星期日早8點開始,出現嚴重的全天性卡頓(網站和APP每隔幾十分鐘就出現無法連接),ECS主機的CPU佔用率持續100%,IT之家產品部網站技術組的同事和開發組的同事10餘人投入參與問題跟蹤,從APP接口、網站性能、伺服器日誌、資料庫算法、新聞小偷非法高頻抓取、站點訪問量等各方面進行排查,沒有發現絲毫異常。在發生問題的當天為解決這莫名問題,還付費進行了伺服器硬體配置升級,卻始終被提示升級失敗;
次日2016年8月15日,在工單和IM服務群裡各種催促,問題查明,阿里雲技術人員答覆物理機負荷過大,導致分配給ECS雲主機的計算資源縮水,同時滿負荷也導致無法追加新的硬體升級需求。阿里雲客服間的溝通分分鐘持續不間斷,晚上21點開始關閉伺服器主機,技術人員安排遷移雲主機到新的物理主機上,遷移只用了幾分鐘,高峰期間的CPU直接從100%降到了50%前後;
次日2016年8月16日,遷移後的主機顯示配置升級成功,和客服人員溝通一切恢復正常,不再需要升級配置,但卻被拒絕:「升級訂單已生效,因此不支持退款,且伺服器降配,需要在伺服器到期時進行續費降配,請你了解,謝謝」……因為自身技術原因,客戶無奈升級配置,發現實為一個平臺本身故障的時候,也不給退款。好吧,就這樣吧,不是啥大事,只要服務穩定,忍了吧,畢竟溝通一次的成本太大,一切通過工單溝通,再設法催工單,一個簡單的事情幾個小時得到正確的回覆都算快的。然而,到了18點整,故障再次發生,這次是徹底服務中斷,伺服器ping都無法ping通,18:24伺服器恢復,客服答覆原因:物理主機宕機了……連續3天的高頻故障,遷移到新的物理平臺,竟然物理平臺死機了,所有上面的雲主機都自然「失聯」……接近半個小時的服務全面中斷;
接下來的時間,我們給阿里雲做了一個提案,希望阿里雲給接入一個更靠譜的平臺,物理平臺能保證不縮水所購買的計算能力,畢竟缺斤短兩這是任何時候任何商業單位都不能接受的「價值觀」。客服組非常熱情,建議我們不要對用戶發布通知公告,會有負責的領導來和我們溝通,然……
2016年9月21日開始,晚高峰再次出現卡頓問題,症狀依舊認真分析排查各種可能,最後還是回歸到物理平臺的超載;阿里雲在此期間給我們發來一個通知,針對之前的各種情況,決定給我們賠償:延長服務期1天。之前有聽說過百倍賠償的各種傳聞,今天也沉默著看到了這種結果。等不來誠摯的道歉溝通和服務改進卻等來了這個,便立即開始安排網站技術組和產品部負責人去選擇新的雲平臺,必須在國慶節後第一時間安排遷移。
2016年9月30日開始測試百度雲平臺,因為IT之家構建於微軟的.NET和SQL Server資料庫架構之上,這就篩掉了絕大多數國內雲服務平臺,同時考慮域名備案和國內線路的特殊性也過濾掉了外企雲平臺,從站點連通率、速度、高峰期計算能力壓力測試、CDN業務等多方面對百度雲進行了測試,一直到10月20日結束。
2016年10月19日晚高峰期間,阿里雲各平臺又出現半小時以上的卡頓……再次關機進行了物理平臺遷移……
2016年10月20日-24日,百度雲各項測試和接入預演;
2016年10月26日早上5點-7點,百度雲RD工程師和軟媒工程師進行主資料庫遷移和域名解析,7-15點各種細節問題修復,15點開始著筆這份遷移工作匯報。
後語:
以上是事情的真實經過,我們希望這個站點遷移公告能讓所有讀者了解整個過程概況,也希望阿里巴巴集團高層和阿里雲高層能像月餅事件一樣重視目前的問題,缺斤短兩、超賣是更為嚴重的價值觀問題,直接是信譽和品行問題。我們期待著遲遲未等到的官方的回覆,我們也會收到溝通後及時向大家公示他們的改革和進步。阿里雲平臺的技術能力和客服組的熱忱,都是非常到位的,其實我們從內心深處相信,每一個雲平臺的初心都是想給客戶提供最好的服務的。
每次的遷移都希望是最後一次,每次的遷移都是非常的痛苦和折騰。回想2003年第一次創業做商業網站到現在,從虛擬主機、伺服器託管、雙線機房、多線機房、真BGP機房、自建節點、CDN加速、雲主機……這樣一路走來,IDC業務上該經歷的基本全經歷了,坦言說,「雲化」確實是最佳的選擇,一旦上雲,欲罷不能。
今天是遷移的第一天,我們還會持續觀察各項服務的穩定性,同時也會從今天起開始重新優化站點架構,對圖片、視頻等資源引入百度雲CDN節點加速服務,我們會很認真的做好最基礎的服務和我們的內容服務、產品服務。
再次對最近幾個月的不穩定情況向朋友們表示深深的歉意!
刺客,軟媒 CEO,
2016年10月26日,16點,青島。