本周
一篇題為《外賣騎手,困在系統裡》的文章刷屏
文章指出
外賣騎手是被平臺系統算法與數據支配的「工具人」
在系統的壓迫下
騎手們每天都在違反交規、與死神賽跑
外賣員成了高危職業
激起網上千層浪
當天凌晨餓了麼官方發布了
一篇《你願意多給我5分鐘嗎?》的聲明
迅速引爆全網討論
資本作惡與科技向善之間的矛盾
其實很難一兩句斷定外賣這種在資本催生下的科技產物的善惡屬性
中國外賣行業從14年開始,百家爭鳴、遍地開花
到現在餓了麼、美團兩家獨大,用戶普惠
外賣行業經歷了業務和伺服器數十倍規模的爆發式增長考驗與挑戰
本文小編將從技術角度
分享中國外賣行業運維基礎設施的進化史
1.0時代
2014年至2015年被稱為外賣1.0時代,業務迎來高速發展,這時是業務需要什麼就趕緊上什麼,而不是長遠的架構等。可想而知,這個過程中會有很多的由於考慮不周產生的技術債,也就是所謂的「痛」點。
1.網絡的痛
沒有標準化:IP亂掛。外網IP直接掛到伺服器上;有的伺服器可能有2個甚至3個IP;有的有bonding,有的沒有;帶寬收斂比較低。因為流量太大,如緩存高帶寬的情況,交換機上聯埠或者伺服器千兆網卡很快被打滿;攻擊多:業務高速增長的情況下還會有遭遇大量的攻擊,一遇到攻擊就可能宕機;監控缺失:出了問題技術團隊不知道,騎手或用戶說不能下單了之後各種投訴,由客服反饋過來;單點:從業務到整體架構到每個業務甚至機器都存在很多單點;還有鏈路質量不穩定的問題。2.伺服器的痛
伺服器交付不及時:去平均下來每個月都是幾千臺的交付、回收,對效率要求非常高;資產管理缺失:無標準,維護成本高。這時處於野蠻增長時期,需要伺服器就趕緊買,不會考慮有多少伺服器。不知道伺服器都是什麼配置的,沒有標準化,維護起來成本非常高。交付質量無保證:全部都是人肉裝機,2015年底的情況是買進一批機器就臨時組成一個裝機小分隊,一起裝機。慢且交付質量無法保證,排查更困難。3.基礎服務缺失
監控方面最早是用zabbix,配置不一導致有些硬碟沒有監控、IOPS是多少都是缺失的,業務層監控也沒有覆蓋全;負載均衡,每個業務自己隨便搞一兩臺伺服器,掛個Nginx做反向代理;集中式文件存儲。每一臺伺服器會把很多文件存在本地,這為整個基礎設施管理帶來很多問題。發生故障的時候,業務因為監控不成熟無法確認問題,需要看日誌,有時日誌一天就是幾十個G怎麼辦?那就加一塊硬碟,怎麼加?誰來採購和管理?後面的標準化怎麼做?集中式日誌、集中式文件存儲都是為了解決標準化的問題。解決措施
第一是標準化,從硬體到網絡到作業系統到使用的技術棧、軟體的安裝方式、日誌的存放路徑、名稱、代碼部署方式、監控從上到下,要建立一套體系化的標準。有了標準就可以用代碼自動化,有了自動化和標準化之後就可以實現良性循環。但標準化的概念是,讓用戶做選擇題而不是問答題。舉個例子,用戶要一臺24核32G 600G硬碟的機器,這時應該提供給用戶選擇:現在有A、B、C、D四種機型,分別是計算型、存儲型、內存型、高I/O型,你要哪種?收集用戶需求,儘量辨別出來用戶的真實需求。同時機型採購、伺服器出廠和上架都要做定製化。第二是流程化,流程化是把很多的需求通過步驟進行規範化和標準化。第三是平臺,構建一個平臺實現標準化和自動化。總體來說,就是兩個生命周期管理
第一是資源的生命周期管理,包括資源的採購、上架、部署、代碼、故障處理、伺服器回收、報廢等。
第二是應用的生命周期管理,包括應用開發、測試、上線、變更,應用下線、回收等。
2.0時代
在1.0時代外賣行業做了一些標準化、自動化的工作,讓平臺順暢地跑起來。從2016年開始進入了2.0時代,這個階段也存在一些痛點:SLA是什麼?一天交付1000算效率高嗎?數據怎麼衡量?所有的東西都要用數據說話,一切要可量化,可衡量。因此著手從兩方面解決痛點:
精細化運維
網絡架構的持續升級:在一次又一次的流量突發後重新定義網絡標準,並持續做了大量的網絡升級,包括核心、負載均衡、匯聚到核心的帶寬,以及網絡架構優化。還有IDC間鏈路,最早一些IDC間鏈路是打的VPN,現在同城的用裸纖,跨城的都是用傳輸。網絡優化從北京、上海辦公室及第三方支付平臺訪問IDC拉了裸纖和專線。伺服器性能基線制定及交付質量校驗:在交付的時候會進行測試計算型的機型的計算能力、I/O能力是多少、網卡小包的PPS可以達到多少等達到基線才可以交付。硬體故障報修自動化:數以萬計的伺服器要實現自動化告警功能,同時所有的故障信息都會進入資料庫,自動進行分析,看到哪一個品牌的伺服器不好、哪一個機型或者是哪一個配件壞的比較多,在做供應商和機型選擇的時候就可以有一個參考。網絡流量分析:知道關鍵節點的流量是哪一個業務在跑、跑的怎麼樣,有問題要告警出來。伺服器重啟自動化Bug fix:省電模式bug、bonding數據化運營
資產使用率分析:有多少伺服器,分布在哪些機房,有多少機櫃,伺服器是什麼機型,品牌和型號,哪些是佔用的,哪些是未用的,哪些部門使用率高。網絡流量分析:網絡流量來自於哪些人,如果跨城帶寬傳輸需要擴容,這個時候整體業務會收到怎樣的影響。
小編有話要說
從起初每人一臺的人肉操作
到現在峰值百萬秒級響應
中國外賣行業螺旋上升都歸功於背後一輪又一輪的技術改造和迭代
不生硬對變化say no
是科技的魅力之處
技術的力量可以緩解
人與系統的矛盾
或許不僅僅是增加一個5分鐘按鈕
更可能會顛覆一個行業制度
不管是出於資本倒逼的力量還是和諧社會的必然要求
技術本身無罪,且偉大
將引領未來滾滾進入3.0、4.0時代...
本文案例來自第10期魅族開放日餓了麼高級運維經理徐巍的現場分享