13張圖搞懂分布式系統服務註冊與發現原理

2021-01-14 酷扯兒

本文轉載自【微信公眾號:五角錢的程式設計師,ID:xianglin965】經微信公眾號授權轉載,如需轉載與原文作者聯繫

在微服務架構或分布式環境下,服務註冊與發現技術不可或缺,這也是程式設計師進階之路必須要掌握的核心技術之一,本文通過圖解的方式帶領大家輕輕鬆鬆掌握。

引入服務註冊與發現組件的原因

先來看一個問題,假如現在我們要做一個商城項目,作為架構師的你應該怎樣設計系統的架構?你心裡肯定在想:這還不容易直接照搬淘寶的架構不就行了。但在現實的創業環境中一個項目可能是九死一生,如果一開始投入巨大的人力和財力,一旦項目失敗損失就很大。

作為一位有經驗的架構師需要結合公司財力、人力投入預算等現狀選擇最適合眼下的架構才是王道。大型網站都是從小型網站發展而來,架構也是一樣。

任何一個大型網站的架構都不是從一開始就一層不變的,而是隨著用戶量和數據量的不斷增加不斷迭代演進的結果。

在架構不斷迭代演進的過程中我們會遇到很多問題,技術發展的本質就是不斷發現問題再解決問題,解決問題又發現問題。

單體架構

在系統建立之初可能不會有特別多的用戶,將所有的業務打成一個應用包放在tomcat容器中運行,與資料庫共用一臺伺服器,這種架構一般稱之為單體架構。

單體架構-應用和資料庫共同部署

在初期這種架構的效率非常高,根據用戶的反饋可以快速迭代上線。但是隨著用戶量增加,一臺服務的內存和CPU吃緊,很容易造成瓶頸,新的問題來了怎麼解決呢?

應用與數據分離

隨著用戶請求量增加,一臺伺服器的內存和CPU持續飆升,用戶請求響應時間變慢。這時候可以考慮將應用與資料庫拆開,各自使用一臺伺服器,你看問題又解決了吧。

單體架構-應用和資料庫分離

突然有一天掃地阿姨不小心碰了電線,其中一臺伺服器掉電了,用戶所有的請求都報錯,隨之而來的是一系列投訴電話。

集群部署

單實例很容易造成單點問題,比如遇到伺服器故障或者服務能力瓶頸,那怎麼辦?聰明的你肯定想到了,用集群呀。

應用集群部署

集群部署是指將應用部署在多個伺服器或者虛機上,用戶通過服務均衡隨機訪問其中的一個實例,從而使多個實例的流量均衡,如果一個實例出現故障可以將其下線,其他實例不受影響仍然可以對外提供服務。

隨著用戶數量快速增加,老闆決定增加投入擴大團隊規模。開發團隊壯大後效率並沒有得到顯著的提高,以前小團隊可以一周迭代上線一次,現在至少需要兩到三周時間。

業務邏輯越來越複雜,代碼間耦合很嚴重,修改一行代碼可能引入幾個線上問題。架構師意識到需要進行架構重構。

微服務架構

當單體架構演進到一定階段後開發測試的複雜性都會成本增加,團隊規模的擴大也會使得各自工作耦合性更嚴重,牽一髮而動全身就是這種場景。

單體架構遇到瓶頸了,微服務架構就橫空出世了。微服務就是將之前的單體服務按照業務維度進行拆分,拆分粒度可大可小,拆分時機可以分節奏進行。最佳實踐是先將一些獨立的功能從單體中剝離出來抽成一個或多個微服務,這樣可以保障業務的連續性和穩定性。

微服務架構

如上圖將一個商用應用拆分為六個獨立微服務。六個微服務可以使用Docker容器化進行多實例部署。

架構演化到這裡遇到了一個難題,如果要查詢用戶所有的訂單,用戶服務可能會依賴訂單服務,用戶服務如何與訂單服務交互呢?訂單服務有多個實例該訪問哪一個?

通常有幾種解決辦法:

(1)服務地址硬編碼

服務的地址寫死在資料庫或者配置文件,通過訪問DNS域名進行尋址路由。

服務元數據硬編碼

服務B的地址硬編碼在資料庫或者配置文件中,服務A首先需要拿到服務B的地址,然後通過DNS伺服器解析獲取其中一實例的真實地址,最後可以向服務B發起請求。

如果遇到大促活動需要對服務實例擴容,大促完需要對服務實例進行下線,運維人員要做大量的手工操作,非常容易誤操作。

(2)服務動態註冊與發現

服務地址硬編碼還有一個非常致命的問題,如果一臺實例掛了,運維人員可能不能及時感知到,導致一部分用戶的請求會異常。

引入服務註冊與發現組件可以很好解決上面遇到的問題,避免過多的人工操作。

架構演進總結

在單體架構中一個應用程式就是一個服務包,包內的模塊通過函數方法相互調用,模型足夠簡單,根本沒有服務註冊和發現一說。

在微服務架構中會將一個應用程式拆分為多個微服務,微服務會部署在不同的伺服器、不同的容器、甚至多數據中心,微服務間要相互調用,服務註冊和發現成為了一個不可或缺的組件。

服務註冊與發現基本原理

服務註冊與發現是分為註冊和發現兩個關鍵的步驟。

服務註冊:服務進程在註冊中心註冊自己的元數據信息。通常包括主機和埠號,有時還有身份驗證信息,協議,版本號,以及運行環境的信息。

服務發現:客戶端服務進程向註冊中心發起查詢,來獲取服務的信息。服務發現的一個重要作用就是提供給客戶端一個可用的服務列表。

服務註冊

服務註冊有兩種形式:客戶端註冊和代理註冊。

客戶端註冊

客戶端註冊是服務自己要負責註冊與註銷的工作。當服務啟動後註冊線程向註冊中心註冊,當服務下線時註銷自己。

客戶端註冊

這種方式的缺點是註冊註銷邏輯與服務的業務邏輯耦合在一起,如果服務使用不同語言開發,那需要適配多套服務註冊邏輯。

代理註冊

代理註冊由一個單獨的代理服務負責註冊與註銷。當服務提供者啟動後以某種方式通知代理服務,然後代理服務負責向註冊中心發起註冊工作。

代理註冊

這種方式的缺點是多引用了一個代理服務,並且代理服務要保持高可用狀態。

服務發現

服務發現也分為客戶端發現和代理發現。

客戶端發現

客戶端發現是指客戶端負責向註冊中心查詢可用服務地址,獲取到所有的可用實例地址列表後客戶端根據負載均衡算法選擇一個實例發起請求調用。

客戶端發現

這種方式非常直接,客戶端可以控制負載均衡算法。但是缺點也很明顯,獲取實例地址、負載均衡等邏輯與服務的業務邏輯耦合在一起,如果服務發現或者負載平衡有變化,那麼所有的服務都要修改重新上線。

代理發現

代理發現是指新增一個路由服務負責服務發現獲取可用的實例列表,服務消費者如果需要調用服務A的一個實例可以直接將請求發往路由服務,路由服務根據配置好的負載均衡算法從可用的實例列表中選擇一個實例將請求轉發過去即可,如果發現實例不可用,路由服務還可以自行重試,服務消費者完全不用感知。

代理路由服務註冊

心跳機制

如果服務有多個實例,其中一個實例出現宕機,註冊中心是可以實時感知到,並且將該實例信息從列表中移出,也稱為摘機。

如何實現摘機?業界比較常用的方式是通過心跳檢測的方式實現,心跳檢測有主動和被動兩種方式。

被動檢測是指服務主動向註冊中心發送心跳消息,時間間隔可自定義,比如配置5秒發送一次,註冊中心如果在三個周期內比如說15秒內沒有收到實例的心跳消息,就會將該實例從列表中移除。

心跳機制-被動檢測

上圖中服務A的實例2已經宕機不能主動給註冊中心發送心跳消息,15秒之後註冊就會將實例2移除掉。

主動檢測是註冊中心主動發起,每隔幾秒中會給所有列表中的服務實例發送心跳檢測消息,如果多個周期內未發送成功或未收到回復就會主動移除該實例。

心跳機制-主動檢測

業界常用的服務註冊與發現組件對比

了解服務註冊與發現的基本原理後,如果你要在項目中使用服務註冊與發現組件,當面對眾多的開源組件該如何進行技術選型?

在網際網路公司裡,有研發實力的大公司一般會選擇自研或者基於開源組件進行二次開發,但是對於中小型公司來說直接選用一款開源軟體會是一個不錯的選擇。

常用的註冊與發現組件有eureka,zookeeper,consul,etcd等,由於eureka在2018年已經宣布放棄維護,這裡就不再推薦使用了。

業界開源組件

下面結合各個維度對比一下各組件。

從整體上看consul的功能更加完備和均衡。接下來以consul為例詳細介紹一下。

Consul——值得推薦的服務註冊與發現開源組件

簡單認識一下Consul

Consul是HashiCorp公司推出的開源工,使用Go語言開發,具有開箱即可部署方便的特點。Consul是分布式的、高可用的、 可橫向擴展的用於實現分布式系統的服務發現與配置。

Consul有哪些優勢?

服務註冊發現:Consul提供了通過DNS或者restful接口的方式來註冊服務和發現服務。服務可根據實際情況自行選擇。健康檢查:Consul的Client可以提供任意數量的健康檢查,既可以與給定的服務相關聯,也可以與本地節點相關聯。多數據中心:Consul支持多數據中心,這意味著用戶不需要擔心Consul自身的高可用性問題以及多數據中心帶來的擴展接入等問題。Consul的架構圖

Consul架構

Consul 實現多數據中心依賴於gossip protocol協議。這樣做的目的:

不需要使用伺服器的地址來配置客戶端;服務發現是自動完成的。健康檢查故障的工作不是放在伺服器上,而是分布式的。Consul的使用場景

Consul的應用場景包括服務註冊發現、服務隔離、服務配置等。

服務註冊發現場景中consul作為註冊中心,服務地址被註冊到consul中以後,可以使用consul提供的dns、http接口查詢,consul支持health check。

服務隔離場景中consul支持以服務為單位設置訪問策略,能同時支持經典的平臺和新興的平臺,支持tls證書分發,service-to-service加密。

服務配置場景中consul提供key-value數據存儲功能,並且能將變動迅速地通知出去,藉助Consul可以實現配置共享,需要讀取配置的服務可以從Consul中讀取到準確的配置信息。

相關焦點

  • 40張圖帶你看懂分布式追蹤系統原理及實踐
    本文將會從以下幾個方面來闡述分布式追蹤系統的原理及作用如何衡量一個接口的性能好壞,一般我們至少會關注以下三個指標單體架構在初期,公司剛起步的時候,可能多會採用如下單體架構,對於單體架構我們該用什麼方式來計算以上三個指標呢?
  • 架構師成長之路:分布式系統綜述
    知道了什麼是分布式系統之後,一個最簡單的分布式系統應該是什麼樣的?假設我們做了一套系統,這套系統僅有兩個功能:1. 註冊、2. 登錄如果我們想讓這套系統變成分布式系統該怎麼做?最簡單的是,把註冊功能和登錄功能分別做成兩套子服務,然後部署到兩臺伺服器上,讓他們互相協作,這就變成了一套最簡單的分布式系統。你看到這裡可能會非常震驚:這就是一套分布式系統了?我想學習的分布式系統的那麼多技術棧呢?那些高大上的算法呢?
  • 如何系統性地學習分布式系統?
    所以,在學習分布式系統之前,我們需要解決的第一個問題是:分布式系統解決了什麼問題?,無法容忍停止服務等故障,而要提供高可用的服務,唯一的方式就是增加冗餘來完成,這樣就算單機系統可以支撐的服務,因為高可用的要求,也會變成一個分布式系統。
  • 深度學習簡介,GPU計算的原理,分布式機器學習原理
    深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分布式特徵表示。深度學習採用的模型為深層神經網絡(Deep Neural Networks,DNN)模型,即包含多個隱藏層(Hidden Layer,也稱隱含層)的神經網絡(Neural Networks,NN)。
  • 什麼是分布式系統,這麼講不信你不會
    下面這種來自 Distributed systems for fun and profit  的圖形象生動說明了Partition與Replication是如何協作的。 Partition和Replication是解決分布式系統問題的一記組合拳,很多具體的問題都可以用這個思路去解決。
  • 美團T9都說太「強」了,以微服務分布式的實戰詳解SpringCloud
    從企業的真實需求出發,理論結合實際,深入講解SpringCloud微服務和分布式系統的知識。既包括SpringCloud微服務的各類常用組件的講解,又包括分布式系統的常用知識的介紹。SpringCloud組件方面主要講解服務註冊和服務發現(Eureka) 、服務調用(Ribbon 和OpenFeign)、斷路器(Hystrix 和Resilience4j)、網關(Zuul和Gateway)、配置(Config)、全鏈路追蹤(Sleuth) 、微服務的監控(Admin)等;分布式系統方面主要講解分布式資料庫、分布式緩存、會話和權限以及發號機制等。
  • 雲時代的分布式資料庫:阿里分布式資料庫服務DRDS
    然而,信息化和網際網路的浪潮改變了這一切,我們突然發現,我們服務的對象發生了根本性變化,從原來的幾千人,變成了現在的幾億人,數據量也從TB級別到了PB級別甚至更多。存在單點的單機系統無論如何努力,都會面對系統處理能力的天花板。原來的這條路,看起來是走不下去了,我們必須想辦法換一條路來走。
  • 分布式系統中的CAP理論,面試必問,你理解了嘛?
    對於剛剛接觸分布式系統的小夥伴們來說,一提起分布式系統,就感覺高大上,深不可測。而且看了很多書和視頻還是一臉懵逼。這篇文章主要使用大白話的方式,帶你理解一下分布式系統中的CAP理論。保證你能聽懂。為了防止被誤以為是洗文的嫌疑,我在這裡先說明一下:我參考了知乎和博客園上等相關文章,還有下面的圖不是我自己畫的,我覺得能清晰地表達出意思就是好圖,在百度圖片上下載了一波。一、什麼是分布式系統拿一個最簡單的例子,就比如說我們的圖書管理系統。
  • 乾貨:57張動圖, 讓你搞懂高中物理原理
    任何複雜的題目都離不開最簡單的原理。 據同學們的反饋,物理存在的問題,大多數是無法理解物理模型,所以下面整理了一些關於高中物理知識的概念動圖,有助於理解。 運動學 1.位移和路程的關係是什麼?
  • etcd:用於服務發現的鍵值存儲系統 - OSCHINA - 中文開源技術交流...
    etcd是一個高可用的鍵值存儲系統,主要用於共享配置和服務發現。
  • 淨水技術|大顯身手的管道漏損檢測系統——分布式光纖測溫系統
    基於光纖傳感器具有防腐蝕、重量輕體積小、每個感應點均不需電能、免疫電磁幹擾、靈敏度高、可實現分布式等優勢,英國南安普敦大學於1981年首次提出分布式光纖傳感系統成為中國管道檢測領域應用最廣泛和最具發展潛力的技術手段之一。
  • 分布式系統架構與雲原生—阿里雲《雲原生架構白皮書》導讀
    1.2 分布式系統架構的定義  此處定義參考百度百科為「在一個分布式系統中,一組獨立的計算機展現給用戶的是一個統一的整體,就好像是一個系統似的。系統擁有多種通用的物理和邏輯資源,可以動態的分配任務,分散的物理和邏輯資源通過計算機網絡實現信息交換。系統中存在一個以全局的方式管理計算機資源的分布式作業系統。
  • 分布式系統的負載均衡
    這是 CAP 定理是分布式系統的基礎,也是分布式系統的 3 個指標:Consistency(一致性)Availability(可用性)Partition tolerance(分區容錯性)那高可用(High Availability)是什麼?
  • 作者特稿:混合輸配電系統的分布式隨機優化規劃
    導語本文提出了一種輸配電系統的分布式隨機協調優化規劃方法,利用分解優化建模理論,在滿足輸配電系統間交互信息一致性的前提下,將輸配電系統聯合優化規劃問題分解為一個輸電系統規划子問題和一系列配電系統規划子問題。所提規劃方法較傳統獨立規劃方法可有效提高輸、配電系統規劃方案經濟性和分布式電源消納能力。
  • 7張圖帶你搞懂負載均衡器
    7張圖帶你搞懂負載均衡器 負載均衡基本上意味著在多個伺服器之間分配網絡流量,這樣可以確保沒有任何一臺伺服器自己承擔所有負載。當網絡流量平衡時,應用程式就可以平穩運行。
  • Dapper: 大規模分布式系統鏈路追蹤基礎設施
    這裡介紹由Google生產的分布式系統鏈路追蹤系統Dapper的設計,並描述其設計目標如何滿足大規模系統低開銷、對應用透明性和廣泛的覆蓋部署設計目標介紹分布式服務追蹤是整個分布式系統中跟蹤一個用戶請求的過程,包括數據採集、數據傳輸、數據存儲、數據分析和數據可視化,捕獲此類跟蹤讓我們構建用戶交互背後的整個調用鏈的視圖
  • SpringCloud:分布式微服務架構
    這些服務圍繞業務能力構建並且可通過全自動部署機制獨立部署,這些服務共用一個最小型的集中式的管理,服務可用不同的語言開發,使用不同的數據存儲技術。特徵每個微服務可獨立運行在自己的進程中。一系列獨立運行的微服務共同構建起整個系統。
  • 完美的分布式監控系統——普羅米修斯
    工作原理?如前所述,Prometheus由各種不同的組件組成。其監控指標可以從系統中提取到,可以通過不同的方式做到:通過應用程式給定監控項,對給定的公開URL上Prometheus兼容的指標。Prometheus將其定義為目標並加入監控系統。
  • SpringCloud:分布式系統面臨的問題及解決方案
    分布式系統面臨的問題複雜的分布式系統結構中的應用程式有數10個依賴關係,每個依賴關係在某些時候將不可避免地失敗。比失敗更糟糕的是,這些應用程式還可能導致服務之間的延遲增加,線程和其他系統資源緊張,導致整個系統發生更多的級聯故障。這些都表示需要對故障和延遲進行隔離和管理,以便單個依賴關係的失敗,不能取消整個應用程式或系統。所以,通常當你發現一個模塊下的某個實例失敗後,這時候這個模塊依然還會接收流量,然後這個有問題的模塊還調用了其他的模塊,這樣就會發生級聯故障,或者叫雪崩。
  • 基於SpringCloud的面試刷題系統,項目經驗統統搞定
    註冊中心和配置中心註冊中心和配置中心這塊使用的是阿里巴巴開源的 Nacos。Nacos 目前屬於 Spring Cloud Alibaba 中的一員。主要用於發現、配置和管理微服務,類似於 Consul、Eureka。並且,提供了分布式配置管理功能。