資料庫的外鍵,到底該不該用?為什麼

2021-03-02 佔小狼的博客

當我們想要持久化地存儲數據時,使用關係型資料庫往往都是最穩妥的選擇,這不僅因為今天的關係型資料庫種類非常豐富並且穩定,還因為不同社區對關係型資料庫的支持都非常完備。

這篇文章我們來分析關係型資料庫中一個重要的概念 — 外鍵(Foreign Key)。

在關係型資料庫中,外鍵也被稱為關係鍵,它是關係型資料庫中提供關係表之間連接的多個列,這一組數據列是當前關係表中的外鍵,也必須是另一個關係表中的候選鍵(Candidate Key),我們可以通過候選鍵在當前表中找到唯一的元素。在通常情況下,我們都會使用關係表中的主鍵作為其他表中的外鍵,這樣才可以滿足關係型資料庫對外鍵的約束。

外鍵不僅僅是資料庫表中的一個整數,它還提供了額外的一致性保證。因為資料庫往往是整個系統的真理之源(Source of Truth),所以保證數據的一致性和正確性非常重要,關係型資料庫雖然提供了外鍵、觸發器等特性保證一致性,但是在今天的生產環境中卻很少被使用。

引用完整性(Referential Integrity)是數據的屬性,如果數據擁有該屬性,那麼數據中所有的引用都是合法的,在關係型資料庫的上下文中,這就意味著關係型資料庫中引用另一個表中的值必須存在。

ALTER TABLE posts
ADD CONSTRAINT FOREIGN KEY (author_id)
REFERENCES authors(id);

上述 SQL 語句可以向關係表中增加外鍵約束,該 SQL 語句的執行前提是 posts 表中存在 author_id 欄位。從 SQL 語句中的 CONSTRAINT 關鍵字我們也能推測出外鍵不是一種數據類型,它是不同關係表之間的約束。

不使用外鍵的原因其實很簡單,MySQL、PostgreSQL 等關係型資料庫很難水平擴容,但是無狀態的服務往往都可以很容易地擴容。由於外鍵等特性需要資料庫執行額外的工作,而這些操作會佔用資料庫的計算資源,所以我們可以將大部分的需求都遷移到無狀態的服務中完成以降低資料庫的工作負載。

根據更新和刪除時的行為不同,我們可以將外鍵分成 RESTRICT、CASCADE 和 SET NULL 等幾種,當我們為關係表中的欄位增加外鍵約束時,需要指定外鍵的類型,最常見的也就是 RESTRICT 和 CASCADE 兩種,其中 RESTRICT 為外鍵的默認類型,不同類型的外鍵會帶來不同的額外開銷,而這些額外開銷就是我們不使用外鍵的理由:

使用 RESTRICT 會在更新或者刪除記錄時對外鍵對應的記錄是否存在進行一致性檢查;使用 CASCADE 會在更新或者刪除記錄時觸發級聯更新或者刪除操作;

注意:MySQL 中的 NO ACTION 和 RESTRICT 具有相同的語義。

接下來我們會詳細介紹關係型資料庫如何處理上述兩種不同類型的外鍵,而我們應該如何在應用中模擬這些功能。

一致性檢查

當我們使用默認的外鍵類型 RESTRICT 時,在創建、修改或者刪除記錄時都會檢查引用的合法性。想要在 MySQL 等資料庫中觸發外鍵的一致性檢查其實非常容易,假設我們的資料庫中包含 posts(id, author_id, content) 和 authors(id, name) 兩張表,在執行如下所示的操作時都會觸發資料庫對外鍵的檢查:

向 posts 表中插入數據時,檢查 author_id 是否在 authors 表中存在;修改 posts 表中的數據時,檢查 author_id 是否在 authors 表中存在;刪除 authors 表中的數據時,檢查 posts 中是否存在引用當前記錄的外鍵;

作為專門用於管理數據的系統,資料庫與應用服務相比能夠更好地保證完整性,而上述的這些操作都是引入外鍵帶來的額外工作,不過這也是資料庫保證數據完整性的必要代價。上述的這些分析都是理論上的定性分析,我們其實可以簡單的定量分析一下引入外鍵對性能的影響。

在這裡我們在資料庫中同時創建 authors、posts 和 foreign_key_posts 三種表,如下所示,其中 posts 和 foreign_key_posts 兩個表中的列完全相同,只是 foreign_key_posts 表為 author_id 欄位增加了 RESTRICT 類型的外鍵約束:

我們先在 authors 表中插入一條記錄,隨後分別在 posts 和 foreign_key_posts 中插入多條新數據列引用該條記錄,前者不會檢查外鍵的合法性,而後者會做額外的檢查。你可以在 這裡 找到作者用來測試外鍵額外開銷的 Go 語言代碼,經過多次基準測試,我們可以得到如下所示的結果:

BenchmarkBaseline-8          3770     309503 ns/op
BenchmarkForeignKey-8        3331     317162 ns/op

BenchmarkBaseline-8          3192     315506 ns/op
BenchmarkForeignKey-8        3381     315577 ns/op

BenchmarkBaseline-8          3298     312761 ns/op
BenchmarkForeignKey-8        3829     345342 ns/op

BenchmarkBaseline-8          3753     291642 ns/op
BenchmarkForeignKey-8        3948     325239 ns/op

作者執行了 4 次外鍵的基準測試,雖然 4 次測試的結果不是特別穩定,但是使用外鍵的用例在每次測試中都明顯弱於不使用外鍵的用例,外鍵帶來的額外開銷分別為 ~2.47%、~0.02%、~10.41% 和 ~11.52%。這裡的基準測試只是一個比較簡單的定量分析,但是我們也可以從結果中看到大概的趨勢 — 外鍵的完整性檢查確實會帶來額外的性能開銷,而這些開銷在高並發的服務中需要慎重考慮。

想要在應用程式中模擬資料庫外鍵的功能其實比較容易,我們只需要遵循以下的幾個準則:

向表中插入數據或者修改表中的數據時,都應該執行額外的 SELECT 語句確保它引用的數據在資料庫中存在;在刪除數據之前需要執行額外的 SELECT 語句檢查是否存在當前記錄的引用;

需要注意的是為了保證一致性,我們需要在事務中執行上述的查詢和修改語句,這樣才能完整模擬外鍵的功能;當我們向 posts 表中插入或者修改數據時,需要的處理相對比較簡單,我們只需要執行有限的 SELECT 語句並按照如下所示的模式執行對應的操作就可以了:

BEGIN
SELECT * FROM authors WHERE id = <post.author_id> FOR UPDATE;
-- INSERT INTO posts ... / UPDATE posts ...
END

但是如果我們要刪除 authors 表中的數據,就需要查詢所有引用 authors 數據的表;如果有 10 個表都有指向 authors 表的外鍵,我們就需要在 10 個表中查詢是否存在對應的記錄,這個過程相對比較麻煩,不過也是為了實現完整性的必要代價,不過這種模擬外鍵方法其實遠比使用外鍵更消耗資源,它不僅需要查詢關聯數據,還要通過網絡發送更多的數據包。

級聯操作

當我們在關係型資料庫中創建外鍵約束時,如果使用如下所示的 SQL 語句指定更新或者刪除記錄時使用 CASCADE 行為,那麼在客戶端更新或者刪除數據時就會觸發級聯操作:

ALTER TABLE posts
ADD CONSTRAINT FOREIGN KEY (author_id)
REFERENCES authors(id)
ON UPDATE CASCADE
ON DELETE CASCADE;

當客戶端更新 authors 表中記錄的主鍵時,資料庫會同時更新 posts 表中所有引用該記錄的外鍵;當客戶端刪除 authors 表中的記錄時,資料庫會刪除所有與 authors 表關聯的記錄;

不過無論是執行更新還是刪除操作,資料庫都可以保證各個關係表之間引用的一致性和合法性不會出現引用到不存在記錄的情況,與 RESTRICT 行為一樣,所有外鍵的更新和刪除行為都可以通過執行額外的檢查和操作保證數據的一致。

雖然級聯刪除的出發點也是保證數據的完整性,但是在設計關係表之間的不同關係時,我們也需要注意級聯刪除引起的數據大規模刪除的問題。如上圖所示,當客戶端想要在資料庫中刪除 authos 表中的數據時,如果我們同時在 authors 和 posts 中指定了級聯刪除的行為,那麼資料庫會同時刪除所有關聯的 posts 記錄以及與 posts 表關聯的 comments 數據。

這種涉及多級的級聯刪除行為在數據量較小的資料庫中不會導致問題,但是在數據量較大的資料庫中刪除關鍵數據可能會引起雪崩,一條記錄的刪除可能會被放大到幾十倍甚至上百倍,這些對磁碟的隨機讀寫會帶來巨大的開銷,是我們想要儘可能避免的情況。如果我們能夠較好地設計各個表之間的關係並且慎用 CASCADE 行為,這對於保證資料庫中數據的合法性有著很重要的意義,使用該特性可以避免資料庫中出現過期的、不合法的數據,但是在使用時也要合理預估可能造成的最壞情況。

手動實現資料庫的級聯刪除操作是可行的,如果我們在一個事務中按照順序刪除所有的數據,確實可以保證數據的一致性,但是這與外鍵的級聯刪除功能沒有太大的區別,反而會有更差的表現。如果我們能夠接受在一個時間窗口內的數據不一致,就可以將一個大號的刪除任務拆成多個子任務分批執行,降低對資料庫影響的峰值。

DELETE FROM posts WHERE author_id = 1 LIMIT 100;
DELETE FROM posts WHERE author_id = 1 LIMIT 100;
...
DELETE FROM authors WHERE id = 1;

與資料庫外鍵的 CASCADE 相比,這種方式會帶來更大的額外開銷,只是我們能降低對資料庫性能的瞬時影響。

總結

外鍵提供的幾種在更新和刪除時的不同行為都可以幫助我們保證資料庫中數據的一致性和引用合法性,但是外鍵的使用也需要資料庫承擔額外的開銷,在大多數服務都可以水平擴容的今天,高並發場景中使用外鍵確實會影響服務的吞吐量上限。在資料庫之外手動實現外鍵的功能是可能的,但是卻會帶來很多維護上的成本或者需要我們在數據一致性上做出一些妥協。我們可以從可用性、一致性幾個方面分析使用外鍵、模擬外鍵以及不使用外鍵的差異:

不使用外鍵犧牲了資料庫中數據的一致性,但是卻能夠減少資料庫的負載;模擬外鍵將一部分工作移到了資料庫之外,我們可能需要放棄一部分一致性以獲得更高的可用性,但是為了這部分可用性,我們會付出更多的研發與維護成本,也增加了與資料庫之間的網絡通信次數;使用外鍵保證了資料庫中數據的一致性,也將全部的計算任務全部交給了資料庫;

在大多數不需要高並發或者對一致性有較強要求的系統中,我們可以直接使用資料庫提供的外鍵幫助我們對數據進行校驗,但是在對一致性要求不高的、複雜的場景或者大規模的團隊中,不使用外鍵也確實可以為資料庫減負,而大團隊也有更多的時間和精力去設計其他的方案,例如:分布式的關係型資料庫。

當我們考慮應不應該在資料庫中使用外鍵時,需要關注的核心我們的資料庫承擔這部分計算任務後會不會影響系統的可用性,在使用時也不應該一刀切的決定用或者不用外鍵,應該根據具體的場景做決策,我們在這裡介紹了兩個使用外鍵時可能遇到的問題:

RESTRICT 外鍵會在更新和刪除關係表中的數據時對外鍵約束的合法性進行檢查,保證外鍵不會引用到不存在的記錄;CASCADE 外鍵會在更新和刪除關係表中的數據時觸發對關聯記錄的更新和刪除,在數據量較大的資料庫中可能會有數量級的放大效果;

我們在很多時候其實並不能選擇是否使用外鍵,大多數公司的 DBA 都會對資料庫系統的使用有比較明確的規定,但是我們要清楚做出使用外鍵和不使用外鍵這一抉擇的原因。到最後,我們還是來看一些比較開放的相關問題,有興趣的讀者可以仔細思考一下下面的問題:

資料庫中還有哪些特性是我們在生產環境中不會使用的?為什麼?分布式的關係型資料庫與 MySQL 等傳統資料庫有哪些區別?

相關焦點

  • 為什麼資料庫不應該使用外鍵
    當我們想要持久化地存儲數據時,使用關係型資料庫往往都是最穩妥的選擇,這不僅因為今天的關係型資料庫種類非常豐富並且穩定,還因為不同社區對關係型資料庫的支持都非常完備。我們在前面的文章中曾經分析過 為什麼 MySQL 的自增主鍵不單調也不連續,這篇文章我們來分析關係型資料庫中另一個重要的概念 — 外鍵(Foreign Key)。
  • 為什麼資料庫不應該使用外鍵?
    我們在前面的文章中曾經分析過 為什麼 MySQL 的自增主鍵不單調也不連續,這篇文章我們來分析關係型資料庫中另一個重要的概念 — 外鍵(Foreign Key)。如果我們能夠較好地設計各個表之間的關係並且慎用 CASCADE 行為,這對於保證資料庫中數據的合法性有著很重要的意義,使用該特性可以避免資料庫中出現過期的、不合法的數據,但是在使用時也要合理預估可能造成的最壞情況。
  • 接口測試與開發實戰(五)_Django ORM 外鍵和表關係
    如果使用的是InnoDB引擎,是支持外鍵約束的。外鍵的存在使得ORM框架在處理表關係的時候異常的強大。因此這裡我們首先來介紹下外鍵在Django中的使用。類定義為class ForeignKey(to,on_delete,**options)。第一個參數是引用的是哪個模型,第二個參數是在使用外鍵引用的模型數據被刪除了,這個欄位該如何處理,比如有CASCADE、SET_NULL等。
  • 教你14個資料庫設計技巧,絕對實用!
    主鍵與外鍵一般而言,一個實體不能既無主鍵又無外鍵。在E—R 圖中, 處於葉子部位的實體, 可以定義主鍵,也可以不定義主鍵(因為它無子孫), 但必須要有外鍵(因為它有父親)。主鍵與外鍵的設計,在全局資料庫的設計中,佔有重要地位。
  • 如何用Access設計一個高效資料庫?
    兩個表之間主鍵與外鍵建立關係就稱為一對多關係。一對多關係是最常見的類型關係。在這種關係中, 表 A 中的一行可以匹配表 B 中的多行, 但表 B 中的一行只能匹配表 A 中的一行。要在資料庫設計中表示一對多關係, 應將關係「一」方的主鍵作為額外欄位添加到關係「多」方的表中。
  • 怎樣實現良好的資料庫設計?
    無論是應用程式,還是資料庫如何變化,數據始終是最重要的部分。通常,數據是系統存在的首要目的。這就是為什麼,我們不應該只把資料庫系統看作是保存數據的黑盒子,而要將其看成驗證和防止數據腐化的工具。要做到這一點,就要有健壯和深思熟慮的資料庫設計。當然,業務邏輯是在應用層編碼,它確保數據在到達資料庫之前的格式是正確的。
  • 一文讀懂,DDD落地資料庫設計實戰
    因為如果要先進行資料庫設計,但資料庫設計只能描述數據結構,而不能描述系統對這些數據結構的處理。因此,在第一次對整個系統的梳理過程中,只能梳理系統的所有數據結構,形成資料庫設計;接著,又要再次梳理整個系統,分析系統對這些數據結構的處理過程,形成程序設計。為什麼不能一次性地把整個系統的設計梳理到位呢?
  • MySQL創建資料庫(一)
    下載安裝好MySQL資料庫環境後就可以正常使用mysql資料庫了。有需要的話還可以安裝MySQL資料庫客戶端工具,這樣就不用在命令行進行操作了,比較好用的MySQL資料庫客戶端工具有SQLyog、Navicat for MySQL、Valentina Studio等,不過大部分都是收費的。這裡我們使用的是免費的Valentina Studio,可以根據個人需要自行選擇安裝。
  • 再議資料庫軍規
    不過也有朋友提出,加入注釋會方便黑客,建議「注釋寫在文檔裡,文檔和資料庫同步更新」。這個建議根據經驗來說是不太靠譜的:(1)不能怕bug就不寫代碼,怕黑客就不寫注釋,對吧?(2)文檔同步更新也不太現實,還是把注釋寫好,代碼可讀性做好更可行,網際網路公司的文檔管理?呆過網際網路公司的同學估計都清楚。
  • ​中國人到底該不該同情川普?
    最近中國網絡上出現了很滑稽的一件事,那就是該不該同情生病的美國總統川普?
  • 一種模型驅動的關係資料庫知識圖譜構建方法
    關係資料庫是構建垂直領域知識圖譜的主要數據源之一。如何建立關係資料庫中概念與知識圖譜中相應概念之間的映射關係,是提高垂直領域知識圖譜構建效率的關鍵。針對這一問題,本文提出了一種基於模型驅動體系結構(MDA)的從關係資料庫中自動構造知識圖譜的模型驅動方法。首先,提出了一個模型驅動的框架,用標準XML模式描述關係資料庫和知識圖譜。
  • Kar98k到底該怎麼用?
    那麼98K到底該怎麼用呢?想要用好它,我們得先了解它。現實中的Kar98k至於託腮板和子彈袋的取捨,我覺得其實二者的區別並不明顯,在資源一般的情況下有什麼用什麼就可以。子彈袋目前對98k提升的作用更為實際,託腮板減少的後坐力在實戰之中作用一般,實在有選擇困難症的玩家甚至可以把兩個都帶上,狙擊的時候用託腮板,換子彈的時候換上子彈袋進行操作。傷害
  • 一個小時學會MySQL資料庫
    代表:Redis、MongodbNoSQL資料庫在存儲速度與靈活性方面有優勢,也常用於緩存。1.4、資料庫規範化經過一系列的步驟,我們現在終於將客戶的需求轉換為數據表並確立這些表之間的關係,那麼是否我們現在就可以在開發中使用呢?答案否定的,為什麼呢!
  • MySQL資料庫數據表創建
    在創建完資料庫之後,接下來的工作就是創建數據表。創建數據表指的是在已經創建好的資料庫中建立新表。
  • 一文聊「圖」,從圖資料庫到知識圖譜
    那麼到底什麼是圖資料庫,為什麼要用圖資料庫,如何去建設一個圖資料庫應用系統,圖資料庫與知識圖譜到底是什麼關係。今天為大家揭開神秘面紗,以Neo4j為例,淺析圖資料庫相關技術。作者介紹:穆瓊 中國農業銀行研發中心,致力於AIOps的落地。
  • SQL Server 資料庫操作總結(sql語法的使用)
    2.4.1.3 FOREIGN KEY外間約束的作用:用於建立和強制兩個表間的關聯,限制外鍵的取值必須是主表的主鍵值。需要先取消T2表中的外鍵約束載刪除T1,或者先刪除T2表再刪除T1表。語法:drop  table   表名[ ,……n ]操作:已知sc表設置了外鍵約束,參照了表student和表course,現在要刪除student表和course表。
  • 基於EA的資料庫建模
    ,去構建出最優的資料庫模式。它一個好處是,為物理模型和後續的資料庫實現提供了基礎。物理數據模型:用來表現數據的存儲實現,它建模了數據表、表中的數據列以及數據表的關係。可以使用EA的UML的數據建模擴展進行數據建模,EA中的物理數據模型可幫助我們可視化資料庫結構並自動派生相應的資料庫模式。
  • 新炬-資料庫L1
    表中允許有多個主鍵數據定義語言的縮寫詞為( )   B   DCL   DDL   DML   TCL以下關於外鍵和相應的主鍵之間的關係,正確的是( )   A   外鍵並不一定要與相應的主鍵同名   外鍵一定要與相應的主鍵同名   外鍵一定要與相應的主鍵同名而且唯一   外鍵一定要與相應的主鍵同名,但並不一定唯一下面有關主鍵的敘述正確的有( )
  • 詳述一則資料庫死鎖故障的分析過程
    墨墨導讀:客戶的監控告警頻繁提示系統xx資料庫死鎖增長個數高於當前閾值_當前值1.00。