MySQL 的 join 功能弱了?

2020-12-08 酷扯兒

本文轉載自【微信公眾號:五角錢的程式設計師,ID:xianglin965】經微信公眾號授權轉載,如需轉載與原文作者聯繫

大家好,今天我們來學習和吐槽一下 MySQL 的 Join 功能。

關於MySQL 的 join,大家一定了解過很多它的「軼事趣聞」,比如兩表 join 要小表驅動大表,阿里開發者規範禁止三張表以上的 join 操作,MySQL 的 join 功能弱爆了等等。這些規範或者言論亦真亦假,時對時錯,需要大家自己對 join 有深入的了解後才能清楚地理解。

下面,我們就來全面的了解一下 MySQL 的 join 操作。

正文

在日常資料庫查詢時,我們經常要對多表進行連表操作來一次性獲得多個表合併後的數據,這是就要使用到資料庫的 join 語法。join 是在數據領域中十分常見的將兩個數據集進行合併的操作,如果大家了解的多的話,會發現 MySQL,Oracle,PostgreSQL 和 Spark 都支持該操作。本篇文章的主角是 MySQL,下文沒有特別說明的話,就是以 MySQL 的 join 為主語。而 Oracle ,PostgreSQL 和 Spark 則可以算做將其吊打的大boss,其對 join 的算法優化和實現方式都要優於 MySQL。

MySQL 的 join 有諸多規則,可能稍有不慎,可能一個不好的 join 語句不僅會導致對某一張表的全表查詢,還有可能會影響資料庫的緩存,導致大部分熱點數據都被替換出去,拖累整個資料庫性能。

所以,業界針對 MySQL 的 join 總結了很多規範或者原則,比如說小表驅動大表和禁止三張表以上的 join 操作。下面我們會依次介紹 MySQL join 的算法,和 Oracle 和 Spark 的 join 實現對比,並在其中穿插解答為什麼會形成上述的規範或者原則。

對於 join 操作的實現,大概有 Nested Loop Join (循環嵌套連接),Hash Join(散列連接) 和 Sort Merge Join(排序歸併連接) 三種較為常見的算法,它們各有優缺點和適用條件,接下來我們會依次來介紹。

MySQL 中的 Nested Loop Join 實現

Nested Loop Join 是掃描驅動表,每讀出一條記錄,就根據 join 的關聯欄位上的索引去被驅動表中查詢對應數據。它適用於被連接的數據子集較小的場景,它也是 MySQL join 的唯一算法實現,關於它的細節我們接下來會詳細講解。

MySQL 中有兩個 Nested Loop Join 算法的變種,分別是 Index Nested-Loop Join 和 Block Nested-Loop Join。

Index Nested-Loop Join 算法

下面,我們先來初始化一下相關的表結構和數據

CREATE TABLE `t1` (

`id` int(11) NOT NULL,

`a` int(11) DEFAULT NULL,

`b` int(11) DEFAULT NULL,

PRIMARY KEY (`id`),

KEY `a` (`a`)

) ENGINE=InnoDB;

delimiter ;;

# 定義存儲過程來初始化t1

create procedure init_data()

begin

declare i int;

set i=1;

while(i<=10000)do

insert into t1 values(i, i, i);

set i=i+1;

end while;

end;;

delimiter ;

# 調用存儲過來來初始化t1

call init_data();

# 創建並初始化t2

create table t2 like t1;

insert into t2 (select * from t1 where id<=500)

有上述命令可知,這兩個表都有一個主鍵索引 id 和一個索引 a,欄位 b 上無索引。存儲過程 init_data 往表 t1 裡插入了 10000 行數據,在表 t2 裡插入的是 500 行數據。

為了避免 MySQL 優化器會自行選擇表作為驅動表,影響分析 SQL 語句的執行過程,我們直接使用 straight_join 來讓 MySQL 使用固定的連接表順序進行查詢,如下語句中,t1是驅動表,t2是被驅動表。

select * from t2 straight_join t1 on (t2.a=t1.a);

使用我們之前文章介紹的 explain 命令查看一下該語句的執行計劃。

從上圖可以看到,t1 表上的 a 欄位是由索引的,join 過程中使用了該索引,因此該 SQL 語句的執行流程如下:

從 t2 表中讀取一行數據 L1;使用L1 的 a 欄位,去 t1 表中作為條件進行查詢;取出 t1 中滿足條件的行, 跟 L1組成相應的行,成為結果集的一部分;重複執行,直到掃描完 t2 表。這個流程我們就稱之為 Index Nested-Loop Join,簡稱 NLJ,它對應的流程圖如下所示。

需要注意的是,在第二步中,根據 a 欄位去表t1中查詢時,使用了索引,所以每次掃描只會掃描一行(從explain結果得出,根據不同的案例場景而變化)。

假設驅動表的行數是N,被驅動表的行數是 M。因為在這個 join 語句執行過程中,驅動表是走全表掃描,而被驅動表則使用了索引,並且驅動表中的每一行數據都要去被驅動表中進行索引查詢,所以整個 join 過程的近似複雜度是 N2log2M。顯然,N 對掃描行數的影響更大,因此這種情況下應該讓小表來做驅動表。

當然,這一切的前提是 join 的關聯欄位是 a,並且 t1 表的 a 欄位上有索引。

如果沒有索引時,再用上圖的執行流程時,每次到 t1 去匹配的時候,就要做一次全表掃描。這也導致整個過程的時間複雜度編程了 N * M,這是不可接受的。所以,當沒有索引時,MySQL 使用 Block Nested-Loop Join 算法。

Block Nested-Loop Join

Block Nested-Loop Join的算法,簡稱 BNL,它是 MySQL 在被驅動表上無可用索引時使用的 join 算法,其具體流程如下所示:

把表 t2 的數據讀取當前線程的 join_buffer 中,在本篇文章的示例 SQL 沒有在 t2 上做任何條件過濾,所以就是講 t2 整張表 放入內存中;掃描表 t1,每取出一行數據,就跟 join_buffer 中的數據進行對比,滿足 join 條件的,則放入結果集。比如下面這條 SQL

select * from t2 straight_join t1 on (t2.b=t1.b);

這條語句的 explain 結果如下所示。可以看出

可以看出,這次 join 過程對 t1 和 t2 都做了一次全表掃描,並且將表 t2 中的 500 條數據全部放入內存 join_buffer 中,並且對於表 t1 中的每一行數據,都要去 join_buffer 中遍歷一遍,都要做 500 次對比,所以一共要進行 500 * 10000 次內存對比操作,具體流程如下圖所示。

主要注意的是,第一步中,並不是將表 t2 中的所有數據都放入 join_buffer,而是根據具體的 SQL 語句,而放入不同行的數據和不同的欄位。比如下面這條 join 語句則只會將表 t2 中符合 b >= 100 的數據的 b 欄位存入 join_buffer。

select t2.b,t1.b from t2 straight_join t1 on (t2.b=t1.b) where t2.b >= 100;

join_buffer 並不是無限大的,由 join_buffer_size 控制,默認值為 256K。當要存入的數據過大時,就只有分段存儲了,整個執行過程就變成了:

掃描表 t2,將符合條件的數據行存入 join_buffer,因為其大小有限,存到100行時滿了,則執行第二步;掃描表 t1,每取出一行數據,就跟 join_buffer 中的數據進行對比,滿足 join 條件的,則放入結果集;清空 join_buffer;再次執行第一步,直到全部數據被掃描完,由於 t2 表中有 500行數據,所以一共重複了 5次這個流程體現了該算法名稱中 Block 的由來,分塊去執行 join 操作。因為表 t2 的數據被分成了 5 次存入 join_buffer,導致表 t1 要被全表掃描 5次。

如上所示,和表數據可以全部存入 join_buffer 相比,內存判斷的次數沒有變化,都是兩張表行數的乘積,也就是 10000 * 500,但是被驅動表會被多次掃描,每多存入一次,被驅動表就要掃描一遍,影響了最終的執行效率。

基於上述兩種算法,我們可以得出下面的結論,這也是網上大多數對 MySQL join 語句的規範。

被驅動表上有索引,也就是可以使用Index Nested-Loop Join 算法時,可以使用 join 操作。無論是Index Nested-Loop Join 算法或者 Block Nested-Loop Join 都要使用小表做驅動表。

因為上述兩個 join 算法的時間複雜度至少也和涉及表的行數成一階關係,並且要花費大量的內存空間,所以阿里開發者規範所說的嚴格禁止三張表以上的 join 操作也是可以理解的了。

但是上述這兩個算法只是 join 的算法之一,還有更加高效的 join 算法,比如 Hash Join 和 Sorted Merged join。可惜這兩個算法 MySQL 的主流版本中目前都不提供,而 Oracle ,PostgreSQL 和 Spark 則都支持,這也是網上吐槽 MySQL 弱爆了的原因(MySQL 8.0 版本支持了 Hash join,但是8.0目前還不是主流版本)。

其實阿里開發者規範也是在從 Oracle 遷移到 MySQL 時,因為 MySQL 的 join 操作性能太差而定下的禁止三張表以上的 join 操作規定的 。

Hash Join 算法

Hash Join 是掃描驅動表,利用 join 的關聯欄位在內存中建立散列表,然後掃描被驅動表,每讀出一行數據,並從散列表中找到與之對應數據。它是大數據集連接操時的常用方式,適用於驅動表的數據量較小,可以放入內存的場景,它對於沒有索引的大表和並行查詢的場景下能夠提供最好的性能。可惜它只適用於等值連接的場景,比如 on a.id = where b.a_id。

還是上述兩張表 join 的語句,其執行過程如下

將驅動表 t2 中符合條件的數據取出,對其每行的 join 欄位值進行 hash 操作,然後存入內存中的散列表中;遍歷被驅動表 t1,每取出一行符合條件的數據,也對其 join 欄位值進行 hash 操作,拿結果到內存的散列表中查找匹配,如果找到,則成為結果集的一部分。可以看出,該算法和 Block Nested-Loop Join 有類似之處,只不過是將無序的 Join Buffer 改為了散列表 hash table,從而讓數據匹配不再需要將 join buffer 中的數據全部遍歷一遍,而是直接通過 hash,以接近 O(1) 的時間複雜度獲得匹配的行,這極大地提高了兩張表的 join 速度。

不過由於 hash 的特性,該算法只能適用於等值連接的場景,其他的連接場景均無法使用該算法。

Sorted Merge Join 算法

Sort Merge Join 則是先根據 join 的關聯欄位將兩張表排序(如果已經排序好了,比如欄位上有索引則不需要再排序),然後在對兩張表進行一次歸併操作。如果兩表已經被排過序,在執行排序合併連接時不需要再排序了,這時Merge Join的性能會優於Hash Join。Merge Join可適于于非等值Join(>,<,>=,<=,但是不包含!=,也即<>)。

需要注意的是,如果連接的欄位已經有索引,也就說已經排好序的話,可以直接進行歸併操作,但是如果連接的欄位沒有索引的話,則它的執行過程如下圖所示。

遍歷表 t2,將符合條件的數據讀取出來,按照連接欄位 a 的值進行排序;遍歷表 t1,將符合條件的數據讀取出來,也按照連接欄位 a 的值進行排序;將兩個排序好的數據進行歸併操作,得出結果集。Sorted Merge Join 算法的主要時間消耗在於對兩個表的排序操作,所以如果兩個表已經按照連接欄位排序過了,該算法甚至比 Hash Join 算法還要快。在一邊情況下,該算法是比 Nested Loop Join 算法要快的。

下面,我們來總結一下上述三種算法的區別和優缺點。

對於 Join 操作的理解

講完了 Join 相關的算法,我們這裡也聊一聊對於 join 操作的業務理解。

在業務不複雜的情況下,大多數join並不是無可替代。比如訂單記錄裡一般只有訂單用戶的 user_id,返回信息時需要取得用戶姓名,可能的實現方案有如下幾種:

一次資料庫操作,使用 join 操作,訂單表和用戶表進行 join,連同用戶名一起返回;兩次資料庫操作,分兩次查詢,第一次獲得訂單信息和 user_id,第二次根據 user_id 取姓名,使用代碼程序進行信息合併;使用冗餘用戶名稱或者從 ES 等非關係資料庫中讀取。上述方案都能解決數據聚合的問題,而且基於程序代碼來處理,比資料庫 join 更容易調試和優化,比如取用戶姓名不從資料庫中取,而是先從緩存中查找。

當然, join 操作也不是一無是處,所以技術都有其使用場景,上邊這些方案或者規則都是網際網路開發團隊總結出來的,適用於高並發、輕寫重讀、分布式、業務邏輯簡單的情況,這些場景一般對數據的一致性要求都不高,甚至允許髒讀。

但是,在金融銀行或者財務等企業應用場景,join 操作則是不可或缺的,這些應用一般都是低並發、頻繁複雜數據寫入、CPU密集而非IO密集,主要業務邏輯通過資料庫處理甚至包含大量存儲過程、對一致性與完整性要求很高的系統。

相關焦點

  • 我想說:mysql的join 真的很弱
    此時說明mysql查詢有些吃力了,但是仍然嫩查詢出來。 步驟5.1,mysql查詢不出來,4表連接,對我本機mysql來說,1.5億數據超過極限了(我調優過這個SQL,執行計劃和索引都走了,沒有問題,show profile顯示在sending data.這個問題另外文章詳談。)
  • MySQL中left join的幾個SQL對比
    mysql> select t1.id,t1.name from test1 t1 left join test2 t2 on t1.id=t2.id and t1.name='bb'; +----+-+| id | name |+----+-+| 1 | aa || 2 | bb || 3 | cc || 4 |
  • MySQL 8.0 新特性:哈希連接(Hash Join)
    https://dev.mysql.com/doc/refman/8.0/en/hash-joins.htmlMySQL 實現了用於內連接查詢的 hash join 方式。另外,EXPLAIN ANALYZE命令也可以顯示 hash join 的使用信息。這也是該版本新增的一個功能。多個表之間使用等值連接的的查詢也會進行這種優化。
  • MySQL:Left Join 避坑指南
    在我們使用mysql查詢的過程中可謂非常常見,比如博客裡一篇文章有多少條評論、商城裡一個貨物有多少評論、一條評論有多少個贊等等。但是由於對join、on、where等關鍵字的不熟悉,有時候會導致查詢結果與預期不符,所以今天我就來總結一下,一起避坑。這裡我先給出一個場景,並拋出兩個問題,如果你都能答對那這篇文章就不用看了。
  • MySQL:left join 避坑指南
    現象left join在我們使用mysql查詢的過程中可謂非常常見,比如博客裡一篇文章有多少條評論、商城裡一個貨物有多少評論、一條評論有多少個贊等等。但是由於對join、on、where等關鍵字的不熟悉,有時候會導致查詢結果與預期不符,所以今天我就來總結一下,一起避坑。
  • MySQL:LEFT JOIN 避坑指南
    在我們使用mysql查詢的過程中可謂非常常見,比如博客裡一篇文章有多少條評論、商城裡一個貨物有多少評論、一條評論有多少個贊等等。但是由於對join、on、where等關鍵字的不熟悉,有時候會導致查詢結果與預期不符,所以今天我就來總結一下,一起避坑。這裡我先給出一個場景,並拋出兩個問題,如果你都能答對那這篇文章就不用看了。
  • 超詳細mysql left join,right join,inner join用法分析
    比較詳細的mysql的幾種連接功能分析下面是例子分析表A記錄如下: aID        aNum
  • MySql 之 left join 避坑指南
    在我們使用mysql查詢的過程中可謂非常常見,比如博客裡一篇文章有多少條評論、商城裡一個貨物有多少評論、一條評論有多少個贊等等。但是由於對join、on、where等關鍵字的不熟悉,有時候會導致查詢結果與預期不符,所以今天我就來總結一下,一起避坑。這裡我先給出一個場景,並拋出兩個問題,如果你都能答對那這篇文章就不用看了。
  • 場景分析:記錄一下使用MySQL的left join時,遇到的坑!
    在我們使用mysql查詢的過程中可謂非常常見,比如博客裡一篇文章有多少條評論、商城裡一個貨物有多少評論、一條評論有多少個贊等等。但是由於對join、on、where等關鍵字的不熟悉,有時候會導致查詢結果與預期不符,所以今天我就來總結一下,一起避坑。這裡我先給出一個場景,並拋出兩個問題,如果你都能答對那這篇文章就不用看了。
  • Mysql - JOIN詳解
    如果之前對不同JOIN的執行結果沒有概念,可以結合這篇文章往下看2 JOIN的執行順序以下是JOIN查詢的通用結構SELECT <row_list> FROM <left_table> <inner|left|right> JOIN <right_table> ON <join
  • SQL-JOIN全解析
    例如下面這張用爛了的圖,可以幫你快速理解每個join用法的效果:這張圖描述了left join(左連接)、right join(右連接) 、inner join(內連接)、outer join(外連接)相關的7種用法。
  • MySQL - JOIN 詳解
    2 JOIN的執行順序以下是JOIN查詢的通用結構:SELECT <row_list>  FROM <left_table>    <inner|left|right> JOIN <right_table>      ON <join
  • mysql之left join 詳解
    讓我們看一個 LFET JOIN 示例:mysql> CREATE TABLE `product` (  `id` int(10) unsigned NOT NULL auto_increment,  `amount` int(10) unsigned default NULL,  PRIMARY KEY  (`id`)
  • 「看這篇就夠了」Mysql join條件是要寫在on裡還是在where裡?
    對於join系列語句,大部分開發人員都經常用到。但是對於裡面的運行原理,我相信很少人真正認識,下面我們從幾個方面介紹下。為了能夠覆蓋更多的點,這裡複製一位大佬的表和圖。算法區別select * from a left join b on(a.f1=b.f1) and (a.f2=b.f2)語句執行順序是:1、先掃描a表的數據,放到join_buffer中,join_buffer的數據結構是數組。
  • MySQL中快速找出無顯式主鍵的表
    `name` collate utf8_tolower_ci) AS `TABLE_NAME` from `mysql`.`tables` `tbl` join `mysql`.`schemata` `sch` join `mysql`.`catalogs` `cat` left join `mysql`.`collations` `col` on((`col`.`id` = `tbl`.
  • 阿里規定超過三張表禁止JOIN,為啥呢?
    可以把mysql當一個黑盒,使用角度來驗證這個結論) 驗證結論的時候,會有很多發現,各位往後看。 三、 實驗環境 vmware10+centos7.4+mysql5.7.22 centos7內存4.5G,4核,50G硬碟。
  • mysql實現php函數explode功能mysql_explode
    table temp_keys(id int(10) primary key auto_increment,keystr varchar(255));新建一個自定義函數mysql_explodeinsert into temp_keys values(null,'萬劍歸宗');insert into temp_keys values(null,'傲寒六決');自定義函數如下:drop functionif exists mysql_explode
  • 拿什麼拯救你,我的MySQL子查詢
    其實mysql對子查詢還是做了一些優化的,特別是在mysql5.6中,推出了多個針對子查詢的優化措施,一個很重要的技術就是semi_join。這時候我們就可以使用到semi_join的技術了。在semi_join的方法中,無論右節點有幾條記錄匹配,左節點都只返回一條相同記錄。並且semi_join只返回外部查詢表中的記錄,而不會返回內部查詢表中的記錄。這也是我們進行semi_join優化的基礎,即我們只需要從semi_join中獲取最少量的,足以對外部表進行篩選的信息就夠了。所謂的最少量,體現在優化上就是如何去重。
  • Mysql Limit 字句優化
    PRIMARY KEY(id),index(col1))ENGINE=InnoDBmysql root@localhost:test_db> select * from tbl6 limit 8000,10;# resultSet...
  • mysql 如何優化left join
    於是我上網查了下MySQL實現join的原理,原來MySQL內部採用了一種叫做 nested loop join的算法。Nested Loop Join 實際上就是通過驅動表的結果集作為循環基礎數據,然後一條一條的通過該結果集中的數據作為過濾條件到下一個表中查詢數據,然後合併結果。