一頓騷操作!我將 SQL 耗時從 30248.271s 優化到 0.001s

2020-12-25 網易

　　場景

　　我用的資料庫是mysql5.6，下面簡單的介紹下場景

　　課程表

　　create table Course(

　　c_id int PRIMARY KEY,

　　name varchar(10)

　　)

　　數據100條

　　學生表:

　　create table Student(

　　id int PRIMARY KEY,

　　name varchar(10)

　　)

　　數據70000條

　　學生成績表SC

　　CREATE table SC(

　　sc_id int PRIMARY KEY,

　　s_id int,

　　c_id int,

　　score int

　　)

　　數據70w條

　　查詢目的：

　　查找語文考100分的考生

　　查詢語句：

　　select s.* from Student s where s.s_id in (select s_id from SC sc where sc.c_id = 0 and sc.score = 100 )

　　執行時間：30248.271s

　　暈,為什麼這麼慢，先來查看下查詢計劃：

　　EXPLAIN

　　select s.* from Student s where s.s_id in (select s_id from SC sc where sc.c_id = 0 and sc.score = 100 )image

　　發現沒有用到索引，type全是ALL，那麼首先想到的就是建立一個索引，建立索引的欄位當然是在where條件的欄位。

　　先給sc表的c_id和score建個索引

　　CREATE index sc_c_id_index on SC(c_id); CREATE index sc_score_index on SC(score);

　　再次執行上述查詢語句，時間為: 1.054s

　　快了3w多倍，大大縮短了查詢時間，看來索引能極大程度的提高查詢效率，建索引很有必要，很多時候都忘記建

　　索引了，數據量小的的時候壓根沒感覺，這優化的感覺挺爽。

　　但是1s的時間還是太長了，還能進行優化嗎，仔細看執行計劃：

　　image

　　查看優化後的sql:

　　SELECT `YSB`.`s`.`s_id` AS `s_id`, `YSB`.`s`.`name` AS `name` FROM `YSB`.`Student` `s` WHERE < in_optimizer > ( `YSB`.`s`.`s_id` ,< EXISTS > ( SELECT FROM `YSB`.`SC` `sc` WHERE ( (`YSB`.`sc`.`c_id` = 0) AND (`YSB`.`sc`.`score` = 100) AND ( < CACHE > (`YSB`.`s`.`s_id`) = `YSB`.`sc`.`s_id` ) ) ) )

　　補充：這裡有網友問怎麼查看優化後的語句

　　方法如下：

　　在命令窗口執行

　　
image

　　有type=all

　　按照我之前的想法，該sql的執行的順序應該是先執行子查詢

　　select s_id from SC sc where sc.c_id = 0 and sc.score = 100

　　耗時：0.001s

　　得到如下結果：

　　image

　　然後再執行

　　select s.* from Student s where s.s_id in(7,29,5000)

　　耗時：0.001s

　　這樣就是相當快了啊，Mysql竟然不是先執行裡層的查詢，而是將sql優化成了exists子句，並出現了EPENDENT SUBQUERY，

　　mysql是先執行外層查詢，再執行裡層的查詢，這樣就要循環70007*8次。

　　那麼改用連接查詢呢？

　　SELECT s.* from

　　Student s

　　INNER JOIN SC sc

　　on sc.s_id = s.s_id

　　where sc.c_id=0 and sc.score=100

　　這裡為了重新分析連接查詢的情況，先暫時刪除索引sc_c_id_index，sc_score_index

　　執行時間是：0.057s

　　效率有所提高，看看執行計劃：

　　
image

　　這裡有連表的情況出現，我猜想是不是要給sc表的s_id建立個索引

　　CREATE index sc_s_id_index on SC(s_id);

　　show index from SC

　　
image

　　在執行連接查詢

　　時間: 1.076s，竟然時間還變長了，什麼原因？查看執行計劃：

　　
image

　　優化後的查詢語句為：

　　SELECT `YSB`.`s`.`s_id` AS `s_id`, `YSB`.`s`.`name` AS `name` FROM `YSB`.`Student` `s` JOIN `YSB`.`SC` `sc` WHERE ( ( `YSB`.`sc`.`s_id` = `YSB`.`s`.`s_id` ) AND (`YSB`.`sc`.`score` = 100) AND (`YSB`.`sc`.`c_id` = 0) )

　　貌似是先做的連接查詢，再進行的where條件過濾

　　回到前面的執行計劃：

　　
image

　　這裡是先做的where條件過濾，再做連表，執行計劃還不是固定的，那麼我們先看下標準的sql執行順序：

　　
image

　　正常情況下是先join再進行where過濾，但是我們這裡的情況，如果先join，將會有70w條數據發送join做操，因此先執行where

　　過濾是明智方案，現在為了排除mysql的查詢優化，我自己寫一條優化後的sql

　　SELECT s.* FROM ( SELECT * FROM SC sc WHERE sc.c_id = 0 AND sc.score = 100 ) t INNER JOIN Student s ON t.s_id = s.s_id

　　即先執行sc表的過濾，再進行表連接，執行時間為：0.054s

　　和之前沒有建s_id索引的時間差不多

　　查看執行計劃：

　　
image

　　先提取sc再連表，這樣效率就高多了，現在的問題是提取sc的時候出現了掃描表，那麼現在可以明確需要建立相關索引

　　CREATE index sc_c_id_index on SC(c_id); CREATE index sc_score_index on SC(score);

　　再執行查詢：

　　SELECT s.* FROM ( SELECT * FROM SC sc WHERE sc.c_id = 0 AND sc.score = 100 ) t INNER JOIN Student s ON t.s_id = s.s_id

　　執行時間為：0.001s，這個時間相當靠譜，快了50倍

　　執行計劃：

　　
image

　　我們會看到，先提取sc，再連表，都用到了索引。

　　那麼再來執行下sql

　　SELECT s.* from

　　Student s

　　INNER JOIN SC sc

　　on sc.s_id = s.s_id

　　where sc.c_id=0 and sc.score=100

　　執行時間0.001s

　　執行計劃：

　　image

　　這裡是mysql進行了查詢語句優化，先執行了where過濾，再執行連接操作，且都用到了索引。

　　2015-04-30日補充：最近又重新導入一些生產數據，經測試發現，前幾天優化完的sql執行效率又變低了

　　調整內容為SC表的數據增長到300W,學生分數更為離散。

　　先回顧下：

　　show index from SC

　　
image

　　執行sql

　　SELECT s.* from

　　Student s

　　INNER JOIN SC sc

　　on sc.s_id = s.s_id

　　where sc.c_id=81 and sc.score=84

　　執行時間：0.061s，這個時間稍微慢了點

　　執行計劃：

　　image

　　這裡用到了intersect併集操作，即兩個索引同時檢索的結果再求併集，再看欄位score和c_id的區分度，

　　單從一個欄位看，區分度都不是很大，從SC表檢索，c_id=81檢索的結果是70001,score=84的結果是39425

　　而c_id=81 and score=84 的結果是897，即這兩個欄位聯合起來的區分度是比較高的，因此建立聯合索引查詢效率

　　將會更高，從另外一個角度看，該表的數據是300w，以後會更多，就索引存儲而言，都是不小的數目，隨著數據量的

　　增加，索引就不能全部加載到內存，而是要從磁碟去讀取，這樣索引的個數越多，讀磁碟的開銷就越大，因此根據具體

　　業務情況建立多列的聯合索引是必要的，那麼我們來試試吧。

　　alter table SC drop index sc_c_id_index; alter table SC drop index sc_score_index; create index sc_c_id_score_index on SC(c_id,score);

　　執行上述查詢語句，消耗時間為：0.007s，這個速度還是可以接收的

　　執行計劃：

　　
image

　　該語句的優化暫時告一段落

　　總結：

　　1.mysql嵌套子查詢效率確實比較低

　　2.可以將其優化成連接查詢

　　3.連接表時，可以先用where條件對表進行過濾，然後做表連接

　　（雖然mysql會對連表語句做優化）

　　4.建立合適的索引，必要時建立多列聯合索引

　　5.學會分析sql執行計劃，mysql會對sql進行優化，所以分析執行計劃很重要

　　索引優化

　　上面講到子查詢的優化，以及如何建立索引，而且在多個欄位索引時，分別對欄位建立了單個索引

　　後面發現其實建立聯合索引效率會更高，尤其是在數據量較大，單個列區分度不高的情況下。

　　單列索引

　　查詢語句如下：

　　select * from user_test_copy where sex = 2 and type = 2 and age = 10

　　索引：

　　CREATE index user_test_index_sex on user_test_copy(sex); CREATE index user_test_index_type on user_test_copy(type); CREATE index user_test_index_age on user_test_copy(age);

　　分別對sex,type,age欄位做了索引，數據量為300w,查詢時間：0.415s

　　執行計劃：

　　
image_thumb3

　　發現type=index_merge

　　這是mysql對多個單列索引的優化，對結果集採用intersect併集操作

　　多列索引

　　我們可以在這3個列上建立多列索引，將表copy一份以便做測試

　　create index user_test_index_sex_type_age on user_test(sex,type,age);

　　查詢語句：

　　select * from user_test where sex = 2 and type = 2 and age = 10

　　執行時間：0.032s，快了10多倍，且多列索引的區分度越高，提高的速度也越多

　　執行計劃：

　　image_thumb5

　　最左前綴

　　多列索引還有最左前綴的特性：

　　執行一下語句：

　　select * from user_test where sex = 2 select * from user_test where sex = 2 and type = 2 select * from user_test where sex = 2 and age = 10

　　都會使用到索引，即索引的第一個欄位sex要出現在where條件中

　　索引覆蓋

　　就是查詢的列都建立了索引，這樣在獲取結果集的時候不用再去磁碟獲取其它列的數據，直接返回索引數據即可

　　如：

　　select sex,type,age from user_test where sex = 2 and type = 2 and age = 10

　　執行時間：0.003s

　　要比取所有欄位快的多

　　排序select * from user_test where sex = 2 and type = 2 ORDER BY user_name

　　時間：0.139s

　　在排序欄位上建立索引會提高排序的效率

　　create index user_name_index on user_test(user_name)

　　最後附上一些sql調優的總結，以後有時間再深入研究

　　列類型儘量定義成數值類型，且長度儘可能短，如主鍵和外鍵，類型欄位等等
　　
　　建立單列索引
　　
　　根據需要建立多列聯合索引

　　當單個列過濾之後還有很多數據，那麼索引的效率將會比較低，即列的區分度較低，

　　那麼如果在多個列上建立索引，那麼多個列的區分度就大多了，將會有顯著的效率提高。

　　根據業務場景建立覆蓋索引

　　只查詢業務需要的欄位，如果這些欄位被索引覆蓋，將極大的提高查詢效率

　　多表連接的欄位上需要建立索引

　　這樣可以極大的提高表連接的效率

　　where條件欄位上需要建立索引
　　
　　排序欄位上需要建立索引
　　
　　分組欄位上需要建立索引
　　
　　Where條件上不要使用運算函數，以免索引失效

　　福

一頓騷操作!我將 SQL 耗時從 30248.271s 優化到 0.001s

相關焦點

一波騷操作,我把 SQL 執行效率提高了 10,000,000 倍!

SparkSQL操作insert overwrite table到hive慢

一張900w的數據表,17s執行的SQL優化到300ms?

一次神奇的 sql 查詢經歷,group by 慢查詢優化記錄

SQL優化系列之 in與range 查詢

通過 SQL 查詢學習 Pandas 數據處理

數據分析利器 pandas 系列教程(四):對比 sql 學 pandas

我臉都問綠了!二面竟然被問到MySQL時間類型datetime、bigint及timestamp的查詢效率...

SQL是一門手藝

如何將 MySQL 去重操作優化到極致?|CSDN 博文精選

【SQL】詳細講解如何進行Hive性能優化

一張6000w數據表的查詢優化到0.023s

如何用 SQL 的方式打開 Pandas?

PandaSQL:一個讓你能夠通過SQL語句進行pandas的操作的python包

平易近人、兼容並蓄——Spark SQL 1.3.0概覽

提升SQL語句性能的方法

高效的SQL盲注_位運算(一)

Jfinal 數據操作模塊 db.record v 0.0.4 發布

最詳細的SQL注入相關的命令整理

資料庫性能優化之 SQL 語句優化 1