溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

SQL優(yōu)化----百萬數(shù)據(jù)查詢優(yōu)化

發(fā)布時間:2020-06-29 09:07:57 來源:網(wǎng)絡 閱讀:458 作者:F3410046766 欄目:數(shù)據(jù)庫


百萬數(shù)據(jù)查詢優(yōu)化

1.合理使用索引

  索引是數(shù)據(jù)庫中重要的數(shù)據(jù)結構,它的根本目的就是為了提高查詢效率?,F(xiàn)在大多數(shù)的數(shù)據(jù)庫產品都采用IBM最先提出的ISAM索引結構。索引的使用要恰到好處,其使用原則如下:

  ●在經常進行連接,但是沒有指定為外鍵的列上建立索引,而不經常連接的字段則由優(yōu)化器自動生成索引。

  ●在頻繁進行排序或分組(即進行group by或order by操作)的列上建立索引。

  ●在條件表達式中經常用到的不同值較多的列上建立檢索,在不同值少的列上不要建立索引。比如在雇員表的“性別”列上只有“男”與“女”兩個不同值,因此就無必要建立索引。如果建立索引不但不會提高查詢效率,反而會嚴重降低更新速度。

  ●如果待排序的列有多個,可以在這些列上建立復合索引(compound index)。

  ●使用系統(tǒng)工具。如Informix數(shù)據(jù)庫有一個tbcheck工具,可以在可疑的索引上進行檢查。在一些數(shù)據(jù)庫服務器上,索引可能失效或者因為頻繁操作而使得讀取效率降低,如果一個使用索引的查詢不明不白地慢下來,可以試著用tbcheck工具檢查索引的完整性,必要時進行修復。另外,當數(shù)據(jù)庫表更新大量數(shù)據(jù)后,刪除并重建索引可以提高查詢速度。

  2.避免或簡化排序

  應當簡化或避免對大型表進行重復的排序。當能夠利用索引自動以適當?shù)拇涡虍a生輸出時,優(yōu)化器就避免了排序的步驟。以下是一些影響因素:

  ●索引中不包括一個或幾個待排序的列;

  ●group by或order by子句中列的次序與索引的次序不一樣;

  ●排序的列來自不同的表。

  為了避免不必要的排序,就要正確地增建索引,合理地合并數(shù)據(jù)庫表(盡管有時可能影響表的規(guī)范化,但相對于效率的提高是值得的)。如果排序不可避免,那么應當試圖簡化它,如縮小排序的列的范圍等。

  3.消除對大型表行數(shù)據(jù)的順序存取

  在嵌套查詢中,對表的順序存取對查詢效率可能產生致命的影響。比如采用順序存取策略,一個嵌套3層的查詢,如果每層都查詢1000行,那么這個查詢就要查詢10億行數(shù)據(jù)。    A)避免這種情況的主要方法就是對連接的列進行索引。

  B) 還可以使用并集來避免順序存?。▽r改成union)。盡管在所有的檢查列上都有索引,但某些形式的where子句強迫優(yōu)化器使用順序存取。下面的查詢將強迫對orders表執(zhí)行順序操作:

  SELECT * FROM orders WHERE (customer_num=104 AND order_num>1001) OR order_num=1008

  雖然在customer_num和order_num上建有索引,但是在上面的語句中優(yōu)化器還是使用順序存取路徑掃描整個表。因為這個語句要檢索的是分離的行的集合,所以應該改為如下語句:

  SELECT * FROM orders WHERE customer_num=104 AND order_num>1001

  UNION

  SELECT * FROM orders WHERE order_num=1008

  這樣就能利用索引路徑處理查詢獲取【下載地址】  

   4.避免相關子查詢

  一個列的標簽同時在主查詢和where子句中的查詢中出現(xiàn),那么很可能當主查詢中的列值改變之后,子查詢必須重新查詢一次。查詢嵌套層次越多,效率越低,因此應當盡量避免子查詢。如果子查詢不可避免,那么要在子查詢中過濾掉盡可能多的行。

  5.避免困難的正規(guī)表達式

  MATCHES和LIKE關鍵字支持通配符匹配,技術上叫正規(guī)表達式。但這種匹配特別耗費時間。例如:SELECT * FROM customer WHERE zipcode LIKE “98_ _ _”

  即使在zipcode字段上建立了索引,在這種情況下也還是采用順序掃描的方式。如果把語句改為SELECT * FROM customer WHERE zipcode >“98000”,在執(zhí)行查詢時就會利用索引來查詢,顯然會大大提高速度。

  另外,還要避免非開始的子串。例如語句:SELECT * FROM customer WHERE zipcode[2,3] >“80”,在where子句中采用了非開始子串,因而這個語句也不會使用索引。

  6.使用臨時表加速查詢

  把表的一個子集進行排序并創(chuàng)建臨時表,有時能加速查詢。有助于避免多重排序操作,而且在其他方面還能簡化優(yōu)化器的工作。例如:

  SELECT cust.name,rcvbles.balance,……other columns

  FROM cust,rcvbles

  WHERE cust.customer_id = rcvlbes.customer_id

  AND rcvblls.balance>0

  AND cust.postcode>“98000”

  ORDER BY cust.name

  如果這個查詢要被執(zhí)行多次而不止一次,可以把所有未付款的客戶找出來放在一個臨時文件中,并按客戶的名字進行排序:

  SELECT cust.name,rcvbles.balance,……other columns

  FROM cust,rcvbles

  WHERE cust.customer_id = rcvlbes.customer_id

  AND rcvblls.balance>0

  ORDER BY cust.name

  INTO TEMP cust_with_balance

  然后以下面的方式在臨時表中查詢:

  SELECT * FROM cust_with_balance

  WHERE postcode>“98000”

  臨時表中的行要比主表中的行少,而且物理順序就是所要求的順序,減少了磁盤I/O,所以查詢工作量可以得到大幅減少。

  注意:臨時表創(chuàng)建后不會反映主表的修改。在主表中數(shù)據(jù)頻繁修改的情況下,注意不要丟失數(shù)據(jù)。 

 

  小 結

  20%的代碼用去了80%的時間,這是程序設計中的一個著名定律,在數(shù)據(jù)庫應用程序中也同樣如此。我們的優(yōu)化要抓住關鍵問題,對于數(shù)據(jù)庫應用程序來說,重點在于SQL的執(zhí)行效率。查詢優(yōu)化的重點環(huán)節(jié)是使得數(shù)據(jù)庫服務器少從磁盤中讀數(shù)據(jù)以及順序讀頁而不是非順序讀頁。

第二部分(如何讓引擎充分使用索引獲取【下載地址】  

l  百萬數(shù)據(jù)查詢優(yōu)化技巧三十則

1.建立索引 對查詢進行優(yōu)化,應盡量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。 

 

2.應盡量避免在 where 子句中對字段進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,如: 

select id from t where num is null 

可以在num上設置默認值0,確保表中num列沒有null值,然后這樣查詢: 

select id from t where num=0 

 

3.應盡量避免在 where 子句中使用!=或<>操作符,否則將引擎放棄使用索引而進行全表掃描。 

 

4.應盡量避免在 where 子句中使用 or 來連接條件,可使用union,否則將導致引擎放棄使用索引而進行全表掃描,如: 

select id from t where num=10 or num=20 

可以這樣查詢: 

select id from t where num=10 

union all 

select id from t where num=20 

 

5.in 和 not in 也要慎用,否則會導致全表掃描,如: 

select id from t where num in(1,2,3) 

對于連續(xù)的數(shù)值,能用 between 就不要用 in 了: 

select id from t where num between 1 and 3 

 

6.下面模糊查詢也將導致全表掃描: 

select id from t where name like '%abc%' 

若要提高效率,可以考慮全文檢索。 

 

7.如果在 where 子句中使用參數(shù),也會導致全表掃描。

因為SQL只有在運行時才會解析局部變量,但優(yōu)化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,如果在編譯時建立訪問計劃,變量的值還是未知的,因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描: 

select id from t where num=@num 

可以改為強制查詢使用索引: 

select id from t with(index(索引名)) where num=@num 

 

8.應盡量避免在 where 子句中對字段進行表達式操作,這將導致引擎放棄使用索引而進行全表掃描。如: 

select id from t where num/2=100 

應改為: 

select id from t where num=100*2 

 

9.應盡量避免在where子句中對字段進行函數(shù)(內置函數(shù))操作,

這將導致引擎放棄使用索引而進行全表掃描。如: 

select id from t where substring(name,1,3)='abc'--name以abc開頭的id 

select id from t where datediff(day,createdate,'2005-11-30')=0--‘2005-11-30’生成的id 

應改為: 

select id from t where name like 'abc%' 

select id from t where createdate>='2005-11-30' and createdate<'2005-12-1' 

 

10.不要在 where 子句中的“=”左邊進行函數(shù)、算術運算或其他表達式運算,否則系統(tǒng)將可能無法正確使用索引。 

 

11.在使用索引字段作為條件時,如果該索引是復合索引,那么必須使用到該索引中的第一個字段作為條件時才能保證系統(tǒng)使用該索引,否則該索引將不會被使用,并且應盡可能的讓字段順序與索引順序相一致。 

 

12.不要寫一些沒有意義的查詢,如需要生成一個空表結構: 

select col1,col2 into #t from t where 1=0 

這類代碼不會返回任何結果集,但是會消耗系統(tǒng)資源的,應改成這樣: 

create table #t(...) 

 

13.很多時候用 exists 代替 in 是一個好的選擇(原因:請參考我的博客): 

select num from a where num in(select num from b) 

用下面的語句替換: 

select num from a where exists(select 1 from b where num=a.num) 

 

14.并不是所有索引對查詢都有效,SQL是根據(jù)表中數(shù)據(jù)來進行查詢優(yōu)化的,當索引列有大量數(shù)據(jù)重復時,SQL查詢可能不會去利用索引(除非是位圖索引),如一表中有字段sex,male、female幾乎各一半,那么即使在sex上建了索引也對查詢效率起不了作用。 

 

15.索引并不是越多越好,索引固然可以提高相應的 select 的效率,但同時也降低了 insert 及 update 的效率,因為 insert 或 update 時有可能會重建索引,所以怎樣建索引需要慎重考慮,視具體情況而定。一個表的索引數(shù)最好不要超過6個,若太多則應考慮一些不常使用到的列上建的索引是否有必要。 

 

16.應盡可能的避免更新 clustered 索引數(shù)據(jù)列,因為 clustered 索引數(shù)據(jù)列的順序就是表記錄的物理存儲順序,一旦該列值改變將導致整個表記錄的順序的調整,會耗費相當大的資源。若應用系統(tǒng)需要頻繁更新 clustered 索引數(shù)據(jù)列,那么需要考慮是否應將該索引建為 clustered 索引。 

 

17.盡量使用數(shù)字型字段,若只含數(shù)值信息的字段盡量不要設計為字符型,這會降低查詢和連接的性能,并會增加存儲開銷。這是因為引擎在處理查詢和連接時會逐個比較字符串中每一個字符,而對于數(shù)字型而言只需要比較一次就夠了。 

 

18.盡可能的使用 varchar/nvarchar 代替 char/nchar,最好用varchar2(自變長度) ,因為首先變長字段存儲空間小,可以節(jié)省存儲空間,其次對于查詢來說,在一個相對較小的字段內搜索效率顯然要高些。 

 

19.任何地方都不要使用 select * from t ,用具體的字段列表代替“*”,不要返回用不到的任何字段。 

 

20.盡量使用表變量來代替臨時表(一般用在存儲過程中)。如果表變量包含大量數(shù)據(jù),請注意索引非常有限(只有主鍵索引)。 

 

21.避免頻繁創(chuàng)建和刪除臨時表,以減少系統(tǒng)表資源的消耗。 

 

22.臨時表并不是不可使用,適當?shù)厥褂盟鼈兛梢允鼓承├谈行?,例如,當需要重復引用大型表或常用表中的某個數(shù)據(jù)集時。但是,對于一次性事件,最好使用導出表。 

 

23.在新建臨時表時,如果一次性插入數(shù)據(jù)量很大,那么可以使用 select into A select。。。 代替 create table,避免造成大量 log ,以提高速度;如果數(shù)據(jù)量不大,為了緩和系統(tǒng)表的資源,應先create table,然后insert。 

 

24.如果使用到了臨時表,在存儲過程的最后務必將所有的臨時表顯式刪除,先 truncate table ,然后 drop table ,這樣可以避免系統(tǒng)表的較長時間鎖定。 

 

25.盡量避免使用游標,因為游標的效率較差,如果游標操作的數(shù)據(jù)超過1萬行,那么就應該考慮改寫。 

 

26.使用基于游標的方法或臨時表方法之前,應先尋找基于集的解決方案來解決問題,基于集的方法通常更有效。 

 

27.與臨時表一樣,游標并不是不可使用。對小型數(shù)據(jù)集使用 FAST_FORWARD 游標通常要優(yōu)于其他逐行處理方法,尤其是在必須引用幾個表才能獲得所需的數(shù)據(jù)時。在結果集中包括“合計”的例程通常要比使用游標執(zhí)行的速度快。如果開發(fā)時間允許,基于游標的方法和基于集的方法都可以嘗試一下,看哪一種方法的效果更好。 

 

28.在所有的存儲過程和觸發(fā)器的開始處設置 SET NOCOUNT ON ,在結束時設置 SET NOCOUNT OFF 。無需在執(zhí)行存儲過程和觸發(fā)器的每個語句后向客戶端發(fā)送 DONE_IN_PROC 消息。 

 

29.盡量避免大事務操作,提高系統(tǒng)并發(fā)能力。 

 

30.盡量避免向客戶端返回大數(shù)據(jù)量,若數(shù)據(jù)量過大,應該考慮相應需求是否合理。 




向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經查實,將立刻刪除涉嫌侵權內容。

AI