溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何編寫更好的SQL查詢:終極指南-第一部分

發(fā)布時(shí)間:2020-07-27 22:39:28 來源:網(wǎng)絡(luò) 閱讀:417 作者:powertoolsteam 欄目:MySQL數(shù)據(jù)庫

如何編寫更好的SQL查詢:終極指南-第一部分

結(jié)構(gòu)化查詢語言(SQL)是數(shù)據(jù)挖掘分析行業(yè)不可或缺的一項(xiàng)技能,總的來說,學(xué)習(xí)這個(gè)技能是比較容易的。對(duì)于SQL來說,編寫查詢語句只是第一步,確保查詢語句高效并且適合于你的數(shù)據(jù)庫操作工作,才是最重要的。這個(gè)教程將會(huì)提供給你一些步驟,來評(píng)估你的查詢語句。

  • 首先,應(yīng)該了解學(xué)習(xí)SQL對(duì)于數(shù)據(jù)挖掘分析這個(gè)工作的重要性;

  • 接下來,應(yīng)該先學(xué)習(xí)SQL查詢語句的處理和執(zhí)行過程,以便可以更好的了解到,編寫高質(zhì)量的查詢有多重要。具體說來就是,應(yīng)該了解查詢是如何被解析、重寫、優(yōu)化和最終評(píng)估的;

  • 掌握了上面一點(diǎn)之后,你不僅需要重溫初學(xué)者在編寫查詢語句時(shí),所使用的查詢反向模型,而且還需要了解有關(guān)可能發(fā)生錯(cuò)誤的替代方案和解決方案。同時(shí)還應(yīng)該了解更多查詢工作中的基于集合的程序方法。

  • 在性能方面也需要關(guān)注反向模型,除了手動(dòng)提高SQL查詢的方法外,還需要以更加結(jié)構(gòu)化和深入的方式來分析你的查詢,以便使用其它工具來完成整個(gè)查詢工作。

  • 在執(zhí)行查詢之前,還需要更加深入的了解執(zhí)行查詢計(jì)劃的時(shí)間復(fù)雜度。 

  • 最后,應(yīng)該了解如何進(jìn)一步的調(diào)整你的查詢語句。

 

為什么要學(xué)SQL?

尋找數(shù)據(jù)挖掘分析行業(yè)的工作,SQL是最需要的技能之一,不論是申請(qǐng)數(shù)據(jù)分析工作、數(shù)據(jù)引擎工作、數(shù)據(jù)挖掘分析或者其它工作。在O'Reilly發(fā)布的《2016數(shù)據(jù)科學(xué)從業(yè)者薪酬報(bào)告》中,有70%的受訪者證實(shí)了這一點(diǎn),表示他們需要在專業(yè)環(huán)境中使用SQL。此外,本次調(diào)查中,SQL遠(yuǎn)勝于R(57%)和Python(54%)等編程語言。所以在數(shù)據(jù)挖掘分析領(lǐng)域,SQL是必備技能。

 

我們分析一下SQL從1970s早期開發(fā)出,到現(xiàn)在還經(jīng)久不衰的原因:

一、公司基本都將數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)或關(guān)系數(shù)據(jù)流管理系統(tǒng)(RDSMS)中,所以需要使用SQL來實(shí)現(xiàn)訪問。SQL是通用的數(shù)據(jù)語言,可以使用SQL和幾乎其它任何數(shù)據(jù)庫進(jìn)行交互,甚至可以在本地建立自己的數(shù)據(jù)庫!

二、只有少量的SQL實(shí)現(xiàn)沒有遵循標(biāo)準(zhǔn),在供應(yīng)商之間不兼容。因此,了解SQL標(biāo)準(zhǔn)是在數(shù)據(jù)挖掘分析行業(yè)立足的必要要求。

三、最重要的是SQL也被更新的技術(shù)所接受,例如Hive或者Spark SQL。Hive是一個(gè)用于查詢和管理大型數(shù)據(jù)集的類似于SQL的查詢語言界面;Spark SQL可用于執(zhí)行SQL查詢。

簡而言之,以下就是為什么你應(yīng)該學(xué)習(xí)這種查詢語言:

  • 即使對(duì)于新手來說,SQL也很容易學(xué)習(xí)。學(xué)習(xí)曲線很平緩,編寫SQ查詢幾乎不花費(fèi)時(shí)間。

  • SQL遵循“學(xué)習(xí)一次,隨時(shí)隨地可用”的原則,所以花費(fèi)時(shí)間學(xué)習(xí)SQL很劃算!

  • SQL是對(duì)編程語言的一種極好的補(bǔ)充;在某些情況下,編寫查詢甚至比編寫代碼更為優(yōu)先!

  • ...

 

SQL處理和查詢執(zhí)行

為了提高SQL查詢的性能,首先需要知道,運(yùn)行查詢時(shí),內(nèi)部會(huì)發(fā)生什么。

以下時(shí)查詢執(zhí)行的過程:

  • 首先,將查詢解析成“解析樹”; 分析查詢是否滿足語法和語義要求。解析器將會(huì)創(chuàng)建一個(gè)輸入查詢的內(nèi)部表示,然后將此輸出傳遞給重寫引擎。

  • 然后,優(yōu)化器的任務(wù)是為給定的查詢,尋找最佳執(zhí)行或查詢計(jì)劃。執(zhí)行計(jì)劃準(zhǔn)確地定義了每個(gè)操作所使用的算法,以及如何協(xié)調(diào)操作的執(zhí)行。

  • 最后,為了找到最佳的執(zhí)行計(jì)劃,優(yōu)化器會(huì)列舉所有可能的執(zhí)行計(jì)劃,并確定每個(gè)計(jì)劃的質(zhì)量或成本,以便獲取有關(guān)當(dāng)前數(shù)據(jù)庫狀態(tài)的信息,最后選擇最佳的執(zhí)行計(jì)劃。由于查詢優(yōu)化器可能不完善,因此數(shù)據(jù)庫用戶和管理員有時(shí)需要手動(dòng)檢查并調(diào)整優(yōu)化器生成的計(jì)劃,以便獲得更好的性能。

現(xiàn)在你已經(jīng)清楚了什么才是好的執(zhí)行計(jì)劃。

正如前面了解到的,計(jì)劃的成本質(zhì)量起著重要的作用。更具體地說,評(píng)估計(jì)劃所需的磁盤I / O數(shù)量,計(jì)劃的CPU花銷以及數(shù)據(jù)庫客戶端的整體響應(yīng)時(shí)間和總執(zhí)行時(shí)間等因素至關(guān)重要。這就是時(shí)間復(fù)雜性的概念。后面還將繼續(xù)了解。

接下來,執(zhí)行所選擇的查詢計(jì)劃,由系統(tǒng)的執(zhí)行引擎進(jìn)行評(píng)估,并返回查詢結(jié)果。

如何編寫更好的SQL查詢:終極指南-第一部分

 

編寫SQL查詢

需要進(jìn)一步說明的是,垃圾回收原則(GIGO)原本就是表達(dá)在查詢處理和執(zhí)行之中:制定查詢的人,同時(shí)也決定著SQL查詢的性能。

這意味著在編寫查詢,有些事情可以同步去做。就像文章開始時(shí)介紹的,編寫查詢需要遵循兩個(gè)標(biāo)準(zhǔn):首先,編寫的查詢需要滿足一定的標(biāo)準(zhǔn),其次還應(yīng)該應(yīng)對(duì)查詢中可以出現(xiàn)的性能問題。

總的來說,有四個(gè)分句和關(guān)鍵字,方便新手考慮性能問題:

  • WHERE 分句

  • INNER JOIN 和 LEFT JOIN 關(guān)鍵字

  • HAVING 分句

雖然這種做法簡單而天真,但對(duì)于一個(gè)初學(xué)者來說,這些方法卻是一個(gè)很好的指引。這些地方也是你剛開始編寫時(shí),容易發(fā)生錯(cuò)誤的地方,這些錯(cuò)誤也很難發(fā)現(xiàn)。

同時(shí),要想提升性能,使其變得有意義,就不能脫離上下文:在考慮SQL性能時(shí),不能武斷的認(rèn)為上面的分句和關(guān)鍵字不好。使用WHERE 或 HAVING的分句也可能是很好的查詢語句。

通過下面的章節(jié)來來進(jìn)一步了解編寫查詢時(shí)反向模型和代替方法,并將這些提示和技巧作為指導(dǎo)。如何重寫查詢和是否需要重寫查詢?nèi)Q于數(shù)據(jù)量,以及數(shù)據(jù)庫和執(zhí)行查詢所需的次數(shù)等。這完全取決于你的查詢目標(biāo),事先掌握一些有關(guān)數(shù)據(jù)的知識(shí)是非常重要的!

1. 僅檢索你需要的數(shù)據(jù)

在編寫SQL查詢時(shí),并不是數(shù)據(jù)越多越好。因此在使用SELECT 語句、DISTINCT分句和LIKE操作符時(shí),需要謹(jǐn)慎。

SELECT聲明

在編寫完查詢語句之后,首先需要做的事情就是檢查select語句是否簡潔。你的目標(biāo)應(yīng)該是刪除不必要的select列。以便只取到符合你查詢目的的數(shù)據(jù)。

如果還有相關(guān)使用exists的子查詢,那么就應(yīng)該在select語句中使用常量,而不是選擇實(shí)際列的值。當(dāng)檢查實(shí)體時(shí),這是特別方便的。

請(qǐng)記住,相關(guān)子查詢是使用外部查詢中的值的子查詢,并且在這種情況下,NULL是可以作為“常量”的,這點(diǎn)確實(shí)令人困惑!

通過以下示例,可以了解使用常量的含義:

SELECT driverslicensenr, nameFROM DriversWHERE EXISTS (SELECT '1' FROM Fines              WHERE fines.driverslicensenr = drivers.driverslicensenr);

提示:我們很容易發(fā)現(xiàn),使用相關(guān)子查詢并不總是一個(gè)好主意,所以可以考慮通過以下方式避免使用相關(guān)子查詢,例如使用 INNER JOIN重寫:

SELECT driverslicensenr, nameFROM driversINNER JOIN fines ON fines.driverslicensenr = drivers.driverslicensenr;

DISTINCT分句

SELECT DISTINCT 語句用于返回不同的值。 DISTINCT 是一個(gè)分句,能不用盡量不用,因?yàn)槿绻麑ISTINCT添加到查詢語句中,會(huì)導(dǎo)致執(zhí)行時(shí)間的增加 。

LIKE運(yùn)算符

在查詢中使用LIKE運(yùn)算符時(shí),如果模式是以% 或_開始,則不會(huì)使用索引。它將阻止數(shù)據(jù)庫使用索引(如果存在的話)。當(dāng)然,從另一個(gè)角度來看,你也可以認(rèn)為,這種類型的查詢可能會(huì)放寬條件,會(huì)檢索到許多不一定滿足查詢目標(biāo)的記錄。

另外,你對(duì)存儲(chǔ)在數(shù)據(jù)中數(shù)據(jù)的了解,可以幫助你制定一個(gè)模式,使用該模式可以對(duì)所有數(shù)據(jù)進(jìn)行正確的過濾,以便查找到你最想要的數(shù)據(jù)。

 

2. 縮小查詢結(jié)果 

如果無法避免使用 SELECT語句時(shí),可以考慮通過其它方式縮小查詢結(jié)果。例如,使用LIMIT 分句和數(shù)據(jù)類型轉(zhuǎn)換的方法。

TOP,LIMITROWNUM分句

可以在查詢中添加LIMIT或TOP分句,來設(shè)置查詢結(jié)果的最大行數(shù)。下面是一個(gè)示例:

SELECT TOP 3 *FROM Drivers;

請(qǐng)注意,你可以進(jìn)一步指定PERCENT。

例如,如果你想更改查詢的第一行  SELECT TOP 50 PERCENT *。

SELECT driverslicensenr, nameFROM Drivers
LIMIT 2;

此外,你還可以添加ROWNUM 分句,相應(yīng)于在查詢中使用的LIMIT:

SELECT *FROM DriversWHERE driverslicensenr = 123456 AND ROWNUM <= 3;

 

數(shù)據(jù)類型轉(zhuǎn)換

應(yīng)該使用最小的數(shù)據(jù)類型,因?yàn)樾〉臄?shù)據(jù)類型更加有效。

當(dāng)查詢中需要進(jìn)行數(shù)據(jù)類型轉(zhuǎn)化,會(huì)增加執(zhí)行時(shí)間,所以盡可能的避免數(shù)據(jù)類型轉(zhuǎn)換的發(fā)生;

如果不能避免的話,需要謹(jǐn)慎的定義數(shù)據(jù)類型的轉(zhuǎn)換。

 

本文是本系列教程的第一篇,后續(xù)還有更多《如何編寫更好的SQL查詢》的文章分享給大家,敬請(qǐng)期待。

原文鏈接:http://www.kdnuggets.com/2017/08/write-better-sql-queries-definitive-guide-part-1.html

轉(zhuǎn)載請(qǐng)注明出自:葡萄城控件

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI