MySQL使用B樹的原因有哪些

發(fā)布時間：2022-01-14 15:58:20 來源：億速云閱讀：130 作者：小新欄目：數(shù)據(jù)庫

這篇文章主要介紹MySQL使用B樹的原因有哪些，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

　　一般來說，索引本身也很大，不可能全部存儲在內(nèi)存中，因此索引往往以索引文件的形式存儲在磁盤上。這樣的話，索引查找過程中就要產(chǎn)生磁盤I/O消耗，相對于內(nèi)存存取，I/O存取的消耗要高幾個數(shù)量級，所以評價一個數(shù)據(jù)結(jié)構(gòu)作為索引的優(yōu)劣最重要的指標(biāo)就是在查找過程中磁盤I/O操作次數(shù)的漸進復(fù)雜度。換句話說，索引的結(jié)構(gòu)組織要盡量減少查找過程中磁盤I/O的存取次數(shù)。下面先介紹內(nèi)存和磁盤存取原理，然后再結(jié)合這些原理分析B-/+Tree作為索引的效率。

　　主存存取原理

　　目前計算機使用的主存基本都是隨機讀寫存儲器(RAM)，現(xiàn)代RAM的結(jié)構(gòu)和存取原理比較復(fù)雜，這里本文拋卻具體差別，抽象出一個十分簡單的存取模型來說明RAM的工作原理。

　　從抽象角度看，主存是一系列的存儲單元組成的矩陣，每個存儲單元存儲固定大小的數(shù)據(jù)。每個存儲單元有唯一的地址，現(xiàn)代主存的編址規(guī)則比較復(fù)雜，這里將其簡化成一個二維地址：通過一個行地址和一個列地址可以唯一定位到一個存儲單元。上圖展示了一個4 x 4的主存模型。

　　主存的存取過程如下：

　　當(dāng)系統(tǒng)需要讀取主存時，則將地址信號放到地址總線上傳給主存，主存讀到地址信號后，解析信號并定位到指定存儲單元，然后將此存儲單元數(shù)據(jù)放到數(shù)據(jù)總線上，供其它部件讀取。

　　寫主存的過程類似，系統(tǒng)將要寫入單元地址和數(shù)據(jù)分別放在地址總線和數(shù)據(jù)總線上，主存讀取兩個總線的內(nèi)容，做相應(yīng)的寫操作。

　　這里可以看出，主存存取的時間僅與存取次數(shù)呈線性關(guān)系，因為不存在機械操作，兩次存取的數(shù)據(jù)的“距離”不會對時間有任何影響，例如，先取A0再取A1和先取A0再取D3的時間消耗是一樣的。

　　磁盤存取原理

　　上文說過，索引一般以文件形式存儲在磁盤上，索引檢索需要磁盤I/O操作。與主存不同，磁盤I/O存在機械運動耗費，因此磁盤I/O的時間消耗是巨大的。

　　一個磁盤由大小相同且同軸的圓形盤片組成，磁盤可以轉(zhuǎn)動(各個磁盤必須同步轉(zhuǎn)動)。在磁盤的一側(cè)有磁頭支架，磁頭支架固定了一組磁頭，每個磁頭負責(zé)存取一個磁盤的內(nèi)容。磁頭不能轉(zhuǎn)動，但是可以沿磁盤半徑方向運動(實際是斜切向運動)，每個磁頭同一時刻也必須是同軸的，即從正上方向下看，所有磁頭任何時候都是重疊的(不過目前已經(jīng)有多磁頭獨立技術(shù)，可不受此限制)。

　　盤片被劃分成一系列同心環(huán)，圓心是盤片中心，每個同心環(huán)叫做一個磁道，所有半徑相同的磁道組成一個柱面。磁道被沿半徑線劃分成一個個小的段，每個段叫做一個扇區(qū)，每個扇區(qū)是磁盤的最小存儲單元。為了簡單起見，我們下面假設(shè)磁盤只有一個盤片和一個磁頭。

　　當(dāng)需要從磁盤讀取數(shù)據(jù)時，系統(tǒng)會將數(shù)據(jù)邏輯地址傳給磁盤，磁盤的控制電路按照尋址邏輯將邏輯地址翻譯成物理地址，即確定要讀的數(shù)據(jù)在哪個磁道，哪個扇區(qū)。為了讀取這個扇區(qū)的數(shù)據(jù)，需要將磁頭放到這個扇區(qū)上方，為了實現(xiàn)這一點，磁頭需要移動對準相應(yīng)磁道，這個過程叫做尋道，所耗費時間叫做尋道時間，然后磁盤旋轉(zhuǎn)將目標(biāo)扇區(qū)旋轉(zhuǎn)到磁頭下，這個過程耗費的時間叫做旋轉(zhuǎn)時間。

　　局部性原理與磁盤預(yù)讀

　　由于存儲介質(zhì)的特性，磁盤本身存取就比主存慢很多，再加上機械運動耗費，磁盤的存取速度往往是主存的幾百分分之一，因此為了提高效率，要盡量減少磁盤I/O。為了達到這個目的，磁盤往往不是嚴格按需讀取，而是每次都會預(yù)讀，即使只需要一個字節(jié)，磁盤也會從這個位置開始，順序向后讀取一定長度的數(shù)據(jù)放入內(nèi)存。這樣做的理論依據(jù)是計算機科學(xué)中著名的局部性原理：

　　當(dāng)一個數(shù)據(jù)被用到時，其附近的數(shù)據(jù)也通常會馬上被使用。

　　所以，程序運行期間所需要的數(shù)據(jù)通常應(yīng)當(dāng)比較集中。

　　由于磁盤順序讀取的效率很高(不需要尋道時間，只需很少的旋轉(zhuǎn)時間)，因此對于具有局部性的程序來說，預(yù)讀可以提高I/O效率。

　　預(yù)讀的長度一般為頁(page)的整倍數(shù)。頁是計算機管理存儲器的邏輯塊，硬件及操作系統(tǒng)往往將主存和磁盤存儲區(qū)分割為連續(xù)的大小相等的塊，每個存儲塊稱為一頁(在許多操作系統(tǒng)中，頁得大小通常為4k)，主存和磁盤以頁為單位交換數(shù)據(jù)。當(dāng)程序要讀取的數(shù)據(jù)不在主存中時，會觸發(fā)一個缺頁異常，此時系統(tǒng)會向磁盤發(fā)出讀盤信號，磁盤會找到數(shù)據(jù)的起始位置并向后連續(xù)讀取一頁或幾頁載入內(nèi)存中，然后異常返回，程序繼續(xù)運行。

　　B-/+Tree索引的性能分析

　　到這里終于可以分析B-/+Tree索引的性能了。

　　上文說過一般使用磁盤I/O次數(shù)評價索引結(jié)構(gòu)的優(yōu)劣。先從B-Tree分析，根據(jù)B-Tree的定義，可知檢索一次最多需要訪問h個節(jié)點。數(shù)據(jù)庫系統(tǒng)的設(shè)計者巧妙利用了磁盤預(yù)讀原理，將一個節(jié)點的大小設(shè)為等于一個頁，這樣每個節(jié)點只需要一次I/O就可以完全載入。為了達到這個目的，在實際實現(xiàn)B-Tree還需要使用如下技巧：

　　每次新建節(jié)點時，直接申請一個頁的空間，這樣就保證一個節(jié)點物理上也存儲在一個頁里，加之計算機存儲分配都是按頁對齊的，就實現(xiàn)了一個node只需一次I/O。

　　B-Tree中一次檢索最多需要h-1次I/O(根節(jié)點常駐內(nèi)存)，漸進復(fù)雜度為 (?)= ( )。

　　一般實際應(yīng)用中，出度d是非常大的數(shù)字，通常超過100，因此h非常小(通常不超過3)。(h表示樹的高度 & 出度d表示的是樹的度，即樹中各個節(jié)點的度的最大值)

　　綜上所述，用B-Tree作為索引結(jié)構(gòu)效率是非常高的。

　　而紅黑樹這種結(jié)構(gòu)，h明顯要深的多。由于邏輯上很近的節(jié)點(父子)物理上可能很遠，無法利用局部性，所以紅黑樹的I/O漸進復(fù)雜度也為O(h)，效率明顯比B-Tree差很多。

　　上文還說過，B+Tree更適合外存索引，原因和內(nèi)節(jié)點出度d有關(guān)。從上面分析可以看到，d越大索引的性能越好，而出度的上限取決于節(jié)點內(nèi)key和data的大?。?/p>

　　= ( /( + + ))

　　floor表示向下取整。由于B+Tree內(nèi)節(jié)點去掉了data域，因此可以擁有更大的出度，擁有更好的性能。

　　在MySQL中，索引屬于存儲引擎級別的概念，不同存儲引擎對索引的實現(xiàn)方式是不同的，本文主要討論MyISAM和InnoDB兩個存儲引擎的索引實現(xiàn)方式。

　　MyISAM 非聚簇索引

　　MyISAM引擎使用B+Tree作為索引結(jié)構(gòu)，葉節(jié)點的data域存放的是數(shù)據(jù)記錄的地址。

　　這里設(shè)表一共有三列，假設(shè)我們以Col1為主鍵，則上圖是一個MyISAM表的主索引(Primary key)示意。可以看出MyISAM的索引文件僅僅保存數(shù)據(jù)記錄的地址。在MyISAM中，主索引和輔助索引(Secondary key)在結(jié)構(gòu)上沒有任何區(qū)別，只是主索引要求key是唯一的，而輔助索引的key可以重復(fù)。

　　同樣也是一棵B+樹，data域保存數(shù)據(jù)記錄的地址。因此，MyISAM中索引檢索的算法為首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，則取出其data域的值，然后以data域的值為地址，讀取相應(yīng)數(shù)據(jù)記錄。

　　MyISAM的索引方式也叫做“非聚集”的，之所以這么稱呼是為了與InnoDB的聚集索引區(qū)分。

　　InnoDB索引實現(xiàn)

　　雖然InnoDB也使用B+Tree作為索引結(jié)構(gòu)，但具體實現(xiàn)方式卻與MyISAM截然不同。

　　第一個重大區(qū)別是InnoDB的數(shù)據(jù)文件本身就是索引文件。從上文知道，MyISAM索引文件和數(shù)據(jù)文件是分離的，索引文件僅保存數(shù)據(jù)記錄的地址。而在InnoDB中，表數(shù)據(jù)文件本身就是按B+Tree組織的一個索引結(jié)構(gòu)，這棵樹的葉節(jié)點data域保存了完整的數(shù)據(jù)記錄。這個索引的key是數(shù)據(jù)表的主鍵，因此InnoDB表數(shù)據(jù)文件本身就是主索引。

　　主索引 (Primary Key)

　　InnoDB主索引(同時也是數(shù)據(jù)文件)可以看到葉節(jié)點包含了完整的數(shù)據(jù)記錄。這種索引叫做聚集索引。因為InnoDB的數(shù)據(jù)文件本身要按主鍵聚集，所以InnoDB要求表必須有主鍵(MyISAM可以沒有)，如果沒有顯式指定，則MySQL系統(tǒng)會自動選擇一個可以唯一標(biāo)識數(shù)據(jù)記錄的列作為主鍵，如果不存在這種列，則MySQL自動為InnoDB表生成一個隱含字段作為主鍵，這個字段長度為6個字節(jié)，類型為長整型。

　　輔助索引(Secondary Key)

　　第二個與MyISAM索引的不同是InnoDB的輔助索引data域存儲相應(yīng)記錄主鍵的值而不是地址。換句話說，InnoDB的所有輔助索引都引用主鍵作為data域。

　　這里以英文字符的ASCII碼作為比較準則。聚集索引這種實現(xiàn)方式使得按主鍵的搜索十分高效，但是輔助索引搜索需要檢索兩遍索引：首先檢索輔助索引獲得主鍵，然后用主鍵到主索引中檢索獲得記錄。

　　了解不同存儲引擎的索引實現(xiàn)方式對于正確使用和優(yōu)化索引都非常有幫助，例如知道了InnoDB的索引實現(xiàn)后，就很容易明白為什么不建議使用過長的字段作為主鍵，因為所有輔助索引都引用主索引，過長的主索引會令輔助索引變得過大。

　　再例如，用非單調(diào)的字段作為主鍵在InnoDB中不是個好主意，因為InnoDB數(shù)據(jù)文件本身是一棵B+Tree，非單調(diào)的主鍵會造成在插入新記錄時數(shù)據(jù)文件為了維持B+Tree的特性而頻繁的分裂調(diào)整，十分低效，而使用自增字段作為主鍵則是一個很好的選擇。

以上是“MySQL使用B樹的原因有哪些”這篇文章的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對大家有幫助，更多相關(guān)知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細節(jié)

MySQL使用B樹的原因有哪些

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽