您好,登錄后才能下訂單哦!
如何讀懂HugePages的原理,針對這個(gè)問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡單易行的方法。
在介紹 HugePages 之前,我們先來回顧一下 Linux 下 虛擬內(nèi)存 與 物理內(nèi)存 之間的關(guān)系。
物理內(nèi)存:也就是安裝在計(jì)算機(jī)中的內(nèi)存條,比如安裝了 2GB 大小的內(nèi)存條,那么物理內(nèi)存地址的范圍就是 0 ~ 2GB。
虛擬內(nèi)存:虛擬的內(nèi)存地址。由于 CPU 只能使用物理內(nèi)存地址,所以需要將虛擬內(nèi)存地址轉(zhuǎn)換為物理內(nèi)存地址才能被 CPU 使用,這個(gè)轉(zhuǎn)換過程由 MMU(Memory Management Unit,內(nèi)存管理單元) 來完成。在 32 位的操作系統(tǒng)中,虛擬內(nèi)存空間大小為 0 ~ 4GB。
我們通過 圖1 來描述虛擬內(nèi)存地址轉(zhuǎn)換成物理內(nèi)存地址的過程:
如 圖1 所示,頁表 保存的是虛擬內(nèi)存地址與物理內(nèi)存地址的映射關(guān)系,MMU 從 頁表 中找到虛擬內(nèi)存地址所映射的物理內(nèi)存地址,然后把物理內(nèi)存地址提交給 CPU,這個(gè)過程與 Hash 算法相似。
內(nèi)存映射是以內(nèi)存頁作為單位的,通常情況下,一個(gè)內(nèi)存頁的大小為 4KB(如圖1所示),所以稱為 分頁機(jī)制。
我們來看看在 64 位的 Linux 系統(tǒng)中(英特爾 x64 CPU),虛擬內(nèi)存地址轉(zhuǎn)換成物理內(nèi)存地址的過程,如圖2:
從圖2可以看出,Linux 只使用了 64 位虛擬內(nèi)存地址的前 48 位(0 ~ 47位),并且 Linux 把這 48 位虛擬內(nèi)存地址分為 5 個(gè)部分,如下:
PGD索引:39 ~ 47 位(共9個(gè)位),指定在 頁全局目錄(PGD,Page Global Directory)中的索引。
PUD索引:30 ~ 38 位(共9個(gè)位),指定在 頁上級目錄(PUD,Page Upper Directory)中的索引。
PMD索引:21 ~ 29 位(共9個(gè)位),指定在 頁中間目錄(PMD,Page Middle Directory)中的索引。
PTE索引:12 ~ 20 位(共9個(gè)位),指定在 頁表(PT,Page Table)中的索引。
偏移量:0 ~ 11 位(共12個(gè)位),指定在物理內(nèi)存頁中的偏移量。
把 圖1 中的 頁表 分為 4 級:頁全局目錄、頁上級目錄、頁中間目錄 和 頁表 目的是為了減少內(nèi)存消耗(思考下為什么可以減少內(nèi)存消耗)。
注意:頁全局目錄、頁上級目錄、頁中間目錄 和 頁表 都占用一個(gè) 4KB 大小的物理內(nèi)存頁,由于 64 位內(nèi)存地址占用 8 個(gè)字節(jié),所以一個(gè) 4KB 大小的物理內(nèi)存頁可以容納 512 個(gè) 64 位內(nèi)存地址。
另外,CPU 有個(gè)名為 CR3 的寄存器,用于保存 頁全局目錄 的起始物理內(nèi)存地址(如圖2所示)。所以,虛擬內(nèi)存地址轉(zhuǎn)換成物理內(nèi)存地址的過程如下:
從 CR3 寄存器中獲取 頁全局目錄 的物理內(nèi)存地址,然后以虛擬內(nèi)存地址的 39 ~ 47 位作為索引,從 頁全局目錄 中讀取到 頁上級目錄 的物理內(nèi)存地址。
以虛擬內(nèi)存地址的 30 ~ 38 位作為索引,從 頁上級目錄 中讀取到 頁中間目錄 的物理內(nèi)存地址。
以虛擬內(nèi)存地址的 21 ~ 29 位作為索引,從 頁中間目錄 中讀取到 頁表 的物理內(nèi)存地址。
以虛擬內(nèi)存地址的 12 ~ 20 位作為索引,從 頁表 中讀取到 物理內(nèi)存頁 的物理內(nèi)存地址。
以虛擬內(nèi)存地址的 0 ~ 11 位作為 物理內(nèi)存頁 的偏移量,得到最終的物理內(nèi)存地址。
上面介紹了以 4KB 的內(nèi)存頁作為內(nèi)存映射的單位,但有些場景我們希望使用更大的內(nèi)存頁作為映射單位(如 2MB)。使用更大的內(nèi)存頁作為映射單位有如下好處:
減少 TLB(Translation Lookaside Buffer) 的失效情況。
減少 頁表 的內(nèi)存消耗。
減少 PageFault(缺頁中斷)的次數(shù)。
Tips:TLB 是一塊高速緩存,TLB 緩存虛擬內(nèi)存地址與其映射的物理內(nèi)存地址。MMU 首先從 TLB 查找內(nèi)存映射的關(guān)系,如果找到就不用回溯查找頁表。否則,只能根據(jù)虛擬內(nèi)存地址,去頁表中查找其映射的物理內(nèi)存地址。
因?yàn)橛成涞膬?nèi)存頁越大,所需要的 頁表 就越小(很容易理解);頁表 越小,TLB 失效的情況就越少。
使用大于 4KB 的內(nèi)存頁作為內(nèi)存映射單位的機(jī)制叫 HugePages,目前 Linux 常用的 HugePages 大小為 2MB 和 1GB,我們以 2MB 大小的內(nèi)存頁作為例子。
要映射更大的內(nèi)存頁,只需要增加偏移量部分,如 圖3 所示:
如 圖3 所示,現(xiàn)在把偏移量部分?jǐn)U展到 21 位(頁表部分被覆蓋了,21 位能夠表示的大小范圍為 0 ~ 2MB),所以 頁中間目錄 直接指向映射的 物理內(nèi)存頁地址。
這樣,就可以減少 頁表 部分的內(nèi)存消耗。由于內(nèi)存映射關(guān)系變少,所以 TLB 失效的情況也會減少。
了解了 HugePages 的原理后,我們來介紹一下怎么使用 HugePages。
HugePages 的使用不像普通內(nèi)存申請那么簡單,而是需要借助 Hugetlb文件系統(tǒng) 來創(chuàng)建,下面將會介紹 HugePages 的使用步驟:
1. 掛載 Hugetlb 文件系統(tǒng)
Hugetlb 文件系統(tǒng)是專門為 HugePages 而創(chuàng)造的,我們可以通過以下命令來掛載一個(gè) Hugetlb 文件系統(tǒng):
$ mkdir /mnt/huge $ mount none /mnt/huge -t hugetlbfs
執(zhí)行完上面的命令后,我們就在 /mnt/huge 目錄下掛載了 Hugetlb 文件系統(tǒng)。
2. 聲明可用 HugePages 數(shù)量
要使用 HugePages,首先要向內(nèi)核聲明可以使用的 HugePages 數(shù)量。/proc/sys/vm/nr_hugepages 文件保存了內(nèi)核可以使用的 HugePages 數(shù)量,我們可以使用以下命令設(shè)置新的可用 HugePages 數(shù)量:
$ echo 20 > /proc/sys/vm/nr_hugepages
上面命令設(shè)置了可用的 HugePages 數(shù)量為 20 個(gè)(也就是 20 個(gè) 2MB 的內(nèi)存頁)。
3. 編寫申請 HugePages 的代碼
要使用 HugePages,必須使用 mmap 系統(tǒng)調(diào)用把虛擬內(nèi)存映射到 Hugetlb 文件系統(tǒng)中的文件,如下代碼:
#include <fcntl.h> #include <sys/mman.h> #include <errno.h> #include <stdio.h> #define MAP_LENGTH (10*1024*1024) // 10MB int main() { int fd; void * addr; // 1. 創(chuàng)建一個(gè) Hugetlb 文件系統(tǒng)的文件 fd = open("/mnt/huge/hugepage1", O_CREAT|O_RDWR); if (fd < 0) { perror("open()"); return -1; } // 2. 把虛擬內(nèi)存映射到 Hugetlb 文件系統(tǒng)的文件中 addr = mmap(0, MAP_LENGTH, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0); if (addr == MAP_FAILED) { perror("mmap()"); close(fd); unlink("/mnt/huge/hugepage1"); return -1; } strcpy(addr, "This is HugePages example..."); printf("%s\n", addr); // 3. 使用完成后,解除映射關(guān)系 munmap(addr, MAP_LENGTH); close(fd); 35 unlink("/mnt/huge/hugepage1"); 36 37 return 0; 38 }
編譯上面的代碼并且執(zhí)行,如果沒有問題,將會輸出以下信息:
This is HugePages example...
關(guān)于如何讀懂HugePages的原理問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。