溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何讀懂HugePages的原理

發(fā)布時(shí)間:2022-01-07 17:20:07 來源:億速云 閱讀:192 作者:柒染 欄目:系統(tǒng)運(yùn)維

如何讀懂HugePages的原理,針對這個(gè)問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡單易行的方法。

在介紹 HugePages 之前,我們先來回顧一下 Linux 下 虛擬內(nèi)存 與 物理內(nèi)存 之間的關(guān)系。

  • 物理內(nèi)存:也就是安裝在計(jì)算機(jī)中的內(nèi)存條,比如安裝了 2GB 大小的內(nèi)存條,那么物理內(nèi)存地址的范圍就是 0 ~ 2GB。

  • 虛擬內(nèi)存:虛擬的內(nèi)存地址。由于 CPU 只能使用物理內(nèi)存地址,所以需要將虛擬內(nèi)存地址轉(zhuǎn)換為物理內(nèi)存地址才能被 CPU 使用,這個(gè)轉(zhuǎn)換過程由  MMU(Memory Management Unit,內(nèi)存管理單元) 來完成。在 32 位的操作系統(tǒng)中,虛擬內(nèi)存空間大小為 0 ~ 4GB。

我們通過 圖1 來描述虛擬內(nèi)存地址轉(zhuǎn)換成物理內(nèi)存地址的過程:

如何讀懂HugePages的原理

如 圖1 所示,頁表 保存的是虛擬內(nèi)存地址與物理內(nèi)存地址的映射關(guān)系,MMU 從 頁表 中找到虛擬內(nèi)存地址所映射的物理內(nèi)存地址,然后把物理內(nèi)存地址提交給  CPU,這個(gè)過程與 Hash 算法相似。

內(nèi)存映射是以內(nèi)存頁作為單位的,通常情況下,一個(gè)內(nèi)存頁的大小為 4KB(如圖1所示),所以稱為 分頁機(jī)制。

一、內(nèi)存映射

我們來看看在 64 位的 Linux 系統(tǒng)中(英特爾 x64 CPU),虛擬內(nèi)存地址轉(zhuǎn)換成物理內(nèi)存地址的過程,如圖2:

如何讀懂HugePages的原理

從圖2可以看出,Linux 只使用了 64 位虛擬內(nèi)存地址的前 48 位(0 ~ 47位),并且 Linux 把這 48 位虛擬內(nèi)存地址分為 5  個(gè)部分,如下:

  • PGD索引:39 ~ 47 位(共9個(gè)位),指定在 頁全局目錄(PGD,Page Global Directory)中的索引。

  • PUD索引:30 ~ 38 位(共9個(gè)位),指定在 頁上級目錄(PUD,Page Upper Directory)中的索引。

  • PMD索引:21 ~ 29 位(共9個(gè)位),指定在 頁中間目錄(PMD,Page Middle Directory)中的索引。

  • PTE索引:12 ~ 20 位(共9個(gè)位),指定在 頁表(PT,Page Table)中的索引。

  • 偏移量:0 ~ 11 位(共12個(gè)位),指定在物理內(nèi)存頁中的偏移量。

把 圖1 中的 頁表 分為 4 級:頁全局目錄、頁上級目錄、頁中間目錄 和 頁表 目的是為了減少內(nèi)存消耗(思考下為什么可以減少內(nèi)存消耗)。

注意:頁全局目錄、頁上級目錄、頁中間目錄 和 頁表 都占用一個(gè) 4KB 大小的物理內(nèi)存頁,由于 64 位內(nèi)存地址占用 8 個(gè)字節(jié),所以一個(gè) 4KB  大小的物理內(nèi)存頁可以容納 512 個(gè) 64 位內(nèi)存地址。

另外,CPU 有個(gè)名為 CR3 的寄存器,用于保存 頁全局目錄 的起始物理內(nèi)存地址(如圖2所示)。所以,虛擬內(nèi)存地址轉(zhuǎn)換成物理內(nèi)存地址的過程如下:

  • 從 CR3 寄存器中獲取 頁全局目錄 的物理內(nèi)存地址,然后以虛擬內(nèi)存地址的 39 ~ 47 位作為索引,從 頁全局目錄 中讀取到 頁上級目錄  的物理內(nèi)存地址。

  • 以虛擬內(nèi)存地址的 30 ~ 38 位作為索引,從 頁上級目錄 中讀取到 頁中間目錄 的物理內(nèi)存地址。

  • 以虛擬內(nèi)存地址的 21 ~ 29 位作為索引,從 頁中間目錄 中讀取到 頁表 的物理內(nèi)存地址。

  • 以虛擬內(nèi)存地址的 12 ~ 20 位作為索引,從 頁表 中讀取到 物理內(nèi)存頁 的物理內(nèi)存地址。

  • 以虛擬內(nèi)存地址的 0 ~ 11 位作為 物理內(nèi)存頁 的偏移量,得到最終的物理內(nèi)存地址。

二、HugePages 原理

上面介紹了以 4KB 的內(nèi)存頁作為內(nèi)存映射的單位,但有些場景我們希望使用更大的內(nèi)存頁作為映射單位(如  2MB)。使用更大的內(nèi)存頁作為映射單位有如下好處:

  • 減少 TLB(Translation Lookaside Buffer) 的失效情況。

  • 減少 頁表 的內(nèi)存消耗。

  • 減少 PageFault(缺頁中斷)的次數(shù)。

Tips:TLB 是一塊高速緩存,TLB 緩存虛擬內(nèi)存地址與其映射的物理內(nèi)存地址。MMU 首先從 TLB  查找內(nèi)存映射的關(guān)系,如果找到就不用回溯查找頁表。否則,只能根據(jù)虛擬內(nèi)存地址,去頁表中查找其映射的物理內(nèi)存地址。

因?yàn)橛成涞膬?nèi)存頁越大,所需要的 頁表 就越小(很容易理解);頁表 越小,TLB 失效的情況就越少。

使用大于 4KB 的內(nèi)存頁作為內(nèi)存映射單位的機(jī)制叫 HugePages,目前 Linux 常用的 HugePages 大小為 2MB 和 1GB,我們以  2MB 大小的內(nèi)存頁作為例子。

要映射更大的內(nèi)存頁,只需要增加偏移量部分,如 圖3 所示:

如何讀懂HugePages的原理

如 圖3 所示,現(xiàn)在把偏移量部分?jǐn)U展到 21 位(頁表部分被覆蓋了,21 位能夠表示的大小范圍為 0 ~ 2MB),所以 頁中間目錄 直接指向映射的  物理內(nèi)存頁地址。

這樣,就可以減少 頁表 部分的內(nèi)存消耗。由于內(nèi)存映射關(guān)系變少,所以 TLB 失效的情況也會減少。

三、HugePages 使用

了解了 HugePages 的原理后,我們來介紹一下怎么使用 HugePages。

HugePages 的使用不像普通內(nèi)存申請那么簡單,而是需要借助 Hugetlb文件系統(tǒng) 來創(chuàng)建,下面將會介紹 HugePages 的使用步驟:

1. 掛載 Hugetlb 文件系統(tǒng)

Hugetlb 文件系統(tǒng)是專門為 HugePages 而創(chuàng)造的,我們可以通過以下命令來掛載一個(gè) Hugetlb 文件系統(tǒng):

$ mkdir /mnt/huge $ mount none /mnt/huge -t hugetlbfs

執(zhí)行完上面的命令后,我們就在 /mnt/huge 目錄下掛載了 Hugetlb 文件系統(tǒng)。

2. 聲明可用 HugePages 數(shù)量

要使用 HugePages,首先要向內(nèi)核聲明可以使用的 HugePages 數(shù)量。/proc/sys/vm/nr_hugepages  文件保存了內(nèi)核可以使用的 HugePages 數(shù)量,我們可以使用以下命令設(shè)置新的可用 HugePages 數(shù)量:

$ echo 20 > /proc/sys/vm/nr_hugepages

上面命令設(shè)置了可用的 HugePages 數(shù)量為 20 個(gè)(也就是 20 個(gè) 2MB 的內(nèi)存頁)。

3. 編寫申請 HugePages 的代碼

要使用 HugePages,必須使用 mmap 系統(tǒng)調(diào)用把虛擬內(nèi)存映射到 Hugetlb 文件系統(tǒng)中的文件,如下代碼:

#include <fcntl.h> #include <sys/mman.h> #include <errno.h> #include <stdio.h>  #define MAP_LENGTH (10*1024*1024) // 10MB  int main() {     int fd;     void * addr;      // 1. 創(chuàng)建一個(gè) Hugetlb 文件系統(tǒng)的文件     fd = open("/mnt/huge/hugepage1", O_CREAT|O_RDWR);     if (fd < 0) {         perror("open()");         return -1;     }      // 2. 把虛擬內(nèi)存映射到 Hugetlb 文件系統(tǒng)的文件中     addr = mmap(0, MAP_LENGTH, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0);     if (addr == MAP_FAILED) {         perror("mmap()");         close(fd);         unlink("/mnt/huge/hugepage1");         return -1;     }      strcpy(addr, "This is HugePages example...");     printf("%s\n", addr);      // 3. 使用完成后,解除映射關(guān)系     munmap(addr, MAP_LENGTH);     close(fd); 35    unlink("/mnt/huge/hugepage1"); 36 37    return 0; 38 }

編譯上面的代碼并且執(zhí)行,如果沒有問題,將會輸出以下信息:

This is HugePages example...

關(guān)于如何讀懂HugePages的原理問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI