Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

發(fā)布時(shí)間：2021-08-09 15:21:52 來源：億速云閱讀：147 作者：Leah 欄目：系統(tǒng)運(yùn)維

這篇文章給大家介紹Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

所謂thread local變量，就是對于同一個(gè)變量，每個(gè)線程都有自己的一份，對該變量的訪問是線程隔離的，它們之間不會(huì)相互影響，所以也就不會(huì)有各種多線程問題。

正確的使用thread local變量，能極大的簡化多線程開發(fā)。所以不管是c/c++/rust，還是java/c#等，都內(nèi)置了對thread local變量的支持。

但你知道嗎，不僅是在編程語言中，在linux內(nèi)核中，也有一個(gè)類似的機(jī)制，用來實(shí)現(xiàn)類似的目的，它叫做percpu變量。

percpu變量，顧名思義，就是對于同一個(gè)變量，每個(gè)cpu都有自己的一份，它可以被用來存放一些cpu獨(dú)有的數(shù)據(jù)，比如cpu的id，cpu上正在運(yùn)行的線程等等，因該機(jī)制可以非常方便的解決一些特定問題，所以在內(nèi)核編程中被廣泛使用。

好奇的你們肯定都在問，它是怎么實(shí)現(xiàn)的呢?

我們先不管細(xì)節(jié)，先來看一張圖，這樣從全局的角度來了解下它的實(shí)現(xiàn)。

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

從上圖中我們可以看到，各種源文件中通過DEFINE_PER_CPU的方式，定義了很多percpu變量，這些變量根據(jù)vmlinux.lds.S中的相關(guān)定義，會(huì)被linker聚合在一起，然后放到最終vmlinux文件的，一個(gè)名叫.data..percpu的section里。

這些變量的地址也是被特殊處理過的，它們從零開始依次遞增，這樣一個(gè)變量的地址，就是該變量在整個(gè)vmlinux的.data..percpu區(qū)里的位置，有了這個(gè)位置，然后再知道某個(gè)cpu的percpu內(nèi)存塊的起始地址，就可以很方便的計(jì)算出該cpu對應(yīng)的該變量的運(yùn)行時(shí)內(nèi)存地址。

linux內(nèi)核在啟動(dòng)時(shí)，會(huì)先把vmlinux文件加載到內(nèi)存中，然后根據(jù)cpu的個(gè)數(shù)，為每個(gè)cpu都分配一塊用于存放percpu變量的內(nèi)存區(qū)域，之后把vmlinux中的.data..percpu section里的內(nèi)容，拷貝到各個(gè)cpu的percpu內(nèi)存塊的static區(qū)域里，最后將各percpu內(nèi)存塊的起始地址放到對應(yīng)cpu的gs寄存器里。

到這里有關(guān)percpu變量的初始化工作就已經(jīng)結(jié)束了。

當(dāng)我們在訪問percpu變量時(shí)，只需要將gs寄存器里的地址，加上我們想要訪問的percpu變量的地址，就能得到在該cpu上，該percpu變量真實(shí)的內(nèi)存地址。

有了這個(gè)地址，我們就可以方便的操作這個(gè)percpu變量了。

上圖中重點(diǎn)描述的是那些，在內(nèi)核編譯期就已經(jīng)確定的percpu變量，這些變量是靜態(tài)的，是不會(huì)隨著時(shí)間的推移而動(dòng)態(tài)的增加或減少的，所以它們在內(nèi)核初始化時(shí)，就直接被拷貝到了各個(gè)percpu內(nèi)存塊的static區(qū)。

除了這種靜態(tài)percpu變量，還有另外兩種percpu變量。

其中一種是內(nèi)核模塊中的靜態(tài)percpu變量，它雖然也是在編譯期就能確定的，但由于內(nèi)核模塊動(dòng)態(tài)加載的特性，它不是完全靜態(tài)的，內(nèi)核為這種percpu變量在percpu內(nèi)存塊中單獨(dú)開辟了一個(gè)區(qū)域，叫reserved區(qū)，當(dāng)內(nèi)核模塊被加載到內(nèi)存時(shí)，其靜態(tài)percpu變量就會(huì)在這個(gè)區(qū)域分配內(nèi)存。

另外一種percpu變量就是純動(dòng)態(tài)的percpu變量，它是在運(yùn)行時(shí)動(dòng)態(tài)分配的，它使用的內(nèi)存是上圖中的dynamic區(qū)。

static區(qū)的大小是在編譯期就算好的，是固定不變的，reserved區(qū)也是固定不變的，但其大小是預(yù)估的，dynamic區(qū)是可以動(dòng)態(tài)增加的。

雖然這三種percpu變量的分配方式不同，但它們的內(nèi)在機(jī)制本質(zhì)上都是一樣的，所以這里我們只講內(nèi)核里的靜態(tài)percpu變量，對其他兩種方式感興趣的同學(xué)，可以參考內(nèi)核源碼自己研究下。

下面我們就用一個(gè)具體的例子，來看下percpu變量到底是怎么實(shí)現(xiàn)的。

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

上圖中的current表示要獲取當(dāng)前線程對象，它其實(shí)是一個(gè)宏，具體定義如下：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

由上可見，current獲取的當(dāng)前線程對象其實(shí)是一個(gè)名為current_task的percpu變量。

在get_current方法中，通過this_cpu_read_stable方法，獲取屬于當(dāng)前cpu的current_task。

this_cpu_read_stable方法其實(shí)也是一個(gè)宏，它全部展開后是下面這個(gè)樣子：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

在這里，我們先不講宏展開后各語句到底是什么意思，我們先跑個(gè)題。

讀過linux內(nèi)核源碼的同學(xué)都知道，在linux內(nèi)核中，宏使用的非常多，且比較復(fù)雜，如果我們對自己進(jìn)行宏展開的正確性沒有信心的話，可以使用下面我介紹的這個(gè)方式，使用它，你可以非常容易的得到任意文件宏展開后的結(jié)果。

我們知道，一個(gè)程序的構(gòu)建分為預(yù)處理、編譯、匯編、鏈接這些階段，而宏展開就發(fā)生在預(yù)處理階段。

各個(gè)階段在完成后，一般都會(huì)生成一個(gè)臨時(shí)文件給下一階段使用，這些臨時(shí)文件默認(rèn)是不會(huì)保存到磁盤上的，但我們可以通過指定一些參數(shù)，告知gcc幫我們保留下來這些臨時(shí)文件，這樣我們就可以查看各個(gè)階段的生成內(nèi)容了。

依據(jù)該思路，我們只要在編譯比如上面的net/socket.c文件時(shí)，加上這些參數(shù)，我們就能得到這些臨時(shí)文件，也就可以查看其預(yù)處理之后的宏展開是什么樣子的了。

但是，如果只是為了查看單個(gè)文件的宏展開后結(jié)果，就保存下整個(gè)內(nèi)核中，所有源文件編譯時(shí)的臨時(shí)文件，這是非常耗時(shí)且不劃算的，那有沒有辦法可以想查看哪個(gè)文件的宏展開，就單獨(dú)編譯一次那個(gè)文件呢?

還真有。

其實(shí)說起來該方法也很簡單，我們只需要知道編譯某個(gè)文件時(shí)使用的編譯命令是什么，這樣當(dāng)我們需要查看這個(gè)文件的宏展開時(shí)，再使用這個(gè)編譯命令，且加上一些特定的參數(shù)，再編譯一遍，這樣就能得到該文件編譯過程中，各階段的臨時(shí)文件了。

那如何找到編譯各個(gè)源文件時(shí)使用的命令呢?

這個(gè)內(nèi)核其實(shí)已經(jīng)幫我們做好了。

當(dāng)我們在編譯內(nèi)核時(shí)，內(nèi)核中每個(gè)文件被編譯時(shí)使用的命令，都會(huì)保存到一個(gè)對應(yīng)的臨時(shí)文件里，比如上面net/socket.c文件的編譯命令就保存在下面的文件里：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

net/socket.c的編譯命令就是上圖中的第一行，從gcc開始到該行結(jié)束的部分。

這個(gè)編譯命令夠復(fù)雜吧，但我們不用管，我們只用知道，使用該命令，就可以將net/socket.c編譯成net/socket.o。

現(xiàn)在我們在該命令的基礎(chǔ)上，加上-save-temps=obj參數(shù)，告知gcc在編譯時(shí)保留下各階段的臨時(shí)文件，具體操作流程如下：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

由上可見，加上-save-temps=obj參數(shù)后，該編譯過程多生成兩個(gè)文件，而net/socket.i就是gcc預(yù)處理之后的文件。

打開net/socket.i，并找到我們需要的get_current方法：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

看上圖中的選中部分，其內(nèi)容和我們自己宏展開后的結(jié)果，是完全一樣的。

這個(gè)方法還不錯(cuò)吧。

當(dāng)然，我們還可以通過反編譯的方式，進(jìn)一步確認(rèn)下宏展開后確實(shí)是這樣：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

由上可見，宏展開后其實(shí)主要就是一條mov指令，其中current_task變量地址的值為0x16d00。

該指令的意思是，將gs寄存器里的地址，和current_task的地址相加，然后將相加后地址指向的內(nèi)存空間里的值，移動(dòng)到rax里。

這個(gè)和我們上面提到的，percpu的實(shí)現(xiàn)機(jī)制是一致的。

好，我們回到上文中斷的部分，來繼續(xù)看下get_current方法里宏展開后各語句的意思。

上文講到，get_current方法里的this_cpu_read_stable方法宏展開后主要是一條asm語句，可能有些同學(xué)對該語句不太熟悉，它其實(shí)并不是c語言標(biāo)準(zhǔn)規(guī)范里的語法，而是gcc對c標(biāo)準(zhǔn)的擴(kuò)展，通過asm語句，我們可以在c中直接執(zhí)行匯編指令。

有關(guān)其詳細(xì)的語法規(guī)則，可以參考以下鏈接：

https://gcc.gnu.org/onlinedocs/gcc/Using-Assembly-Language-with-C.html#Using-Assembly-Language-with-C

不關(guān)心細(xì)節(jié)的同學(xué)可以不用去看具體語法，我們只要知道該asm語句的意思是，獲取current_task的地址，將該地址與gs段寄存器里的基礎(chǔ)地址值相加，得到一個(gè)最終的地址，然后通過mov指令，將該最終地址指向的內(nèi)存的值，放到pfo_val__變量里。

該指令執(zhí)行完畢后，pfo_val__變量里存放的值，就是當(dāng)前cpu執(zhí)行的當(dāng)前線程對象struct task_struct的地址，也就是說，pfo_val__變量為當(dāng)前正在執(zhí)行的線程對象的指針。

那為什么通過這種方式，得到的就是當(dāng)前cpu正在執(zhí)行的當(dāng)前線程對象的指針呢?

這個(gè)其實(shí)上文我們已經(jīng)講過了，關(guān)鍵點(diǎn)在于gs寄存器中存放的是當(dāng)前cpu的percpu內(nèi)存塊的起始地址，而current_task的地址表示的又是，current_task變量在任意percpu內(nèi)存塊的位置，所以這兩個(gè)地址一相加，得到的自然就是當(dāng)前cpu的current_task變量的當(dāng)前值了。

理論上是如此，不過我們還是通過源碼角度再看下。

首先我們來看下current_task變量的定義：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

DEFINE_PER_CPU還是一個(gè)宏，其展開后如下：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

在宏展開后的變量定義中，最重要的是指定該變量的section為.data..percpu。

我們再看什么地方使用了這個(gè)section：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

由上圖可見，PERCPU_INPUT宏里使用了該section，而PERCPU_INPUT宏又被下面的PERCPU_VADDR宏使用。

我們再來看下PERCPU_VADDR宏在哪里使用：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

由上可見PERCPU_VADDR宏又在vmlinux.lds.S文件中使用。

vmlinux.lds.S是一個(gè)鏈接腳本，在鏈接階段，linker會(huì)根據(jù)vmlinux.lds.S里的定義，把相同section的內(nèi)核變量或方法，聚合起來，放到最終輸出文件vmlinux的對應(yīng)section里。

比如上面的PERCPU_VADDR宏就是說，把所有源文件中的屬于各種.data..percpu section的變量提取出來，然后依次放入到輸出文件vmlinux的.data..percpu的section中。

上圖中需要注意的是，在調(diào)用PERCPU_VADDR時(shí)，傳入的vaddr參數(shù)是0，它表示vmlinux中.data..percpu section里存放的變量地址是從0開始，依次遞增的。

這個(gè)我們之前也說過，該地址是用來表示該變量在.data..percpu section里的位置，也就是說，該地址表示的是該變量在運(yùn)行時(shí)的，各cpu的percpu內(nèi)存塊里的位置。

vmlinux里.data..percpu section存放的變量地址是從0開始的，這個(gè)我們可以通過__per_cpu_start的值得到確認(rèn)：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

另一個(gè)需要注意的是，__per_cpu_load的地址值是正常的內(nèi)核編譯地址，它用來指定，當(dāng)vmlinux被加載到內(nèi)存后，vmlinux里的.data..percpu section所處內(nèi)存的位置：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

綜上可知，PERCPU_VADDR宏的作用是，將所有源文件中屬于各個(gè).data..percpu section的變量聚合起來，然后依次放到輸出文件vmlinux的.data..percpu section中，且section中的變量地址是從0開始的，這樣這些變量的地址就表示其所處的該section的位置。

另外，PERCPU_VADDR宏里還定義了三個(gè)地址值：

__per_cpu_load表示當(dāng)vmlinux被加載到內(nèi)存時(shí)，vmlinux中的.data..percpu section所處內(nèi)存位置。__per_cpu_start的值是0。__per_cpu_end的值是vmlinux中的.data..percpu section的結(jié)束地址。

這樣通過__per_cpu_load就可以知道當(dāng)vmlinux被加載到內(nèi)存時(shí)，.data..percpu section所處位置，通過__per_cpu_end - __per_cpu_start，就可以知道.data..percpu section的大小。

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

由上可見，內(nèi)核中的percpu變量占用內(nèi)存大小差不多是170KiB。

到這里，有關(guān)percpu變量的所有準(zhǔn)備工作都已做好，下面我們來看下，在內(nèi)核vmlinux文件啟動(dòng)過程中，它是怎么利用這些信息，為各個(gè)cpu分配percpu內(nèi)存塊，初始化內(nèi)存塊數(shù)據(jù)，及設(shè)置內(nèi)存塊地址到gs寄存器的。

通過搜索__per_cpu_load, __per_cpu_start, __per_cpu_end我們可以知道，這些內(nèi)存分配工作是在setup_per_cpu_areas方法里完成的：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

該方法的文件路徑和大致樣子就如上圖所示，為了方便查看，我刪除了很多不必要的代碼。

由于該方法的邏輯非常復(fù)雜，這里我們就不詳細(xì)講解每行代碼了，只看些關(guān)鍵部分。

該方法及相關(guān)方法的主要作用是為每個(gè)cpu分配自己的percpu內(nèi)存塊：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

然后將vmlinux的.data..percpu section拷貝到各個(gè)cpu的percpu內(nèi)存塊里：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

這里的ai->static_size就是__per_cpu_end減去__per_cpu_start的值。

最后設(shè)置各cpu的percpu內(nèi)存塊的起始地址值到各自cpu的gs寄存器里：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

上圖中需要注意的是gs寄存器的設(shè)置方式，我們知道，在x86_64模式下，段寄存器CS, DS, ES, SS基本上是不用了，F(xiàn)S和GS雖然還在用，但使用傳統(tǒng)的mov指令等方式設(shè)置FS和GS值，支持的地址空間只能到32位，如果想要支持到64位，必須通過寫MSR的形式來完成。

這個(gè)在AMD官方文檔里有詳細(xì)說明：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

在設(shè)置完gs寄存器的值后，我們再回頭來想想，內(nèi)核是如何獲取當(dāng)前cpu的current_task變量的地址值的呢：

mov %gs:0x16d00, %rax

現(xiàn)在這行代碼的意思你就完全明白了吧。

到這里，percpu部分的內(nèi)容就已經(jīng)完全講完了，但有關(guān)如何獲取當(dāng)前cpu正在運(yùn)行的當(dāng)前線程的current_task值，還有一點(diǎn)沒講到。

我們知道，一個(gè)cpu是可以運(yùn)行多個(gè)線程的，如果想要讓current_task這個(gè)percpu變量，指向當(dāng)前cpu的當(dāng)前線程，那在線程切換的時(shí)候必須要更新一下current_task：

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

關(guān)于Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

Linux內(nèi)核中怎么實(shí)現(xiàn)Percpu變量

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽