溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Linux內(nèi)存管理之內(nèi)存回收的示例分析

發(fā)布時(shí)間:2021-12-24 14:17:03 來源:億速云 閱讀:178 作者:小新 欄目:系統(tǒng)運(yùn)維

這篇文章主要介紹了Linux內(nèi)存管理之內(nèi)存回收的示例分析,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

1.1 內(nèi)存回收的目標(biāo)


不是所有的物理內(nèi)存都可以參與回收的,比如要是把內(nèi)核代碼段的內(nèi)存給回收了,系統(tǒng)就無法正常運(yùn)行了,一般內(nèi)核代碼段,數(shù)據(jù)段,內(nèi)核kmalloc()出來的內(nèi)存,內(nèi)核線程占用的內(nèi)存等都是不可以回收的,除此之外的內(nèi)存都是我們要回收的目標(biāo)。

回收的內(nèi)存主要是由用戶態(tài)進(jìn)程占用的內(nèi)存和內(nèi)核自己在運(yùn)行時(shí)所使用的一些內(nèi)存組成。用戶態(tài)進(jìn)程占用的內(nèi)存主要是我們常見的進(jìn)程代碼段,數(shù)據(jù)段,堆棧等,內(nèi)核運(yùn)行使用的內(nèi)存主要是磁盤高速緩存(如索引節(jié)點(diǎn),目錄項(xiàng)高速緩存),頁面高速緩存(訪問文件時(shí)系統(tǒng)生成的頁面cache),mmap()文件時(shí)所用的有名映射所使用的物理內(nèi)存。后面的這些內(nèi)才能雖然也是內(nèi)核管理使用的內(nèi)存,但對(duì)其進(jìn)行回收的時(shí)候,頂多影響內(nèi)核的性能,而不會(huì)導(dǎo)致系統(tǒng)無法運(yùn)行。

1.2 內(nèi)存回收的時(shí)機(jī)


1、內(nèi)存緊缺回收:grow_buffers()無法獲取緩沖區(qū)頁,alloc_page_buffers()無法獲取頁臨時(shí)緩沖區(qū)首部,__alloc_pages()無法再給定的內(nèi)存區(qū)分配一組連續(xù)頁框。

2、周期回收:必要時(shí),激活相應(yīng)內(nèi)核線程執(zhí)行內(nèi)存回收算法:kswapd()內(nèi)核線程,檢查某個(gè)內(nèi)存管理區(qū)的空閑頁框數(shù)是否已低于pages_high值的標(biāo)高。events內(nèi)核線程,一個(gè)工作者線程,回收位于高速內(nèi)存緩存中的所有空閑的slab。

1.3 內(nèi)存回收的策略


1.3.1 內(nèi)存回收的分類

內(nèi)存回收主要是要回收兩類內(nèi)存:最近最少使用的內(nèi)存以及高速內(nèi)存緩存中空閑的slab。前者主要包括用戶態(tài)進(jìn)程的代碼段,數(shù)據(jù)段,堆棧,文件映射內(nèi)存,頁高速內(nèi)存,后者主要包括磁盤高速緩存及一些其他的空閑內(nèi)存高速緩存。

最近最少使用內(nèi)存存放在一個(gè)lru鏈表上,每個(gè)內(nèi)存管理區(qū)zone都有一個(gè)lru結(jié)構(gòu),里面含有active和inactive兩個(gè)鏈表頭,active鏈表上記錄當(dāng)前的活躍的報(bào)文,inactive用來記錄當(dāng)前不活躍的報(bào)文。一般我們回首lru上的inactive鏈表上的內(nèi)存頁。同時(shí),在內(nèi)存回收的過程中,會(huì)從active鏈表向inactive鏈表上補(bǔ)充對(duì)應(yīng)的最近最少使用內(nèi)存頁。每個(gè)內(nèi)存頁的內(nèi)核數(shù)據(jù)結(jié)構(gòu)page上有一個(gè)標(biāo)記位PG_referenced,該標(biāo)記位使得一個(gè)頁從"不活動(dòng)“狀態(tài)轉(zhuǎn)為”活動(dòng)“狀態(tài)的時(shí)間加倍,反之亦然。比如:一個(gè)頁面可能1個(gè)小時(shí)內(nèi)沒人反應(yīng),不能因?yàn)榕既坏囊淮卧L問就認(rèn)為它是活躍的,得兩次才認(rèn)為它是一個(gè)活躍的頁面。下面是頁面在inactive和active鏈表上轉(zhuǎn)移的變化圖。

Linux內(nèi)存管理之內(nèi)存回收的示例分析

Slab內(nèi)存高速緩存中經(jīng)常會(huì)有一些完全空閑的slab,這些是我們回收的另一個(gè)目標(biāo)。

1.3.2 反向映射

對(duì)于可以通過用戶態(tài)線性地址空間可以直接訪問到的物理頁來說,可以分為匿名頁和文件映射頁兩類,匿名頁指的是不與具體文件對(duì)應(yīng)映射的物理頁,比如代碼段,堆棧等使用的物理頁,映射頁指的是映射到文件某一部分的物理頁,通常使用mmap()來進(jìn)行相關(guān)的映射。

對(duì)于匿名映射和文件映射來說,可能一段物理內(nèi)存會(huì)在多個(gè)進(jìn)程的頁表中使用,比如對(duì)于匿名映射,fork()一個(gè)進(jìn)程,一開始會(huì)共用父進(jìn)程的物理內(nèi)存,對(duì)于文件映射,多個(gè)進(jìn)程可能同時(shí)映射到一個(gè)文件的同一部分文件。所以在頁面回收時(shí),需要將該頁面在所有的頁表引用中給去除掉。這種手段稱為反向映射。想要找到使用這些物理頁的頁表項(xiàng)的話,需要先找到引用他們的頁表,而頁表的地址記錄在每個(gè)進(jìn)程的內(nèi)存描述符里面,同時(shí)用來描述進(jìn)程用戶態(tài)地址空間的每個(gè)vm_area_struct都記錄了一個(gè)指針,指向所屬的內(nèi)存描述符。因此只要通過物理頁找到引用他們的vm_area_struct,就能找到內(nèi)存描述符,從而找到頁表,找到對(duì)應(yīng)的頁表項(xiàng)。

匿名頁的反向映射:

對(duì)于匿名頁來說,每個(gè)頁面的mapping字段指向一個(gè)anon_vma描述符,anon_vma描述符中存在一個(gè)鏈表頭,所有引用該頁面的vm_area_struct都存放在里面。page,anon_vma,vm_area_struct這些數(shù)據(jù)結(jié)構(gòu)的關(guān)系如下圖所示:

Linux內(nèi)存管理之內(nèi)存回收的示例分析

對(duì)于匿名頁來說,其被別的地址空間引用,基本上都是因?yàn)閒ork()進(jìn)程時(shí),子進(jìn)程復(fù)制父進(jìn)程的地址空間,從而被引用的。各個(gè)vm_area_struct加入anon_vma的鏈表的過程如下:

假設(shè)當(dāng)前一個(gè)進(jìn)程p,后來fork出一個(gè)子進(jìn)程c。

1、當(dāng)進(jìn)程P為某個(gè)vm_area_struct加入***個(gè)物理頁時(shí),比如說發(fā)生了缺頁異常,動(dòng)態(tài)分配一個(gè)anon_vma的數(shù)據(jù)結(jié)構(gòu),將vm_area_struct加入該anon_vma所管理的鏈表,vm_area_struct結(jié)構(gòu)中的anon_vma字段指向該anon_vma,同時(shí)把該頁面中的mapping字段賦值為該anon_vma.對(duì)于后續(xù)為該vm_area_struct申請(qǐng)的物理頁面,其mapping字段都賦值為該anon_vma。

2、當(dāng)該進(jìn)程p執(zhí)行fork()時(shí),在fork的處理過程中,會(huì)調(diào)用dup_mmap()來復(fù)制進(jìn)程p的線性地址空間,在dup_mmap()會(huì)復(fù)制進(jìn)程p的每一個(gè)vm_area_struct,加入到自己的地址空間中,并將vm_area_struct加入到anon_vma所管理的鏈表中,參看anon_vma_link()。此時(shí)為進(jìn)程p申請(qǐng)的頁面被進(jìn)程c共享,通過頁面的mapping字段可以找到anon_vma,從anon_vma可以遍歷進(jìn)程p,c。

3、考慮一個(gè)問題,在進(jìn)程c中才觸發(fā)缺頁異常被申請(qǐng)的內(nèi)存頁,其mmapping被賦值為所屬vm_area_struct的vma_anon,但進(jìn)程p并沒有使用到該頁,所以一個(gè)物理頁mapping字段指向的vma_anon所下掛的vm_area_struct可能并不包含該物理頁。

文件映射頁的反向映射:

對(duì)于每個(gè)文件映射頁,其page mapping字段指向的是對(duì)應(yīng)文件的address_space數(shù)據(jù)結(jié)構(gòu),address_space中有個(gè) struct prio_tree_root i_mmap 字段,指向一個(gè)優(yōu)先樹,優(yōu)先樹里面會(huì)把所有映射該文件內(nèi)容的vm_area_struct 給組織起來。在該樹中,其樹的節(jié)點(diǎn)基地址和堆地址分別是映射的文件內(nèi)容的起始地址和結(jié)束地址,要是多個(gè)進(jìn)程同時(shí)映射該地址段,會(huì)用鏈表在該節(jié)點(diǎn)上將vm_area_struct串起來。

1.3.3 內(nèi)存回收流程介紹     

Linux內(nèi)存管理之內(nèi)存回收的示例分析

睡眠回收我們不關(guān)注,主要介紹內(nèi)存緊缺回收及周期回收:

1、內(nèi)存緊缺回收主要函數(shù)是try_to_free_pages(),該函數(shù)會(huì)執(zhí)行一個(gè)循環(huán),按照優(yōu)先級(jí)從12到0,依次調(diào)用shrink_caches(),shrink_slab()來回收頁面,直到回收至少32個(gè)內(nèi)存頁面。

依次調(diào)用以下輔助函數(shù):

shrink_caches():調(diào)用shrink_zone()對(duì)傳入的zone鏈表中的每個(gè)zone,進(jìn)行l(wèi)ru上面的頁面回收。

shrink_slab():對(duì)磁盤索引節(jié)點(diǎn)cache和目錄項(xiàng)索引節(jié)點(diǎn)等磁盤高速緩存進(jìn)行回收,由于磁盤索引節(jié)點(diǎn)和目錄項(xiàng)索引節(jié)點(diǎn)都是從slab高速緩存中分配的,這樣就會(huì)導(dǎo)致空閑slab的產(chǎn)生,空閑slab后續(xù)會(huì)在周期性回收的cache_reap工作隊(duì)列中被回收。估計(jì)也就是因?yàn)樽罱K會(huì)清零空閑slab,才會(huì)起這么一個(gè)函數(shù)名。^_^

shrink_zone():對(duì)內(nèi)存管理區(qū)上的lru鏈表中的非活躍頁面進(jìn)行回收,在非活躍頁面不足的時(shí)候,調(diào)用refill_inactive_zone()對(duì)lru上的inactive鏈表補(bǔ)充非活躍頁面,同時(shí)shrink_zone()調(diào)用shrink_cache()來進(jìn)行頁面的回收,該函數(shù)的具體解析可以參照下面的源碼淺析。

shrink_list():該輔助函數(shù)在shrink_cache()中被調(diào)用,該函數(shù)對(duì)在shrink_cache()中傳入的非活躍page列表進(jìn)行遍歷,對(duì)每個(gè)頁面進(jìn)行回收工作,該函數(shù)的具體解析可以參考下面的源碼解析。

refill_inactie_zone():該輔助函數(shù)根據(jù)一定的規(guī)則將處于lru active鏈表上的活躍頁面移動(dòng)到inactive鏈表上,以補(bǔ)充可以回收的頁面,在lru鏈表里有兩類頁,一類是屬于用戶態(tài)空間的頁,比如用戶態(tài)進(jìn)程的代碼段,數(shù)據(jù)段,一類是在頁高速緩存中的頁,系統(tǒng)為了降低對(duì)應(yīng)用程序的影響,將要優(yōu)先將頁高速緩存頁進(jìn)行回收,同時(shí)為了系統(tǒng)整體性能也會(huì)適當(dāng)回收用戶態(tài)進(jìn)程頁。按照如下經(jīng)驗(yàn)公式進(jìn)行選擇:

交換傾向值=映射比率/2+負(fù)荷值+交換值

2、kswapd進(jìn)程一般會(huì)在系統(tǒng)中睡眠,但當(dāng)__alloc_page()發(fā)現(xiàn)各個(gè)管理區(qū)的剩余頁面都低于警告值(由內(nèi)存管理描述符的pages_low字段和protection字段推算出來)時(shí),會(huì)激活kswapd進(jìn)程進(jìn)行頁面回收,直到回收的頁面使得管理區(qū)的剩余頁面高于zone->pages_high時(shí)才停止回收,本質(zhì)上也是調(diào)用了shrink_zone()和shrink_slab()。

3、cache_reap工作隊(duì)列定期運(yùn)行來回收slab高速緩存中空閑的slab占用的頁。

1.4 相關(guān)源代碼的淺析


static void shrink_zone(struct zone *zone, struct scan_control *sc) { unsigned long nr_active; unsigned long nr_inactive;     //根據(jù)優(yōu)先級(jí),得到可以掃描的頁面數(shù),優(yōu)先級(jí)越高, //代表越不急迫,可以掃描的頁面數(shù)也最少 zone->nr_scan_active += (zone->nr_active >> sc->priority) + 1; nr_active = zone->nr_scan_active; if (nr_active >= SWAP_CLUSTER_MAX) zone->nr_scan_active = 0; else nr_active = 0;     zone->nr_scan_inactive += (zone->nr_inactive >> sc->priority) + 1; nr_inactive = zone->nr_scan_inactive; //非活動(dòng)頁比較少的話,可以先忽略過去,將跳過的頁面記錄到nr_scan_inactive中 //留待下一次再處理 if (nr_inactive >= SWAP_CLUSTER_MAX) zone->nr_scan_inactive = 0; else nr_inactive = 0;     //設(shè)置需要回收的頁面數(shù)為32個(gè) sc->nr_to_reclaim = SWAP_CLUSTER_MAX;     //開始回收頁面,每次掃描32個(gè)頁面,多了不干噢!!!   while (nr_active || nr_inactive) { if (nr_active) { //設(shè)置每次要掃描的非活動(dòng)頁面數(shù),需要將其放 //入到inactive list里面 sc->nr_to_scan = min(nr_active, (unsigned long)SWAP_CLUSTER_MAX); nr_active -= sc->nr_to_scan; //補(bǔ)充inactive list中的頁面 refill_inactive_zone(zone, sc); }     if (nr_inactive) { //設(shè)置每次將要掃描的頁面,最多也就32個(gè)頁面 sc->nr_to_scan = min(nr_inactive, (unsigned long)SWAP_CLUSTER_MAX);   nr_inactive -= sc->nr_to_scan; //開始正式回收inactive list中的頁面 shrink_cache(zone, sc); //32個(gè)頁面被回收完畢,大功告成了!!! if (sc->nr_to_reclaim <= 0) break; } } }    static int shrink_list(struct list_head *page_list, struct scan_control *sc) { LIST_HEAD(ret_pages); struct pagevec freed_pvec; int pgactivate = 0; int reclaimed = 0; //有進(jìn)程需要調(diào)度,先進(jìn)行調(diào)度 cond_resched();     pagevec_init(&freed_pvec, 1); //對(duì)于page_list 鏈表上的每一個(gè)頁面試圖進(jìn)行回收 while (!list_empty(page_list)) { struct address_space *mapping; struct page *page; int may_enter_fs; int referenced;     //獲取一個(gè)頁面 page = lru_to_page(page_list); //從lru上摘除 list_del(&page->lru); //page被鎖定,不能回收 if (TestSetPageLocked(page))//page is locked? goto keep;     BUG_ON(PageActive(page)); //page正在被writeback,不能回收 if (PageWriteback(page))//page is writeback? goto keep_locked;   sc->nr_scanned++; /* Double the slab pressure for mapped and swapcache pages */     if (page_mapped(page) || PageSwapCache(page)) sc->nr_scanned++; //查看最近該頁面有無被訪問過 referenced = page_referenced(page, 1, sc->priority <= 0); /* In active use or really unfreeable?  Activate it. */ //1頁面被訪問過,2頁面在用戶態(tài)空間,頁面是文件映射頁面, //頁面在交換高速緩存中,同時(shí)滿足這兩個(gè)條件的話,頁面不被回收 if (referenced && page_mapping_inuse(page)) goto activate_locked;     #ifdef CONFIG_SWAP   //page is anon and page has not been add to swapcache //該頁面是匿名映射的頁面,且該頁面不在swapcache中 if (PageAnon(page) && !PageSwapCache(page)) { //將頁面加入到swap cache中 if (!add_to_swap(page)) goto activate_locked; } #endif /* CONFIG_SWAP */ //得到對(duì)應(yīng)的address_space,有可能是對(duì)應(yīng)文件的address_space,或者是 //swap cache的address_space mapping = page_mapping(page); may_enter_fs = (sc->gfp_mask & __GFP_FS) || (PageSwapCache(page) && (sc->gfp_mask & __GFP_IO));     //該頁面被映射到某個(gè)用戶頁表中 if (page_mapped(page) && mapping) { //將該頁面在用戶頁表中的頁表項(xiàng)通通清除 switch (try_to_unmap(page)) { case SWAP_FAIL: goto activate_locked; case SWAP_AGAIN: goto keep_locked; case SWAP_SUCCESS: ; /* try to free the page below */ } } //頁面是臟的,哈哈,準(zhǔn)備往文件或swapcache里面寫硬盤吧 if (PageDirty(page)) { if (referenced) goto keep_locked; if (!may_enter_fs) goto keep_locked; if (laptop_mode && !sc->may_writepage) goto keep_locked;     /* Page is dirty, try to write it out here */ //往磁盤上寫頁面 switch(pageout(page, mapping)) { case PAGE_KEEP: goto keep_locked; case PAGE_ACTIVATE: goto activate_locked; case PAGE_SUCCESS: if (PageWriteback(page) || PageDirty(page)) goto keep;   if (TestSetPageLocked(page)) goto keep; if (PageDirty(page) || PageWriteback(page)) goto keep_locked; mapping = page_mapping(page); case PAGE_CLEAN: ; /* try to free the page below */ } }       //若頁面是緩沖區(qū)頁面,將對(duì)應(yīng)的buffer_head給釋放掉 if (PagePrivate(page)) { if (!try_to_release_page(page, sc->gfp_mask)) goto activate_locked; if (!mapping && page_count(page) == 1) goto free_it; }     if (!mapping) goto keep_locked; /* truncate got there first */     spin_lock_irq(&mapping->tree_lock);       //頁面為臟頁面或者page的引用計(jì)數(shù)為2,都是不可以回收的  if (page_count(page) != 2 || PageDirty(page)) { spin_unlock_irq(&mapping->tree_lock); goto keep_locked; }     #ifdef CONFIG_SWAP //到達(dá)這里,說明該page只被swap cache或者頁高速緩存及 //fpra所共有,需要將其從swap cache上或者頁高速緩存上刪除。 if (PageSwapCache(page)) { swp_entry_t swap = { .val = page->private }; //從swap cache上進(jìn)行刪除 __delete_from_swap_cache(page); spin_unlock_irq(&mapping->tree_lock); swap_free(swap); __put_page(page); /* The pagecache ref */ goto free_it; } #endif /* CONFIG_SWAP */     //從頁面高速緩存中將該頁面刪除 __remove_from_page_cache(page); spin_unlock_irq(&mapping->tree_lock); __put_page(page);     free_it: unlock_page(page); reclaimed++; if (!pagevec_add(&freed_pvec, page)) __pagevec_release_nonlru(&freed_pvec); continue;     activate_locked: //將頁面設(shè)為active頁面,等回去將其放入lru的active鏈表 SetPageActive(page); pgactivate++; keep_locked: //保持頁面的狀態(tài)不變,放入對(duì)應(yīng)的lru active或inactive鏈表中 unlock_page(page); keep: //將該無法回收的頁面,放入到ret_pages鏈表中 list_add(&page->lru, &ret_pages); BUG_ON(PageLRU(page)); } //此處將無法回收的頁面放入page_list中,在函數(shù)返回后,去其進(jìn)行處理 list_splice(&ret_pages, page_list); //此處將可以釋放的頁面通通給釋放掉,回收了^_^  if (pagevec_count(&freed_pvec)) __pagevec_release_nonlru(&freed_pvec); mod_page_state(pgactivate, pgactivate); sc->nr_reclaimed += reclaimed; return reclaimed; }

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Linux內(nèi)存管理之內(nèi)存回收的示例分析”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI