您好,登錄后才能下訂單哦!
KVM虛擬化技術(shù)中如何進行Hypervisor的實現(xiàn),針對這個問題,這篇文章詳細介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
VMM(VirtualMachineMonitor)對物理資源的虛擬可以劃分為三個部分:
CPU虛擬化、內(nèi)存虛擬化和I/O設(shè)備虛擬化,其中以CPU的虛擬化最為關(guān)鍵。經(jīng)典的虛擬化方法:現(xiàn)代計算機體系結(jié)構(gòu)一般至少有兩個特權(quán)級(即用戶態(tài)和核心態(tài),x86有四個特權(quán)級Ring0~Ring3)用來分隔系統(tǒng)軟件和應(yīng)用軟件。那些只能在處理器的最高特權(quán)級(內(nèi)核態(tài))執(zhí)行的指令稱之為特權(quán)指令,一般可讀寫系統(tǒng)關(guān)鍵資源的指令(即敏感指令)決大多數(shù)都是特權(quán)指令(X86存在若干敏感指令是非特權(quán)指令的情況)。如果執(zhí)行特權(quán)指令時處理器的狀態(tài)不在內(nèi)核態(tài),通常會引發(fā)一個異常而交由系統(tǒng)軟件來處理這個非法訪問(陷入)。經(jīng)典的虛擬化方法就是使用“特權(quán)解除”和“陷入-模擬”的方式,即將GuestOS運行在非特權(quán)級,而將VMM運行于最高特權(quán)級(完全控制系統(tǒng)資源)。解除了GuestOS的特權(quán)級后,GuestOS的大部分指令仍可以在硬件上直接運行,只有執(zhí)行到特權(quán)指令時,才會陷入到VMM模擬執(zhí)行(陷入-模擬)。“陷入-模擬”的本質(zhì)是保證可能影響VMM正確運行的指令由VMM模擬執(zhí)行,大部分的非敏感指令還是照常運行。
因為X86指令集中有若干條指令是需要被VMM捕獲的敏感指令,但是卻不是特權(quán)指令(稱為臨界指令),因此“特權(quán)解除”并不能導(dǎo)致他們發(fā)生陷入模擬,執(zhí)行它們不會發(fā)生自動的“陷入”而被VMM捕獲,從而阻礙了指令的虛擬化,這也稱之為X86的虛擬化漏洞。
X86架構(gòu)虛擬化的實現(xiàn)方式可分為:
1、X86“全虛擬化”(指所抽象的VM具有完全的物理機特性,OS在其上運行不需要任何修改)Full派秉承無需修改直接運行的理念,對“運行時監(jiān)測,捕捉后模擬”的過程進行優(yōu)化。該派內(nèi)部之實現(xiàn)又有些差別,其中以VMWare為代表的基于二進制翻譯(BT)的全虛擬化為代表,其主要思想是在執(zhí)行時將VM上執(zhí)行的GuestOS指令,翻譯成x86指令集的一個子集,其中的敏感指令被替換成陷入指令。翻譯過程與指令執(zhí)行交叉進行,不含敏感指令的用戶態(tài)程序可以不經(jīng)翻譯直接執(zhí)行。
2、X86“半虛擬化”(指需OS協(xié)助的虛擬化,在其上運行的OS需要修改)半虛擬化的基本思想是通過修改GuestOS的代碼,將含有敏感指令的操作,替換為對VMM的超調(diào)用Hypercall,類似OS的系統(tǒng)調(diào)用,將控制權(quán)轉(zhuǎn)移到VMM,該技術(shù)因VMM項目而廣為人知。該技術(shù)的優(yōu)勢在于VM的性能能接近于物理機,缺點在于需要修改GuestOS(如:Windows不支持修改)及增加的維護成本,關(guān)鍵修改GuestOS會導(dǎo)致操作系統(tǒng)對特定hypervisor的依賴性,因此很多虛擬化廠商基于VMM開發(fā)的虛擬化產(chǎn)品部分已經(jīng)放棄了Linux半虛擬化,而專注基于硬件輔助的全虛擬化開發(fā),來支持未經(jīng)修改的操作系統(tǒng)。
3、X86“硬件輔助虛擬化”:其基本思想就是引入新的處理器運行模式和新的指令,使得VMM和GuestOS運行于不同的模式下,GuestOS運行于受控模式,原來的一些敏感指令在受控模式下全部會陷入VMM,這樣就解決了部分非特權(quán)的敏感指令的“陷入-模擬”難題,而且模式切換時上下文的保存恢復(fù)由硬件來完成,這樣就大大提高了“陷入-模擬”時上下文切換的效率。
以IntelVT-x硬件輔助虛擬化技術(shù)為例,該技術(shù)增加了在虛擬狀態(tài)下的兩種處理器工作模式:根(Root)操作模式和非根(Non-root)操作模式。VMM運作在Root操作模式下,而GuestOS運行在Non-root操作模式下。這兩個操作模式分別擁有自己的特權(quán)級環(huán),VMM和虛擬機的GuestOS分別運行在這兩個操作模式的0環(huán)。這樣,既能使VMM運行在0環(huán),也能使GuestOS運行在0環(huán),避免了修改GuestOS。Root操作模式和Non-root操作模式的切換是通過新增的CPU指令(如:VMXON,VMXOFF)來完成。
硬件輔助虛擬化技術(shù)消除了操作系統(tǒng)的ring轉(zhuǎn)換問題,降低了虛擬化門檻,支持任何操作系統(tǒng)的虛擬化而無須修改OS內(nèi)核,得到了虛擬化軟件廠商的支持。硬件輔助虛擬化技術(shù)已經(jīng)逐漸消除軟件虛擬化技術(shù)之間的差別,并成為未來的發(fā)展趨勢。
2 vCPU機制
vCPU調(diào)度機制
對虛擬機來說,不直接感知物理CPU,虛擬機的計算單元通過vCPU對象來呈現(xiàn)。虛擬機只看到VMM呈現(xiàn)給它的vCPU。在VMM中,每個vCPU對應(yīng)一個VMCS(Virtual-MachineControlStructure)結(jié)構(gòu),當vcpu被從物理CPU上切換下來的時候,其運行上下文會被保存在其對應(yīng)的VMCS結(jié)構(gòu)中當vcpu被切換到pcpu上運行時,其運行上下文會從對應(yīng)的VMCS結(jié)構(gòu)中導(dǎo)入到物理CPU上。通過這種方式,實現(xiàn)各vCPU之間的獨立運行。從虛擬機系統(tǒng)的結(jié)構(gòu)與功能劃分可以看出,客戶操作系統(tǒng)與虛擬機監(jiān)視器
共同構(gòu)成了虛擬機系統(tǒng)的兩級調(diào)度框架,如圖所示是一個多核環(huán)境下虛擬機系統(tǒng)的兩級調(diào)度框架??蛻舨僮飨到y(tǒng)負責(zé)第2級調(diào)度,即線程或進程在vCPU上的調(diào)度(將核心線程映射到相應(yīng)的虛擬CPU上)。虛擬機監(jiān)視器負責(zé)第1級調(diào)度,即vCPU在物理處理單元上的調(diào)度。兩級調(diào)度的調(diào)度策略和機制不存在依賴關(guān)系。vCPU調(diào)度器負責(zé)物理處理器資源在各個虛擬機之間的分配與調(diào)度,本質(zhì)上即把各個虛擬機中的vCPU按照一定的策略和機制調(diào)度在物理處理單元上可以采用任意的策略來分配物理資源,滿足虛擬機的不同需求。vCPU可以調(diào)度在一個或多個物理處理單元執(zhí)行(分時復(fù)用或空間復(fù)用物理處理單元),也可以與物理處理單元建立一對一固定的映射關(guān)系(限制訪問指定的物理處理單元)。
2 內(nèi)存虛擬化
內(nèi)存虛擬化三層模型
因為VMM(VirtualMachineMonitor)掌控所有系統(tǒng)資源,因此VMM握有整個內(nèi)存資源,其負責(zé)頁式內(nèi)存管理,維護虛擬地址到機器地址的映射關(guān)系。因GuestOS本身亦有頁式內(nèi)存管理機制,則有VMM的整個系統(tǒng)就比正常系統(tǒng)多了一層映射:
A.虛擬地址(VA),指GuestOS提供給其應(yīng)用程序使用的線性地址空間;B.物理地址(PA),經(jīng)VMM抽象的、虛擬機看到的偽物理地址;
C.機器地址(MA),真實的機器地址,即地址總線上出現(xiàn)的地址信號;映射關(guān)系如下:GuestOS:PA=f(VA)、VMM:MA=g(PA)VMM維護一
套頁表,負責(zé)PA到MA的映射。GuestOS維護一套頁表,負責(zé)VA到PA的映射。實際運行時,用戶程序訪問VA1,經(jīng)GuestOS的頁表轉(zhuǎn)換得到PA1,再由VMM介入,使用VMM的頁表將PA1轉(zhuǎn)換為MA1。
2 頁表虛擬化技術(shù)
普通MMU只能完成一次虛擬地址到物理地址的映射,在虛擬機環(huán)境下,經(jīng)過MMU轉(zhuǎn)換所得到的“物理地址”并不是真正的機器地址。若需得到真正的機器地址,必須由VMM介入,再經(jīng)過一次映射才能得到總線上使用的機器地址。如果虛擬機的每個內(nèi)存訪問都需要VMM介入,并由軟件模擬地址轉(zhuǎn)換的效率是很低下的,幾乎不具有實際可用性,為實現(xiàn)虛擬地址到機器地址的高效轉(zhuǎn)換,現(xiàn)普遍采用的思想是:由VMM根據(jù)映射f和g生成復(fù)合的映射fg,并直接將這個映射關(guān)系寫入MMU。當前采用的頁表虛擬化方法主要是MMU類虛擬化(MMUParavirtualization)和影子頁表,后者已被內(nèi)存的硬件輔助虛擬化技術(shù)所替代。
1、MMUParavirtualization
其基本原理是:當GuestOS創(chuàng)建一個新的頁表時,會從它所維護的空閑內(nèi)存中分配一個頁面,并向VMM注冊該頁面,VMM會剝奪GuestOS對該頁表的寫權(quán)限,之后GuestOS對該頁表的寫操作都會陷入到VMM加以驗證和轉(zhuǎn)換。VMM會檢查頁表中的每一項,確保他們只映射了屬于該虛擬機的機器頁面,而且不得包含對頁表頁面的可寫映射。后VMM會根據(jù)自己所維護的映射關(guān)系,將頁表項中的物理地址替換為相應(yīng)的機器地址,最后再把修改過的頁表載入MMU。如此,MMU就可以根據(jù)修改過頁表直接完成虛擬地址到機器地址的轉(zhuǎn)換。
2、內(nèi)存硬件輔助虛擬化
內(nèi)存硬件輔助虛擬化技術(shù)原理圖
內(nèi)存的硬件輔助虛擬化技術(shù)是用于替代虛擬化技術(shù)中軟件實現(xiàn)的“影子頁表”的一種硬件輔助虛擬化技術(shù),其基本原理是:GVA(客戶操作系統(tǒng)的虛擬地址)->GPA(客戶操作系統(tǒng)的物理地址)->HPA(宿主操作系統(tǒng)的物理地址)兩次地址轉(zhuǎn)換都由CPU硬件自動完成(軟件實現(xiàn)內(nèi)存開銷大、性能差)。以VT-x技術(shù)的頁表擴充技術(shù)ExtendedPageTable(EPT)為例,首先VMM預(yù)先把客戶機物理地址轉(zhuǎn)換到機器地址的EPT頁表設(shè)置到CPU中;其次客戶機修改客戶機頁表無需VMM干預(yù);最后,地址轉(zhuǎn)換時,CPU自動查找兩張頁表完成客戶機虛擬地址到機器地址的轉(zhuǎn)換。使用內(nèi)存的硬件輔助虛擬化技術(shù),客戶機運行過程中無需VMM干預(yù),去除了大量軟件開銷,內(nèi)存訪問性能接近物理機。
I/O設(shè)備虛擬化
VMM通過I/O虛擬化來復(fù)用有限的外設(shè)資源,其通過截獲GuestOS對I/O設(shè)備的訪問請求,然后通過軟件模擬真實的硬件,目前I/O設(shè)備的虛擬化方式主要有三種:設(shè)備接口完全模擬、前端/后端模擬、直接劃分。
1、設(shè)備接口完全模擬:
即軟件精確模擬與物理設(shè)備完全一樣的接口,GuestOS驅(qū)動無須修改就能驅(qū)動這個虛擬設(shè)備。
優(yōu)點:沒有額外的硬件開銷,可重用現(xiàn)有驅(qū)動程序;
缺點:為完成一次操作要涉及到多個寄存器的操作,使得VMM要截獲每個寄存器訪問并進行相應(yīng)的模擬,這就導(dǎo)致多次上下文切換;由于是軟件模擬,性能較低。
2、前端/后端模擬:
VMM提供一個簡化的驅(qū)動程序(后端,Back-End),GuestOS中的驅(qū)動程序為前端(Front-End,FE),前端驅(qū)動將來自其他模塊的請求通過與GuestOS間的特殊通信機制直接發(fā)送給GuestOS的后端驅(qū)動,后端驅(qū)動在處理完請求后再發(fā)回通知給前端,VMM即采用該方法。
優(yōu)點:基于事務(wù)的通信機制,能在很大程度上減少上下文切換開銷,沒有額外的硬件開銷;
缺點:需要GuestOS實現(xiàn)前端驅(qū)動,后端驅(qū)動可能成為瓶頸。
3、直接劃分:
即直接將物理設(shè)備分配給某個GuestOS,由GuestOS直接訪問I/O設(shè)備(不經(jīng)VMM),目前與此相關(guān)的技術(shù)有IOMMU(IntelVT-d,PCI-SIG之SR-IOV等),旨在建立高效的I/O虛擬化直通道。
優(yōu)點:可重用已有驅(qū)動,直接訪問減少了虛擬化開銷;
缺點:需要購買較多額外的硬件。
關(guān)于KVM虛擬化技術(shù)中如何進行Hypervisor的實現(xiàn)問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。