您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“Linux操作系統(tǒng)全面知識點有哪些”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Linux操作系統(tǒng)全面知識點有哪些”吧!
UNIX 是一個交互式系統(tǒng),用于同時處理多進程和多用戶同時在線。為什么要說 UNIX,那是因為 Linux 是由 UNIX 發(fā)展而來的,UNIX 是由程序員設(shè)計,它的主要服務(wù)對象也是程序員。Linux 繼承了 UNIX 的設(shè)計目標。從智能手機到汽車,超級計算機和家用電器,從家用臺式機到企業(yè)服務(wù)器,Linux 操作系統(tǒng)無處不在。
大多數(shù)程序員都喜歡讓系統(tǒng)盡量簡單,優(yōu)雅并具有一致性。舉個例子,從最底層的角度來講,一個文件應(yīng)該只是一個字節(jié)集合。為了實現(xiàn)順序存取、隨機存取、按鍵存取、遠程存取只能是妨礙你的工作。相同的,如果命令
ls A*
意味著只列出以 A 為開頭的所有文件,那么命令
rm A*
應(yīng)該會移除所有以 A 為開頭的文件而不是只刪除文件名是 A* 的文件。這個特性也是最小吃驚原則(principle of least surprise)
最小吃驚原則一半常用于用戶界面和軟件設(shè)計。它的原型是:該功能或者特征應(yīng)該符合用戶的預(yù)期,不應(yīng)該使用戶感到驚訝和震驚。
一些有經(jīng)驗的程序員通常希望系統(tǒng)具有較強的功能性和靈活性。設(shè)計 Linux 的一個基本目標是每個應(yīng)用程序只做一件事情并把他做好。所以編譯器只負責編譯的工作,編譯器不會產(chǎn)生列表,因為有其他應(yīng)用比編譯器做的更好。
很多人都不喜歡冗余,為什么在 cp 就能描述清楚你想干什么時候還使用 copy?這完全是在浪費寶貴的 hacking time。為了從文件中提取所有包含字符串 ard 的行,Linux 程序員應(yīng)該輸入
grep ard f
Linux 系統(tǒng)是一種金字塔模型的系統(tǒng),如下所示
應(yīng)用程序發(fā)起系統(tǒng)調(diào)用把參數(shù)放在寄存器中(有時候放在棧中),并發(fā)出 trap 系統(tǒng)陷入指令切換用戶態(tài)至內(nèi)核態(tài)。因為不能直接在 C 中編寫 trap 指令,因此 C 提供了一個庫,庫中的函數(shù)對應(yīng)著系統(tǒng)調(diào)用。有些函數(shù)是使用匯編編寫的,但是能夠從 C 中調(diào)用。每個函數(shù)首先把參數(shù)放在合適的位置然后執(zhí)行系統(tǒng)調(diào)用指令。因此如果你想要執(zhí)行 read 系統(tǒng)調(diào)用的話,C 程序會調(diào)用 read 函數(shù)庫來執(zhí)行。這里順便提一下,是由 POSIX 指定的庫接口而不是系統(tǒng)調(diào)用接口。也就是說,POSIX 會告訴一個標準系統(tǒng)應(yīng)該提供哪些庫過程,它們的參數(shù)是什么,它們必須做什么以及它們必須返回什么結(jié)果。
除了操作系統(tǒng)和系統(tǒng)調(diào)用庫外,Linux 操作系統(tǒng)還要提供一些標準程序,比如文本編輯器、編譯器、文件操作工具等。直接和用戶打交道的是上面這些應(yīng)用程序。因此我們可以說 Linux 具有三種不同的接口:系統(tǒng)調(diào)用接口、庫函數(shù)接口和應(yīng)用程序接口
Linux 中的 GUI(Graphical User Interface) 和 UNIX 中的非常相似,這種 GUI 創(chuàng)建一個桌面環(huán)境,包括窗口、目標和文件夾、工具欄和文件拖拽功能。一個完整的 GUI 還包括窗口管理器以及各種應(yīng)用程序。
Linux 上的 GUI 由 X 窗口支持,主要組成部分是 X 服務(wù)器、控制鍵盤、鼠標、顯示器等。當在 Linux 上使用圖形界面時,用戶可以通過鼠標點擊運行程序或者打開文件,通過拖拽將文件進行復(fù)制等。
事實上,Linux 操作系統(tǒng)可以由下面這幾部分構(gòu)成
引導(dǎo)程序(Bootloader):引導(dǎo)程序是管理計算機啟動過程的軟件,對于大多數(shù)用戶而言,只是彈出一個屏幕,但其實內(nèi)部操作系統(tǒng)做了很多事情
內(nèi)核(Kernel):內(nèi)核是操作系統(tǒng)的核心,負責管理 CPU、內(nèi)存和外圍設(shè)備等。
初始化系統(tǒng)(Init System):這是一個引導(dǎo)用戶空間并負責控制守護程序的子系統(tǒng)。一旦從引導(dǎo)加載程序移交了初始引導(dǎo),它就是用于管理引導(dǎo)過程的初始化系統(tǒng)。
后臺進程(Daemon):后臺進程顧名思義就是在后臺運行的程序,比如打印、聲音、調(diào)度等,它們可以在引導(dǎo)過程中啟動,也可以在登錄桌面后啟動
圖形服務(wù)器(Graphical server):這是在監(jiān)視器上顯示圖形的子系統(tǒng)。通常將其稱為 X 服務(wù)器或 X。
桌面環(huán)境(Desktop environment):這是用戶與之實際交互的部分,有很多桌面環(huán)境可供選擇,每個桌面環(huán)境都包含內(nèi)置應(yīng)用程序,比如文件管理器、Web 瀏覽器、游戲等
應(yīng)用程序(Applications):桌面環(huán)境不提供完整的應(yīng)用程序,就像 Windows 和 macOS 一樣,Linux 提供了成千上萬個可以輕松找到并安裝的高質(zhì)量軟件。
盡管 Linux 應(yīng)用程序提供了 GUI ,但是大部分程序員仍偏好于使用命令行(command-line interface),稱為shell。用戶通常在 GUI 中啟動一個 shell 窗口然后就在 shell 窗口下進行工作。
shell 命令行使用速度快、功能更強大、而且易于擴展、并且不會帶來肢體重復(fù)性勞損(RSI)。
下面會介紹一些最簡單的 bash shell。當 shell 啟動時,它首先進行初始化,在屏幕上輸出一個 提示符(prompt),通常是一個百分號或者美元符號,等待用戶輸入
等用戶輸入一個命令后,shell 提取其中的第一個詞,這里的詞指的是被空格或制表符分隔開的一連串字符。假定這個詞是將要運行程序的程序名,那么就會搜索這個程序,如果找到了這個程序就會運行它。然后 shell 會將自己掛起直到程序運行完畢,之后再嘗試讀入下一條指令。shell 也是一個普通的用戶程序。它的主要功能就是讀取用戶的輸入和顯示計算的輸出。shell 命令中可以包含參數(shù),它們作為字符串傳遞給所調(diào)用的程序。比如
cp src dest
會調(diào)用 cp 應(yīng)用程序并包含兩個參數(shù) src 和 dest。這個程序會解釋第一個參數(shù)是一個已經(jīng)存在的文件名,然后創(chuàng)建一個該文件的副本,名稱為 dest。
并不是所有的參數(shù)都是文件名,比如下面
head -20 file
第一個參數(shù) -20,會告訴 head 應(yīng)用程序打印文件的前 20 行,而不是默認的 10 行??刂泼畈僮骰蛘咧付蛇x值的參數(shù)稱為標志(flag),按照慣例標志應(yīng)該使用 - 來表示。這個符號是必要的,比如
head 20 file
是一個完全合法的命令,它會告訴 head 程序輸出文件名為 20 的文件的前 10 行,然后輸出文件名為 file 文件的前 10 行。Linux 操作系統(tǒng)可以接受一個或多個參數(shù)。
為了更容易的指定多個文件名,shell 支持 魔法字符(magic character),也被稱為通配符(wild cards)。比如,* 可以匹配一個或者多個可能的字符串
ls *.c
告訴 ls 列舉出所有文件名以 .c 結(jié)束的文件。如果同時存在多個文件,則會在后面進行并列。
另一個通配符是問號,負責匹配任意一個字符。一組在中括號中的字符可以表示其中任意一個,因此
ls [abc]*
會列舉出所有以 a、b 或者 c 開頭的文件。
shell 應(yīng)用程序不一定通過終端進行輸入和輸出。shell 啟動時,就會獲取 標準輸入、標準輸出、標準錯誤文件進行訪問的能力。
標準輸出是從鍵盤輸入的,標準輸出或者標準錯誤是輸出到顯示器的。許多 Linux 程序默認是從標準輸入進行輸入并從標準輸出進行輸出。比如
sort
會調(diào)用 sort 程序,會從終端讀取數(shù)據(jù)(直到用戶輸入 ctrl-d 結(jié)束),根據(jù)字母順序進行排序,然后將結(jié)果輸出到屏幕上。
通常還可以重定向標準輸入和標準輸出,重定向標準輸入使用 < 后面跟文件名。標準輸出可以通過一個大于號 > 進行重定向。允許一個命令中重定向標準輸入和輸出。例如命令
sort <in >out
會使 sort 從文件 in 中得到輸入,并把結(jié)果輸出到 out 文件中。由于標準錯誤沒有重定向,所以錯誤信息會直接打印到屏幕上。從標準輸入讀入,對其進行處理并將其寫入到標準輸出的程序稱為 過濾器。
考慮下面由三個分開的命令組成的指令
sort <in >temp;head -30 <temp;rm temp
首先會調(diào)用 sort 應(yīng)用程序,從標準輸入 in 中進行讀取,并通過標準輸出到 temp。當程序運行完畢后,shell 會運行 head ,告訴它打印前 30 行,并在標準輸出(默認為終端)上打印。最后,temp 臨時文件被刪除。輕輕的,你走了,你揮一揮衣袖,不帶走一片云彩。
命令行中的第一個程序通常會產(chǎn)生輸出,在上面的例子中,產(chǎn)生的輸出都不 temp 文件接收。然而,Linux 還提供了一個簡單的命令來做這件事,例如下面
sort <in | head -30
上面 | 稱為豎線符號,它的意思是從 sort 應(yīng)用程序產(chǎn)生的排序輸出會直接作為輸入顯示,無需創(chuàng)建、使用和移除臨時文件。由管道符號連接的命令集合稱為管道(pipeline)。例如如下
grep cxuan *.c | sort | head -30 | tail -5 >f00
對任意以 .t 結(jié)尾的文件中包含 cxuan 的行被寫到標準輸出中,然后進行排序。這些內(nèi)容中的前 30 行被 head 出來并傳給 tail ,它又將最后 5 行傳遞給 foo。這個例子提供了一個管道將多個命令連接起來。
可以把一系列 shell 命令放在一個文件中,然后將此文件作為輸入來運行。shell 會按照順序?qū)λ麄冞M行處理,就像在鍵盤上鍵入命令一樣。包含 shell 命令的文件被稱為 shell 腳本(shell scripts)。
推薦一個 shell 命令的學習網(wǎng)站:https://www.shellscript.sh/
shell 腳本其實也是一段程序,shell 腳本中可以對變量進行賦值,也包含循環(huán)控制語句比如 if、for、while 等,shell 的設(shè)計目標是讓其看起來和 C 相似(There is no doubt that C is father)。由于 shell 也是一個用戶程序,所以用戶可以選擇不同的 shell。
Linux 的命令行也就是 shell,它由大量標準應(yīng)用程序組成。這些應(yīng)用程序主要有下面六種
文件和目錄操作命令
過濾器
文本程序
系統(tǒng)管理
程序開發(fā)工具,例如編輯器和編譯器
其他
除了這些標準應(yīng)用程序外,還有其他應(yīng)用程序比如 Web 瀏覽器、多媒體播放器、圖片瀏覽器、辦公軟件和游戲程序等。
我們在上面的例子中已經(jīng)見過了幾個 Linux 的應(yīng)用程序,比如 sort、cp、ls、head,下面我們再來認識一下其他 Linux 的應(yīng)用程序。
我們先從幾個例子開始講起,比如
cp a b
是將 a 復(fù)制一個副本為 b ,而
mv a b
是將 a 移動到 b ,但是刪除原文件。
上面這兩個命令有一些區(qū)別,cp 是將文件進行復(fù)制,復(fù)制完成后會有兩個文件 a 和 b;而 mv 相當于是文件的移動,移動完成后就不再有 a 文件。cat 命令可以把多個文件內(nèi)容進行連接。使用 rm 可以刪除文件;使用 chmod 可以允許所有者改變訪問權(quán)限;文件目錄的的創(chuàng)建和刪除可以使用 mkdir 和 rmdir 命令;使用 ls 可以查看目錄文件,ls 可以顯示很多屬性,比如大小、用戶、創(chuàng)建日期等;sort 決定文件的顯示順序
Linux 應(yīng)用程序還包括過濾器 grep,grep 從標準輸入或者一個或多個輸入文件中提取特定模式的行;sort 將輸入進行排序并輸出到標準輸出;head 提取輸入的前幾行;tail 提取輸入的后面幾行;除此之外的過濾器還有 cut 和 paste,允許對文本行的剪切和復(fù)制;od 將輸入轉(zhuǎn)換為 ASCII ;tr 實現(xiàn)字符大小寫轉(zhuǎn)換;pr 為格式化打印輸出等。
程序編譯工具使用 gcc;
make 命令用于自動編譯,這是一個很強大的命令,它用于維護一個大的程序,往往這類程序的源碼由許多文件構(gòu)成。典型的,有一些是 header files 頭文件,源文件通常使用 include 指令包含這些文件,make 的作用就是跟蹤哪些文件屬于頭文件,然后安排自動編譯的過程。
下面列出了 POSIX 的標準應(yīng)用程序
程序應(yīng)用ls列出目錄cp復(fù)制文件head顯示文件的前幾行make編譯文件生成二進制文件cd切換目錄mkdir創(chuàng)建目錄chmod修改文件訪問權(quán)限ps列出文件進程pr格式化打印rm刪除一個文件rmdir刪除文件目錄tail提取文件最后幾行tr字符集轉(zhuǎn)換grep分組cat將多個文件連續(xù)標準輸出od以八進制顯示文件cut從文件中剪切paste從文件中粘貼
在上面我們看到了 Linux 的整體結(jié)構(gòu),下面我們從整體的角度來看一下 Linux 的內(nèi)核結(jié)構(gòu)
內(nèi)核直接坐落在硬件上,內(nèi)核的主要作用就是 I/O 交互、內(nèi)存管理和控制 CPU 訪問。上圖中還包括了 中斷 和 調(diào)度器,中斷是與設(shè)備交互的主要方式。中斷出現(xiàn)時調(diào)度器就會發(fā)揮作用。這里的低級代碼停止正在運行的進程,將其狀態(tài)保存在內(nèi)核進程結(jié)構(gòu)中,并啟動驅(qū)動程序。進程調(diào)度也會發(fā)生在內(nèi)核完成一些操作并且啟動用戶進程的時候。圖中的調(diào)度器是 dispatcher。
注意這里的調(diào)度器是 dispatcher 而不是 scheduler,這兩者是有區(qū)別的
scheduler 和 dispatcher 都是和進程調(diào)度相關(guān)的概念,不同的是 scheduler 會從幾個進程中隨意選取一個進程;而 dispatcher 會給 scheduler 選擇的進程分配 CPU。
然后,我們把內(nèi)核系統(tǒng)分為三部分。
I/O 部分負責與設(shè)備進行交互以及執(zhí)行網(wǎng)絡(luò)和存儲 I/O 操作的所有內(nèi)核部分。
從圖中可以看出 I/O 層次的關(guān)系,最高層是一個虛擬文件系統(tǒng),也就是說不管文件是來自內(nèi)存還是磁盤中,都是經(jīng)過虛擬文件系統(tǒng)中的。從底層看,所有的驅(qū)動都是字符驅(qū)動或者塊設(shè)備驅(qū)動。二者的主要區(qū)別就是是否允許隨機訪問。網(wǎng)絡(luò)驅(qū)動設(shè)備并不是一種獨立的驅(qū)動設(shè)備,它實際上是一種字符設(shè)備,不過網(wǎng)絡(luò)設(shè)備的處理方式和字符設(shè)備不同。
上面的設(shè)備驅(qū)動程序中,每個設(shè)備類型的內(nèi)核代碼都不同。字符設(shè)備有兩種使用方式,有一鍵式的比如 vi 或者 emacs ,需要每一個鍵盤輸入。其他的比如 shell ,是需要輸入一行按回車鍵將字符串發(fā)送給程序進行編輯。
網(wǎng)絡(luò)軟件通常是模塊化的,由不同的設(shè)備和協(xié)議來支持。大多數(shù) Linux 系統(tǒng)在內(nèi)核中包含一個完整的硬件路由器的功能,但是這個不能和外部路由器相比,路由器上面是協(xié)議棧,包括 TCP/IP 協(xié)議,協(xié)議棧上面是 socket 接口,socket 負責與外部進行通信,充當了門的作用。
磁盤驅(qū)動上面是 I/O 調(diào)度器,它負責排序和分配磁盤讀寫操作,以盡可能減少磁頭的無用移動。
I/O 右邊的是內(nèi)存部件,程序被裝載進內(nèi)存,由 CPU 執(zhí)行,這里會涉及到虛擬內(nèi)存的部件,頁面的換入和換出是如何進行的,壞頁面的替換和經(jīng)常使用的頁面會進行緩存。
進程模塊負責進程的創(chuàng)建和終止、進程的調(diào)度、Linux 把進程和線程看作是可運行的實體,并使用統(tǒng)一的調(diào)度策略來進行調(diào)度。
在內(nèi)核最頂層的是系統(tǒng)調(diào)用接口,所有的系統(tǒng)調(diào)用都是經(jīng)過這里,系統(tǒng)調(diào)用會觸發(fā)一個 trap,將系統(tǒng)從用戶態(tài)轉(zhuǎn)換為內(nèi)核態(tài),然后將控制權(quán)移交給上面的內(nèi)核部件。
下面我們就深入理解一下 Linux 內(nèi)核來理解 Linux 的基本概念之進程和線程。系統(tǒng)調(diào)用是操作系統(tǒng)本身的接口,它對于創(chuàng)建進程和線程,內(nèi)存分配,共享文件和 I/O 來說都很重要。
我們將從各個版本的共性出發(fā)來進行探討。
每個進程都會運行一段獨立的程序,并且在初始化的時候擁有一個獨立的控制線程。換句話說,每個進程都會有一個自己的程序計數(shù)器,這個程序計數(shù)器用來記錄下一個需要被執(zhí)行的指令。Linux 允許進程在運行時創(chuàng)建額外的線程。
Linux 是一個多道程序設(shè)計系統(tǒng),因此系統(tǒng)中存在彼此相互獨立的進程同時運行。此外,每個用戶都會同時有幾個活動的進程。因為如果是一個大型系統(tǒng),可能有數(shù)百上千的進程在同時運行。
在某些用戶空間中,即使用戶退出登錄,仍然會有一些后臺進程在運行,這些進程被稱為 守護進程(daemon)。
Linux 中有一種特殊的守護進程被稱為 計劃守護進程(Cron daemon) ,計劃守護進程可以每分鐘醒來一次檢查是否有工作要做,做完會繼續(xù)回到睡眠狀態(tài)等待下一次喚醒。
Cron 是一個守護程序,可以做任何你想做的事情,比如說你可以定期進行系統(tǒng)維護、定期進行系統(tǒng)備份等。在其他操作系統(tǒng)上也有類似的程序,比如 Mac OS X 上 Cron 守護程序被稱為 launchd 的守護進程。在 Windows 上可以被稱為 計劃任務(wù)(Task Scheduler)。
在 Linux 系統(tǒng)中,進程通過非常簡單的方式來創(chuàng)建,fork 系統(tǒng)調(diào)用會創(chuàng)建一個源進程的拷貝(副本)。調(diào)用 fork 函數(shù)的進程被稱為 父進程(parent process),使用 fork 函數(shù)創(chuàng)建出來的進程被稱為 子進程(child process)。父進程和子進程都有自己的內(nèi)存映像。如果在子進程創(chuàng)建出來后,父進程修改了一些變量等,那么子進程是看不到這些變化的,也就是 fork 后,父進程和子進程相互獨立。
雖然父進程和子進程保持相互獨立,但是它們卻能夠共享相同的文件,如果在 fork 之前,父進程已經(jīng)打開了某個文件,那么 fork 后,父進程和子進程仍然共享這個打開的文件。對共享文件的修改會對父進程和子進程同時可見。
那么該如何區(qū)分父進程和子進程呢?子進程只是父進程的拷貝,所以它們幾乎所有的情況都一樣,包括內(nèi)存映像、變量、寄存器等。區(qū)分的關(guān)鍵在于 fork 函數(shù)調(diào)用后的返回值,如果 fork 后返回一個非零值,這個非零值即是子進程的 進程標識符(Process Identiier, PID),而會給子進程返回一個零值,可以用下面代碼來進行表示
pid = fork(); // 調(diào)用 fork 函數(shù)創(chuàng)建進程 if(pid < 0){ error() // pid < 0,創(chuàng)建失敗 } else if(pid > 0){ parent_handle() // 父進程代碼 } else { child_handle() // 子進程代碼 }
父進程在 fork 后會得到子進程的 PID,這個 PID 即能代表這個子進程的唯一標識符也就是 PID。如果子進程想要知道自己的 PID,可以調(diào)用 getpid 方法。當子進程結(jié)束運行時,父進程會得到子進程的 PID,因為一個進程會 fork 很多子進程,子進程也會 fork 子進程,所以 PID 是非常重要的。我們把第一次調(diào)用 fork 后的進程稱為 原始進程,一個原始進程可以生成一顆繼承樹
Linux 進程間的通信機制通常被稱為 Internel-Process communication,IPC下面我們來說一說 Linux 進程間通信的機制,大致來說,Linux 進程間的通信機制可以分為 6 種
下面我們分別對其進行概述
信號是 UNIX 系統(tǒng)最先開始使用的進程間通信機制,因為 Linux 是繼承于 UNIX 的,所以 Linux 也支持信號機制,通過向一個或多個進程發(fā)送異步事件信號來實現(xiàn),信號可以從鍵盤或者訪問不存在的位置等地方產(chǎn)生;信號通過 shell 將任務(wù)發(fā)送給子進程。
你可以在 Linux 系統(tǒng)上輸入 kill -l 來列出系統(tǒng)使用的信號,下面是我提供的一些信號
進程可以選擇忽略發(fā)送過來的信號,但是有兩個是不能忽略的:SIGSTOP 和 SIGKILL 信號。SIGSTOP 信號會通知當前正在運行的進程執(zhí)行關(guān)閉操作,SIGKILL 信號會通知當前進程應(yīng)該被殺死。除此之外,進程可以選擇它想要處理的信號,進程也可以選擇阻止信號,如果不阻止,可以選擇自行處理,也可以選擇進行內(nèi)核處理。如果選擇交給內(nèi)核進行處理,那么就執(zhí)行默認處理。
操作系統(tǒng)會中斷目標程序的進程來向其發(fā)送信號、在任何非原子指令中,執(zhí)行都可以中斷,如果進程已經(jīng)注冊了新號處理程序,那么就執(zhí)行進程,如果沒有注冊,將采用默認處理的方式。
例如:當進程收到 SIGFPE 浮點異常的信號后,默認操作是對其進行 dump(轉(zhuǎn)儲)和退出。信號沒有優(yōu)先級的說法。如果同時為某個進程產(chǎn)生了兩個信號,則可以將它們呈現(xiàn)給進程或者以任意的順序進行處理。
下面我們就來看一下這些信號是干什么用的
SIGABRT 和 SIGIOT
SIGABRT 和 SIGIOT 信號發(fā)送給進程,告訴其進行終止,這個 信號通常在調(diào)用 C標準庫的abort()函數(shù)時由進程本身啟動
SIGALRM 、 SIGVTALRM、SIGPROF
當設(shè)置的時鐘功能超時時會將 SIGALRM 、 SIGVTALRM、SIGPROF 發(fā)送給進程。當實際時間或時鐘時間超時時,發(fā)送 SIGALRM。 當進程使用的 CPU 時間超時時,將發(fā)送 SIGVTALRM。 當進程和系統(tǒng)代表進程使用的CPU 時間超時時,將發(fā)送 SIGPROF。
SIGBUS
SIGBUS 將造成總線中斷錯誤時發(fā)送給進程
SIGCHLD
當子進程終止、被中斷或者被中斷恢復(fù),將 SIGCHLD 發(fā)送給進程。此信號的一種常見用法是指示操作系統(tǒng)在子進程終止后清除其使用的資源。
SIGCONT
SIGCONT 信號指示操作系統(tǒng)繼續(xù)執(zhí)行先前由 SIGSTOP 或 SIGTSTP 信號暫停的進程。該信號的一個重要用途是在 Unix shell 中的作業(yè)控制中。
SIGFPE
SIGFPE 信號在執(zhí)行錯誤的算術(shù)運算(例如除以零)時將被發(fā)送到進程。
SIGUP
當 SIGUP 信號控制的終端關(guān)閉時,會發(fā)送給進程。許多守護程序?qū)⒅匦录虞d其配置文件并重新打開其日志文件,而不是在收到此信號時退出。
SIGILL
SIGILL 信號在嘗試執(zhí)行非法、格式錯誤、未知或者特權(quán)指令時發(fā)出
SIGINT
當用戶希望中斷進程時,操作系統(tǒng)會向進程發(fā)送 SIGINT 信號。用戶輸入 ctrl - c 就是希望中斷進程。
SIGKILL
SIGKILL 信號發(fā)送到進程以使其馬上進行終止。 與 SIGTERM 和 SIGINT 相比,這個信號無法捕獲和忽略執(zhí)行,并且進程在接收到此信號后無法執(zhí)行任何清理操作,下面是一些例外情況
僵尸進程無法殺死,因為僵尸進程已經(jīng)死了,它在等待父進程對其進行捕獲
處于阻塞狀態(tài)的進程只有再次喚醒后才會被 kill 掉
init 進程是 Linux 的初始化進程,這個進程會忽略任何信號。
SIGKILL 通常是作為最后殺死進程的信號、它通常作用于 SIGTERM 沒有響應(yīng)時發(fā)送給進程。
SIGPIPE
SIGPIPE 嘗試寫入進程管道時發(fā)現(xiàn)管道未連接無法寫入時發(fā)送到進程
SIGPOLL
當在明確監(jiān)視的文件描述符上發(fā)生事件時,將發(fā)送 SIGPOLL 信號。
SIGRTMIN 至 SIGRTMAX
SIGRTMIN 至 SIGRTMAX 是實時信號
SIGQUIT
當用戶請求退出進程并執(zhí)行核心轉(zhuǎn)儲時,SIGQUIT 信號將由其控制終端發(fā)送給進程。
SIGSEGV
當 SIGSEGV 信號做出無效的虛擬內(nèi)存引用或分段錯誤時,即在執(zhí)行分段違規(guī)時,將其發(fā)送到進程。
SIGSTOP
SIGSTOP 指示操作系統(tǒng)終止以便以后進行恢復(fù)時
SIGSYS
當 SIGSYS 信號將錯誤參數(shù)傳遞給系統(tǒng)調(diào)用時,該信號將發(fā)送到進程。
SYSTERM
我們上面簡單提到過了 SYSTERM 這個名詞,這個信號發(fā)送給進程以請求終止。與 SIGKILL 信號不同,該信號可以被過程捕獲或忽略。這允許進程執(zhí)行良好的終止,從而釋放資源并在適當時保存狀態(tài)。 SIGINT 與SIGTERM 幾乎相同。
SIGTSIP
SIGTSTP 信號由其控制終端發(fā)送到進程,以請求終端停止。
SIGTTIN 和 SIGTTOU
當 SIGTTIN 和SIGTTOU 信號分別在后臺嘗試從 tty 讀取或?qū)懭霑r,信號將發(fā)送到該進程。
SIGTRAP
在發(fā)生異?;蛘?trap 時,將 SIGTRAP 信號發(fā)送到進程
SIGURG
當套接字具有可讀取的緊急或帶外數(shù)據(jù)時,將 SIGURG 信號發(fā)送到進程。
SIGUSR1 和 SIGUSR2
SIGUSR1 和 SIGUSR2 信號被發(fā)送到進程以指示用戶定義的條件。
SIGXCPU
當 SIGXCPU 信號耗盡 CPU 的時間超過某個用戶可設(shè)置的預(yù)定值時,將其發(fā)送到進程
SIGXFSZ
當 SIGXFSZ 信號增長超過最大允許大小的文件時,該信號將發(fā)送到該進程。
SIGWINCH
SIGWINCH 信號在其控制終端更改其大?。ù翱诟模r發(fā)送給進程。
Linux 系統(tǒng)中的進程可以通過建立管道 pipe 進行通信。
在兩個進程之間,可以建立一個通道,一個進程向這個通道里寫入字節(jié)流,另一個進程從這個管道中讀取字節(jié)流。管道是同步的,當進程嘗試從空管道讀取數(shù)據(jù)時,該進程會被阻塞,直到有可用數(shù)據(jù)為止。shell 中的管線 pipelines 就是用管道實現(xiàn)的,當 shell 發(fā)現(xiàn)輸出
sort <f | head
它會創(chuàng)建兩個進程,一個是 sort,一個是 head,sort,會在這兩個應(yīng)用程序之間建立一個管道使得 sort 進程的標準輸出作為 head 程序的標準輸入。sort 進程產(chǎn)生的輸出就不用寫到文件中了,如果管道滿了系統(tǒng)會停止 sort 以等待 head 讀出數(shù)據(jù)
管道實際上就是 |,兩個應(yīng)用程序不知道有管道的存在,一切都是由 shell 管理和控制的。
兩個進程之間還可以通過共享內(nèi)存進行進程間通信,其中兩個或者多個進程可以訪問公共內(nèi)存空間。兩個進程的共享工作是通過共享內(nèi)存完成的,一個進程所作的修改可以對另一個進程可見(很像線程間的通信)。
在使用共享內(nèi)存前,需要經(jīng)過一系列的調(diào)用流程,流程如下
創(chuàng)建共享內(nèi)存段或者使用已創(chuàng)建的共享內(nèi)存段(shmget())
將進程附加到已經(jīng)創(chuàng)建的內(nèi)存段中(shmat())
從已連接的共享內(nèi)存段分離進程(shmdt())
對共享內(nèi)存段執(zhí)行控制操作(shmctl())
先入先出隊列 FIFO 通常被稱為 命名管道(Named Pipes),命名管道的工作方式與常規(guī)管道非常相似,但是確實有一些明顯的區(qū)別。未命名的管道沒有備份文件:操作系統(tǒng)負責維護內(nèi)存中的緩沖區(qū),用來將字節(jié)從寫入器傳輸?shù)阶x取器。一旦寫入或者輸出終止的話,緩沖區(qū)將被回收,傳輸?shù)臄?shù)據(jù)會丟失。相比之下,命名管道具有支持文件和獨特 API ,命名管道在文件系統(tǒng)中作為設(shè)備的專用文件存在。當所有的進程通信完成后,命名管道將保留在文件系統(tǒng)中以備后用。命名管道具有嚴格的 FIFO 行為
寫入的第一個字節(jié)是讀取的第一個字節(jié),寫入的第二個字節(jié)是讀取的第二個字節(jié),依此類推。
一聽到消息隊列這個名詞你可能不知道是什么意思,消息隊列是用來描述內(nèi)核尋址空間內(nèi)的內(nèi)部鏈接列表??梢园磶追N不同的方式將消息按順序發(fā)送到隊列并從隊列中檢索消息。每個消息隊列由 IPC 標識符唯一標識。消息隊列有兩種模式,一種是嚴格模式, 嚴格模式就像是 FIFO 先入先出隊列似的,消息順序發(fā)送,順序讀取。還有一種模式是 非嚴格模式,消息的順序性不是非常重要。
還有一種管理兩個進程間通信的是使用 socket,socket 提供端到端的雙相通信。一個套接字可以與一個或多個進程關(guān)聯(lián)。就像管道有命令管道和未命名管道一樣,套接字也有兩種模式,套接字一般用于兩個進程之間的網(wǎng)絡(luò)通信,網(wǎng)絡(luò)套接字需要來自諸如TCP(傳輸控制協(xié)議)或較低級別UDP(用戶數(shù)據(jù)報協(xié)議)等基礎(chǔ)協(xié)議的支持。
套接字有以下幾種分類
順序包套接字(Sequential Packet Socket): 此類套接字為最大長度固定的數(shù)據(jù)報提供可靠的連接。此連接是雙向的并且是順序的。
數(shù)據(jù)報套接字(Datagram Socket):數(shù)據(jù)包套接字支持雙向數(shù)據(jù)流。數(shù)據(jù)包套接字接受消息的順序與發(fā)送者可能不同。
流式套接字(Stream Socket):流套接字的工作方式類似于電話對話,提供雙向可靠的數(shù)據(jù)流。
原始套接字(Raw Socket): 可以使用原始套接字訪問基礎(chǔ)通信協(xié)議。
現(xiàn)在關(guān)注一下 Linux 系統(tǒng)中與進程管理相關(guān)的系統(tǒng)調(diào)用。在了解之前你需要先知道一下什么是系統(tǒng)調(diào)用。
操作系統(tǒng)為我們屏蔽了硬件和軟件的差異,它的最主要功能就是為用戶提供一種抽象,隱藏內(nèi)部實現(xiàn),讓用戶只關(guān)心在 GUI 圖形界面下如何使用即可。操作系統(tǒng)可以分為兩種模式
內(nèi)核態(tài):操作系統(tǒng)內(nèi)核使用的模式
用戶態(tài):用戶應(yīng)用程序所使用的模式
我們常說的上下文切換 指的就是內(nèi)核態(tài)模式和用戶態(tài)模式的頻繁切換。而系統(tǒng)調(diào)用指的就是引起內(nèi)核態(tài)和用戶態(tài)切換的一種方式,系統(tǒng)調(diào)用通常在后臺靜默運行,表示計算機程序向其操作系統(tǒng)內(nèi)核請求服務(wù)。
系統(tǒng)調(diào)用指令有很多,下面是一些與進程管理相關(guān)的最主要的系統(tǒng)調(diào)用
fork 調(diào)用用于創(chuàng)建一個與父進程相同的子進程,創(chuàng)建完進程后的子進程擁有和父進程一樣的程序計數(shù)器、相同的 CPU 寄存器、相同的打開文件。
exec 系統(tǒng)調(diào)用用于執(zhí)行駐留在活動進程中的文件,調(diào)用 exec 后,新的可執(zhí)行文件會替換先前的可執(zhí)行文件并獲得執(zhí)行。也就是說,調(diào)用 exec 后,會將舊文件或程序替換為新文件或執(zhí)行,然后執(zhí)行文件或程序。新的執(zhí)行程序被加載到相同的執(zhí)行空間中,因此進程的 PID不會修改,因為我們沒有創(chuàng)建新進程,只是替換舊進程。但是進程的數(shù)據(jù)、代碼、堆棧都已經(jīng)被修改。如果當前要被替換的進程包含多個線程,那么所有的線程將被終止,新的進程映像被加載執(zhí)行。
這里需要解釋一下進程映像(Process image) 的概念
什么是進程映像呢?進程映像是執(zhí)行程序時所需要的可執(zhí)行文件,通常會包括下面這些東西
代碼段(codesegment/textsegment)
又稱文本段,用來存放指令,運行代碼的一塊內(nèi)存空間
此空間大小在代碼運行前就已經(jīng)確定
內(nèi)存空間一般屬于只讀,某些架構(gòu)的代碼也允許可寫
在代碼段中,也有可能包含一些只讀的常數(shù)變量,例如字符串常量等。
數(shù)據(jù)段(datasegment)
可讀可寫
存儲初始化的全局變量和初始化的 static 變量
數(shù)據(jù)段中數(shù)據(jù)的生存期是隨程序持續(xù)性(隨進程持續(xù)性)
隨進程持續(xù)性:進程創(chuàng)建就存在,進程死亡就消失
bss 段(bsssegment):
可讀可寫
存儲未初始化的全局變量和未初始化的 static 變量
bss 段中的數(shù)據(jù)一般默認為 0
Data 段
是可讀寫的,因為變量的值可以在運行時更改。此段的大小也固定。
棧(stack):
可讀可寫
存儲的是函數(shù)或代碼中的局部變量(非 static 變量)
棧的生存期隨代碼塊持續(xù)性,代碼塊運行就給你分配空間,代碼塊結(jié)束,就自動回收空間
堆(heap):
可讀可寫
存儲的是程序運行期間動態(tài)分配的 malloc/realloc 的空間
堆的生存期隨進程持續(xù)性,從 malloc/realloc 到 free 一直存在
下面是這些區(qū)域的構(gòu)成圖
exec 系統(tǒng)調(diào)用是一些函數(shù)的集合,這些函數(shù)是
execl
execle
execlp
execv
execve
execvp
下面來看一下 exec 的工作原理
當前進程映像被替換為新的進程映像
新的進程映像是你做為 exec 傳遞的燦睡
結(jié)束當前正在運行的進程
新的進程映像有 PID,相同的環(huán)境和一些文件描述符(因為未替換進程,只是替換了進程映像)
CPU 狀態(tài)和虛擬內(nèi)存受到影響,當前進程映像的虛擬內(nèi)存映射被新進程映像的虛擬內(nèi)存代替。
等待子進程結(jié)束或終止
在許多計算機操作系統(tǒng)上,計算機進程的終止是通過執(zhí)行 exit 系統(tǒng)調(diào)用命令執(zhí)行的。0 表示進程能夠正常結(jié)束,其他值表示進程以非正常的行為結(jié)束。
其他一些常見的系統(tǒng)調(diào)用如下
系統(tǒng)調(diào)用指令描述pause掛起信號nice改變分時進程的優(yōu)先級ptrace進程跟蹤kill向進程發(fā)送信號pipe創(chuàng)建管道m(xù)kfifo創(chuàng)建 fifo 的特殊文件(命名管道)sigaction設(shè)置對指定信號的處理方法msgctl消息控制操作semctl信號量控制
在 Linux 內(nèi)核結(jié)構(gòu)中,進程會被表示為 任務(wù),通過結(jié)構(gòu)體 structure 來創(chuàng)建。不像其他的操作系統(tǒng)會區(qū)分進程、輕量級進程和線程,Linux 統(tǒng)一使用任務(wù)結(jié)構(gòu)來代表執(zhí)行上下文。因此,對于每個單線程進程來說,單線程進程將用一個任務(wù)結(jié)構(gòu)表示,對于多線程進程來說,將為每一個用戶級線程分配一個任務(wù)結(jié)構(gòu)。Linux 內(nèi)核是多線程的,并且內(nèi)核級線程不與任何用戶級線程相關(guān)聯(lián)。
對于每個進程來說,在內(nèi)存中都會有一個 task_struct 進程描述符與之對應(yīng)。進程描述符包含了內(nèi)核管理進程所有有用的信息,包括 調(diào)度參數(shù)、打開文件描述符等等。進程描述符從進程創(chuàng)建開始就一直存在于內(nèi)核堆棧中。
Linux 和 Unix 一樣,都是通過 PID 來區(qū)分不同的進程,內(nèi)核會將所有進程的任務(wù)結(jié)構(gòu)組成為一個雙向鏈表。PID 能夠直接被映射稱為進程的任務(wù)結(jié)構(gòu)所在的地址,從而不需要遍歷雙向鏈表直接訪問。
我們上面提到了進程描述符,這是一個非常重要的概念,我們上面還提到了進程描述符是位于內(nèi)存中的,這里我們省略了一句話,那就是進程描述符是存在用戶的任務(wù)結(jié)構(gòu)中,當進程位于內(nèi)存并開始運行時,進程描述符才會被調(diào)入內(nèi)存。
進程位于內(nèi)存被稱為 PIM(Process In Memory) ,這是馮諾伊曼體系架構(gòu)的一種體現(xiàn),加載到內(nèi)存中并執(zhí)行的程序稱為進程。簡單來說,一個進程就是正在執(zhí)行的程序。
進程描述符可以歸為下面這幾類
調(diào)度參數(shù)(scheduling parameters):進程優(yōu)先級、最近消耗 CPU 的時間、最近睡眠時間一起決定了下一個需要運行的進程
內(nèi)存映像(memory image):我們上面說到,進程映像是執(zhí)行程序時所需要的可執(zhí)行文件,它由數(shù)據(jù)和代碼組成。
信號(signals):顯示哪些信號被捕獲、哪些信號被執(zhí)行
寄存器:當發(fā)生內(nèi)核陷入 (trap) 時,寄存器的內(nèi)容會被保存下來。
系統(tǒng)調(diào)用狀態(tài)(system call state):當前系統(tǒng)調(diào)用的信息,包括參數(shù)和結(jié)果
文件描述符表(file descriptor table):有關(guān)文件描述符的系統(tǒng)被調(diào)用時,文件描述符作為索引在文件描述符表中定位相關(guān)文件的 i-node 數(shù)據(jù)結(jié)構(gòu)
統(tǒng)計數(shù)據(jù)(accounting):記錄用戶、進程占用系統(tǒng) CPU 時間表的指針,一些操作系統(tǒng)還保存進程最多占用的 CPU 時間、進程擁有的最大堆棧空間、進程可以消耗的頁面數(shù)等。
內(nèi)核堆棧(kernel stack):進程的內(nèi)核部分可以使用的固定堆棧
其他: 當前進程狀態(tài)、事件等待時間、距離警報的超時時間、PID、父進程的 PID 以及用戶標識符等
有了上面這些信息,現(xiàn)在就很容易描述在 Linux 中是如何創(chuàng)建這些進程的了,創(chuàng)建新流程實際上非常簡單。為子進程開辟一塊新的用戶空間的進程描述符,然后從父進程復(fù)制大量的內(nèi)容。為這個子進程分配一個 PID,設(shè)置其內(nèi)存映射,賦予它訪問父進程文件的權(quán)限,注冊并啟動。
當執(zhí)行 fork 系統(tǒng)調(diào)用時,調(diào)用進程會陷入內(nèi)核并創(chuàng)建一些和任務(wù)相關(guān)的數(shù)據(jù)結(jié)構(gòu),比如內(nèi)核堆棧(kernel stack) 和 thread_info 結(jié)構(gòu)。
關(guān)于 thread_info 結(jié)構(gòu)可以參考
https://docs.huihoo.com/doxygen/linux/kernel/3.7/arch_2avr32_2include_2asm_2thread__info_8h_source.html
這個結(jié)構(gòu)中包含進程描述符,進程描述符位于固定的位置,使得 Linux 系統(tǒng)只需要很小的開銷就可以定位到一個運行中進程的數(shù)據(jù)結(jié)構(gòu)。
進程描述符的主要內(nèi)容是根據(jù)父進程的描述符來填充。Linux 操作系統(tǒng)會尋找一個可用的 PID,并且此 PID 沒有被任何進程使用,更新進程標示符使其指向一個新的數(shù)據(jù)結(jié)構(gòu)即可。為了減少 hash table 的碰撞,進程描述符會形成鏈表。它還將 task_struct 的字段設(shè)置為指向任務(wù)數(shù)組上相應(yīng)的上一個/下一個進程。
task_struct : Linux 進程描述符,內(nèi)部涉及到眾多 C++ 源碼,我們會在后面進行講解。
從原則上來說,為子進程開辟內(nèi)存區(qū)域并為子進程分配數(shù)據(jù)段、堆棧段,并且對父進程的內(nèi)容進行復(fù)制,但是實際上 fork 完成后,子進程和父進程沒有共享內(nèi)存,所以需要復(fù)制技術(shù)來實現(xiàn)同步,但是復(fù)制開銷比較大,因此 Linux 操作系統(tǒng)使用了一種 欺騙 方式。即為子進程分配頁表,然后新分配的頁表指向父進程的頁面,同時這些頁面是只讀的。當進程向這些頁面進行寫入的時候,會開啟保護錯誤。內(nèi)核發(fā)現(xiàn)寫入操作后,會為進程分配一個副本,使得寫入時把數(shù)據(jù)復(fù)制到這個副本上,這個副本是共享的,這種方式稱為 寫入時復(fù)制(copy on write),這種方式避免了在同一塊內(nèi)存區(qū)域維護兩個副本的必要,節(jié)省內(nèi)存空間。
在子進程開始運行后,操作系統(tǒng)會調(diào)用 exec 系統(tǒng)調(diào)用,內(nèi)核會進行查找驗證可執(zhí)行文件,把參數(shù)和環(huán)境變量復(fù)制到內(nèi)核,釋放舊的地址空間。
現(xiàn)在新的地址空間需要被創(chuàng)建和填充。如果系統(tǒng)支持映射文件,就像 Unix 系統(tǒng)一樣,那么新的頁表就會創(chuàng)建,表明內(nèi)存中沒有任何頁,除非所使用的頁面是堆棧頁,其地址空間由磁盤上的可執(zhí)行文件支持。新進程開始運行時,立刻會收到一個缺頁異常(page fault),這會使具有代碼的頁面加載進入內(nèi)存。最后,參數(shù)和環(huán)境變量被復(fù)制到新的堆棧中,重置信號,寄存器全部清零。新的命令開始運行。
下面是一個示例,用戶輸出 ls,shell 會調(diào)用 fork 函數(shù)復(fù)制一個新進程,shell 進程會調(diào)用 exec 函數(shù)用可執(zhí)行文件 ls 的內(nèi)容覆蓋它的內(nèi)存。
現(xiàn)在我們來討論一下 Linux 中的線程,線程是輕量級的進程,想必這句話你已經(jīng)聽過很多次了,輕量級體現(xiàn)在所有的進程切換都需要清除所有的表、進程間的共享信息也比較麻煩,一般來說通過管道或者共享內(nèi)存,如果是 fork 函數(shù)后的父子進程則使用共享文件,然而線程切換不需要像進程一樣具有昂貴的開銷,而且線程通信起來也更方便。線程分為兩種:用戶級線程和內(nèi)核級線程
用戶級線程避免使用內(nèi)核,通常,每個線程會顯示調(diào)用開關(guān),發(fā)送信號或者執(zhí)行某種切換操作來放棄 CPU,同樣,計時器可以強制進行開關(guān),用戶線程的切換速度通常比內(nèi)核線程快很多。在用戶級別實現(xiàn)線程會有一個問題,即單個線程可能會壟斷 CPU 時間片,導(dǎo)致其他線程無法執(zhí)行從而 餓死。如果執(zhí)行一個 I/O 操作,那么 I/O 會阻塞,其他線程也無法運行。
一種解決方案是,一些用戶級的線程包解決了這個問題。可以使用時鐘周期的監(jiān)視器來控制第一時間時間片獨占。然后,一些庫通過特殊的包裝來解決系統(tǒng)調(diào)用的 I/O 阻塞問題,或者可以為非阻塞 I/O 編寫任務(wù)。
內(nèi)核級線程通常使用幾個進程表在內(nèi)核中實現(xiàn),每個任務(wù)都會對應(yīng)一個進程表。在這種情況下,內(nèi)核會在每個進程的時間片內(nèi)調(diào)度每個線程。
所有能夠阻塞的調(diào)用都會通過系統(tǒng)調(diào)用的方式來實現(xiàn),當一個線程阻塞時,內(nèi)核可以進行選擇,是運行在同一個進程中的另一個線程(如果有就緒線程的話)還是運行一個另一個進程中的線程。
從用戶空間 -> 內(nèi)核空間 -> 用戶空間的開銷比較大,但是線程初始化的時間損耗可以忽略不計。這種實現(xiàn)的好處是由時鐘決定線程切換時間,因此不太可能將時間片與任務(wù)中的其他線程占用時間綁定到一起。同樣,I/O 阻塞也不是問題。
結(jié)合用戶空間和內(nèi)核空間的優(yōu)點,設(shè)計人員采用了一種內(nèi)核級線程的方式,然后將用戶級線程與某些或者全部內(nèi)核線程多路復(fù)用起來
在這種模型中,編程人員可以自由控制用戶線程和內(nèi)核線程的數(shù)量,具有很大的靈活度。采用這種方法,內(nèi)核只識別內(nèi)核級線程,并對其進行調(diào)度。其中一些內(nèi)核級線程會被多個用戶級線程多路復(fù)用。
下面我們來關(guān)注一下 Linux 系統(tǒng)的調(diào)度算法,首先需要認識到,Linux 系統(tǒng)的線程是內(nèi)核線程,所以 Linux 系統(tǒng)是基于線程的,而不是基于進程的。
為了進行調(diào)度,Linux 系統(tǒng)將線程分為三類
實時先入先出
實時輪詢
分時
實時先入先出線程具有最高優(yōu)先級,它不會被其他線程所搶占,除非那是一個剛剛準備好的,擁有更高優(yōu)先級的線程進入。實時輪轉(zhuǎn)線程與實時先入先出線程基本相同,只是每個實時輪轉(zhuǎn)線程都有一個時間量,時間到了之后就可以被搶占。如果多個實時線程準備完畢,那么每個線程運行它時間量所規(guī)定的時間,然后插入到實時輪轉(zhuǎn)線程末尾。
注意這個實時只是相對的,無法做到絕對的實時,因為線程的運行時間無法確定。它們相對分時系統(tǒng)來說,更加具有實時性
Linux 系統(tǒng)會給每個線程分配一個 nice 值,這個值代表了優(yōu)先級的概念。nice 值默認值是 0 ,但是可以通過系統(tǒng)調(diào)用 nice 值來修改。修改值的范圍從 -20 - +19。nice 值決定了線程的靜態(tài)優(yōu)先級。一般系統(tǒng)管理員的 nice 值會比一般線程的優(yōu)先級高,它的范圍是 -20 - -1。
下面我們更詳細的討論一下 Linux 系統(tǒng)的兩個調(diào)度算法,它們的內(nèi)部與調(diào)度隊列(runqueue) 的設(shè)計很相似。運行隊列有一個數(shù)據(jù)結(jié)構(gòu)用來監(jiān)視系統(tǒng)中所有可運行的任務(wù)并選擇下一個可以運行的任務(wù)。每個運行隊列和系統(tǒng)中的每個 CPU 有關(guān)。
Linux O(1) 調(diào)度器是歷史上很流行的一個調(diào)度器。這個名字的由來是因為它能夠在常數(shù)時間內(nèi)執(zhí)行任務(wù)調(diào)度。在 O(1) 調(diào)度器里,調(diào)度隊列被組織成兩個數(shù)組,一個是任務(wù)正在活動的數(shù)組,一個是任務(wù)過期失效的數(shù)組。如下圖所示,每個數(shù)組都包含了 140 個鏈表頭,每個鏈表頭具有不同的優(yōu)先級。
大致流程如下:
調(diào)度器從正在活動數(shù)組中選擇一個優(yōu)先級最高的任務(wù)。如果這個任務(wù)的時間片過期失效了,就把它移動到過期失效數(shù)組中。如果這個任務(wù)阻塞了,比如說正在等待 I/O 事件,那么在它的時間片過期失效之前,一旦 I/O 操作完成,那么這個任務(wù)將會繼續(xù)運行,它將被放回到之前正在活動的數(shù)組中,因為這個任務(wù)之前已經(jīng)消耗一部分 CPU 時間片,所以它將運行剩下的時間片。當這個任務(wù)運行完它的時間片后,它就會被放到過期失效數(shù)組中。一旦正在活動的任務(wù)數(shù)組中沒有其他任務(wù)后,調(diào)度器將會交換指針,使得正在活動的數(shù)組變?yōu)檫^期失效數(shù)組,過期失效數(shù)組變?yōu)檎诨顒拥臄?shù)組。使用這種方式可以保證每個優(yōu)先級的任務(wù)都能夠得到執(zhí)行,不會導(dǎo)致線程饑餓。
在這種調(diào)度方式中,不同優(yōu)先級的任務(wù)所得到 CPU 分配的時間片也是不同的,高優(yōu)先級進程往往能得到較長的時間片,低優(yōu)先級的任務(wù)得到較少的時間片。
這種方式為了保證能夠更好的提供服務(wù),通常會為 交互式進程 賦予較高的優(yōu)先級,交互式進程就是用戶進程。
Linux 系統(tǒng)不知道一個任務(wù)究竟是 I/O 密集型的還是 CPU 密集型的,它只是依賴于交互式的方式,Linux 系統(tǒng)會區(qū)分是靜態(tài)優(yōu)先級 還是 動態(tài)優(yōu)先級。動態(tài)優(yōu)先級是采用一種獎勵機制來實現(xiàn)的。獎勵機制有兩種方式:獎勵交互式線程、懲罰占用 CPU 的線程。在 Linux O(1) 調(diào)度器中,最高的優(yōu)先級獎勵是 -5,注意這個優(yōu)先級越低越容易被線程調(diào)度器接受,所以最高懲罰的優(yōu)先級是 +5。具體體現(xiàn)就是操作系統(tǒng)維護一個名為 sleep_avg 的變量,任務(wù)喚醒會增加 sleep_avg 變量的值,當任務(wù)被搶占或者時間量過期會減少這個變量的值,反映在獎勵機制上。
O(1) 調(diào)度算法是 2.6 內(nèi)核版本的調(diào)度器,最初引入這個調(diào)度算法的是不穩(wěn)定的 2.5 版本。早期的調(diào)度算法在多處理器環(huán)境中說明了通過訪問正在活動數(shù)組就可以做出調(diào)度的決定。使調(diào)度可以在固定的時間 O(1) 完成。
O(1) 調(diào)度器使用了一種 啟發(fā)式 的方式,這是什么意思?
在計算機科學中,啟發(fā)式是一種當傳統(tǒng)方式解決問題很慢時用來快速解決問題的方式,或者找到一個在傳統(tǒng)方法無法找到任何精確解的情況下找到近似解。
O(1) 使用啟發(fā)式的這種方式,會使任務(wù)的優(yōu)先級變得復(fù)雜并且不完善,從而導(dǎo)致在處理交互任務(wù)時性能很糟糕。
為了改進這個缺點,O(1) 調(diào)度器的開發(fā)者又提出了一個新的方案,即 公平調(diào)度器(Completely Fair Scheduler, CFS)。 CFS 的主要思想是使用一顆紅黑樹作為調(diào)度隊列。
數(shù)據(jù)結(jié)構(gòu)太重要了。
CFS 會根據(jù)任務(wù)在 CPU 上的運行時間長短而將其有序地排列在樹中,時間精確到納秒級。下面是 CFS 的構(gòu)造模型
CFS 的調(diào)度過程如下:
CFS 算法總是優(yōu)先調(diào)度哪些使用 CPU 時間最少的任務(wù)。最小的任務(wù)一般都是在最左邊的位置。當有一個新的任務(wù)需要運行時,CFS 會把這個任務(wù)和最左邊的數(shù)值進行對比,如果此任務(wù)具有最小時間值,那么它將進行運行,否則它會進行比較,找到合適的位置進行插入。然后 CPU 運行紅黑樹上當前比較的最左邊的任務(wù)。
在紅黑樹中選擇一個節(jié)點來運行的時間可以是常數(shù)時間,但是插入一個任務(wù)的時間是 O(loog(N)),其中 N 是系統(tǒng)中的任務(wù)數(shù)。考慮到當前系統(tǒng)的負載水平,這是可以接受的。
調(diào)度器只需要考慮可運行的任務(wù)即可。這些任務(wù)被放在適當?shù)恼{(diào)度隊列中。不可運行的任務(wù)和正在等待的各種 I/O 操作或內(nèi)核事件的任務(wù)被放入一個等待隊列中。等待隊列頭包含一個指向任務(wù)鏈表的指針和一個自旋鎖。自旋鎖對于并發(fā)處理場景下用處很大。
下面來聊一下 Linux 中的同步機制。早期的 Linux 內(nèi)核只有一個 大內(nèi)核鎖(Big Kernel Lock,BKL) 。它阻止了不同處理器并發(fā)處理的能力。因此,需要引入一些粒度更細的鎖機制。
Linux 提供了若干不同類型的同步變量,這些變量既能夠在內(nèi)核中使用,也能夠在用戶應(yīng)用程序中使用。在地層中,Linux 通過使用 atomic_set 和 atomic_read 這樣的操作為硬件支持的原子指令提供封裝。硬件提供內(nèi)存重排序,這是 Linux 屏障的機制。
具有高級別的同步像是自旋鎖的描述是這樣的,當兩個進程同時對資源進行訪問,在一個進程獲得資源后,另一個進程不想被阻塞,所以它就會自旋,等待一會兒再對資源進行訪問。Linux 也提供互斥量或信號量這樣的機制,也支持像是 mutex_tryLock 和 mutex_tryWait 這樣的非阻塞調(diào)用。也支持中斷處理事務(wù),也可以通過動態(tài)禁用和啟用相應(yīng)的中斷來實現(xiàn)。
下面來聊一聊 Linux 是如何啟動的。
當計算機電源通電后,BIOS會進行開機自檢(Power-On-Self-Test, POST),對硬件進行檢測和初始化。因為操作系統(tǒng)的啟動會使用到磁盤、屏幕、鍵盤、鼠標等設(shè)備。下一步,磁盤中的第一個分區(qū),也被稱為 MBR(Master Boot Record) 主引導(dǎo)記錄,被讀入到一個固定的內(nèi)存區(qū)域并執(zhí)行。這個分區(qū)中有一個非常小的,只有 512 字節(jié)的程序。程序從磁盤中調(diào)入 boot 獨立程序,boot 程序?qū)⒆陨韽?fù)制到高位地址的內(nèi)存從而為操作系統(tǒng)釋放低位地址的內(nèi)存。
復(fù)制完成后,boot 程序讀取啟動設(shè)備的根目錄。boot 程序要理解文件系統(tǒng)和目錄格式。然后 boot 程序被調(diào)入內(nèi)核,把控制權(quán)移交給內(nèi)核。直到這里,boot 完成了它的工作。系統(tǒng)內(nèi)核開始運行。
內(nèi)核啟動代碼是使用匯編語言完成的,主要包括創(chuàng)建內(nèi)核堆棧、識別 CPU 類型、計算內(nèi)存、禁用中斷、啟動內(nèi)存管理單元等,然后調(diào)用 C 語言的 main 函數(shù)執(zhí)行操作系統(tǒng)部分。
這部分也會做很多事情,首先會分配一個消息緩沖區(qū)來存放調(diào)試出現(xiàn)的問題,調(diào)試信息會寫入緩沖區(qū)。如果調(diào)試出現(xiàn)錯誤,這些信息可以通過診斷程序調(diào)出來。
然后操作系統(tǒng)會進行自動配置,檢測設(shè)備,加載配置文件,被檢測設(shè)備如果做出響應(yīng),就會被添加到已鏈接的設(shè)備表中,如果沒有相應(yīng),就歸為未連接直接忽略。
配置完所有硬件后,接下來要做的就是仔細手工處理進程0,設(shè)置其堆棧,然后運行它,執(zhí)行初始化、配置時鐘、掛載文件系統(tǒng)。創(chuàng)建 init 進程(進程 1 ) 和 守護進程(進程 2)。
init 進程會檢測它的標志以確定它是否為單用戶還是多用戶服務(wù)。在前一種情況中,它會調(diào)用 fork 函數(shù)創(chuàng)建一個 shell 進程,并且等待這個進程結(jié)束。后一種情況調(diào)用 fork 函數(shù)創(chuàng)建一個運行系統(tǒng)初始化的 shell 腳本(即 /etc/rc)的進程,這個進程可以進行文件系統(tǒng)一致性檢測、掛載文件系統(tǒng)、開啟守護進程等。
然后 /etc/rc 這個進程會從 /etc/ttys 中讀取數(shù)據(jù),/etc/ttys 列出了所有的終端和屬性。對于每一個啟用的終端,這個進程調(diào)用 fork 函數(shù)創(chuàng)建一個自身的副本,進行內(nèi)部處理并運行一個名為 getty 的程序。
getty 程序會在終端上輸入
login:
等待用戶輸入用戶名,在輸入用戶名后,getty 程序結(jié)束,登陸程序 /bin/login 開始運行。login 程序需要輸入密碼,并與保存在 /etc/passwd 中的密碼進行對比,如果輸入正確,login 程序以用戶 shell 程序替換自身,等待第一個命令。如果不正確,login 程序要求輸入另一個用戶名。
整個系統(tǒng)啟動過程如下
Linux 內(nèi)存管理模型非常直接明了,因為 Linux 的這種機制使其具有可移植性并且能夠在內(nèi)存管理單元相差不大的機器下實現(xiàn) Linux,下面我們就來認識一下 Linux 內(nèi)存管理是如何實現(xiàn)的。
每個 Linux 進程都會有地址空間,這些地址空間由三個段區(qū)域組成:text 段、data 段、stack 段。下面是進程地址空間的示例。
數(shù)據(jù)段(data segment) 包含了程序的變量、字符串、數(shù)組和其他數(shù)據(jù)的存儲。數(shù)據(jù)段分為兩部分,已經(jīng)初始化的數(shù)據(jù)和尚未初始化的數(shù)據(jù)。其中尚未初始化的數(shù)據(jù)就是我們說的 BSS。數(shù)據(jù)段部分的初始化需要編譯就期確定的常量以及程序啟動就需要一個初始值的變量。所有 BSS 部分中的變量在加載后被初始化為 0 。
和 代碼段(Text segment) 不一樣,data segment 數(shù)據(jù)段可以改變。程序總是修改它的變量。而且,許多程序需要在執(zhí)行時動態(tài)分配空間。Linux 允許數(shù)據(jù)段隨著內(nèi)存的分配和回收從而增大或者減小。為了分配內(nèi)存,程序可以增加數(shù)據(jù)段的大小。在 C 語言中有一套標準庫 malloc 經(jīng)常用于分配內(nèi)存。進程地址空間描述符包含動態(tài)分配的內(nèi)存區(qū)域稱為 堆(heap)。
第三部分段是 棧段(stack segment)。在大部分機器上,棧段會在虛擬內(nèi)存地址頂部地址位置處,并向低位置處(向地址空間為 0 處)拓展。舉個例子來說,在 32 位 x86 架構(gòu)的機器上,棧開始于 0xC0000000,這是用戶模式下進程允許可見的 3GB 虛擬地址限制。如果棧一直增大到超過棧段后,就會發(fā)生硬件故障并把頁面下降一個頁面。
當程序啟動時,棧區(qū)域并不是空的,相反,它會包含所有的 shell 環(huán)境變量以及為了調(diào)用它而向 shell 輸入的命令行。舉個例子,當你輸入
cp cxuan lx
時,cp 程序會運行并在棧中帶著字符串 cp cxuan lx ,這樣就能夠找出源文件和目標文件的名稱。
當兩個用戶運行在相同程序中,例如編輯器(editor),那么就會在內(nèi)存中保持編輯器程序代碼的兩個副本,但是這種方式并不高效。Linux 系統(tǒng)支持共享文本段作為替代。下面圖中我們會看到 A 和 B 兩個進程,它們有著相同的文本區(qū)域。
數(shù)據(jù)段和棧段只有在 fork 之后才會共享,共享也是共享未修改過的頁面。如果任何一個都需要變大但是沒有相鄰空間容納的話,也不會有問題,因為相鄰的虛擬頁面不必映射到相鄰的物理頁面上。
除了動態(tài)分配更多的內(nèi)存,Linux 中的進程可以通過內(nèi)存映射文件來訪問文件數(shù)據(jù)。這個特性可以使我們把一個文件映射到進程空間的一部分而該文件就可以像位于內(nèi)存中的字節(jié)數(shù)組一樣被讀寫。把一個文件映射進來使得隨機讀寫比使用 read 和 write 之類的 I/O 系統(tǒng)調(diào)用要容易得多。共享庫的訪問就是使用了這種機制。如下所示
我們可以看到兩個相同文件會被映射到相同的物理地址上,但是它們屬于不同的地址空間。
映射文件的優(yōu)點是,兩個或多個進程可以同時映射到同一文件中,任意一個進程對文件的寫操作對其他文件可見。通過使用映射臨時文件的方式,可以為多線程共享內(nèi)存提供高帶寬,臨時文件在進程退出后消失。但是實際上,并沒有兩個相同的地址空間,因為每個進程維護的打開文件和信號不同。
下面我們探討一下關(guān)于內(nèi)存管理的系統(tǒng)調(diào)用方式。事實上,POSIX 并沒有給內(nèi)存管理指定任何的系統(tǒng)調(diào)用。然而,Linux 卻有自己的內(nèi)存系統(tǒng)調(diào)用,主要系統(tǒng)調(diào)用如下
系統(tǒng)調(diào)用描述s = brk(addr)改變數(shù)據(jù)段大小a = mmap(addr,len,prot,flags,fd,offset)進行映射s = unmap(addr,len)取消映射
如果遇到錯誤,那么 s 的返回值是 -1,a 和 addr 是內(nèi)存地址,len 表示的是長度,prot 表示的是控制保護位,flags 是其他標志位,fd 是文件描述符,offset 是文件偏移量。
brk 通過給出超過數(shù)據(jù)段之外的第一個字節(jié)地址來指定數(shù)據(jù)段的大小。如果新的值要比原來的大,那么數(shù)據(jù)區(qū)會變得越來越大,反之會越來越小。
mmap 和 unmap 系統(tǒng)調(diào)用會控制映射文件。mmp 的第一個參數(shù) addr 決定了文件映射的地址。它必須是頁面大小的倍數(shù)。如果參數(shù)是 0,系統(tǒng)會分配地址并返回 a。第二個參數(shù)是長度,它告訴了需要映射多少字節(jié)。它也是頁面大小的倍數(shù)。prot 決定了映射文件的保護位,保護位可以標記為 可讀、可寫、可執(zhí)行或者這些的結(jié)合。第四個參數(shù) flags 能夠控制文件是私有的還是可讀的以及 addr 是必須的還是只是進行提示。第五個參數(shù) fd 是要映射的文件描述符。只有打開的文件是可以被映射的,因此如果想要進行文件映射,必須打開文件;最后一個參數(shù) offset 會指示文件從什么時候開始,并不一定每次都要從零開始。
內(nèi)存管理系統(tǒng)是操作系統(tǒng)最重要的部分之一。從計算機早期開始,我們實際使用的內(nèi)存都要比系統(tǒng)中實際存在的內(nèi)存多。內(nèi)存分配策略克服了這一限制,并且其中最有名的就是 虛擬內(nèi)存(virtual memory)。通過在多個競爭的進程之間共享虛擬內(nèi)存,虛擬內(nèi)存得以讓系統(tǒng)有更多的內(nèi)存。虛擬內(nèi)存子系統(tǒng)主要包括下面這些概念。
大地址空間
操作系統(tǒng)使系統(tǒng)使用起來好像比實際的物理內(nèi)存要大很多,那是因為虛擬內(nèi)存要比物理內(nèi)存大很多倍。
保護
系統(tǒng)中的每個進程都會有自己的虛擬地址空間。這些虛擬地址空間彼此完全分開,因此運行一個應(yīng)用程序的進程不會影響另一個。并且,硬件虛擬內(nèi)存機制允許內(nèi)存保護關(guān)鍵內(nèi)存區(qū)域。
內(nèi)存映射
內(nèi)存映射用來向進程地址空間映射圖像和數(shù)據(jù)文件。在內(nèi)存映射中,文件的內(nèi)容直接映射到進程的虛擬空間中。
公平的物理內(nèi)存分配
內(nèi)存管理子系統(tǒng)允許系統(tǒng)中的每個正在運行的進程公平分配系統(tǒng)的物理內(nèi)存。
共享虛擬內(nèi)存
盡管虛擬內(nèi)存讓進程有自己的內(nèi)存空間,但是有的時候你是需要共享內(nèi)存的。例如幾個進程同時在 shell 中運行,這會涉及到 IPC 的進程間通信問題,這個時候你需要的是共享內(nèi)存來進行信息傳遞而不是通過拷貝每個進程的副本獨立運行。
到此,相信大家對“Linux操作系統(tǒng)全面知識點有哪些”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。