溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Linux怎么收發(fā)網(wǎng)絡(luò)包

發(fā)布時(shí)間:2021-10-22 14:01:05 來(lái)源:億速云 閱讀:119 作者:小新 欄目:系統(tǒng)運(yùn)維

小編給大家分享一下Linux怎么收發(fā)網(wǎng)絡(luò)包,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

正文

網(wǎng)絡(luò)模型

為了使得多種設(shè)備能通過(guò)網(wǎng)絡(luò)相互通信,和為了解決各種不同設(shè)備在網(wǎng)絡(luò)互聯(lián)中的兼容性問(wèn)題,國(guó)際標(biāo)標(biāo)準(zhǔn)化組織制定了開(kāi)放式系統(tǒng)互聯(lián)通信參考模型(open System Interconnection Reference Model),也就是 OSI 網(wǎng)絡(luò)模型,該模型主要有 7 層,分別是應(yīng)用層、表示層、會(huì)話層、傳輸層、網(wǎng)絡(luò)層、數(shù)據(jù)鏈路層以及物理層。

每一層負(fù)責(zé)的職能都不同,如下:

  •  應(yīng)用層,負(fù)責(zé)給應(yīng)用程序提供統(tǒng)一的接口;

  •  表示層,負(fù)責(zé)把數(shù)據(jù)轉(zhuǎn)換成兼容另一個(gè)系統(tǒng)能識(shí)別的格式;

  •  會(huì)話層,負(fù)責(zé)建立、管理和終止表示層實(shí)體之間的通信會(huì)話;

  •  傳輸層,負(fù)責(zé)端到端的數(shù)據(jù)傳輸;

  •  網(wǎng)絡(luò)層,負(fù)責(zé)數(shù)據(jù)的路由、轉(zhuǎn)發(fā)、分片;

  •  數(shù)據(jù)鏈路層,負(fù)責(zé)數(shù)據(jù)的封幀和差錯(cuò)檢測(cè),以及 MAC 尋址;

  •  物理層,負(fù)責(zé)在物理網(wǎng)絡(luò)中傳輸數(shù)據(jù)幀;

由于 OSI 模型實(shí)在太復(fù)雜,提出的也只是概念理論上的分層,并沒(méi)有提供具體的實(shí)現(xiàn)方案。事實(shí)上,我們比較常見(jiàn),也比較實(shí)用的是四層模型,即 TCP/IP 網(wǎng)絡(luò)模型,Linux 系統(tǒng)正是按照這套網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)協(xié)議棧的。

TCP/IP 網(wǎng)絡(luò)模型共有 4 層,分別是應(yīng)用層、傳輸層、網(wǎng)絡(luò)層和網(wǎng)絡(luò)接口層,每一層負(fù)責(zé)的職能如下:

  •  應(yīng)用層,負(fù)責(zé)向用戶提供一組應(yīng)用程序,比如 HTTP、DNS、FTP 等;

  •  傳輸層,負(fù)責(zé)端到端的通信,比如 TCP、UDP 等;

  •  網(wǎng)絡(luò)層,負(fù)責(zé)網(wǎng)絡(luò)包的封裝、分片、路由、轉(zhuǎn)發(fā),比如 IP、ICMP 等;

  •  網(wǎng)絡(luò)接口層,負(fù)責(zé)網(wǎng)絡(luò)包在物理網(wǎng)絡(luò)中的傳輸,比如網(wǎng)絡(luò)包的封幀、 MAC 尋址、差錯(cuò)檢測(cè),以及通過(guò)網(wǎng)卡傳輸網(wǎng)絡(luò)幀等;

TCP/IP 網(wǎng)絡(luò)模型相比 OSI 網(wǎng)絡(luò)模型簡(jiǎn)化了不少,也更加易記,它們之間的關(guān)系如下圖:

Linux怎么收發(fā)網(wǎng)絡(luò)包

不過(guò),我們常說(shuō)的七層和四層負(fù)載均衡,是用 OSI 網(wǎng)絡(luò)模型來(lái)描述的,七層對(duì)應(yīng)的是應(yīng)用層,四層對(duì)應(yīng)的是傳輸層。

Linux 網(wǎng)絡(luò)協(xié)議棧

我們可以把自己的身體比作應(yīng)用層中的數(shù)據(jù),打底衣服比作傳輸層中的 TCP 頭,外套比作網(wǎng)絡(luò)層中 IP 頭,帽子和鞋子分別比作網(wǎng)絡(luò)接口層的幀頭和幀尾。

在冬天這個(gè)季節(jié),當(dāng)我們要從家里出去玩的時(shí)候,自然要先穿個(gè)打底衣服,再套上保暖外套,最后穿上帽子和鞋子才出門(mén),這個(gè)過(guò)程就好像我們把 TCP 協(xié)議通信的網(wǎng)絡(luò)包發(fā)出去的時(shí)候,會(huì)把應(yīng)用層的數(shù)據(jù)按照網(wǎng)絡(luò)協(xié)議棧層層封裝和處理。

你從下面這張圖可以看到,應(yīng)用層數(shù)據(jù)在每一層的封裝格式。

Linux怎么收發(fā)網(wǎng)絡(luò)包

其中:

  •  傳輸層,給應(yīng)用數(shù)據(jù)前面增加了 TCP  頭;

  •  網(wǎng)絡(luò)層,給 TCP 數(shù)據(jù)包前面增加了 IP  頭;

  •  網(wǎng)絡(luò)接口層,給 IP 數(shù)據(jù)包前后分別增加了幀頭和幀尾;

這些新增和頭部和尾部,都有各自的作用,也都是按照特定的協(xié)議格式填充,這每一層都增加了各自的協(xié)議頭,那自然網(wǎng)絡(luò)包的大小就增大了,但物理鏈路并不能傳輸任意大小的數(shù)據(jù)包,所以在以太網(wǎng)中,規(guī)定了最大傳輸單元(MTU)是 1500 字節(jié),也就是規(guī)定了單次傳輸?shù)淖畲?IP 包大小。

當(dāng)網(wǎng)絡(luò)包超過(guò) MTU 的大小,就會(huì)在網(wǎng)絡(luò)層分片,以確保分片后的 IP 包不會(huì)超過(guò) MTU 大小,如果 MTU 越小,需要的分包就越多,那么網(wǎng)絡(luò)吞吐能力就越差,相反的,如果 MTU 越大,需要的分包就越小,那么網(wǎng)絡(luò)吞吐能力就越好。

知道了 TCP/IP 網(wǎng)絡(luò)模型,以及網(wǎng)絡(luò)包的封裝原理后,那么 Linux 網(wǎng)絡(luò)協(xié)議棧的樣子,你想必猜到了大概,它其實(shí)就類似于 TCP/IP 的四層結(jié)構(gòu):

Linux怎么收發(fā)網(wǎng)絡(luò)包

從上圖的的網(wǎng)絡(luò)協(xié)議棧,你可以看到:

  •  應(yīng)用程序需要通過(guò)系統(tǒng)調(diào)用,來(lái)跟 Socket 層進(jìn)行數(shù)據(jù)交互;

  •  Socket 層的下面就是傳輸層、網(wǎng)絡(luò)層和網(wǎng)絡(luò)接口層;

  •  最下面的一層,則是網(wǎng)卡驅(qū)動(dòng)程序和硬件網(wǎng)卡設(shè)備;

Linux 接收網(wǎng)絡(luò)包的流程

網(wǎng)卡是計(jì)算機(jī)里的一個(gè)硬件,專門(mén)負(fù)責(zé)接收和發(fā)送網(wǎng)絡(luò)包,當(dāng)網(wǎng)卡接收到一個(gè)網(wǎng)絡(luò)包后,會(huì)通過(guò) DMA 技術(shù),將網(wǎng)絡(luò)包放入到 Ring Buffer,這個(gè)是一個(gè)環(huán)形緩沖區(qū),該緩沖區(qū)在內(nèi)核內(nèi)存中的網(wǎng)卡驅(qū)動(dòng)里。

那接收到網(wǎng)絡(luò)包后,應(yīng)該怎么告訴操作系統(tǒng)這個(gè)網(wǎng)絡(luò)包已經(jīng)到達(dá)了呢?

最簡(jiǎn)單的一種方式就是觸發(fā)中斷,也就是每當(dāng)網(wǎng)卡收到一個(gè)網(wǎng)絡(luò)包,就觸發(fā)一個(gè)中斷告訴操作系統(tǒng)。

但是,這存在一個(gè)問(wèn)題,在高性能網(wǎng)絡(luò)場(chǎng)景下,網(wǎng)絡(luò)包的數(shù)量會(huì)非常多,那么就會(huì)觸發(fā)非常多的中斷,要知道當(dāng) CPU  收到了中斷,就會(huì)停下手里的事情,而去處理這些網(wǎng)絡(luò)包,處理完畢后,才會(huì)回去繼續(xù)其他事情,那么頻繁地觸發(fā)中斷,則會(huì)導(dǎo)致 CPU 一直沒(méi)玩沒(méi)了的處理中斷,而導(dǎo)致其他任務(wù)可能無(wú)法繼續(xù)前進(jìn),從而影響系統(tǒng)的整體效率。

所以為了解決頻繁中斷帶來(lái)的性能開(kāi)銷,Linux 內(nèi)核在 2.6 版本中引入了 NAPI 機(jī)制,它是混合「中斷和輪詢」的方式來(lái)接收網(wǎng)絡(luò)包,它的核心概念就是不采用中斷的方式讀取數(shù)據(jù),而是首先采用中斷喚醒數(shù)據(jù)接收的服務(wù)程序,然后 poll 的方法來(lái)輪詢數(shù)據(jù)。

比如,當(dāng)有網(wǎng)絡(luò)包到達(dá)時(shí),網(wǎng)卡發(fā)起硬件中斷,于是會(huì)執(zhí)行網(wǎng)卡硬件中斷處理函數(shù),中斷處理函數(shù)處理完需要「暫時(shí)屏蔽中斷」,然后喚醒「軟中斷」來(lái)輪詢處理數(shù)據(jù),直到?jīng)]有新數(shù)據(jù)時(shí)才恢復(fù)中斷,這樣一次中斷處理多個(gè)網(wǎng)絡(luò)包,于是就可以降低網(wǎng)卡中斷帶來(lái)的性能開(kāi)銷。

那軟中斷是怎么處理網(wǎng)絡(luò)包的呢?它會(huì)從 Ring Buffer 中拷貝數(shù)據(jù)到內(nèi)核 struct sk_buff 緩沖區(qū)中,從而可以作為一個(gè)網(wǎng)絡(luò)包交給網(wǎng)絡(luò)協(xié)議棧進(jìn)行逐層處理。

首先,會(huì)先進(jìn)入到網(wǎng)絡(luò)接口層,在這一層會(huì)檢查報(bào)文的合法性,如果不合法則丟棄,合法則會(huì)找出該網(wǎng)絡(luò)包的上層協(xié)議的類型,比如是 IPv4,還是 IPv6,接著再去掉幀頭和幀尾,然后交給網(wǎng)絡(luò)層。

到了網(wǎng)絡(luò)層,則取出 IP 包,判斷網(wǎng)絡(luò)包下一步的走向,比如是交給上層處理還是轉(zhuǎn)發(fā)出去。當(dāng)確認(rèn)這個(gè)網(wǎng)絡(luò)包要發(fā)送給本機(jī)后,就會(huì)從 IP 頭里看看上一層協(xié)議的類型是 TCP 還是 UDP,接著去掉 IP 頭,然后交給傳輸層。

傳輸層取出 TCP 頭或 UDP 頭,根據(jù)四元組「源 IP、源端口、目的 IP、目的端口」 作為標(biāo)識(shí),找出對(duì)應(yīng)的 Socket,并把數(shù)據(jù)拷貝到 Socket 的接收緩沖區(qū)。

最后,應(yīng)用層程序調(diào)用 Socket 接口,從內(nèi)核的 Socket 接收緩沖區(qū)讀取新到來(lái)的數(shù)據(jù)到應(yīng)用層。

至此,一個(gè)網(wǎng)絡(luò)包的接收過(guò)程就已經(jīng)結(jié)束了,你也可以從下圖左邊部分看到網(wǎng)絡(luò)包接收的流程,右邊部分剛好反過(guò)來(lái),它是網(wǎng)絡(luò)包發(fā)送的流程。

Linux怎么收發(fā)網(wǎng)絡(luò)包

Linux 發(fā)送網(wǎng)絡(luò)包的流程

如上圖的有半部分,發(fā)送網(wǎng)絡(luò)包的流程正好和接收流程相反。

首先,應(yīng)用程序會(huì)調(diào)用 Socket 發(fā)送數(shù)據(jù)包的接口,由于這個(gè)是系統(tǒng)調(diào)用,所以會(huì)從用戶態(tài)陷入到內(nèi)核態(tài)中的 Socket 層,Socket 層會(huì)將應(yīng)用層數(shù)據(jù)拷貝到 Socket 發(fā)送緩沖區(qū)中。

接下來(lái),網(wǎng)絡(luò)協(xié)議棧從 Socket 發(fā)送緩沖區(qū)中取出數(shù)據(jù)包,并按照 TCP/IP 協(xié)議棧從上到下逐層處理。

如果使用的是 TCP 傳輸協(xié)議發(fā)送數(shù)據(jù),那么會(huì)在傳輸層增加 TCP 包頭,然后交給網(wǎng)絡(luò)層,網(wǎng)絡(luò)層會(huì)給數(shù)據(jù)包增加 IP 包,然后通過(guò)查詢路由表確認(rèn)下一跳的 IP,并按照 MTU 大小進(jìn)行分片。

分片后的網(wǎng)絡(luò)包,就會(huì)被送到網(wǎng)絡(luò)接口層,在這里會(huì)通過(guò) ARP 協(xié)議獲得下一跳的 MAC 地址,然后增加幀頭和幀尾,放到發(fā)包隊(duì)列中。

這一些準(zhǔn)備好后,會(huì)觸發(fā)軟中斷告訴網(wǎng)卡驅(qū)動(dòng)程序,這里有新的網(wǎng)絡(luò)包需要發(fā)送,最后驅(qū)動(dòng)程序通過(guò) DMA,從發(fā)包隊(duì)列中讀取網(wǎng)絡(luò)包,將其放入到硬件網(wǎng)卡的隊(duì)列中,隨后物理網(wǎng)卡再將它發(fā)送出去。

以上是“Linux怎么收發(fā)網(wǎng)絡(luò)包”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI