溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何使用Linux中的零拷貝技術

發(fā)布時間：2020-07-30 10:49:06 來源：億速云閱讀：155 作者：小豬欄目：開發(fā)技術

這篇文章主要講解了如何使用Linux中的零拷貝技術，內容清晰明了，對此有興趣的小伙伴可以學習一下，相信大家閱讀完之后會有幫助。

引文##

在寫一個服務端程序時（Web Server或者文件服務器），文件下載是一個基本功能。這時候服務端的任務是：將服務端主機磁盤中的文件不做修改地從已連接的socket發(fā)出去，我們通常用下面的代碼完成：

while((n = read(diskfd, buf, BUF_SIZE)) > 0)
  write(sockfd, buf , n);

基本操作就是循環(huán)的從磁盤讀入文件內容到緩沖區(qū)，再將緩沖區(qū)的內容發(fā)送到socket。但是由于Linux的I/O操作默認是緩沖I/O。這里面主要使用的也就是read和write兩個系統(tǒng)調用，我們并不知道操作系統(tǒng)在其中做了什么。實際上在以上I/O操作中，發(fā)生了多次的數(shù)據(jù)拷貝。

當應用程序訪問某塊數(shù)據(jù)時，操作系統(tǒng)首先會檢查，是不是最近訪問過此文件，文件內容是否緩存在內核緩沖區(qū)，如果是，操作系統(tǒng)則直接根據(jù)read系統(tǒng)調用提供的buf地址，將內核緩沖區(qū)的內容拷貝到buf所指定的用戶空間緩沖區(qū)中去。如果不是，操作系統(tǒng)則首先將磁盤上的數(shù)據(jù)拷貝的內核緩沖區(qū)，這一步目前主要依靠DMA來傳輸，然后再把內核緩沖區(qū)上的內容拷貝到用戶緩沖區(qū)中。

接下來，write系統(tǒng)調用再把用戶緩沖區(qū)的內容拷貝到網絡堆棧相關的內核緩沖區(qū)中，最后socket再把內核緩沖區(qū)的內容發(fā)送到網卡上。

說了這么多，不如看圖清楚：

如何使用Linux中的零拷貝技術

數(shù)據(jù)拷貝

從上圖中可以看出，共產生了四次數(shù)據(jù)拷貝，即使使用了DMA來處理了與硬件的通訊，CPU仍然需要處理兩次數(shù)據(jù)拷貝，與此同時，在用戶態(tài)與內核態(tài)也發(fā)生了多次上下文切換，無疑也加重了CPU負擔。
在此過程中，我們沒有對文件內容做任何修改，那么在內核空間和用戶空間來回拷貝數(shù)據(jù)無疑就是一種浪費，而零拷貝主要就是為了解決這種低效性。

什么是零拷貝技術（zero-copy）？##

零拷貝主要的任務就是避免CPU將數(shù)據(jù)從一塊存儲拷貝到另外一塊存儲，主要就是利用各種零拷貝技術，避免讓CPU做大量的數(shù)據(jù)拷貝任務，減少不必要的拷貝，或者讓別的組件來做這一類簡單的數(shù)據(jù)傳輸任務，讓CPU解脫出來專注于別的任務。這樣就可以讓系統(tǒng)資源的利用更加有效。

我們繼續(xù)回到引文中的例子，我們如何減少數(shù)據(jù)拷貝的次數(shù)呢？一個很明顯的著力點就是減少數(shù)據(jù)在內核空間和用戶空間來回拷貝，這也引入了零拷貝的一個類型：

讓數(shù)據(jù)傳輸不需要經過user space

使用mmap#####

我們減少拷貝次數(shù)的一種方法是調用mmap()來代替read調用：

buf = mmap(diskfd, len);
write(sockfd, buf, len);

應用程序調用mmap()，磁盤上的數(shù)據(jù)會通過DMA被拷貝的內核緩沖區(qū)，接著操作系統(tǒng)會把這段內核緩沖區(qū)與應用程序共享，這樣就不需要把內核緩沖區(qū)的內容往用戶空間拷貝。應用程序再調用write(),操作系統(tǒng)直接將內核緩沖區(qū)的內容拷貝到socket緩沖區(qū)中，這一切都發(fā)生在內核態(tài)，最后，socket緩沖區(qū)再把數(shù)據(jù)發(fā)到網卡去。
同樣的，看圖很簡單：

如何使用Linux中的零拷貝技術

mmap

使用mmap替代read很明顯減少了一次拷貝，當拷貝數(shù)據(jù)量很大時，無疑提升了效率。但是使用mmap是有代價的。當你使用mmap時，你可能會遇到一些隱藏的陷阱。例如，當你的程序map了一個文件，但是當這個文件被另一個進程截斷(truncate)時, write系統(tǒng)調用會因為訪問非法地址而被SIGBUS信號終止。SIGBUS信號默認會殺死你的進程并產生一個coredump,如果你的服務器這樣被中止了，那會產生一筆損失。

通常我們使用以下解決方案避免這種問題：

為SIGBUS信號建立信號處理程序
當遇到SIGBUS信號時，信號處理程序簡單地返回，write系統(tǒng)調用在被中斷之前會返回已經寫入的字節(jié)數(shù)，并且errno會被設置成success,但是這是一種糟糕的處理辦法，因為你并沒有解決問題的實質核心。

使用文件租借鎖
通常我們使用這種方法，在文件描述符上使用租借鎖，我們?yōu)槲募騼群松暾堃粋€租借鎖，當其它進程想要截斷這個文件時，內核會向我們發(fā)送一個實時的RT_SIGNAL_LEASE信號，告訴我們內核正在破壞你加持在文件上的讀寫鎖。這樣在程序訪問非法內存并且被SIGBUS殺死之前，你的write系統(tǒng)調用會被中斷。write會返回已經寫入的字節(jié)數(shù)，并且置errno為success。
我們應該在mmap文件之前加鎖，并且在操作完文件后解鎖：

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {
  perror("kernel lease set signal");
  return -1;
}
/* l_type can be F_RDLCK F_WRLCK 加鎖*/
/* l_type can be F_UNLCK 解鎖*/
if(fcntl(diskfd, F_SETLEASE, l_type)){
  perror("kernel lease set type");
  return -1;
}

使用sendfile#####

從2.1版內核開始，Linux引入了sendfile來簡化操作:

#include<sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

系統(tǒng)調用sendfile()在代表輸入文件的描述符in_fd和代表輸出文件的描述符out_fd之間傳送文件內容（字節(jié)）。描述符out_fd必須指向一個套接字，而in_fd指向的文件必須是可以mmap的。這些局限限制了sendfile的使用，使sendfile只能將數(shù)據(jù)從文件傳遞到套接字上，反之則不行。
使用sendfile不僅減少了數(shù)據(jù)拷貝的次數(shù)，還減少了上下文切換，數(shù)據(jù)傳送始終只發(fā)生在kernel space。

如何使用Linux中的零拷貝技術

sendfile系統(tǒng)調用過程

在我們調用sendfile時，如果有其它進程截斷了文件會發(fā)生什么呢？假設我們沒有設置任何信號處理程序，sendfile調用僅僅返回它在被中斷之前已經傳輸?shù)淖止?jié)數(shù)，errno會被置為success。如果我們在調用sendfile之前給文件加了鎖，sendfile的行為仍然和之前相同，我們還會收到RT_SIGNAL_LEASE的信號。

目前為止，我們已經減少了數(shù)據(jù)拷貝的次數(shù)了，但是仍然存在一次拷貝，就是頁緩存到socket緩存的拷貝。那么能不能把這個拷貝也省略呢？

借助于硬件上的幫助，我們是可以辦到的。之前我們是把頁緩存的數(shù)據(jù)拷貝到socket緩存中，實際上，我們僅僅需要把緩沖區(qū)描述符傳到socket緩沖區(qū)，再把數(shù)據(jù)長度傳過去，這樣DMA控制器直接將頁緩存中的數(shù)據(jù)打包發(fā)送到網絡中就可以了。

總結一下，sendfile系統(tǒng)調用利用DMA引擎將文件內容拷貝到內核緩沖區(qū)去，然后將帶有文件位置和長度信息的緩沖區(qū)描述符添加socket緩沖區(qū)去，這一步不會將內核中的數(shù)據(jù)拷貝到socket緩沖區(qū)中，DMA引擎會將內核緩沖區(qū)的數(shù)據(jù)拷貝到協(xié)議引擎中去，避免了最后一次拷貝。

如何使用Linux中的零拷貝技術

帶DMA的sendfile

不過這一種收集拷貝功能是需要硬件以及驅動程序支持的。

使用splice#####

sendfile只適用于將數(shù)據(jù)從文件拷貝到套接字上，限定了它的使用范圍。Linux在2.6.17版本引入splice系統(tǒng)調用，用于在兩個文件描述符中移動數(shù)據(jù)：

#define _GNU_SOURCE     /* See feature_test_macros(7) */
#include <fcntl.h>
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

splice調用在兩個文件描述符之間移動數(shù)據(jù)，而不需要數(shù)據(jù)在內核空間和用戶空間來回拷貝。他從fd_in拷貝len長度的數(shù)據(jù)到fd_out，但是有一方必須是管道設備，這也是目前splice的一些局限性。flags參數(shù)有以下幾種取值：

SPLICE_F_MOVE ：嘗試去移動數(shù)據(jù)而不是拷貝數(shù)據(jù)。這僅僅是對內核的一個小提示：如果內核不能從pipe移動數(shù)據(jù)或者pipe的緩存不是一個整頁面，仍然需要拷貝數(shù)據(jù)。Linux最初的實現(xiàn)有些問題，所以從2.6.21開始這個選項不起作用，后面的Linux版本應該會實現(xiàn)。
** SPLICE_F_NONBLOCK** ：splice 操作不會被阻塞。然而，如果文件描述符沒有被設置為不可被阻塞方式的 I/O ，那么調用 splice 有可能仍然被阻塞。
** SPLICE_F_MORE**：后面的splice調用會有更多的數(shù)據(jù)。

splice調用利用了Linux提出的管道緩沖區(qū)機制，所以至少一個描述符要為管道。

以上幾種零拷貝技術都是減少數(shù)據(jù)在用戶空間和內核空間拷貝技術實現(xiàn)的，但是有些時候，數(shù)據(jù)必須在用戶空間和內核空間之間拷貝。這時候，我們只能針對數(shù)據(jù)在用戶空間和內核空間拷貝的時機上下功夫了。Linux通常利用寫時復制(copy on write)來減少系統(tǒng)開銷，這個技術又時常稱作COW。

由于篇幅原因，本文不詳細介紹寫時復制。大概描述下就是：如果多個程序同時訪問同一塊數(shù)據(jù)，那么每個程序都擁有指向這塊數(shù)據(jù)的指針，在每個程序看來，自己都是獨立擁有這塊數(shù)據(jù)的，只有當程序需要對數(shù)據(jù)內容進行修改時，才會把數(shù)據(jù)內容拷貝到程序自己的應用空間里去，這時候，數(shù)據(jù)才成為該程序的私有數(shù)據(jù)。如果程序不需要對數(shù)據(jù)進行修改，那么永遠都不需要拷貝數(shù)據(jù)到自己的應用空間里。這樣就減少了數(shù)據(jù)的拷貝。寫時復制的內容可以再寫一篇文章了。。。

除此之外，還有一些零拷貝技術，比如傳統(tǒng)的Linux I/O中加上O_DIRECT標記可以直接I/O，避免了自動緩存，還有尚未成熟的fbufs技術，本文尚未覆蓋所有零拷貝技術，只是介紹常見的一些，如有興趣，可以自行研究，一般成熟的服務端項目也會自己改造內核中有關I/O的部分，提高自己的數(shù)據(jù)傳輸速率。

看完上述內容，是不是對如何使用Linux中的零拷貝技術有進一步的了解，如果還想學習更多內容，歡迎關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
虛擬機下載python需要聯(lián)網嗎
下一篇新聞：
常見的五種文件類型有哪些

猜你喜歡

AI
助
手

產品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

<tt id="tmd6h"></tt>