溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

nginx驚群?jiǎn)栴}的解決方案

發(fā)布時(shí)間:2021-09-14 12:42:32 來(lái)源:億速云 閱讀:101 作者:chen 欄目:云計(jì)算

本篇內(nèi)容主要講解“nginx驚群?jiǎn)栴}的解決方案”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“nginx驚群?jiǎn)栴}的解決方案”吧!

對(duì)于nginx的驚群?jiǎn)栴},我們首先需要理解的是,在nginx啟動(dòng)過(guò)程中,master進(jìn)程會(huì)監(jiān)聽配置文件中指定的各個(gè)端口,然后master進(jìn)程就會(huì)調(diào)用fork()方法創(chuàng)建各個(gè)子進(jìn)程,根據(jù)進(jìn)程的工作原理,子進(jìn)程是會(huì)繼承父進(jìn)程的全部?jī)?nèi)存數(shù)據(jù)以及監(jiān)聽的端口的,也就是說(shuō)worker進(jìn)程在啟動(dòng)之后也是會(huì)監(jiān)聽各個(gè)端口的。關(guān)于驚群,指的就是當(dāng)客戶端有新建連接的請(qǐng)求到來(lái)時(shí),就會(huì)觸發(fā)各個(gè)worker進(jìn)程的連接建立事件,但是只有一個(gè)worker進(jìn)程能夠正常處理該事件,而其他的worker進(jìn)程會(huì)發(fā)現(xiàn)事件已經(jīng)失效,從而重新循環(huán)進(jìn)入等待狀態(tài)。這種由于一個(gè)事件而“驚”起了所有worker進(jìn)程的現(xiàn)象就是驚群?jiǎn)栴}。很明顯,如果所有的worker進(jìn)程都被觸發(fā)了,那么這將消耗大量的資源,本文則主要講解nginx是如何處理驚群?jiǎn)栴}的。

1. 解決方式

在前面的文章中,我們講到,每個(gè)worker進(jìn)程被創(chuàng)建的時(shí)候,都會(huì)調(diào)用ngx_worker_process_init()方法初始化當(dāng)前worker進(jìn)程,這個(gè)過(guò)程中有一個(gè)非常重要的步驟,即每個(gè)worker進(jìn)程都會(huì)調(diào)用epoll_create()方法為自己創(chuàng)建一個(gè)獨(dú)有的epoll句柄。對(duì)于每一個(gè)需要監(jiān)聽的端口,都有一個(gè)文件描述符與之對(duì)應(yīng),而worker進(jìn)程只有將該文件描述符通過(guò)epoll_ctl()方法添加到當(dāng)前進(jìn)程的epoll句柄中,并且監(jiān)聽accept事件,此時(shí)才會(huì)被客戶端的連接建立事件觸發(fā),從而處理該事件。從這里也可以看出,worker進(jìn)程如果沒(méi)有將所需要監(jiān)聽的端口對(duì)應(yīng)的文件描述符添加到該進(jìn)程的epoll句柄中,那么其是無(wú)法被觸發(fā)對(duì)應(yīng)的事件的。基于這個(gè)原理,nginx就使用了一個(gè)共享鎖來(lái)控制當(dāng)前進(jìn)程是否有權(quán)限將需要監(jiān)聽的端口添加到當(dāng)前進(jìn)程的epoll句柄中,也就是說(shuō),只有獲取鎖的進(jìn)程才會(huì)監(jiān)聽目標(biāo)端口。通過(guò)這種方式,就保證了每次事件發(fā)生時(shí),只有一個(gè)worker進(jìn)程會(huì)被觸發(fā)。如下圖所示為worker進(jìn)程工作循環(huán)的一個(gè)示意圖:

nginx驚群?jiǎn)栴}的解決方案

這里關(guān)于圖中的流程,需要說(shuō)明的一點(diǎn)是,每個(gè)worker進(jìn)程在進(jìn)入循環(huán)之后就會(huì)嘗試獲取共享鎖,如果沒(méi)有獲取到,就會(huì)將所監(jiān)聽的端口的文件描述符從當(dāng)前進(jìn)程的epoll句柄中移除(即使并不存在也會(huì)移除),這么做的主要目的是防止丟失客戶端連接事件,即使這可能造成少量的驚群?jiǎn)栴},但是并不嚴(yán)重。試想一下,如果按照理論,在當(dāng)前進(jìn)程釋放鎖的時(shí)候就將監(jiān)聽的端口的文件描述符從epoll句柄中移除,那么在下一個(gè)worker進(jìn)程獲取鎖之前,這段時(shí)間各個(gè)端口對(duì)應(yīng)的文件描述符是沒(méi)有任何epoll句柄進(jìn)行監(jiān)聽的,此時(shí)就會(huì)造成事件的丟失。如果反過(guò)來(lái),按照?qǐng)D中的在獲取鎖失敗的時(shí)候才移除監(jiān)聽的文件描述符,由于獲取鎖失敗,則說(shuō)明當(dāng)前一定有一個(gè)進(jìn)程已經(jīng)監(jiān)聽了這些文件描述符,因而此時(shí)移除是安全的。但是這樣會(huì)造成的一個(gè)問(wèn)題是,按照上圖,當(dāng)前進(jìn)程在一個(gè)循環(huán)執(zhí)行完畢的時(shí)候,會(huì)釋放鎖,然后處理其他的事件,注意這個(gè)過(guò)程中其是沒(méi)有釋放所監(jiān)聽的文件描述符的。此時(shí),如果另一個(gè)進(jìn)程獲取到了鎖,并且監(jiān)聽了文件描述符,那么這個(gè)時(shí)候就有兩個(gè)進(jìn)程監(jiān)聽了文件描述符,因而此時(shí)如果客戶端發(fā)生連接建立事件,那么就會(huì)觸發(fā)兩個(gè)worker進(jìn)程。這個(gè)問(wèn)題是可以容忍的,主要原因有兩點(diǎn):

  • 這個(gè)時(shí)候發(fā)生的驚群現(xiàn)象只觸發(fā)了更少的worker進(jìn)程,比起每次都驚起所有的worker進(jìn)程要好很多;

  • 會(huì)發(fā)生這種驚群?jiǎn)栴}的主要原因是,當(dāng)前進(jìn)程釋放了鎖,但是沒(méi)有釋放所監(jiān)聽的文件描述符,但是worker進(jìn)程在釋放鎖之后主要是處理客戶端連接的讀寫事件和檢查標(biāo)志位,這個(gè)過(guò)程是非常短的,在處理完之后,其就會(huì)嘗試獲取鎖,這個(gè)時(shí)候就會(huì)釋放所監(jiān)聽的文件描述符了,而相較而言,獲取鎖的worker進(jìn)程在等待處理客戶端的連接建立事件的事件就更長(zhǎng)了,因而會(huì)發(fā)生驚群?jiǎn)栴}的概率還是比較小的。

2. 源碼講解

worker進(jìn)程初始事件的方法主要是在ngx_process_events_and_timers()方法中進(jìn)行的,下面我們就來(lái)看看該方法是如何處理整個(gè)流程的,如下是該方法的源碼:

void ngx_process_events_and_timers(ngx_cycle_t *cycle) {
 ngx_uint_t flags;
 ngx_msec_t timer, delta;

 if (ngx_trylock_accept_mutex(cycle) == NGX_ERROR) {
   return;
 }

 // 這里開始處理事件,對(duì)于kqueue模型,其指向的是ngx_kqueue_process_events()方法,
 // 而對(duì)于epoll模型,其指向的是ngx_epoll_process_events()方法
 // 這個(gè)方法的主要作用是,在對(duì)應(yīng)的事件模型中獲取事件列表,然后將事件添加到ngx_posted_accept_events
 // 隊(duì)列或者ngx_posted_events隊(duì)列中
 (void) ngx_process_events(cycle, timer, flags);

 // 這里開始處理accept事件,將其交由ngx_event_accept.c的ngx_event_accept()方法處理;
 ngx_event_process_posted(cycle, &ngx_posted_accept_events);

 // 開始釋放鎖
 if (ngx_accept_mutex_held) {
   ngx_shmtx_unlock(&ngx_accept_mutex);
 }

 // 如果不需要在事件隊(duì)列中進(jìn)行處理,則直接處理該事件
 // 對(duì)于事件的處理,如果是accept事件,則將其交由ngx_event_accept.c的ngx_event_accept()方法處理;
 // 如果是讀事件,則將其交由ngx_http_request.c的ngx_http_wait_request_handler()方法處理;
 // 對(duì)于處理完成的事件,最后會(huì)交由ngx_http_request.c的ngx_http_keepalive_handler()方法處理。

 // 這里開始處理除accept事件外的其他事件
 ngx_event_process_posted(cycle, &ngx_posted_events);
}

上面的代碼中,我們省略了大部分的檢查工作,只留下了骨架代碼。首先,worker進(jìn)程會(huì)調(diào)用ngx_trylock_accept_mutex()方法獲取鎖,這其中如果獲取到了鎖就會(huì)監(jiān)聽各個(gè)端口對(duì)應(yīng)的文件描述符。然后會(huì)調(diào)用ngx_process_events()方法處理epoll句柄中監(jiān)聽到的事件。接著會(huì)釋放共享鎖,最后就是處理已建立連接的客戶端的讀寫事件。下面我們來(lái)看一下ngx_trylock_accept_mutex()方法是如何獲取共享鎖的:

ngx_int_t ngx_trylock_accept_mutex(ngx_cycle_t *cycle) {
 // 嘗試使用CAS算法獲取共享鎖
 if (ngx_shmtx_trylock(&ngx_accept_mutex)) {

   // ngx_accept_mutex_held為1表示當(dāng)前進(jìn)程已經(jīng)獲取到了鎖
   if (ngx_accept_mutex_held && ngx_accept_events == 0) {
     return NGX_OK;
   }

   // 這里主要是將當(dāng)前連接的文件描述符注冊(cè)到對(duì)應(yīng)事件的隊(duì)列中,比如kqueue模型的change_list數(shù)組
   // nginx在啟用各個(gè)worker進(jìn)程的時(shí)候,默認(rèn)情況下,worker進(jìn)程是會(huì)繼承master進(jìn)程所監(jiān)聽的socket句柄的,
   // 這就導(dǎo)致一個(gè)問(wèn)題,就是當(dāng)某個(gè)端口有客戶端事件時(shí),就會(huì)把監(jiān)聽該端口的進(jìn)程都給喚醒,
   // 但是只有一個(gè)worker進(jìn)程能夠成功處理該事件,而其他的進(jìn)程被喚醒之后發(fā)現(xiàn)事件已經(jīng)過(guò)期,
   // 因而會(huì)繼續(xù)進(jìn)入等待狀態(tài),這種現(xiàn)象稱為"驚群"現(xiàn)象。
   // nginx解決驚群現(xiàn)象的方式一方面是通過(guò)這里的共享鎖的方式,即只有獲取到鎖的worker進(jìn)程才能處理
   // 客戶端事件,但實(shí)際上,worker進(jìn)程是通過(guò)在獲取鎖的過(guò)程中,為當(dāng)前worker進(jìn)程重新添加各個(gè)端口的監(jiān)聽事件,
   // 而其他worker進(jìn)程則不會(huì)監(jiān)聽。也就是說(shuō)同一時(shí)間只有一個(gè)worker進(jìn)程會(huì)監(jiān)聽各個(gè)端口,
   // 這樣就避免了"驚群"問(wèn)題。
   // 這里的ngx_enable_accept_events()方法就是為當(dāng)前進(jìn)程重新添加各個(gè)端口的監(jiān)聽事件的。
   if (ngx_enable_accept_events(cycle) == NGX_ERROR) {
     ngx_shmtx_unlock(&ngx_accept_mutex);
     return NGX_ERROR;
   }

   // 標(biāo)志當(dāng)前已經(jīng)成功獲取到了鎖
   ngx_accept_events = 0;
   ngx_accept_mutex_held = 1;

   return NGX_OK;
 }

 // 前面獲取鎖失敗了,因而這里需要重置ngx_accept_mutex_held的狀態(tài),并且將當(dāng)前連接的事件給清除掉
 if (ngx_accept_mutex_held) {
   // 如果當(dāng)前進(jìn)程的ngx_accept_mutex_held為1,則將其重置為0,并且將當(dāng)前進(jìn)程在各個(gè)端口上的監(jiān)聽
   // 事件給刪除掉
   if (ngx_disable_accept_events(cycle, 0) == NGX_ERROR) {
     return NGX_ERROR;
   }

   ngx_accept_mutex_held = 0;
 }

 return NGX_OK;
}

        上面的代碼中,本質(zhì)上主要做了三件事:

  • 通過(guò)ngx_shmtx_trylock()方法嘗試使用CAS方法獲取共享鎖;

  • 獲取鎖之后則調(diào)用ngx_enable_accept_events()方法監(jiān)聽目標(biāo)端口對(duì)應(yīng)的文件描述符;

  • 如果沒(méi)有獲取到鎖,則調(diào)用ngx_disable_accept_events()方法釋放所監(jiān)聽的文件描述符;

到此,相信大家對(duì)“nginx驚群?jiǎn)栴}的解決方案”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI