Nginx負(fù)載均衡配置的誤區(qū)有:1、Nginx記錄了連接上游失敗,這個(gè)請求就返回錯(cuò)誤請求,這個(gè)說法是錯(cuò)誤的;2、max_fails是指連續(xù)請求失敗的次數(shù),這個(gè)也是錯(cuò)誤的;3、fail_timeout越短越好和fail_timeout越長越好,這兩種做法也是不對的。
具體內(nèi)容如下:
Nginx 的 upstream 模塊中 max_fails 及 fail_timeout,這兩個(gè)指令,分別是配置關(guān)于負(fù)載均衡過程中,對于上游(后端)服務(wù)器的失敗嘗試次數(shù)和不可用時(shí)間,很多人不是很理解這兩個(gè)參數(shù)到底怎么用及具體的含義。
先看官網(wǎng)文檔中的描述
官網(wǎng)文檔中解釋 max_fails 是指在 fail_timeout 配置的時(shí)間內(nèi),服務(wù)器通信失敗的次數(shù),默認(rèn)為1,即在 fail_timeout 時(shí)間內(nèi),1次請求失敗即不再嘗試,將請求根據(jù) hash 規(guī)則,轉(zhuǎn)發(fā)到下一個(gè)上游服務(wù)
fail_timeout 有兩種含義:
當(dāng)已經(jīng)確認(rèn)上游服務(wù)不可用時(shí),是指與上游服務(wù)器通信失敗次數(shù)的時(shí)間
服務(wù)器不可用的時(shí)間段
默認(rèn)是10s
文字不是很好理解,搭建個(gè)實(shí)驗(yàn)環(huán)境,環(huán)境如下:
Nginx
PHP-FPM(x2)
nginx 通過 fast-cgi 將 php 請求轉(zhuǎn)發(fā)到 PHP-FPM,這里 PHP-FPM 服務(wù)即上游服務(wù),設(shè)置 upstream,負(fù)載 PHP-FPM
upstream 按照默認(rèn)配置,即 max_fails=1,fail_timeout=10
現(xiàn)在通過 tailf 分別監(jiān)聽兩個(gè) PHP-FPM 日志
請求4次,因?yàn)槭悄J(rèn)輪詢的,所以可以看時(shí)間,輪詢將請求分發(fā)到兩個(gè)PHP-FPM上游
可以從上面的日志中看到,按照輪詢規(guī)則,下次請求應(yīng)該落到 PHP-FPM2 上面,接著,關(guān)掉 PHP-FPM1,繼續(xù)請求
可以看到,PHP-FPM1肯定是不響應(yīng)了,PHP-FPM2正常響應(yīng),接著看下Nginx日志
可以看到,關(guān)掉 PHP-FPM1 后,發(fā)起的請求,本來第二次請求(17:49:58)應(yīng)該分發(fā)到 PHP-FPM1 的,然后從 Nginx 錯(cuò)誤日志可以看到,連接 PHP-FPM1 失敗,這里只做了一次失敗嘗試,然后 Nginx 將請求轉(zhuǎn)發(fā)到 PHP-FPM2 處理了。
接著將 max_fails 設(shè)置為2,繼續(xù)上面的請求
開啟 PHP-FPM1,繼續(xù)請求,兩個(gè)負(fù)載輪詢轉(zhuǎn)發(fā)請求
接著繼續(xù)關(guān)掉 PHP-FPM1,連續(xù)發(fā)起多次請求,查看日志
所有請求都在 PHP-FPM2上,看 Nginx 錯(cuò)誤日志
兩次輪詢到PHP-FPM1的時(shí)候,失敗,之后不會(huì)再將請求分發(fā)到 PHP-FPM1 上游服務(wù)
接著,不開啟 PHP-FPM1,繼續(xù)發(fā)起多次請求,由于默認(rèn)的 fail_timeout=10,所以在上面的失敗檢測 10s 之后再次發(fā)起請求,查看日志
繼續(xù)分發(fā)到 PHP-FPM2,接著看 Nginx 錯(cuò)誤日志
可以看到,過了 fail_timeout 的時(shí)間后,Ngxin 會(huì)再次將請求發(fā)往 FPM-PHP1 進(jìn)行嘗試,嘗試2次失敗后,在 fail_timeout 時(shí)間內(nèi),不會(huì)再將請求分發(fā)。
這里有幾個(gè)誤區(qū):
Nginx 記錄了連接上游失敗,這個(gè)請求就返回錯(cuò)誤請求,或這個(gè)請求丟失沒處理
這個(gè)理解是錯(cuò)誤的,Nginx 只是記錄了失敗的請求到日志,并將這個(gè)請求又轉(zhuǎn)發(fā)到了可用的其他上游服務(wù),知道所有上游都不可用時(shí),才會(huì)返回錯(cuò)誤狀態(tài)。
max_fails 是指連續(xù)請求失敗的次數(shù)
max_fails 是在 fail_timeout 指定的時(shí)間內(nèi)的失敗次數(shù),請求還是按照配置的負(fù)載均衡算法來走,并不是第一次請求失敗之后,繼續(xù)將這個(gè)請求在嘗試一次,達(dá)到失敗次數(shù)之后,標(biāo)記為不可用。
fail_timeout 越短越好
當(dāng)訪問量大的時(shí)候,fail_timeout 設(shè)置太短,會(huì)導(dǎo)致不斷的嘗試與不可用上游的連接,耗費(fèi)大量的 tcp 資源進(jìn)行連接。
fail_timeout 越長越好
當(dāng)訪問量大的時(shí)候,fail_timeout設(shè)置太長,會(huì)導(dǎo)致負(fù)載不均衡,有可能會(huì)擊穿某個(gè)上游后端,達(dá)不到負(fù)載的效果。