溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

容器訪問應(yīng)用服務(wù)不通問題排查

發(fā)布時(shí)間:2020-07-27 11:40:31 來源:網(wǎng)絡(luò) 閱讀:497 作者:AntfinCloud 欄目:云計(jì)算

問題的起點(diǎn)

1、用戶反饋同個(gè)ECS啟動(dòng)了多個(gè)容器,其中一個(gè)容器無法與Anytunnel 100.64.0.1通信,TCP建聯(lián)失敗。不通的容器IP是172.16.0.13。其他能通的容器比如 172.16.0.15。

2、在Anytunnel 100.64.0.1的后端RS上抓包,發(fā)現(xiàn)有172.16.0.13 TCP 建聯(lián)成功的的記錄。說明有其他VPC也有用172.16.013地址來訪問,并且是通的。

PS:AnyTunnel地址指的是每個(gè)VPC中100.64.0.0/10內(nèi)的地址,用于VPC中DNS、YUM、NTP、OSS或SLS等云服務(wù)中使用。簡單可以理解為在VPC下為了解決不同VPC內(nèi)網(wǎng)互通的特殊的SLB。這個(gè)SLB能被同個(gè)Region下所有的VPC訪問。

容器訪問應(yīng)用服務(wù)不通問題排查

排查過程

1、首先我們要確定VPC1下172.16.0.13的請求有沒有到達(dá)AnyTunnel后端RS上,最簡單的方法就是在172.16.0.13和后端RS上同時(shí)抓包進(jìn)行分析。

容器訪問應(yīng)用服務(wù)不通問題排查

容器訪問應(yīng)用服務(wù)不通問題排查

客戶端和RS上抓包通過“tcp.analysis.retransmission”條件過濾出有問題的重傳報(bào)文,發(fā)都是SYN的重傳。

重傳報(bào)文數(shù)量都是7個(gè),并且源端口一致,那么說明請求報(bào)文已經(jīng)到達(dá)RS上,但是RS沒有響應(yīng)SYN-ACK,導(dǎo)致TCP建聯(lián)失敗。

2、在RS上查看TCP計(jì)數(shù)發(fā)現(xiàn):

netstat?-ts?|grep?SYNs???
3631812?SYNs?to?LISTEN?sockets?dropped

有大量tcp syn包被丟棄,數(shù)值一直在增長,進(jìn)一步說明是RS收到客戶端的SYN請求但是沒有響應(yīng)。

為何RS沒有響應(yīng)SYN請求分析

netstat中的計(jì)數(shù)統(tǒng)計(jì),里面定義了TCP連接失敗統(tǒng)計(jì),具體如下:

  • resets received for embryonic SYN_RECV sockets? ---syn_recv狀態(tài)下,收到非重傳的syn包,則返回reset

  • passive connections rejected because of time stamp ---開啟sysctl_tw_recycle,syn包相應(yīng)連接的時(shí)間戳小于 路由中保存的時(shí)間戳;

  • failed connection attempts --- syn_recv狀態(tài)下,socket被關(guān)閉, 或者收到syn包(非重傳)

  • times the listen queue of a socket overflowed? ---收到三次握手ack包,accept隊(duì)列滿

  • SYNs to LISTEN sockets ignored ---收到三次握手ack包,因各種原因(包括accept隊(duì)列滿) 創(chuàng)建socket失敗

通過netstat -ts查看到passive connections rejected because of time stamp統(tǒng)計(jì)數(shù)值非常大,并且接近于SYNs to LISTEN sockets dropped的數(shù)量。

3631476?passive?connections?rejected?because?of?time?stamp

說明就是由于syn包相應(yīng)連接的時(shí)間戳問題導(dǎo)致的。

于是再次分析RS的抓包文件:

容器訪問應(yīng)用服務(wù)不通問題排查

報(bào)文序列

是否成功響應(yīng)SYN

TimeStamp值

1

成功響應(yīng)SYN

2088983548

2

沒有響應(yīng)SYN

271344470

3

沒有響應(yīng)SYN

271345544

4

沒有響應(yīng)SYN

271346612

5

沒有響應(yīng)SYN

271348509

6

沒有響應(yīng)SYN

271351766

7

成功響應(yīng)SYN

2088993553

從抓包信息里可以看出,當(dāng)后面的SYN報(bào)文的TimeStamp值小于前面成功響應(yīng)的SYN報(bào)文的TimeStamp值,系統(tǒng)默認(rèn)就會(huì)不響應(yīng)該SYN請求。

通過上面分析,問題明顯和tcp timestmap有關(guān),發(fā)現(xiàn)tcp_tw_recycle/tcp_timestamps都開啟的條件下,60秒內(nèi)同一源ip主機(jī)的socket connect請求中的timestamp必須是遞增的。

源碼函數(shù):tcp_v4_conn_request(),該函數(shù)是tcp層三次握手syn包的處理函數(shù)(服務(wù)端);
????源碼片段:
???????if?(tmp_opt.saw_tstamp?&&
????????????tcp_death_row.sysctl_tw_recycle?&&
????????????(dst?=?inet_csk_route_req(sk,?req))?!=?NULL?&&
????????????(peer?=?rt_get_peer((struct?rtable?*)dst))?!=?NULL?&&
????????????peer->v4daddr?==?saddr)?{
????????????if?(get_seconds()?<?peer->tcp_ts_stamp?+?TCP_PAWS_MSL?&&
????????????????(s32)(peer->tcp_ts?-?req->ts_recent)?>
????????????????????????????TCP_PAWS_WINDOW)?{
????????????????NET_INC_STATS_BH(sock_net(sk),?LINUX_MIB_PAWSPASSIVEREJECTED);
????????????????goto?drop_and_release;
????????????}
????????}
????????
tmp_opt.saw_tstamp:該socket支持tcp_timestamp
sysctl_tw_recycle:系統(tǒng)開啟tcp_tw_recycle選項(xiàng)
TCP_PAWS_MSL:60s,該條件判斷表示該源ip的上次tcp通訊發(fā)生在60s內(nèi)
TCP_PAWS_WINDOW:1,該條件判斷表示該源ip的上次tcp通訊的timestamp大于本次tcp

Tcp_timestamp 是 RFC1323 定義的優(yōu)化選項(xiàng),主要用于 TCP 連接中 RTT(Round Trip Time) 的計(jì)算,開啟 tcp_timestamp 有利于系統(tǒng)計(jì)算更加準(zhǔn)確的 RTT,也就有利于 TCP 性能的提升。

tcp_tw_recycle?(Boolean;?default:?disabled;?since?Linux?2.4)
??????????????Enable?fast?recycling?of?TIME_WAIT?sockets.??Enabling?this?option?is?not?recommended?since?this?causes?problems?when?working?with?NAT?(Network?Address
??????????????Translation).

開啟tcp_tw_recycle會(huì)啟用tcp time_wait的快速回收,這個(gè)參數(shù)不建議在NAT環(huán)境中啟用,它會(huì)引起相關(guān)問題。

官方定義是在NAT環(huán)境中使用會(huì)引發(fā)問題,但是歸根結(jié)底就是多個(gè)客戶端使用同個(gè)地址訪問服務(wù)端會(huì)出現(xiàn)該問題。我們的問題符合該場景。

解決方案

有兩個(gè)方案可選:

  • 客戶端關(guān)閉tcp_timestamps,將該值設(shè)置為0.

  • 服務(wù)器端不要將tcp_tw_recycle字段和tcp_timestamps字段同時(shí)設(shè)為1?

由于客戶端掌握在客戶的手里,我們無法掌握到每個(gè)客戶端的配置,所以還是需要服務(wù)端進(jìn)行配置。

因?yàn)樵趖cp timestamp關(guān)閉的條件下,開啟tcp_tw_recycle是不起作用的;而tcp timestamp可以獨(dú)立開啟并起作用。所以建議服務(wù)關(guān)閉tcp_tw_recycle.

服務(wù)端(RS端)關(guān)閉tcp_tw_recycle具體操作方法。

1、臨時(shí)關(guān)閉方法:
echo?"0"?>?/proc/sys/net/ipv4/tcp_tw_recycle

2、永久關(guān)閉方法:
在?/etc/sysctl.conf?文件中添加?net.ipv4.tcp_tw_recycle?=?0
然后使用?sysctl?-p?命令讓配置文件生效

引伸

根據(jù)上面的原理,出現(xiàn)多個(gè)客戶端同時(shí)使用同一個(gè)IP訪問同一個(gè)服務(wù)端的場景要在服務(wù)端關(guān)閉tcp_tw_recycle。如以下場景:

1、同一個(gè)Client訪問四層私網(wǎng)SLB的同時(shí),還有繞過SLB直接訪問SLB后端ECS

容器訪問應(yīng)用服務(wù)不通問題排查

2、相同的ECS同時(shí)掛在多個(gè)四層SLB之后,并且同一個(gè)客戶端有同時(shí)或者連續(xù)訪問多個(gè)SLB

容器訪問應(yīng)用服務(wù)不通問題排查

3、ECS通過公網(wǎng)地址,NAT網(wǎng)關(guān)和EIP直接提供服務(wù)的。因?yàn)橛捎谀壳癐PV4地址枯竭,絕大部分的客戶端都是使用SNAT進(jìn)行訪問。


附錄

參考:

http://blog.sina.com.cn/s/blog_781b0c850101pu2q.html


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI