您好,登錄后才能下訂單哦!
本篇文章為大家展示了Kubernetes中Flannel工作原理及源碼實現(xiàn)的示例分析,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
Flannel是cereos開源的CNI網絡插件,下圖flannel官網提供的一個數(shù)據(jù)包經過封包、傳輸以及拆包的示意圖,從這個圖片中可以看出兩臺機器的docker0分別處于不同的段:10.1.20.1/24 和 10.1.15.1/24 ,如果從Web App Frontend1 pod(10.1.15.2)去連接另一臺主機上的Backend Service2 pod(10.1.20.3),網絡包從宿主機192.168.0.100發(fā)往192.168.0.200,內層容器的數(shù)據(jù)包被封裝到宿主機的UDP里面,并且在外層包裝了宿主機的IP和mac地址。這就是一個經典的overlay網絡,因為容器的IP是一個內部IP,無法從跨宿主機通信,所以容器的網絡互通,需要承載到宿主機的網絡之上。
flannel支持多種網絡模式,常用的是vxlan、UDP、hostgw、ipip以及gce和阿里云等,vxlan和UDP的區(qū)別是:vxlan是內核封包,而UDP是flanneld用戶態(tài)程序封包,所以UDP的方式性能會稍差;hostgw模式是一種主機網關模式,容器到另外一個主機上容器的網關設置成所在主機的網卡地址,這個和calico非常相似,只不過calico是通過BGP聲明,而hostgw是通過中心的etcd分發(fā),所以hostgw是直連模式,不需要通過overlay封包和拆包,性能比較高,但hostgw模式最大的缺點是必須是在一個二層網絡中,畢竟下一跳的路由需要在鄰居表中,否則無法通行。
在實際的生產環(huán)境中,最常用的還是vxlan模式,我們先看工作原理,然后通過源碼解析實現(xiàn)過程。
安裝的過程非常簡單,主要分為兩步:
第一步安裝flannel
yum install flannel 或者通過kubernetes的daemonset方式啟動,配置flannel用的etcd地址
第二步配置集群網絡
curl -L http://etcdurl:2379/v2/keys/flannel/network/config -XPUT -d value="{\"Network\":\"172.16.0.0/16\",\"SubnetLen\":24,\"Backend\":{\"Type\":\"vxlan\",\"VNI\":1}}"
然后啟動每個節(jié)點的flanned程序。
一、工作原理
1、容器的地址如何分配
Docker容器啟動時通過docker0分配IP地址,flannel為每個機器分配一個IP段,配置在docker0上,容器啟動后就在本段內選擇一個未占用的IP,那么flannel如何修改docker0網段呢?
先看一下 flannel的啟動文件 /usr/lib/systemd/system/flanneld.service
[Service] Type=notify EnvironmentFile=/etc/sysconfig/flanneld ExecStart=/usr/bin/flanneld-start $FLANNEL_OPTIONS ExecStartPost=/opt/flannel/mk-docker-opts.sh -k DOCKER_NETWORK_OPTIONS -d /run/flannel/docker
文件里面指定了flannel環(huán)境變量和啟動腳本和啟動后執(zhí)行腳本 ExecStartPost 設置的mk-docker-opts.sh,這個腳本的作用是生成/run/flannel/docker,文件內容如下:
DOCKER_OPT_BIP="--bip=10.251.81.1/24" DOCKER_OPT_IPMASQ="--ip-masq=false" DOCKER_OPT_MTU="--mtu=1450" DOCKER_NETWORK_OPTIONS=" --bip=10.251.81.1/24 --ip-masq=false --mtu=1450"
而這個文件又被docker啟動文件/usr/lib/systemd/system/docker.service所關聯(lián),
[Service] Type=notify NotifyAccess=all EnvironmentFile=-/run/flannel/docker EnvironmentFile=-/etc/sysconfig/docker
這樣便可以設置docker0的網橋了。
在開發(fā)環(huán)境中,有三臺機器,分別分配了如下網段:
host-139.245 10.254.44.1/24
host-139.246 10.254.60.1/24
host-139.247 10.254.50.1/24
2、容器如何通信
上面介紹了為每個容器分配IP,那么不同主機上的容器如何通信呢,我們用最常見的vxlan舉例,這里有三個關鍵點,一個路由,一個arp,一個FDB。我們按照容器發(fā)包的過程,逐一分析上面三個元素的作用,首先容器出來的數(shù)據(jù)包會經過docker0,那么下面是直接從主機網絡出去,還是通過vxlan封包轉發(fā)呢?這是每個機器上面路由設定的。
#ip route show dev flannel.1 10.254.50.0/24 via 10.254.50.0 onlink 10.254.60.0/24 via 10.254.60.0 onlink
可以看到每個主機上面都有到另外兩臺機器的路由,這個路由是onlink路由,onlink參數(shù)表明強制此網關是“在鏈路上”的(雖然并沒有鏈路層路由),否則linux上面是沒法添加不同網段的路由。這樣數(shù)據(jù)包就能知道,如果是容器直接的訪問則交給flannel.1設備處理。
flannel.1這個虛擬網絡設備將會對數(shù)據(jù)封包,但下面一個問題又來了,這個網關的mac地址是多少呢?因為這個網關是通過onlink設置的,flannel會下發(fā)這個mac地址,查看一下arp表
# ip neig show dev flannel.1 10.254.50.0 lladdr ba:10:0e:7b:74:89 PERMANENT 10.254.60.0 lladdr 92:f3:c8:b2:6e:f0 PERMANENT
可以看到這個網關對應的mac地址,這樣內層的數(shù)據(jù)包就封裝好了
還是最后一個問題,外出的數(shù)據(jù)包的目的IP是多少呢?換句話說,這個封裝后的數(shù)據(jù)包應該發(fā)往那一臺機器呢?難不成每個數(shù)據(jù)包都廣播。vxlan默認實現(xiàn)第一次確實是通過廣播的方式,但flannel再次采用一種hack方式直接下發(fā)了這個轉發(fā)表FDB
# bridge fdb show dev flannel.1 92:f3:c8:b2:6e:f0 dst 10.100.139.246 self permanent ba:10:0e:7b:74:89 dst 10.100.139.247 self permanent
這樣對應mac地址轉發(fā)目標IP便可以獲取到了。
這里還有個地方需要注意,無論是arp表還是FDB表都是permanent,它表明寫記錄是手動維護的,傳統(tǒng)的arp獲取鄰居的方式是通過廣播獲取,如果收到對端的arp相應則會標記對端為reachable,在超過reachable設定時間后,如果發(fā)現(xiàn)對端失效會標記為stale,之后會轉入的delay以及probe進入探測的狀態(tài),如果探測失敗會標記為Failed狀態(tài)。之所以介紹arp的基礎內容,是因為老版本的flannel并非使用本文上面的方式,而是采用一種臨時的arp方案,此時下發(fā)的arp表示reachable狀態(tài),這就意味著,如果在flannel宕機超過reachable超時時間的話,那么這臺機器上面的容器的網絡將會中斷,我們簡單回顧試一下之前(0.7.x)版本的做法,容器為了為了能夠獲取到對端arp地址,內核會首先發(fā)送arp征詢,如果嘗試
/proc/sys/net/ipv4/neigh/$NIC/ucast_solicit
此時后會向用戶空間發(fā)送arp征詢
/proc/sys/net/ipv4/neigh/$NIC/app_solicit
之前版本的flannel正是利用這個特性,設定
# cat /proc/sys/net/ipv4/neigh/flannel.1/app_solicit 3
從而flanneld便可以獲取到內核發(fā)送到用戶空間的L3MISS,并且配合etcd返回這個IP地址對應的mac地址,設置為reachable。從分析可以看出,如果flanneld程序如果退出后,容器之間的通信將會中斷,這里需要注意。Flannel的啟動流程如下圖所示:
Flannel啟動執(zhí)行newSubnetManager,通過他創(chuàng)建后臺數(shù)據(jù)存儲,當前有支持兩種后端,默認是etcd存儲,如果flannel啟動指定“kube-subnet-mgr”參數(shù)則使用kubernetes的接口存儲數(shù)據(jù)。
具體代碼如下:
func newSubnetManager() (subnet.Manager, error) { if opts.kubeSubnetMgr { return kube.NewSubnetManager(opts.kubeApiUrl, opts.kubeConfigFile) } cfg := &etcdv2.EtcdConfig{ Endpoints: strings.Split(opts.etcdEndpoints, ","), Keyfile: opts.etcdKeyfile, Certfile: opts.etcdCertfile, CAFile: opts.etcdCAFile, Prefix: opts.etcdPrefix, Username: opts.etcdUsername, Password: opts.etcdPassword, } // Attempt to renew the lease for the subnet specified in the subnetFile prevSubnet := ReadCIDRFromSubnetFile(opts.subnetFile, "FLANNEL_SUBNET") return etcdv2.NewLocalManager(cfg, prevSubnet) }
通過SubnetManager,結合上面介紹部署的時候配置的etcd的數(shù)據(jù),可以獲得網絡配置信息,主要指backend和網段信息,如果是vxlan,通過NewManager創(chuàng)建對應的網絡管理器,這里用到簡單工程模式,首先每種網絡模式管理器都會通過init初始化注冊,
如vxlan
func init() { backend.Register("vxlan", New)
如果是udp
func init() { backend.Register("udp", New) }
其它也是類似,將構建方法都注冊到一個map里面,從而根據(jù)etcd配置的網絡模式,設定啟用對應的網絡管理器。
3、注冊網絡
RegisterNetwork,首先會創(chuàng)建flannel.vxlanID的網卡,默認vxlanID是1.然后就是向etcd注冊租約并且獲取相應的網段信息,這樣有個細節(jié),老版的flannel每次啟動都是去獲取新的網段,新版的flannel會遍歷etcd里面已經注冊的etcd信息,從而獲取之前分配的網段,繼續(xù)使用。
最后通過WriteSubnetFile寫本地子網文件,
# cat /run/flannel/subnet.env FLANNEL_NETWORK=10.254.0.0/16 FLANNEL_SUBNET=10.254.44.1/24 FLANNEL_MTU=1450 FLANNEL_IPMASQ=true
通過這個文件設定docker的網絡。細心的讀者可能發(fā)現(xiàn)這里的MTU并不是以太網規(guī)定的1500,這是因為外層的vxlan封包還要占據(jù)50 Byte。
當然flannel啟動后還需要持續(xù)的watch etcd里面的數(shù)據(jù),這是當有新的flannel節(jié)點加入,或者變更的時候,其他flannel節(jié)點能夠動態(tài)更新的那三張表。主要的處理方法都在handleSubnetEvents里面
func (nw *network) handleSubnetEvents(batch []subnet.Event) { . . . switch event.Type {//如果是有新的網段加入(新的主機加入) case subnet.EventAdded: . . .//更新路由表 if err := netlink.RouteReplace(&directRoute); err != nil { log.Errorf("Error adding route to %v via %v: %v", sn, attrs.PublicIP, err) continue } //添加arp表 log.V(2).Infof("adding subnet: %s PublicIP: %s VtepMAC: %s", sn, attrs.PublicIP, net.HardwareAddr(vxlanAttrs.VtepMAC)) if err := nw.dev.AddARP(neighbor{IP: sn.IP, MAC: net.HardwareAddr(vxlanAttrs.VtepMAC)}); err != nil { log.Error("AddARP failed: ", err) continue } //添加FDB表 if err := nw.dev.AddFDB(neighbor{IP: attrs.PublicIP, MAC: net.HardwareAddr(vxlanAttrs.VtepMAC)}); err != nil { log.Error("AddFDB failed: ", err) if err := nw.dev.DelARP(neighbor{IP: event.Lease.Subnet.IP, MAC: net.HardwareAddr(vxlanAttrs.VtepMAC)}); err != nil { log.Error("DelARP failed: ", err) } continue }//如果是刪除實踐 case subnet.EventRemoved: //刪除路由 if err := netlink.RouteDel(&directRoute); err != nil { log.Errorf("Error deleting route to %v via %v: %v", sn, attrs.PublicIP, err) } else { log.V(2).Infof("removing subnet: %s PublicIP: %s VtepMAC: %s", sn, attrs.PublicIP, net.HardwareAddr(vxlanAttrs.VtepMAC)) //刪除arp if err := nw.dev.DelARP(neighbor{IP: sn.IP, MAC: net.HardwareAddr(vxlanAttrs.VtepMAC)}); err != nil { log.Error("DelARP failed: ", err) } //刪除FDB if err := nw.dev.DelFDB(neighbor{IP: attrs.PublicIP, MAC: net.HardwareAddr(vxlanAttrs.VtepMAC)}); err != nil { log.Error("DelFDB failed: ", err) } if err := netlink.RouteDel(&vxlanRoute); err != nil { log.Errorf("failed to delete vxlanRoute (%s -> %s): %v", vxlanRoute.Dst, vxlanRoute.Gw, err) } } default: log.Error("internal error: unknown event type: ", int(event.Type)) } } }
這樣flannel里面任何主機的添加和刪除都可以被其它節(jié)點所感知到,從而更新本地內核轉發(fā)表。
上述內容就是Kubernetes中Flannel工作原理及源碼實現(xiàn)的示例分析,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業(yè)資訊頻道。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經查實,將立刻刪除涉嫌侵權內容。