TensorFlow如何使用

發(fā)布時(shí)間：2021-12-20 10:02:15 來源：億速云閱讀：135 作者：iii 欄目：云計(jì)算

這篇文章主要講解了“TensorFlow如何使用”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“TensorFlow如何使用”吧！

Distributed TensorFlow

2016年4月TensorFlow發(fā)布了0.8版本宣布支持分布式計(jì)算，這個(gè)特性，我們稱之為Distributed TensorFlow。

這是非常重要的一個(gè)特性，因?yàn)樵贏I的世界里，訓(xùn)練數(shù)據(jù)的size通常會大到讓人瞠目結(jié)舌。比如Google Brain實(shí)驗(yàn)室今年發(fā)表的論文OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER中提到，下圖中MOE Layer Model可以達(dá)到680億個(gè)Parameters的規(guī)模，如此復(fù)雜的模型，如果只能單機(jī)訓(xùn)練，那耗時(shí)難于接受。通過Distributed TensorFlow，可以利用眾多服務(wù)器構(gòu)建TensorFlow Cluster來提高訓(xùn)練效率。

TensorFlow如何使用

關(guān)于Distributed TensorFlow的更多內(nèi)容，請參考官方內(nèi)容www.tensorflow.org/deplopy/distributed，這里給出Distributed TensorFlow結(jié)構(gòu)圖：

TensorFlow如何使用

Why TensorFlow on Kubernetes

Distributed TensorFlow雖然提供了分布式能力，可以利用服務(wù)器集群加快訓(xùn)練，但是還有許多缺點(diǎn)，比如資源無法隔離、PS進(jìn)程遺留問題等等，而這些正是Kubernetes所擅長的地方。下圖是總結(jié)的你需要將TensorFlow運(yùn)行在Kubernetes上的理由：

TensorFlow如何使用

對于我們來說，前期最大的用戶痛點(diǎn)就是算法團(tuán)隊(duì)使用的HDFS Read性能不及預(yù)期，經(jīng)過網(wǎng)上查找資料及我們自己簡單的對比測試，發(fā)現(xiàn)GlusterFS可能是最適合我們的分布式存儲了。因此在我們的TensorFlow on Kubernetes項(xiàng)目中使用GlusterFS來存放訓(xùn)練數(shù)據(jù)，worker將從GlusterFS中讀取訓(xùn)練數(shù)據(jù)進(jìn)行計(jì)算。

Integrated Architecture

TensorFlow如何使用

說明:

支持Between-Graph和In-Graph兩種replication場景；
PS Task通過Kubernetes Deployment來部署，Worker Task通過Kubernetes Job來部署，由Kubernetes service和KubeDNS來提供服務(wù)發(fā)現(xiàn)；
每個(gè)TensorFlow Cluster都會通過StorageClass來Dynamic Provision PV，事先會先創(chuàng)建好通過Heketi對接Gluster集群的StorageClass；
GlusterFS集群通過Heketi來暴露rest api與Kubernetes進(jìn)行交互，關(guān)于Heketi的部署，請參考官方文檔；
每個(gè)TensorFlow Cluster會最終創(chuàng)建兩個(gè)PV，一個(gè)用來存放訓(xùn)練數(shù)據(jù)（掛載到容器內(nèi)/data，對應(yīng)TensorFlow --data_dir配置），一個(gè)用來存儲訓(xùn)練日志（掛載到容器內(nèi)/log，對應(yīng)TensorFlow --log_path配置）；
每個(gè)用戶會對應(yīng)在Kubernetes中創(chuàng)建一個(gè)namespace；
會給每個(gè)用戶部署一個(gè)Jupyter Notebook Deployment和Service，Service通過NodePort暴露到集群外；
有一個(gè)節(jié)點(diǎn)比較特殊，我們稱之為User Node,這個(gè)節(jié)點(diǎn)通過Taint方式，保證會運(yùn)行Pod，但是會通過kube-proxy來暴露集群內(nèi)的service，比如上面的Jupyter Notebook service將只允許在這個(gè)節(jié)點(diǎn)暴露出去；
User Node節(jié)點(diǎn)存放著用戶寫的python算法，并可以通過http查看和下載這些算法文件,Between-Graph場景下，容器啟動(dòng)后將通過curl下載這些算法文件；
會給沒用用戶創(chuàng)建一個(gè)Tensorboard Deployment和Service，Serivce通過NodePort暴露到集群外（同樣只能在User Node暴露），Tensorboard Pod會掛著log PV，這樣就能得到TensorFlow Graph。

Deploy Architecture

TensorFlow如何使用

整個(gè)系統(tǒng)涉及以下核心Components:

TensorFlow: 1.3.0
Kubernetes: 1.7.4
Docker: 1.12.6
Harbor: 1.1.2
Contiv netplugin: 0.1-12-23-2016.19-44-42.UTC
Keepalived: 1.3.5
Haproxy:1.7.8
Etcd2: 2.3.7
Etcd3: 3.2.1
Glusterfs: 3.10.5

網(wǎng)絡(luò)方案：contiv netplugin + ovs + vlan.
日志方案：fluentd + Kafka + ES + Kibana.
監(jiān)控方案：cadvisor + prometheus + Grafana.

CaaS的細(xì)節(jié)不在這里討論，其實(shí)也是大家非常熟悉的方案了。

Demo

這個(gè)Demo，我改成NodePort方式暴露Jupyter Nodebook，登錄時(shí)輸入正確的token即可：

TensorFlow如何使用

這是一個(gè)In-Graph集群，點(diǎn)擊master_client.ipynb，可以看到具體的訓(xùn)練算法內(nèi)容：

TensorFlow如何使用

點(diǎn)擊執(zhí)行，可以在下面看到輸出：

TensorFlow如何使用

這只是個(gè)簡單的Demo,實(shí)際使用上，自動(dòng)化生成各個(gè)ps, worker, pvc對應(yīng)的kubernetes yaml，使用域名進(jìn)行服務(wù)發(fā)現(xiàn)，不然如果你使用IP的話，可能就需要利用Pod的ProStart Hook來反饋各個(gè)Task的IP了，這將比較麻煩。

Thinking

Q: PS進(jìn)程遺留問題，在社區(qū)討論比較多（issue 4173），結(jié)合Kubernetes，我們可以比較簡單的來做到回收PS進(jìn)程的目的。 A:在DevOps的TaaS模塊中，針對每個(gè)TensorFlow Cluster都啟動(dòng)一個(gè)協(xié)程，檢查計(jì)數(shù)器是否達(dá)到worker數(shù)量（worker是job運(yùn)行的，down了以后，watch到j(luò)ob successed，則計(jì)數(shù)器加1），如果等于worker數(shù)，則表明訓(xùn)練結(jié)束，等待30s后，調(diào)用kubernetes apiserver接口將ps deployment/service刪除,達(dá)到自動(dòng)回收ps的效果；
Qworker是無狀態(tài)的，ps是有狀態(tài)的，而ps是無法進(jìn)行checkpoint的，如何進(jìn)行訓(xùn)練save和restore呢?
A:worker雖然是無狀態(tài)的，但是tf.train.Saver提供能力在worker上進(jìn)行checkpoint，大概原理就是逐個(gè)從PS task中g(shù)et Parameters，并進(jìn)行save持久化。

Q怎么讓用戶指定ps和worker個(gè)數(shù)等少量參數(shù)，自動(dòng)生成kubernetes yaml？
A: 因?yàn)楫?dāng)前我們還沒有針對TaaS做前端Portal，所以目前是通過jinja template來自動(dòng)生成的，用戶只要指定少量參數(shù)即可生成ps和worker需要的kubernetes yaml。
比如下面是我的一個(gè)jinja template tfcluster_template.yaml.jinja,

	{%- set name = "imagenet" -%}
	{%- set worker_replicas = 3 -%}
	{%- set ps_replicas = 2 -%}
	{%- set script = "http://xxx.xx.xx.xxx:80/imagenet/imagenet.py" -%}

	{%- set image = "tensorflow/tensorflow:1.3.0" -%}
	{%- set data_dir = "/data" -%}
	{%- set log_dir = "/log" -%}
	{%- set port = 2222 -%}
	{%- set replicas = {"worker": worker_replicas, "ps": ps_replicas} -%}

	{%- macro worker_hosts() -%}
	  {%- for i in range(worker_replicas) -%}
	    {%- if not loop.first -%},{%- endif -%}
	    {{ name }}-worker-{{ i }}:{{ port }}
	  {%- endfor -%}
	{%- endmacro -%}

	{%- macro ps_hosts() -%}
	  {%- for i in range(ps_replicas) -%}
	    {%- if not loop.first -%},{%- endif -%}
	    {{ name }}-ps-{{ i }}:{{ port }}
	  {%- endfor -%}
	{%- endmacro -%}


	{%- for job in ["worker", "ps"] -%}
	{%- for i in range(replicas[job]) -%}
	kind: Service
	apiVersion: v1
	metadata:
	  name: {{ name }}-{{ job }}-{{ i }}
	spec:
	  selector:
	    name: {{ name }}
	    job: {{ job }}
	    task: "{{ i }}"
	  ports:
	  - port: {{ port }}
	    targetPort: 2222
	{% if job == "worker" %}
	---
	kind: Job
	apiVersion: batch/v1
	metadata:
	  name: {{ name }}-{{ job }}-{{ i }}
	spec:
	  replicas: 1
	  template:
	    metadata:
	      labels:
	        name: {{ name }}
	        job: {{ job }}
	        task: "{{ i }}"
	    spec:
	      containers:
	      - name: {{ name }}-{{ job }}-{{ i }}
	        image: {{ image }}
	        ports:
	        - containerPort: 2222
	        command: ["/bin/sh", "-c"]
	        args:["
	            curl {{ script }} -o /opt/{{ name }}.py;
	            python /opt/{{ name }}.py \
	                   --ps_hosts={{ ps_hosts() }} \
	                   --worker_hosts={{ worker_hosts() }} \
	                   --job_name={{ job }} \
	                   --task_index={{ i }} \
	                   --log_path={{ log_dir }} \
	                   --data_dir={{ data_dir }} ;"]
	        volumeMounts: 
	        - name: data
	          mountPath: {{ data_dir }}
	        - name: log
	          mountPath: {{ log_dir }}
	      restartPolicy: Never
	      volumes:
	        - name: data
	          persistentVolumeClaim:
	            claimName: {{ name }}-data-pvc
	        - name: log
	          persistentVolumeClaim:
	            claimName: {{ name }}-log-pvc 
	{% endif %}
	{% if job == "ps" %}
	---
	kind: Deployment
	apiVersion: extensions/v1beta1
	metadata:
	  name: {{ name }}-{{ job }}-{{ i }}
	spec:
	  replicas: 1
	  template:
	    metadata:
	      labels:
	        name: {{ name }}
	        job: {{ job }}
	        task: "{{ i }}"
	    spec:
	      containers:
	      - name: {{ name }}-{{ job }}-{{ i }}
	        image: {{ image }}
	        ports:
	        - containerPort: 2222
	        command: ["/bin/sh", "-c"]
	        args:["
	            curl {{ script }} -o /opt/{{ name }}.py;
	            python /opt/{{ name }}.py \
	                   --ps_hosts={{ ps_hosts() }} \
	                   --worker_hosts={{ worker_hosts() }} \
	                   --job_name={{ job }} \
	                   --task_index={{ i }} \
	                   --log_path={{ log_dir }} ;"]
	        volumeMounts: 
	        - name: log
	          mountPath: {{ log_dir }}
	      restartPolicy: Never
	      volumes:
	        - name: log
	          persistentVolumeClaim:
	            claimName: {{ name }}-log-pvc
	{% endif %}
	---
	{% endfor %}
	{%- endfor -%}

	apiVersion: v1
	kind: PersistentVolumeClaim
	metadata:
	 name: {{ name }}-log-pvc
	 annotations:
	   volume.beta.kubernetes.io/storage-class: glusterfs
	spec:
	 accessModes:
	  - ReadWriteMany
	 resources:
	   requests:
	     storage: 10Gi
	---
	apiVersion: v1
	kind: PersistentVolumeClaim
	metadata:
	 name: {{ name }}-data-pvc
	 annotations:
	   volume.beta.kubernetes.io/storage-class: glusterfs
	spec:
	 accessModes:
	  - ReadWriteMany
	 resources:
	   requests:
	     storage: 10Gi
	---

然后執(zhí)行python render_template.py tfcluster_template.yaml.jinja | kubectl apply -f -完成對應(yīng)的Between-Graph TensorFlow Cluster的創(chuàng)建和啟動(dòng)。

感謝各位的閱讀，以上就是“TensorFlow如何使用”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對TensorFlow如何使用這一問題有了更深刻的體會，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識點(diǎn)的文章，歡迎關(guān)注！

向AI問一下細(xì)節(jié)

TensorFlow如何使用

Distributed TensorFlow

Why TensorFlow on Kubernetes

Integrated Architecture

Deploy Architecture

Demo

Thinking

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽