溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

TensorFlow如何使用

發(fā)布時(shí)間:2021-12-20 10:02:15 來源:億速云 閱讀:135 作者:iii 欄目:云計(jì)算

這篇文章主要講解了“TensorFlow如何使用”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“TensorFlow如何使用”吧!


Distributed TensorFlow

2016年4月TensorFlow發(fā)布了0.8版本宣布支持分布式計(jì)算,這個(gè)特性,我們稱之為Distributed TensorFlow。

這是非常重要的一個(gè)特性,因?yàn)樵贏I的世界里,訓(xùn)練數(shù)據(jù)的size通常會大到讓人瞠目結(jié)舌。比如Google Brain實(shí)驗(yàn)室今年發(fā)表的論文OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER中提到,下圖中MOE Layer Model可以達(dá)到680億個(gè)Parameters的規(guī)模,如此復(fù)雜的模型,如果只能單機(jī)訓(xùn)練,那耗時(shí)難于接受。通過Distributed TensorFlow,可以利用眾多服務(wù)器構(gòu)建TensorFlow Cluster來提高訓(xùn)練效率。

TensorFlow如何使用

關(guān)于Distributed TensorFlow的更多內(nèi)容,請參考官方內(nèi)容www.tensorflow.org/deplopy/distributed,這里給出Distributed TensorFlow結(jié)構(gòu)圖:

TensorFlow如何使用

Why TensorFlow on Kubernetes

Distributed TensorFlow雖然提供了分布式能力,可以利用服務(wù)器集群加快訓(xùn)練,但是還有許多缺點(diǎn),比如資源無法隔離、PS進(jìn)程遺留問題等等,而這些正是Kubernetes所擅長的地方。下圖是總結(jié)的你需要將TensorFlow運(yùn)行在Kubernetes上的理由:

TensorFlow如何使用

對于我們來說,前期最大的用戶痛點(diǎn)就是算法團(tuán)隊(duì)使用的HDFS Read性能不及預(yù)期,經(jīng)過網(wǎng)上查找資料及我們自己簡單的對比測試,發(fā)現(xiàn)GlusterFS可能是最適合我們的分布式存儲了。因此在我們的TensorFlow on Kubernetes項(xiàng)目中使用GlusterFS來存放訓(xùn)練數(shù)據(jù),worker將從GlusterFS中讀取訓(xùn)練數(shù)據(jù)進(jìn)行計(jì)算。

Integrated Architecture

TensorFlow如何使用

說明:

  • 支持Between-Graph和In-Graph兩種replication場景;

  • PS Task通過Kubernetes Deployment來部署,Worker Task通過Kubernetes Job來部署,由Kubernetes service和KubeDNS來提供服務(wù)發(fā)現(xiàn);

  • 每個(gè)TensorFlow Cluster都會通過StorageClass來Dynamic Provision PV,事先會先創(chuàng)建好通過Heketi對接Gluster集群的StorageClass;

  • GlusterFS集群通過Heketi來暴露rest api與Kubernetes進(jìn)行交互,關(guān)于Heketi的部署,請參考官方文檔;

  • 每個(gè)TensorFlow Cluster會最終創(chuàng)建兩個(gè)PV,一個(gè)用來存放訓(xùn)練數(shù)據(jù)(掛載到容器內(nèi)/data,對應(yīng)TensorFlow --data_dir配置),一個(gè)用來存儲訓(xùn)練日志(掛載到容器內(nèi)/log,對應(yīng)TensorFlow --log_path配置);

  • 每個(gè)用戶會對應(yīng)在Kubernetes中創(chuàng)建一個(gè)namespace;

  • 會給每個(gè)用戶部署一個(gè)Jupyter Notebook Deployment和Service,Service通過NodePort暴露到集群外;

  • 有一個(gè)節(jié)點(diǎn)比較特殊,我們稱之為User Node,這個(gè)節(jié)點(diǎn)通過Taint方式,保證會運(yùn)行Pod,但是會通過kube-proxy來暴露集群內(nèi)的service,比如上面的Jupyter Notebook service將只允許在這個(gè)節(jié)點(diǎn)暴露出去;

  • User Node節(jié)點(diǎn)存放著用戶寫的python算法,并可以通過http查看和下載這些算法文件,Between-Graph場景下,容器啟動(dòng)后將通過curl下載這些算法文件;

  • 會給沒用用戶創(chuàng)建一個(gè)Tensorboard Deployment和Service,Serivce通過NodePort暴露到集群外(同樣只能在User Node暴露),Tensorboard Pod會掛著log PV,這樣就能得到TensorFlow Graph。

Deploy Architecture

TensorFlow如何使用

整個(gè)系統(tǒng)涉及以下核心Components:

  • TensorFlow: 1.3.0

  • Kubernetes: 1.7.4

  • Docker: 1.12.6

  • Harbor: 1.1.2

  • Contiv netplugin: 0.1-12-23-2016.19-44-42.UTC

  • Keepalived: 1.3.5

  • Haproxy:1.7.8

  • Etcd2: 2.3.7

  • Etcd3: 3.2.1

  • Glusterfs: 3.10.5

網(wǎng)絡(luò)方案:contiv netplugin + ovs + vlan.
日志方案:fluentd + Kafka + ES + Kibana.
監(jiān)控方案:cadvisor + prometheus + Grafana.

CaaS的細(xì)節(jié)不在這里討論,其實(shí)也是大家非常熟悉的方案了。

Demo

這個(gè)Demo,我改成NodePort方式暴露Jupyter Nodebook,登錄時(shí)輸入正確的token即可:

TensorFlow如何使用

這是一個(gè)In-Graph集群,點(diǎn)擊master_client.ipynb,可以看到具體的訓(xùn)練算法內(nèi)容:

TensorFlow如何使用

點(diǎn)擊執(zhí)行,可以在下面看到輸出:

TensorFlow如何使用

這只是個(gè)簡單的Demo,實(shí)際使用上,自動(dòng)化生成各個(gè)ps, worker, pvc對應(yīng)的kubernetes yaml,使用域名進(jìn)行服務(wù)發(fā)現(xiàn),不然如果你使用IP的話,可能就需要利用Pod的ProStart Hook來反饋各個(gè)Task的IP了,這將比較麻煩。

Thinking

  • Q: PS進(jìn)程遺留問題,在社區(qū)討論比較多(issue 4173),結(jié)合Kubernetes,我們可以比較簡單的來做到回收PS進(jìn)程的目的。 A:在DevOps的TaaS模塊中,針對每個(gè)TensorFlow Cluster都啟動(dòng)一個(gè)協(xié)程,檢查計(jì)數(shù)器是否達(dá)到worker數(shù)量(worker是job運(yùn)行的,down了以后,watch到j(luò)ob successed,則計(jì)數(shù)器加1),如果等于worker數(shù),則表明訓(xùn)練結(jié)束,等待30s后,調(diào)用kubernetes apiserver接口將ps deployment/service刪除,達(dá)到自動(dòng)回收ps的效果;

  • Qworker是無狀態(tài)的,ps是有狀態(tài)的,而ps是無法進(jìn)行checkpoint的,如何進(jìn)行訓(xùn)練save和restore呢?
    A:worker雖然是無狀態(tài)的,但是tf.train.Saver提供能力在worker上進(jìn)行checkpoint,大概原理就是逐個(gè)從PS task中g(shù)et Parameters,并進(jìn)行save持久化。

  • Q怎么讓用戶指定ps和worker個(gè)數(shù)等少量參數(shù),自動(dòng)生成kubernetes yaml?
    A: 因?yàn)楫?dāng)前我們還沒有針對TaaS做前端Portal,所以目前是通過jinja template來自動(dòng)生成的,用戶只要指定少量參數(shù)即可生成ps和worker需要的kubernetes yaml。
    比如下面是我的一個(gè)jinja template tfcluster_template.yaml.jinja,

    	{%- set name = "imagenet" -%}
    	{%- set worker_replicas = 3 -%}
    	{%- set ps_replicas = 2 -%}
    	{%- set script = "http://xxx.xx.xx.xxx:80/imagenet/imagenet.py" -%}
    
    	{%- set image = "tensorflow/tensorflow:1.3.0" -%}
    	{%- set data_dir = "/data" -%}
    	{%- set log_dir = "/log" -%}
    	{%- set port = 2222 -%}
    	{%- set replicas = {"worker": worker_replicas, "ps": ps_replicas} -%}
    
    	{%- macro worker_hosts() -%}
    	  {%- for i in range(worker_replicas) -%}
    	    {%- if not loop.first -%},{%- endif -%}
    	    {{ name }}-worker-{{ i }}:{{ port }}
    	  {%- endfor -%}
    	{%- endmacro -%}
    
    	{%- macro ps_hosts() -%}
    	  {%- for i in range(ps_replicas) -%}
    	    {%- if not loop.first -%},{%- endif -%}
    	    {{ name }}-ps-{{ i }}:{{ port }}
    	  {%- endfor -%}
    	{%- endmacro -%}
    
    
    	{%- for job in ["worker", "ps"] -%}
    	{%- for i in range(replicas[job]) -%}
    	kind: Service
    	apiVersion: v1
    	metadata:
    	  name: {{ name }}-{{ job }}-{{ i }}
    	spec:
    	  selector:
    	    name: {{ name }}
    	    job: {{ job }}
    	    task: "{{ i }}"
    	  ports:
    	  - port: {{ port }}
    	    targetPort: 2222
    	{% if job == "worker" %}
    	---
    	kind: Job
    	apiVersion: batch/v1
    	metadata:
    	  name: {{ name }}-{{ job }}-{{ i }}
    	spec:
    	  replicas: 1
    	  template:
    	    metadata:
    	      labels:
    	        name: {{ name }}
    	        job: {{ job }}
    	        task: "{{ i }}"
    	    spec:
    	      containers:
    	      - name: {{ name }}-{{ job }}-{{ i }}
    	        image: {{ image }}
    	        ports:
    	        - containerPort: 2222
    	        command: ["/bin/sh", "-c"]
    	        args:["
    	            curl {{ script }} -o /opt/{{ name }}.py;
    	            python /opt/{{ name }}.py \
    	                   --ps_hosts={{ ps_hosts() }} \
    	                   --worker_hosts={{ worker_hosts() }} \
    	                   --job_name={{ job }} \
    	                   --task_index={{ i }} \
    	                   --log_path={{ log_dir }} \
    	                   --data_dir={{ data_dir }} ;"]
    	        volumeMounts: 
    	        - name: data
    	          mountPath: {{ data_dir }}
    	        - name: log
    	          mountPath: {{ log_dir }}
    	      restartPolicy: Never
    	      volumes:
    	        - name: data
    	          persistentVolumeClaim:
    	            claimName: {{ name }}-data-pvc
    	        - name: log
    	          persistentVolumeClaim:
    	            claimName: {{ name }}-log-pvc 
    	{% endif %}
    	{% if job == "ps" %}
    	---
    	kind: Deployment
    	apiVersion: extensions/v1beta1
    	metadata:
    	  name: {{ name }}-{{ job }}-{{ i }}
    	spec:
    	  replicas: 1
    	  template:
    	    metadata:
    	      labels:
    	        name: {{ name }}
    	        job: {{ job }}
    	        task: "{{ i }}"
    	    spec:
    	      containers:
    	      - name: {{ name }}-{{ job }}-{{ i }}
    	        image: {{ image }}
    	        ports:
    	        - containerPort: 2222
    	        command: ["/bin/sh", "-c"]
    	        args:["
    	            curl {{ script }} -o /opt/{{ name }}.py;
    	            python /opt/{{ name }}.py \
    	                   --ps_hosts={{ ps_hosts() }} \
    	                   --worker_hosts={{ worker_hosts() }} \
    	                   --job_name={{ job }} \
    	                   --task_index={{ i }} \
    	                   --log_path={{ log_dir }} ;"]
    	        volumeMounts: 
    	        - name: log
    	          mountPath: {{ log_dir }}
    	      restartPolicy: Never
    	      volumes:
    	        - name: log
    	          persistentVolumeClaim:
    	            claimName: {{ name }}-log-pvc
    	{% endif %}
    	---
    	{% endfor %}
    	{%- endfor -%}
    
    	apiVersion: v1
    	kind: PersistentVolumeClaim
    	metadata:
    	 name: {{ name }}-log-pvc
    	 annotations:
    	   volume.beta.kubernetes.io/storage-class: glusterfs
    	spec:
    	 accessModes:
    	  - ReadWriteMany
    	 resources:
    	   requests:
    	     storage: 10Gi
    	---
    	apiVersion: v1
    	kind: PersistentVolumeClaim
    	metadata:
    	 name: {{ name }}-data-pvc
    	 annotations:
    	   volume.beta.kubernetes.io/storage-class: glusterfs
    	spec:
    	 accessModes:
    	  - ReadWriteMany
    	 resources:
    	   requests:
    	     storage: 10Gi
    	---


    然后執(zhí)行python render_template.py tfcluster_template.yaml.jinja | kubectl apply -f -完成對應(yīng)的Between-Graph TensorFlow Cluster的創(chuàng)建和啟動(dòng)。

感謝各位的閱讀,以上就是“TensorFlow如何使用”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對TensorFlow如何使用這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI