溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

DQN與PG多角度實(shí)例比較分析

發(fā)布時(shí)間：2022-01-14 10:20:29 來源：億速云閱讀：145 作者：iii 欄目：大數(shù)據(jù)

今天小編給大家分享一下DQN與PG多角度實(shí)例比較分析的相關(guān)知識(shí)點(diǎn)，內(nèi)容詳細(xì)，邏輯清晰，相信大部分人都還太了解這方面的知識(shí)，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來了解一下吧。

DQN與PG多角度實(shí)例比較分析

首先是原理上的對(duì)比，強(qiáng)化學(xué)習(xí)研究的目標(biāo)是訓(xùn)練出一個(gè)對(duì)應(yīng)于具體任務(wù)的好模型，這兩個(gè)訓(xùn)練策略的方法是不同的。DQN基于值的方法，簡(jiǎn)單說就是先學(xué)出個(gè)值函數(shù) ,然后通過值函數(shù)確定策略。而PG基于策略的方法則是，直接通過一個(gè)目標(biāo)函數(shù)去訓(xùn)練出一個(gè)策略

接下來是網(wǎng)絡(luò)模型上的不同，在MATLAB中DQN方法需要的模型是這樣的

DQN與PG多角度實(shí)例比較分析

每一步的state和action一起作為輸入進(jìn)入網(wǎng)絡(luò)，最后輸出的是下一步action的值，和模型接受的動(dòng)作對(duì)應(yīng)，比如迷宮環(huán)境中的表示向上的1，rlDQNAgent模型把1施加給環(huán)境

再看PG方法的模型

DQN與PG多角度實(shí)例比較分析

只要state作為輸入，經(jīng)過網(wǎng)絡(luò)的運(yùn)算后輸出的是下一步的action，和模型的actionInfo對(duì)應(yīng)，rlPGAgent分析后取出需要執(zhí)行的動(dòng)作再和環(huán)境交互

最后看的是訓(xùn)練過程，同樣的簡(jiǎn)單平衡維持環(huán)境，DQN訓(xùn)練時(shí)reward變化是這樣的

DQN與PG多角度實(shí)例比較分析

而PG訓(xùn)練需要更多次

DQN與PG多角度實(shí)例比較分析

這個(gè)對(duì)比只是直觀指出不同，可能PG方法并不適合這樣的環(huán)境，這里主要記錄的是兩個(gè)方法的輸入輸出，在下次建立模型的時(shí)候可以參考：

DQN的輸入是state和action一起，輸出對(duì)應(yīng)的是action的確切值

PG的輸入是state，輸出對(duì)應(yīng)的是env的ActionInfo

以上就是“DQN與PG多角度實(shí)例比較分析”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會(huì)為大家更新不同的知識(shí)，如果還想學(xué)習(xí)更多的知識(shí)，請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
matlab感知器的局限性實(shí)例分析
下一篇新聞：
springboot整合quartz定時(shí)任務(wù)框架的方法是什么

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼