您好,登錄后才能下訂單哦!
今天小編給大家分享一下DQN與PG多角度實(shí)例比較分析的相關(guān)知識(shí)點(diǎn),內(nèi)容詳細(xì),邏輯清晰,相信大部分人都還太了解這方面的知識(shí),所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。
首先是原理上的對(duì)比,強(qiáng)化學(xué)習(xí)研究的目標(biāo)是訓(xùn)練出一個(gè)對(duì)應(yīng)于具體任務(wù)的好模型,這兩個(gè)訓(xùn)練策略的方法是不同的。DQN基于值的方法,簡(jiǎn)單說就是先學(xué)出個(gè)值函數(shù) ,然后通過值函數(shù)確定策略。而PG基于策略的方法則是,直接通過一個(gè)目標(biāo)函數(shù)去訓(xùn)練出一個(gè)策略
接下來是網(wǎng)絡(luò)模型上的不同,在MATLAB中DQN方法需要的模型是這樣的
每一步的state和action一起作為輸入進(jìn)入網(wǎng)絡(luò),最后輸出的是下一步action的值,和模型接受的動(dòng)作對(duì)應(yīng),比如迷宮環(huán)境中的表示向上的1,rlDQNAgent模型把1施加給環(huán)境
再看PG方法的模型
只要state作為輸入,經(jīng)過網(wǎng)絡(luò)的運(yùn)算后輸出的是下一步的action,和模型的actionInfo對(duì)應(yīng),rlPGAgent分析后取出需要執(zhí)行的動(dòng)作再和環(huán)境交互
最后看的是訓(xùn)練過程,同樣的簡(jiǎn)單平衡維持環(huán)境,DQN訓(xùn)練時(shí)reward變化是這樣的
而PG訓(xùn)練需要更多次
這個(gè)對(duì)比只是直觀指出不同,可能PG方法并不適合這樣的環(huán)境,這里主要記錄的是兩個(gè)方法的輸入輸出,在下次建立模型的時(shí)候可以參考:
DQN的輸入是state和action一起,輸出對(duì)應(yīng)的是action的確切值
PG的輸入是state,輸出對(duì)應(yīng)的是env的ActionInfo
以上就是“DQN與PG多角度實(shí)例比較分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會(huì)為大家更新不同的知識(shí),如果還想學(xué)習(xí)更多的知識(shí),請(qǐng)關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。