溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

發(fā)布時間:2020-08-10 15:24:17 來源:ITPUB博客 閱讀:234 作者:云編 欄目:互聯(lián)網(wǎng)科技

作者:Artem Oppermann

這是關于自學習人工智能代理的多部分系列的第一篇文章,或者更準確地稱之為深度強化學習。本系列的目的不僅僅是讓你對這些主題有所了解。相反,我想讓你更深入地理解深度強化學習的最流行和最有效的方法背后的理論、數(shù)學和實施。

自學習人工智能代理系列 - 目錄

  • 第一部分:馬爾可夫決策過程(本文)

  • 第二部分:深度Q學習(Q-Learning)

  • 第三部分:深入(雙重)Q學習(Q-Learning)

  • 第四部分:持續(xù)行動空間的政策梯度

  • 第五部分:決斗網(wǎng)絡(dueling network)

  • 第六部分:異步角色評論代理

  • ?...

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖1 人工智能學會如何運行和克服障礙馬爾可夫決策過程

目錄

  • 0.簡介

  • 1. Nutshell的增強學習

  • 2.馬爾可夫決策過程

  • 2.1馬爾可夫過程

  • 2.2馬爾可夫獎勵程序

  • 2.3價值函數(shù)?

  • 3.貝爾曼方程(Bellman Equation)

  • 3.1馬爾可夫獎勵過程的貝爾曼方程

  • 3.2馬爾可夫決策過程 - 定義

  • 3.3政策

  • 3.4動作價值函數(shù)

  • 3.5最優(yōu)政策

  • 3.6 貝爾曼方程最優(yōu)性方程

0.簡介

深度強化學習正在興起。近年來,世界各地的研究人員和行業(yè)媒體都沒有更多關注深度學習的其他子領域。在深度學習方面取得的最大成就是由于深度的強化學習。來自谷歌公司的Alpha Go在圍棋游戲中擊敗了世界圍棋冠軍(這是幾年前不可能實現(xiàn)的成就),還有DeepMind的人工智能代理,他們自學走路、跑步和克服障礙(圖1-3) 。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖2. 人工智能代理學會如何運行和克服障礙

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖3. 人工智能代理學會如何運行和克服障礙

其他人工智能代理自從2014年以來在玩雅達利游戲(Atari游戲)中的表現(xiàn)超過了人類水平(圖4)。在我看來,關于所有這一切的最令人驚奇的事實是,這些人工智能代理中沒有一個是由人類明確編程或教導如何解決這些任務。他們通過深度學習和強化學習的力量自學。多部分系列的第一篇文章的目標是提供必要的數(shù)學基礎,以便在即將發(fā)表的文章中解決人工智能這個子領域中最有希望的領域。

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖4 人工智能代理學習如何玩Atari游戲

1. 深度強化學習

深度強化學習可以概括為構建一個直接從與環(huán)境的交互中學習的算法(或人工智能代理)(圖5)。其環(huán)境可能是現(xiàn)實世界、計算機游戲、模擬甚至是棋盤游戲,如圍棋或國際象棋。與人類一樣,人工智能代理從其行為的后果中學習,而不是從明確的教導中學習。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖5深度強化學習的示意圖

在深度強化學習中,代理由神經(jīng)網(wǎng)絡表示。神經(jīng)網(wǎng)絡直接與環(huán)境相互作用。它觀察當前的環(huán)境狀況,并根據(jù)當前狀態(tài)和過去的經(jīng)驗決定采取什么行動(例如向左、向右等)?;谒扇〉男袆?,人工智能代理收到獎勵。獎勵金額決定了解決給定問題所采取行動的質量(例如學習如何行走)。代理的目標是學習在任何特定情況下采取行動,以最大化累積的獎勵。

2.馬爾可夫決策過程

馬爾可夫決策過程(MDP)是離散時間隨機控制過程。馬爾可夫決策過程(MDP)是我們迄今為止為人工智能代理的復雜環(huán)境建模的最佳方法。代理旨在解決的每個問題可以被認為是狀態(tài)序列S1,S2,S3,... Sn(狀態(tài)可以是例如圍棋/象棋板配置)。代理執(zhí)行操作并從一個狀態(tài)移動到另一個狀態(tài)。在下文中,將學習確定代理在任何給定情況下必須采取的行動的數(shù)學。

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式1 馬可夫性質(Markov property)

2.1馬爾可夫過程

馬爾可夫過程是描述一系列可能狀態(tài)的隨機模型,其中當前狀態(tài)僅依賴于先前狀態(tài)。這也稱為馬可夫性質(Markov property)(式1)。對于強化學習,這意味著人工智能代理的下一個狀態(tài)僅取決于最后一個狀態(tài),而不是之前的所有先前狀態(tài)。

馬爾可夫過程是一個隨機過程。這意味著從當前狀態(tài)s到下一個狀態(tài)s'的轉換只能以某個概率Pss'(式2)發(fā)生。在馬爾可夫過程中,被告知要離開的代理只會以一定的概率離開(例如0.998)。由可能性很小的環(huán)境來決定代理的最終結果。

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式2從狀態(tài)s到狀態(tài)s'的轉換概率

Pss'可以被認為是狀態(tài)轉移矩陣P中的條目,其定義從所有狀態(tài)s到所有后繼狀態(tài)s'(等式3)的轉移概率。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式3轉移概率矩陣

記?。厚R爾可夫過程(或馬爾可夫鏈)是一個元組<S,P>。S是一組(有限的)狀態(tài)。 P是狀態(tài)轉移概率矩陣。

2.2馬爾可夫獎勵程序

馬爾可夫獎勵過程是元組<S,P,R>。這里R是代理希望在狀態(tài)s(式4)中獲得的獎勵。該過程的動機是,對于旨在實現(xiàn)某個目標的人工智能代理,例如贏得國際象棋比賽,某些狀態(tài)(比賽配置)在戰(zhàn)略和贏得比賽的潛力方面比其他狀態(tài)更有希望。

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式4 狀態(tài)的預期獎勵

感興趣的主要話題是總獎勵Gt(式5),它是代理將在所有狀態(tài)的序列中獲得的預期累積獎勵。每個獎勵都由所謂的折扣因子γ∈[0,1]加權。折扣獎勵在數(shù)學上是方便的,因為它避免了循環(huán)馬爾可夫過程中的無限回報。除了折扣因素,意味著我們未來越多,獎勵變得越不重要,因為未來往往是不確定的。如果獎勵是金融獎勵,立即獎勵可能比延遲獎勵獲得更多利益。除了動物/人類行為表明喜歡立即獎勵。

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式5所有狀態(tài)的總獎勵

2.3價值函數(shù)

另一個重要的概念是價值函數(shù)v(s)之一。值函數(shù)將值映射到每個狀態(tài)s。狀態(tài)s的值被定義為人工智能代理在狀態(tài)s中開始其進展時將獲得的預期總獎勵(式6)。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式6價值函數(shù)從狀態(tài)s開始的預期收益

價值函數(shù)可以分解為兩部分:

  • 代理收到的即時獎勵R(t + 1)處于狀態(tài)s。

  • 狀態(tài)s后的下一個狀態(tài)的折扣值v(s(t + 1))。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式7分解價值函數(shù)  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)


3.貝爾曼方程

3.1馬爾可夫獎勵過程的貝爾曼方程

分解的值函數(shù)(式8)也稱為馬爾可夫獎勵過程的貝爾曼方程。該功能可以在節(jié)點圖中顯示(圖6)。從狀態(tài)s開始導致值v(s)。在狀態(tài)s中我們有一定的概率Pss'最終在下一個狀態(tài)s'中結束。在這種特殊情況下,我們有兩個可能的下一個狀態(tài)為了獲得值v(s),我們必須總結由概率Pss'加權的可能的下一個狀態(tài)的值v(s'),并從狀態(tài)s中添加即時獎勵。這產(chǎn)生了式9,如果我們在式中執(zhí)行期望算子E,那么這只不是式8。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式8分解價值函數(shù)

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖6從s到s'的隨機過渡  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式9執(zhí)行期望算子E后的貝爾曼方程

3.2馬爾可夫決策過程 - 定義

馬爾可夫決策過程是馬爾可夫獎勵過程的決策。馬爾可夫決策過程由一組元組<S,A,P,R>描述,A是代理可以在狀態(tài)s中采取的一組有限的可能動作。因此,現(xiàn)在處于狀態(tài)s中的直接獎勵也取決于代理在這種狀態(tài)下所采取的行動(等式10)。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式10 預期獎勵取決于狀態(tài)的行動

3.3政策

在這一點上,我們將討論代理如何決定在特定狀態(tài)下必須采取哪些行動。這由所謂的政策π(式11)決定。從數(shù)學角度講,政策是對給定狀態(tài)的所有行動的分配。策略確定從狀態(tài)s到代理必須采取的操作a的映射。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式11作為從s到a的映射的策略

在此記住,直觀地說,策略π可以被描述為代理根據(jù)當前狀態(tài)選擇某些動作的策略。

該策略導致狀態(tài)值函數(shù)v(s)的新定義(式12),我們現(xiàn)在將其定義為從狀態(tài)s開始的預期返回,然后遵循策略π。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式12狀態(tài)價值函數(shù)

3.4動作價值函數(shù)

除狀態(tài)值函數(shù)之外的另一個重要功能是所謂的動作價值函數(shù)q(s,a)(式13)。動作價值函數(shù)是我們通過從狀態(tài)s開始,采取動作a然后遵循策略π獲得的預期回報。請注意,對于狀態(tài)s,q(s,a)可以采用多個值,因為代理可以在狀態(tài)s中執(zhí)行多個操作。Q(s,a)的計算是通過神經(jīng)網(wǎng)絡實現(xiàn)的。給定狀態(tài)作為輸入,網(wǎng)絡計算該狀態(tài)下每個可能動作的質量作為標量(圖7)。更高的質量意味著在給定目標方面采取更好的行動。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖7動作價值函數(shù)的圖示

記?。簞幼鲀r值函數(shù)告訴我們在特定狀態(tài)下采取特定行動有多好。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式13 動作價值函數(shù)

以前,狀態(tài)值函數(shù)v(s)可以分解為以下形式:  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式14分解的狀態(tài)價值函數(shù)

相同的分解可以應用于動作價值函數(shù):  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式15分解的狀態(tài)價值函數(shù)

在這一點上,我們討論v(s)和q(s,a)如何相互關聯(lián)。這些函數(shù)之間的關系可以在圖中再次可視化:  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖8 v(s)和q(s,a)之間關系的可視化

在這個例子中處于狀態(tài)s允許我們采取兩種可能的動作a。根據(jù)定義,在特定狀態(tài)下采取特定動作會給我們動作價值q(s,a)。動作價值函數(shù)v(s)是在狀態(tài)s(式16)中采取動作a的概率加權的可能q(s,a)的總和(其不是策略π除外)。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式16狀態(tài)價值函數(shù)作為動作價值的加權和

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)


現(xiàn)在讓我們考慮圖9中的相反情況。二叉樹的根現(xiàn)在是一個我們選擇采取特定動作的狀態(tài)。請記住,馬爾可夫過程是隨機的。采取行動并不意味著你將以100%的確定性結束你想要的目標。嚴格地說,你必須考慮在采取行動后最終進入其他狀態(tài)的概率。在采取行動后的這種特殊情況下,你可以最終處于兩個不同的下一個狀態(tài)s':  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖9 v(s)和q(s,a)之間關系的可視化

要獲得動作價值,你必須采用由概率Pss'加權的折扣狀態(tài)值,以最終處于所有可能的狀態(tài)(在這種情況下僅為2)并添加即時獎勵:  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式17 q(s,a)和v(s)之間的關系

現(xiàn)在我們知道了這些函數(shù)之間的關系,我們可以從Eq中插入v(s)。從式16插入到式17的q(s,a),我們獲得了式18中,可以注意到,當前q(s,a)和下一個動作價值q(s',a')之間存在遞歸關系。

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式18 動作價值函數(shù)的遞歸性質

這種遞歸關系可以再次在二叉樹中可視化(圖10)。我們從q(s,a)開始,以一定概率Pss'結束在下一個狀態(tài)s',我們可以用概率π采取動作a',我們以動作價值q結束(s',一個')。為了獲得q(s,a),我們必須在二叉樹中上升并整合所有概率,如式18所示。  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

圖10 q(s,a)的遞歸行為的可視化

3.5最優(yōu)政策

深度強化學習中最重要的主題是找到最優(yōu)的動作價值函數(shù)q *。查找q *表示代理確切地知道任何給定狀態(tài)下的動作的質量。此外,代理商可以決定必須采取哪種行動的質量。讓我們定義q *的意思。最佳的動作價值函數(shù)是遵循最大化動作價值的策略的函數(shù):  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式19最佳行動價值函數(shù)的定義

為了找到最好的策略,我們必須在q(s,a)上最大化。最大化意味著我們只選擇q(s,a)具有最高價值的所有可能動作中的動作a。這為最優(yōu)策略π產(chǎn)生以下定義:

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式19最佳行動價值函數(shù)的定義

3.6 貝爾曼最優(yōu)性方程

可以將最優(yōu)策略的條件插入到式中。式18因此為我們提供了貝爾曼最優(yōu)性方程:  

漫談自學習人工智能代理:馬爾可夫決策過程(第一部分)

式21 貝爾曼最優(yōu)性方程

如果人工智能代理可以解決這個等式,那么它基本上意味著解決了給定環(huán)境中的問題。代理在任何給定的狀態(tài)或情況下都知道關于目標的任何可能行動的質量并且可以相應地表現(xiàn)。

解決貝爾曼最優(yōu)性方程將成為即將發(fā)表的文章的主題。在下面的文章中,我將向你介紹第一種解決深度Q-Learning方程的技術。


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。

AI