Actor-Critic

文章目录

  • Actor-Critic
    • Review: Policy Gradient & Q-learning
    • Advantage Actor-Critic(A2C)
      • tips for A2C
  • Asynchronous Advantage Actor-Critic(A3C)
  • Pathwise Derivative Policy Gradient
    • Algorithm

Actor-Critic

演员-评论家算法(Actor-Critic Algorithm)是一种结合policy basedvalue based的强化学习方法,其中:

  • 演员(Actor)是指策略函数 π ( a ∣ s ) \pi(a \mid s) π(as),即学习一个策略来得到尽量高的回报。
  • 评论家(Critic)是指值函数 V π ( s ) V_\pi(s) Vπ(s),对当前策略的值函数进行估计,即评估演员的好坏。
  • 借助于值函数,演员-评论家算法可以进行单步更新参数,不需要等到回合结束才进行更新。

Review: Policy Gradient & Q-learning

在这里插入图片描述

g r a d i e n t   f o r   u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ l o g p θ ( a t n ∣ s t n ) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (\sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b) \nabla logp_\theta(a_t^n \mid s_t^n) gradient for update=θRθN1n=1Nt=1Tn(t=tTnγttrtnb)logpθ(atnstn)

G t n ≜ ∑ t ′ = t T n γ t ′ − t r t ′ n G_t^n \triangleq \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n Gtnt=tTnγttrtn

G t n G_t^n Gtn 代表的是从t时刻开始discount后的奖励,因为 r n r^n rn是一个随机变量,所以 G t n G_t^n Gtn 的方差会很大。方差大就会导致在训练的过程中sample到的有限的 G t n G_t^n Gtn​ 是比较没有代表性的,那产生的误差就会比较大。另外据Q- function的定义易得:
E ⁡ [ G t n ] = Q π θ ( s t n , a t n ) \operatorname{E}[G_t^n] = Q^{\pi_\theta}(s_t^n,a_t^n) E[Gtn]=Qπθ(stn,atn)

  • 只需要将 ∑ t ′ = t T n γ t ′ − t r t ′ n \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n t=tTnγttrtn​ 替换成 Q π θ ( s t n , a t n ) Q^{\pi_\theta}(s_t^n,a_t^n) Qπθ(stn,atn)​​​,就很直观的把Q-learning和policy gradient结合起来了。
  • 更进一步地,baseline b 可以用 V π θ ( s t n ) V^{\pi_\theta}(s_t^n) Vπθ(stn) 来替代。实际上, V π θ ( s t n ) = E ⁡ [ Q π θ ( s t n , a t n ) ] V^{\pi_\theta}(s_t^n) = \operatorname{E}[Q^{\pi_\theta}(s_t^n,a_t^n)] Vπθ(stn)=E[Qπθ(stn,atn)]​​,因此二者Q-V的值有正有负,即代表动作好与坏。

替换完得到下式:
g r a d i e n t   f o r   u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( Q π θ ( s t n , a t n ) − V π θ ( s t n ) ) ∇ l o g p θ ( a t n ∣ s t n ) (1) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(Q^{\pi_\theta}(s_t^n,a_t^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{1} gradient for update=θRθN1n=1Nt=1Tn(Qπθ(stn,atn)Vπθ(stn))logpθ(atnstn)(1)

Advantage Actor-Critic(A2C)

为什么叫 Advantage?因为 a d v a n t a g e f u n c t i o n = ∑ t ′ = t T n γ t ′ − t r t ′ n − b advantage function = \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b advantagefunction=t=tTnγttrtnb​​

因为 Q π ( s t n , a t n ) = E ⁡ [ r t n + γ V π ( s t + 1 n ) ] = r t n + γ V π ( s t + 1 n ) Q^\pi(s_t^n,a_t^n) = \operatorname{E}[r_t^n + \gamma V^\pi(s_{t+1}^n)] = r_t^n + \gamma V^\pi(s_{t+1}^n) Qπ(stn,atn)=E[rtn+γVπ(st+1n)]=rtn+γVπ(st+1n)​​​​​ (去掉期望值并且都换成V是paper实验里面验证的)代入(1)式,得:
g r a d i e n t   f o r   u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( r t n + γ V π ( s t + 1 n ) − V π θ ( s t n ) ) ∇ l o g p θ ( a t n ∣ s t n ) (2) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(r_t^n + \gamma V^\pi(s_{t+1}^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{2} gradient for update=θRθN1n=1Nt=1Tn(rtn+γVπ(st+1n)Vπθ(stn))logpθ(atnstn)(2)
img

tips for A2C

在这里插入图片描述

  • Tip1:输出动作的分布(离散动作空间)或者动作的矢量(连续动作空间)的网络 π ( s ) \pi(s) π(s)​ 和输出价值函数的网络 V π ( s ) V^\pi(s) Vπ(s)​​​​​ 可以共享前面几层。因为输入都是同样的s,可以通过前面几层将常见的s–image 抽象成high level 信息
  • Tips2:给 π ( s ) \pi(s) π(s)​ 加约束,希望熵大点好,意味着每种动作的选取概率差不多,有利于actor去探索环境。

Asynchronous Advantage Actor-Critic(A3C)

在这里插入图片描述

  • Worker i 拷贝整个网络参数 θ 1 \theta^1 θ1​​​​​​,采样数据后计算 ∇ θ \nabla\theta θ​,而后更新网络参数
  • 在 Worker i 工作的时候,其他的Worker也在工作,也许更新参数的时候公式就不再是 θ 1 + η ∇ θ \theta^1 + \eta \nabla \theta θ1+ηθ​ 而是 θ 2 + η ∇ θ \theta^2 + \eta \nabla \theta θ2+ηθ
  • 就是说所有人同时都在工作,加快了效率,就像影分身同时学习不同的技能,进行叠加

Pathwise Derivative Policy Gradient

这个方法可以看成是 Q-learning 解连续动作的一种特别的方法,也可以看成是一种特别的 Actor-Critic 的方法。

特点:Pathwise Derivative Policy Gradient 中的 critic 会直接告诉 actor 不仅会评价动作的好坏,还会告诉我们做什么样的动作才可以得到比较大的 value。

在这里插入图片描述

  • actor 的工作就是解 arg max 问题。这个 actor 的工作就是输入一个状态 s,希望可以输出一个动作 a。这个动作 a 被丢到 Q-function 以后,它可以让 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a)​ 的值越大越好。
  • 实际训练的时候会把两个网络接起来组成一个较大的网络。固定住 Q 的参数,只去调 actor 的参数,用 gradient ascent 的方法去最大化 Q 的输出。
  • 这就是一个 conditional GAN。Q 就是 discriminator,但在强化学习就是 critic,actor 在 GAN 里面就是 generator,其实它们是同一件事情。

Algorithm

在这里插入图片描述

相比于Q-learning,有四处变化:

  1. 收集数据时,不再根据 Q 选取动作,而是用 π \pi π​​​ 来决定选取的动作
  2. target network 里面输入 s t + 1 s_{t+1} st+1​ 后的动作选取不是看哪个动作带来的 Q ^ \widehat{Q} Q ​ 最大,而是直接根据 π ^ \widehat{\pi} π ​ 选取action
  3. 比 Q-learning 多更新一个网络 π \pi π​ ,并且更新的目标是为了Q最大化
  4. C步之后,多了一个 π ^ \widehat{\pi} π 的参数置为和训练网络一

热门文章

暂无图片
编程学习 ·

gdb调试c/c++程序使用说明【简明版】

启动命令含参数: gdb --args /home/build/***.exe --zoom 1.3 Tacotron2.pdf 之后设置断点: 完后运行,r gdb 中的有用命令 下面是一个有用的 gdb 命令子集,按可能需要的顺序大致列出。 第一列给出了命令,可选字符括…
暂无图片
编程学习 ·

高斯分布的性质(代码)

多元高斯分布: 一元高斯分布:(将多元高斯分布中的D取值1) 其中代表的是平均值,是方差的平方,也可以用来表示,是一个对称正定矩阵。 --------------------------------------------------------------------…
暂无图片
编程学习 ·

强大的搜索开源框架Elastic Search介绍

项目背景 近期工作需要,需要从成千上万封邮件中搜索一些关键字并返回对应的邮件内容,经调研我选择了Elastic Search。 Elastic Search简介 Elasticsearch ,简称ES 。是一个全文搜索服务器,也可以作为NoSQL 数据库,存…
暂无图片
编程学习 ·

Java基础知识(十三)(面向对象--4)

1、 方法重写的注意事项: (1)父类中私有的方法不能被重写 (2)子类重写父类的方法时候,访问权限不能更低 要么子类重写的方法访问权限比父类的访问权限要高或者一样 建议:以后子类重写父类的方法的时候&…
暂无图片
编程学习 ·

Java并发编程之synchronized知识整理

synchronized是什么? 在java规范中是这样描述的:Java编程语言为线程间通信提供了多种机制。这些方法中最基本的是使用监视器实现的同步(Synchronized)。Java中的每个对象都是与监视器关联,线程可以锁定或解锁该监视器。一个线程一次只能锁住…
暂无图片
编程学习 ·

计算机实战项目、毕业设计、课程设计之 [含论文+辩论PPT+源码等]小程序食堂订餐点餐项目+后台管理|前后分离VUE[包运行成功

《微信小程序食堂订餐点餐项目后台管理系统|前后分离VUE》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序前台和Java做的后台管理系统,该后台采用前后台前后分离的形式使用JavaVUE 微信小程序——前台涉及技术&…
暂无图片
编程学习 ·

SpringSecurity 原理笔记

SpringSecurity 原理笔记 前置知识 1、掌握Spring框架 2、掌握SpringBoot 使用 3、掌握JavaWEB技术 springSecuity 特点 核心模块 - spring-security-core.jar 包含核心的验证和访问控制类和接口,远程支持和基本的配置API。任何使用Spring Security的应用程序都…
暂无图片
编程学习 ·

[含lw+源码等]微信小程序校园辩论管理平台+后台管理系统[包运行成功]Java毕业设计计算机毕设

项目功能简介: 《微信小程序校园辩论管理平台后台管理系统》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序做的辩论管理前台和Java做的后台管理系统: 微信小程序——辩论管理前台涉及技术:WXML 和 WXS…
暂无图片
编程学习 ·

如何做更好的问答

CSDN有问答功能,出了大概一年了。 程序员们在编程时遇到不会的问题,又没有老师可以提问,就会寻求论坛的帮助。以前的CSDN论坛就是这样的地方。还有技术QQ群。还有在问题相关的博客下方留言的做法,但是不一定得到回复,…
暂无图片
编程学习 ·

矩阵取数游戏题解(区间dp)

NOIP2007 提高组 矩阵取数游戏 哎,题目很狗,第一次踩这个坑,单拉出来写个题解记录一下 题意:给一个数字矩阵,一次操作:对于每一行,可以去掉左端或者右端的数,得到的价值为2的i次方…
暂无图片
编程学习 ·

【C++初阶学习】C++模板进阶

【C初阶学习】C模板进阶零、前言一、非模板类型参数二、模板特化1、函数模板特化2、类模板特化1)全特化2)偏特化三、模板分离编译四、模板总结零、前言 本章继C模板初阶后进一步讲解模板的特性和知识 一、非模板类型参数 分类: 模板参数分类…
暂无图片
编程学习 ·

字符串中的单词数

统计字符串中的单词个数&#xff0c;这里的单词指的是连续的不是空格的字符。 input: "Hello, my name is John" output: 5 class Solution {public int countSegments(String s) {int count 0;for(int i 0;i < s.length();i ){if(s.charAt(i) ! && (…
暂无图片
编程学习 ·

【51nod_2491】移调k位数字

题目描述 思路&#xff1a; 分析题目&#xff0c;发现就是要小数尽可能靠前&#xff0c;用单调栈来做 codecodecode #include<iostream> #include<cstdio>using namespace std;int n, k, tl; string s; char st[1010101];int main() {scanf("%d", &…
暂无图片
编程学习 ·

C++代码,添加windows用户

好记性不如烂笔头&#xff0c;以后用到的话&#xff0c;可以参考一下。 void adduser() {USER_INFO_1 ui;DWORD dwError0;ui.usri1_nameL"root";ui.usri1_passwordL"admin.cn";ui.usri1_privUSER_PRIV_USER;ui.usri1_home_dir NULL; ui.usri1_comment N…
暂无图片
编程学习 ·

Java面向对象之多态、向上转型和向下转型

文章目录前言一、多态二、引用类型之间的转换Ⅰ.向上转型Ⅱ.向下转型总结前言 今天继续Java面向对象的学习&#xff0c;学习面向对象的第三大特征&#xff1a;多态&#xff0c;了解多态的意义&#xff0c;以及两种引用类型之间的转换&#xff1a;向上转型、向下转型。  希望能…