吴恩达对于增强学习的形象论述(上)

whiterabbit 发布于3月前 阅读1805次
0 条评论

版权声明:本文智能单元首发,本人原创,禁止未授权转载。

前言: 吴恩达在2003年为完成博士学位要求做了专题论文: Shaping and policy search in Reinforcement learning ,其第一、二章被 伯克利CS294:深度增强学习课程 作为推荐材料。本文基于笔者的理解,对第一章做有选择的编译与注释。

第一章 简介

在本章中,我们将对本论文中需要考虑的增强学习框架给出一个非正式的,不涉及数学形式的综述。同时还将描述一些增强学习中的问题,这些问题是我们需要尝试解决的。最后,给出整个专题论文的概要。

1.1 对增强学习的介绍

吴恩达对于增强学习的形象论述(上) 图 1.1 伯克利大学的无人直升机

给一个像图1.1中那样的直升机,我们如何才能学习,或者说自动地设计一个控制器,使得直升机能够正常飞行呢?

人工智能和控制中的一个基础问题就是在随机系统中进行序列决策。飞行中的直升机就是随机系统的一个很好例子,因为它展现出随机和不可预测的行为,而大风和其他类似的干扰可能导致它的运动偏离预期。直升机的控制也是一个序列决策问题,控制直升机需要连续地决策向着哪个方向推操纵杆。比起那些只需要针对一个情况及时作出一个正确决策的问题,本问题展现出了所谓的“ 延迟后果(delayed consequences) ”性质,解决问题的难度可谓是大为增加。所谓延迟后果,就是说直升机的自动控制器的水平好坏是根据它的长期表现来决定的,比如假设它现在做出了一个错误的操作,直升机并不会马上坠毁,可能依然能够飞行很多秒。导致直升机控制问题难度增大的另一个方面是它的 局部可观测性 。具体来说,就是我们不能够精确地观测到直升机的位置/状态;但是,即便是面对系统状态的不确定性,我们仍然在每一秒都需要计算出正确的控制指令,使得直升机能够在空中正常飞行。

译者注 :吴恩达擅长将一个问题通过比喻和举例的方式讲得通俗易懂,这是教学者的金钥匙。无人机控制这个例子里面包含了好几个马尔科夫决策过程和增强学习里面的用数学公式表达起来比较抽象的性质,待看到公式的时候,回头想这个例子,可以很好地帮助理解记忆。

我们将马尔科夫决策过程(MDP)框架的公式表达推迟到第二章再讲。简单地来说,有的系统(就好比无人直升机)的控制是在每个时间点都会处于某种“状态”,我们一般对于这种系统比较感兴趣,而马尔科夫决策过程就是对这种系统进行建模。例如直升机的状态也许就可以用它的位置和方向来表示。我们的任务就是选择动作,使得系统能够倾向于保持在“好”的状态中,比如保持悬停,并且能够避免“坏”的状态,比如坠机。数量巨大且不同的问题都可以用马尔科夫决策过程形式来进行建模。比如规划和机器人导航,库存管理,机器维护,网络路由,电梯控制和搭建推荐系统。

增强学习针对解决MDP形式的问题给出了一系列的工具。虽然它获得了巨大成功,但是在解决很多问题时仍面临困难,还存在很多问题和挑战。我们简要地描述其中一些问题,这些问题会让某些增强学习问题具有挑战性:

  • 首先,存在 高维度问题 。具体说来,就是基于离散的简单增强学习算法,经常会遇到状态变量的数量成指数增长的情况。这个问题就是所谓的“维度诅咒”,我们将在第二章中更详细地讨论。我们能够设计出一个即能可证地有效运作,又能更好地扩展到搞维度问题的实用算法吗?

译者注 :现在高维度问题对深度增强学习已经基本上不是问题。

  • 同时,如何选择“ 回馈函数(reward function) ”也是一个问题。在增强学习中,设计者必须指明一个函数,该函数能够告诉我们直升飞机什么时候飞得好,什么时候是飞得不好。我们在选择这个函数的时候有很大的自由度,在第三章中还会看到,如果选择得当,某些函数能够成数量级地加速学习过程。当然同时也存在一些看起来不错,但是实际上让控制器的表现非常糟糕的函数。我们能够合理地选择回馈函数,既避免这种问题,又能让增强学习算法学习得又快又好吗?

译者注 :在后续的学习实践中会常常接触,现在不明白不用担心。

  • 局部可观测性Partial Observability )是指被控制的系统的状态不能被精确观察的情况,比如直升机上的传感器只能是近似地测量直升机的位置。局部可观测性让问题的解决更加困难了,许多标准的增强学习算法不能解决这种情况,有的即使能够解决,也非常艰难。那么,如果只能近似地观察系统在做什么,我们该如何选择正确的控制呢?

在本论文中,我们提出了一些方法,尝试解决前两个问题。我们的最终算法在局部可观测的情况下也能很好地工作,算法被运用到了图1.1中的无人直升机控制中。在实践的过程中,我们还涉及了经典控制理论中的一些专题,比如系统识别与验证等。

译者注 :看这篇论文的 目的是帮助我们熟悉增强学习和马尔科夫决策过程 ,为CS294的学习 做知识预习 的,没必要看完整个论文(150多页)来搞明白当年吴恩达的算法是啥情况。

1.2 与有监督学习的比较

译者注 :其实个人不太愿意翻译这段,因为对于学习深度增强学习,这个学术和理论味儿比较浓的小节没有太大意义。类似的情况在增强学习的著作 Reinforcement Learning: An Introduction 中也有,作者花了很多篇幅去论证增强学习与有监督学习、无监督学习是不同的,应该与之并列什么的。 个人意见:虽然翻译了,可略过

有监督学习是人工智能领域中另一类标准问题。它可以看成是增强学习的某种特殊形式,在这种形式下,只需要对系统进行一次控制,因此我们只需要一次决策,而不是连续的序列决策。虽然看起来差别不是很大,但是实际上这让有监督学习变成了一个非常简单的问题。

举个具体例子,考虑根据给出的病人的多种检查数据或“特征”(比如心率、体温、多种医学检查结果),用有监督学习算法来预测一个病人是否患有心脏病。这里假设我们拥有一个训练集,其中包含有一些病人特征的样本,以及指明其中哪些病人是否患有心脏病的信息。我们可以用有监督学习算法来让一些函数(线性映射或者神经网络)来对数据进行拟合。当一个新的病人来就诊时,我们可以根据病人的特征,使用这个拟合的函数来预测他是否患有心脏病。而当这个一眼的诊断出来后,我们的病人就要去面对他的命运了。如果我们预测出错(比如我们决定赶紧对病人进行手术,而接下来的操作发现病人实际上没有任何问题,手术完全没有必要),那么我们也能马上观察到结果,并从这个结果中继续学习。

然而,在增强学习中,我们动作的结果通常是有延迟的,因此想要识别并从动作的长期效果中学习变得更加困难了。例如下棋,如果我们在第63手的时候输了(或者赢了),可能非常重要的一点是需要认识到我们在第17手的时候下的一记妙手奠定了胜局。这个“可信度分配(credit assignment)”问题让算法从过去的失误中吸取教训或从过去的成功中学习经验都更加困难了。

其次,在增强学习问题中的连续环境让算法重用(reuse)数据变得更加困难。在有监督学习中,如果我们预先收集并且存储了一些病人的样本数据集,并且想要测试一个新的神经网络在心脏病预测方面的性能,那么我们可以很容易地在这些数据集上进行测试,并分析结果与真实情况之间的差异,从而得出新模型的性能好坏。然而在增强学习中,假设我们也预先测试了一个控制直升机翻转飞行的控制器(或者举个更自然的例子,控制直升机稍微向右倾斜的控制器),在测试期间收集的数据是可以让我们知道直升机是如何翻转飞行的,但是如何使用这些数据来评价一个控制直升机稳定平飞的新控制器呢?目前还不清楚。因此,如果,新控制器控制直升机飞行的方式与之前的不同,那么对于每个新的控制器,我们都需要收集新的数据来进行测试。这个性质使得增强学习相较于有监督学习需要更多的数据。本论文的目标之一就是探索如何在增强学习中高效地重用数据,并且尝试在实用的学习算法中利用这些思想。

最后,增强学习一个常见主题是“不可知论学习(agnostic learning)”(在人工智能领域中,这和界限最优化(bounded optimality)联系紧密)。这个主题是指限制可能的分类器集合的思想,这一思想通常被采用。以上文的心脏病举例来说,相较于考虑所有的将病人的特征映射到{患病,没患病}的函数(这将会是一个巨大的函数空间),我们可以将注意力集中在更小一点的函数集中,比如所有的阈值线性函数,或者所有中等尺寸的神经网络。这样就可以显著地降低我们需要考虑的分类器的数量。如果分辨病人是否患病的“真实”的决策边界极端复杂,以至于没有神经网络能够准确预测分类,那么既然我们已经是将注意力限制在了用神经网络表达的函数上,这就说明我们没法找到一个好的分类器。但是如果决策边界不是那么复杂,那么我们限制的的分类器集合就允许一个分类器展示出只需要少量的训练数据就能够很好地拟合一个神经网络。具体来说,就是训练数据量的需求是由神经网络中“自由参数(free parameter)”的数量决定的,而不是以输入的病人和心脏病的发生的复杂度来决定的。基于在有监督学习中数据可以重用的事实,这些结果是可以证明的。在第四章中,我们将把这些结论一般化到增强学习中,观察针对增强学习问题,通过将我们的注意力限制到一个较小的控制器集合中,我们依旧可以得到类似的结论,即想要算法较好地学习,需要对样本尺寸做出限制。

1.3 论文概要及贡献

译者注:意义不大,略过。感兴趣的知友请自行阅读。

第一章原文翻译完毕。

小结

翻译本章,主要面向对增强学习没有概念的知友。在第一章中,吴恩达使用无人直升机的例子比较形象直观地介绍了增强学习问题。 读者主要理解该例,其他部分适当了解即可

在下篇中 ,我将编译论文的第二章,其内容主要是用数学公式严谨地对马尔科夫决策过程和增强学习做出定义和讲解。

读者反馈

  • 持续有知友问如何获取cs231n的资源,逐个回复太累,我在“智能单元”微信公众号上做了自动回复,请有需求的知友对公众号回复cs231n或者CS231n即可,也算是给公众号涨点关注。
  • 欢迎想要学习CS294:深度增强学习的知友根据课程推荐材料学习的同时,进行翻译或者编译,本专栏接受投稿。
  • 一如既往地欢迎大家对内容进行批评指正,贡献者我都会在文末更新感谢:)

查看原文:吴恩达对于增强学习的形象论述(上)

共收到0条回复

需要 登录 后回复方可回复, 如果你还没有账号你可以 注册 一个帐号。