电子竞技竞猜平台:将离策略评估看作「分类」问题,谷歌提出新型强化攻读模型选择方法OPC

电子竞技竞猜平台:将离策略评估看作「分类」问题,谷歌提出新型强化就学模型选择方法OPC
原标题:将离策略评估看作「分类」问题,谷歌提出新型强化攻读模型选择方法OPC 选自Google AI Blog 作者:Alex Irpan 机器的心编译 参与:Geek AI、行程 完全的离策略强化修业可以基于之前智能体收集到的数码训练多个模型,但她无法在没有真格机器人的情况下进行模型评估。而离策略评估「off-policy evaluation,OPE」可以臂助研究人手选择最有潜能之模型,进而在一是一环境建设方评估。谷歌近些年提起一种新式离策略评估方法——离策略分类,良将评估视为一个分类任务,实证过去之数额评估智能体的总体性,之一智能体的动作「action」被标注为「可能导致成功」或「一定导致失败」。OPC 可以扩展到更宽广之职责,包括具象世风店方基于视觉的机器人抓取任务。 完全的离策略强化念书可以基于之前智能体收集到的多少训练多个模型,但她无法在没有真实性机器人的情况下进行模型评估。而离策略评估「off-policy evaluation,OPE」可以有难必帮研究人员选择最有潜能之模子,进而在动真格的环境罗方评估。谷歌近年提到一种新颖离策略评估方法——离策略分类,良将评估视为一个分类任务,论证过去之数量评估智能体的机械性能,其中智能体的动弹「action」被标注为「可能导致成功」或「一定导致失败」。OPC 可以扩展到更周遍之职掌,包括求实世道美方基于视觉的机器人抓取任务。 强化求学(RL)是一种让智能体根据经验学习决策的井架。离策略强化就学是盈怀充栋强化习修变体中的一种,其中每篇智能体使用由其它智能体收集到的数目(离策略数据)以及他和气收集到之额数进行教练,故用学习「机器人行走和抓取」等可泛化技能。 另一方面,完整的离策略强化读书黑方,智能体完全根据旧之多寡展开学习,这非常规有吸引力,缘以其它让模型可以在不急需实体机器人的情况下进行迭代。通过共同体的离策略强化念学,咱足以使动之前之智能体收集到的同样固定数据集来训练多个模型,然后从中增选最佳模型。 然而,完全的离策略强化读书也带到了一下问题:尽管可以在没有真格的机器人的情况下进行教练,但是并不能进展模型之评分。此外,使役实体机器人进行真值(ground truth)评估之效率实在是太低了,束手无策测试需要对恢宏模型进行评阅的有威力之点子(例如使用 AutoML 进行钙化神经网络架构搜索)。 这一挑战推动了离策略评估(OPE)的上移,OPE 即使用其他智能体收集到的数目研究新智能体质量之技艺。通过 OPE 的排序,俺们何尝不可有独立性地在实际机器人上测试最有潜能之模子,这方可在同样之实事求是机器人预算下显著境地推而广之实验规模。 展开全文 开发真实世界模型之示意图。假设我们每天可以评估 10 个模型,在没有离策略评估的情况下,我辈将军要求 100 倍之时刻来拓展模型评估。 尽管 OPE 框架非常有提高远景,但是她假设我们获得一种基于旧数据对模型性能进行高精度排序的离策略评估方法。然而,收集过去经验之智能体可能与新学得之本能体在作为方式上生存很大差别,这行之有效我们很难得到美妙之习性评估。 在舆论「Off-Policy Evaluation via Off-Policy Classification」中,谷歌提出了一种叫作「离策略分类」(Off-policy classification,OPC)的新式离策略评估方法。该方法将评估视为一个分类任务,凭依过去的多少评估智能体的特性,之一智能体的动弹(action)把标注为「可能导致成功」或「一定导致失败」。 该方法适用于图像(相机)输入,而且不求需过路重要性采样或利用目标环境之纯正模型(这两种办法在先头工作第三方经常把行使)重新调试数据权重。这项切磋阐明,OPC 可以扩展到更大的职掌,包括现实时尚外方基于视觉的机器人抓取任务。 OPC 是如何工作的? OPC 建立在两个假设之上:1)最终的任务具有众目睽睽动态(deterministic dynamics),即状态之变型不共生随机性;2)在每次试验结束时,智能体要么成功要么失败。对于胸中无数任务(例如拾取物体、走迷宫、赢得游戏等),老二个假设是很自然的。由于每次试验要么成功要么失败,于是吾侪足以为每篇动作打上一期二分类标签。如果某个动作可以导致成功,我辈就将领渠称为「有效的」(effective);而如果某个动作一定会导致失败,我辈就名将伊称为「灾难性的」(catastrophic)。 OPC 使用到了一下 Q 函数,他通过 Q 学习算法学得。如果智能体选择在眼前状态下采用某个动作,则 Q 函数会估计未来之总奖励(reward)。接着,智能体会选择具有最大总奖励估计值的动作。谷歌研究口在舆论中证明了,智能体的习性是实证她所挑挑拣拣之动弹「有效」的效率来斤斤计较的,这取决于「Q 函数」进行动作分类之吸收率。而该分类准确率被行为离策略评估分数。 然而,往日之试验所得到的多寡只拓展了片段的标注。例如,如果一个之前的试验失败了,是因为吾辈不理解何人动作是「灾难性」的,我辈不会得到负标签。为了剿灭本条题材,谷歌研究人手役使半监督学习中的技术 PU 学习(positive-unlabeled learning),根据片段标注数据得到对分类准确率的忖度。这里的速率就是 OPC 得分。 对 Sim-to-Real Learning 的离策略评估 在管理科学中,经常使用仿真数据和迁移学习技术来降低学习机器人技能的样本复杂度。这种锻炼法非常习用,但是针对真实世界机器人调整这些 sim-to-real 技术是超常规具有决定性的。这很像不使役真实机器人训练的离策略强化学学,它也是在仿真环境苏方训练之,但是对于这种方针之评工仍然要求使动一个真实机器人。 在此处,离策略评估可以再次发挥打算,吾辈得以利用一种仅仅在仿真环境附有训练的鸵鸟政策,下一场使用之前的真实世界数据来评估它,据此衡量它迁移到动真格的机器人上之性质。谷歌在完好无缺的离策略强化习修和 sim-to-real 强化读书两种现象下测试了 OPC。 仿真经验与真实世界经验的组别示例。这里,虚假图像(左图)比真实世界图像(西边热中)的味觉复杂度低。 实验结果 研究人口首先设置了一个机器人抓取任务的冒牌版本,宽绰研究者轻松训练和评理多个模型,因而对离策略评估进行条件对比测试。这些模型都是穿过完全的离策略强化深造训练的,然后过路离策略评估方法来评估。研究食指窥见,在多个机器人任务缔约方,一种被称为「SoftOPC」的 OPC 变体在试想最终成功率时取得了最佳性能。 在仿真的抓取任务中的实验结实。红色曲线是在教练经过黑方记下的无量纲 SoftOPC 得分(基于旧数据评估)。蓝色曲线是冒牌环境从的抓取成功率。我们方可见兔顾犬,在仿真器中,基于旧数据之 SoftOPC 与模型之事业有成抓取密切相关。 在仿真环境辅助取得得计尔后,研讨人口在真实世界任务我党尝试使用 SoftOPC。他们选萃了 15 个模型,路过训练这些模型对假冒伪劣和诚实环境之异样有不同水准之鲁棒性。在这些模型中,有 7 个仅在仿真环境附带展开教练,另外 8 个模型则在仿真和真实世界数据混合的氛围附有展开训练。 对于每个模型,研究者基于离策略真实世界数据评估 SoftOPC,然后对真实世界中的成功抓取进行评阅,看望 SoftOPC 预测这些模型性能的能力如何。结果阐明,在实际数据上,SoftOPC 确实会得到与实事求是之有成抓取相关之得分,故用吾侪何尝不可采取过去的实打实经验对 sim-to-real 技术进展排序。 三种不同 sim-to-real 方法的 SoftOPC 得分和真性性能:基线仿真、具备随机纹理和殊荣照的虚伪,以及使用 RCAN 训练的模型。以上三种模型都采取非真实数据训练,接下来在一组真实数据验证集上使唤离策略评估方法进行评薪。结果申明,SoftOPC 得分的次第与真格的成功抓取的次相符。 下图是立据所有 15 个模型之结果绘制的散点图。每个点代表每个模型之离策略评估得分和真实世界成功抓取情况。研究者将不同的计件函数与其最终成功抓取情况的选择性进行了相比。SoftOPC 并不完好与实打实之成遂抓取相具结,但是其得分要判若鸿沟步比时序差分误差(TD error,一种标准的 Q 学习损失)等基线方法更可靠。 sim-to-real 评估实验的结出。左图是基线,模型的装配线差分误差。右觊觎是 SoftOPC。阴影区域是 95% 置信区间。SoftOPC 的示范性明显要领更强。 未来之干活儿 未来出工之一期有前景之主旋律是:能否放宽对该任务的外面儿光,故用支持在动态方面具有更多噪声的职责,即对是否成功只能得到部分信度。 原文链接:https://ai.googleblog.com/2019/06/off-policy-classification-new.html

返回电竞竞猜网站,查看更多