强化学习:在Q-Learning完成后,我必须忽略Hyper参数(?)吗?

技术标签: 加强学习  Q-Learning.

学习者可能在训练阶段,它更新Q-Tab到束时代。

在此阶段,将用伽马(贴现率),学习率(Alpha)更新Q-Table,并通过随机动作速率选择动作。

在一些时代之后,当奖励稳定时,让我称之为“培训完成”。那么我必须忽略这些参数(伽玛,学习率等)吗?

我的意思是,在训练阶段,我从这样的q-table中得到了一个动作:

if rand_float < rar:
    action = rand.randint(0, num_actions - 1)
else:
    action = np.argmax(Q[s_prime_as_index])

但在训练阶段,我必须删除 rar,这意味着我必须从这样的Q-table获取动作?

action = np.argmax(self.Q[s_prime])

看答案

一旦值函数融合(值停止更改),您不再需要运行Q值更新。这意味着Gamma和Alpha不再相关,因为它们只会影响更新。

EPSILON参数是勘探政策(电子贪婪)的一部分,并有助于确保代理人在极限中无限次访问所有状态。这是确保代理价值函数最终收敛到正确值的重要因素。一旦我们认为价值函数融合,就没有必要继续随机采取我们的价值函数不相信最好的行动;我们认为价值函数是最佳的,因此我们通过贪婪地选择它所说的最佳行动来提取最佳政策是每个州的最佳行动。我们可以将epsilon设置为0。


智能推荐

【强化学习】强化学习介绍

【强化学习】强化学习介绍 1.定义 强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。 强...

【强化学习】强化学习分类

https://github.com/tigerneil/deep-reinforcement-learning-family https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/ ——-主要引用morvan老师的教学视频 【强化学习】...

强化学习:强化学习简介

强化学习:强化学习简介 一、简介 ​   由于工作和研究的需要,不得不接触一部分的强化学习课程。而强化学习系列大部分原理都涉及到相当多的数学原理,啃起来也比较麻烦。我在学习的过程中,也是参考了多方资料,整个系列看下来,深感只有真正动手coding才能理解到强化学习的精髓吧。但碍于时间的限制,我并没有真正的去动手编程,而是粗略的去阅读了别人的源码,这一部分欠缺,等日后有时间了再补...

自定义类加载器

 自定义类加载器 我们如果需要自定义类加载器,只需要继承ClassLoader类,并覆盖掉findClass方法即可。 自定义文件类加载器     自定义网络类加载器 热部署类加载器 当我们调用loadClass方法加载类时,会采用双亲委派模式,即如果类已经被加载,就从缓存中获取,不会重新加载。如果同一个class被同一个类加载器多次加载,则会报错。因此,我们要实现热...

用户界面和兼容性测试

用户界面测试 1 、导航测试 导航直观 Web系统的主要部分可通过主页存取 Web系统不需要站点地图、搜索引擎或其他的导航帮助 Web应用系统的页面结构、导航、菜单、连接的风格一致 2 、图形测试 图形有明确的用途 所有页面字体的风格一致。 背景颜色与字体颜色和前景颜色相搭配。 图片的大小减小到 30k 以下 文字回绕正确 3 、内容测试 Web应用系统提供的信息是正确的 信息无语法或拼写错误 可...

猜你喜欢

基于ECS部署LAMP环境搭建Drupal网站,云计算技术与应用报告

实验环境: 建站环境:Windows操作系统,基于ECS部署LAMP环境,阿里云资源, Web服务器:Apache,关联的数据库:MySQ PHP:Drupal 8 要求的PHP版本為7.0.33的版本 实验内容和要求:基于ECS部署LAMP环境搭建Drupal网站,drupal是一个好用且功能强大的内容管理系统(CMS),通常也被称为是内容管理框架(CMF),由来自全世界各地的开发人员共同开发和...

Cadence Allegro 17.4禁止start page启动设置方法

禁止start page启动 1、方法1:User Preferences Editor中设置 2、方法2:env文件中修改 电路精灵是什么? 1、方法1:User Preferences Editor中设置 输入 page 点击Search按钮,勾选allegro_no_startpage。点OK搞定。 2、方法2:env文件中修改 打开home里的env文件。 添加 set allegro_n...

虚拟机骚操作·Ubuntu16.04和UbuntuKylin16.04使用感受以及黑屏问题·Ubuntu下搜狗拼音输入法的n种问题AND推荐一些重装时的有用的一些问题链接

在很久没有使用虚拟机之后,我发现才用了一天的神级骚操作,为了给自己长点记性,先写下来再说 第一篇 虚拟机硬盘故障问题 分配空间20G结果当前大小130G是怎么肥四!!! 最后经过探讨,一致得出 我的虚拟机太迷了。。。估计是s001那个文件出了什么爆炸性问题吧 亏自己还进行了图三的一系列操作。。。 给的建议都是:你重装吧(说出来都是泪) 如果有大佬能告知是啥情况也好。。。 不过(划重点敲黑板) 除开...

mongodb 4.2.3版本安装

基本一直点击下一步就可以了 此版本的可视化工具无法安装 双击安装包 点击 next next下一步 选择安装方式 选择目录 正式安装 这个为可视化工具,但是安装不了,选择了会卡在 80%(其实已经功能安装完成,就是没有可视化工具) 检测是否安装成功 cmd 输入 mongo 出现错误信息 解决地址...

root-me networking writeup

1.FTP - authentication 追踪流TCP直接查看明文 2.TELNET - authentication 追踪流TCP 明文 3.ETHERNET - frame 先hex解码,再base64解码...

问答精选

How we can create Dataproc cluster through rest API or http request?

I am new in python, Here I want to create dataproc cluster using http request. I am following below dataproc documentation where they mentioned in REST API section. see below https://cloud.google.com/...

AddWithValue method on ASP.NET

I am using AddStringWithValue method in ASP.NET using C# My HTML code is My C# code for the method is: The problem is, it is giving red underline under email and password. Shouldn't we identify them w...

How to apply css using a condition?

I'm trying to apply this css: this works well, the problem is that the web app can set a class on the body called white-content, if the white-content class is setted, then I can't see the text of h2, ...

Tile game collision detection with sprite moving to arbitary (x,y)

So I am struggling with some logic for collision detection in my game. I have a grid of tiles(images), all representative of a value in a 2D array, so the location of tile N would be (column m, row n)...

Kotin sort by descending then ascending

Im trying to order a list on multiple parameters.. for example, one value descending, second value ascending, third value descending. is there a way like this to do it? (i know is incorrect) people = ...

相关问题

相关文章

热门文章

推荐文章

相关标签

推荐问答