当前位置: 首页 > news >正文

ui展示 网站网站制作专业

ui展示 网站,网站制作专业,网站开发的技术参数,个人工作室注册条件On Policy: 采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。 Off Policy: 采集数据的模型,和训练的模型,不是同一个。有点&#xf…

On Policy:

采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。

Off Policy:

采集数据的模型,和训练的模型,不是同一个。有点:快,生成一批样本数据,可以供训练多次。

例子:

On Policy: 小明上课玩手机,老师批评了小明,小明做了改正不玩手机了。行为是小明产生的,改正也是小明做的,所以是On Policy。

Off Policy: 小明上课玩手机,老师批评了小明,和小明同样喜欢上课玩儿手机的小王,看到小明因为这个被批评后,做了改正不玩手机了。行为是小明产生的,改正是小王做的,所以是Off Policy。

重要性采样

从最开始的x服从p分布,转化到x服从q分布。

把重要性采样,用在GAE强化学习上:

以上就是PPO的梯度。

以下就是PPO的损失函数:

在参考模型\theta '上进行采样,并且A里的状态价值V也是用参考模型\theta'的。

训练模型和参考模型,不能偏差过大

例子:如果小王是成绩好的学生,那么,差生小明因为考试经常交白卷被老师批评,这件事被小王看到,则对小王影响不大,小王没啥要改正的地方。只有当小王也是差生也有时会交白卷,此事才对小王有警示作用,促其改正。

加约束,有2种方式:

第1个是把KL散度加到loss里。(2个分布完全相等时,KL散度为0;差异越大,KL散度越大)

第2个是加约束,P比值,不能超出一个范围。

http://www.mmbaike.com/news/30506.html

相关文章:

  • 什么是大型门户网站网站点击排名优化
  • 杭州营销型网站大连网站优化
  • 西安优化排名推广云南seo
  • 做动态网站需要那些技术重庆网站快速排名优化
  • 电商网站产品模块营销型网站建设多少钱
  • 网站的搜索功能一般怎么做长沙百度网站优化
  • 沈阳网页设计培训优化网站排名解析推广
  • 网站打开风险怎么解决谷歌chrome手机版
  • wordpress 中文 模板下载搜索引擎优化岗位
  • 泉州最专业手机网站建设开发谷歌浏览器下载
  • 爱站网seo培训小程序开发模板
  • 微博如何做外链到时自己网站企业培训师资格证报考2022
  • 带后台的响应式网站seo优化点击软件
  • 织梦源码网站建设好了后登录不了网站软件下载大全
  • 专门做网站的公司 南阳东莞seo网站制作报价
  • 做网站有哪些导航条优化关键词排名工具
  • 阿里建站官网seo优化顾问
  • 什么网站可以看女人唔易做平面设计培训
  • 东莞主页网站制作郑州seo线下培训
  • 医程通 网站做的太如何自己做一个网站
  • 在上海找工作用哪个招聘网好网站优化网站优化
  • 多商户商城小程序源码天天seo伪原创工具
  • 工商企业登记查询百度seo关键词工具
  • asp.net网站开发实训武汉网站优化公司
  • 原创文章对网站的好处站长之家查询
  • 跨境购网站建设品牌互动营销案例
  • 做seo网站诊断书怎么做怀化seo推广
  • 网站制作中企动力优济南网站建设
  • 美食教做网站网站内部seo
  • 红孩子网站建设四川网络推广seo