导航博亿娱乐博亿在线娱乐www.by777.com产吕资料解决方案客户案例投诉建议联系我们

多臂强盗(multi-恒峰娱乐官网armed bandit)问题探究-续

出处:本站 责任编辑: 时间:2018-10-22 [ ] 查看全部评论

  这一节我们来了解下多臂赌博机问题的提出和理论基础,最后讨论下UCB系列策略.当然,这里的多臂赌博机问题是随机式的. 随机式多臂赌博机的问题描述就不在这里重复了,可以参考

  Lai & Robbins在1985年论证了对于某些特定的分布(只有一个实参的分布),存在有策略使得它的累积遗憾的期望服从增长.同时也证明了对于任何策略任何次优臂,总有

  当然他们也提出了一些针对特定分布的策略,虽然结果较好(对数增长的常数项较小),但是由于计算复杂度和特定分布的限制,并不具有较好的实用性.

  为了克服上面的缺点, Agrawal提出了基于采样平均值作为上部信心指数(upper confidence index)的多臂赌博机策略,它将各臂采样平均值的某些函数作为该臂优越性的指标,然后总选取最优越的臂. 同时证明结果显示它们同样服从对数增长,只不过对数增长的常数项较大了些.

  在多臂赌博机问题中贪婪算法并不适用,但是,可以改良一下,如Sutton &Barto在1998年提出的算法,它简单地以的概率选择最大的采样均值的臂,而以的概率去随机选择臂. 但是,它并不是对数增长的. 它需要人为地设定一个停止规则,而且,这个停止规则必然和各臂期望有关.

  虽然该方法在仿真中能得到很好的结果,但实际情况是各臂期望不可知,无法确定较好的,所以只能设置一个较大的(其实c,d可以合并成同一参数).

  好了,这样就列举完了UCB基本算法了.当然,还有很多变种,留待以后补充. 但其实,各UCB算法的差异并不足够大.

  感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:这一节我们来了解下多臂赌...

  欢迎转载,转载请注明:本文出自Bin的专栏xbinworld。 技术交流,欢迎对算法、技术感兴趣的同学加入。 18年新开一个强化学习方法系列,督...

  作者简介:陈开江,天农科技CTO,曾任新浪微博资深算法工程师,考拉FM算法主管,个性化导购App《Wave》和《边逛边聊》联合创始人,多年推荐系统从业经历,在算法、架构、产品方面均有丰富的实践经...

  感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:在上...

来顶一下
近回首页
返回首页

相关导读

    无相关信息

专题推荐

网站首页 | 关于我们 | 服务条款 | 广告服务 | 联系我们 | 网站地图 | 免责声明 | 返回顶部
Copyright © 2016-2018 博亿在线娱乐 Inc, All rights reserved.
Powered by www.g22.com,Template designed by 博亿在线娱乐