贝叶斯优化算法什么时候提出的(贝叶斯优化算法(Bayesian optimiazation))
贝叶斯优化算法(Bayesian optimiazation):
应用:超参数调优 、贝叶斯优化调参
主要思想
:给定优化的目标函数(广义的函数 ,只需指定输入和输出即可 ,无需知道内部结构以及数学性质) ,通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布 。简单的说 ,就是考虑了上一次参数的信息 ,从而更好的调整当前的参数 。
核心过程:先验函数(Prior Function,PF)与采集函数(Acquisition Function,AC) ,采集函数也可以叫效能函数(Utility Funtcion) ,但一般还是称呼为采集函数 。PF主要利用高斯过程回归(也可以是其它PF函数 ,但高斯过程回归用的多);AC主要包括EI ,PI ,UCB这几种方法 ,同时exploration与exploitation的平衡 ,也是通过AC来完成的 。探索(exploration):简单来说就是尽量选择远离已知点的点为下一次用于迭代的参考点,即尽量探索未知的区域 ,点的分布会尽可能的平均 。
利用(exploitation):简单来说就是尽量选择靠近已知点的点为下一次用于迭代的参考点 ,即尽量挖掘已知点周围的点,点的分布会出现一个密集区域 ,容易进入局部最大 。
常用的超参数调参的方法有:网格搜索 ,随机搜索网格搜索是应用最广泛的超参数搜索算法 ,网格搜索通过查找搜索范围内的所有的点 ,来确定最优值 。一般通过给出较大的搜索范围以及较小的步长 ,网格搜索是一定可以找到全局最大值或最小值的 。但是 ,网格搜索一个比较大的问题是 ,它十分消耗计算资源 ,特别是需要调优的超参数比较多的时候 。(网格搜索就相当于穷举法)
与网格搜索相比 ,随机搜索并未尝试所有参数值 ,而是从指定的分布中采样固定数量的参数设置 。它的理论依据是 ,如果随即样本点集足够大 ,那么也可以找到全局的最大或最小值,或它们的近似值 。通过对搜索范围的随机取样 ,随机搜索一般会比网格搜索要快一些 。但是和网格搜索的快速版(非自动版)相似 ,结果也是没法保证的。优缺点对比:
贝叶斯调参采用高斯过程,考虑之前的参数信息 ,不断地更新先验;网格搜索未考虑之前的参数信息 。 贝叶斯调参迭代次数少 ,速度快;网格搜索速度慢,参数多时易导致维度爆炸 。 贝叶斯调参针对非凸问题依然稳健;网格搜索针对非凸问题易得到局部最优。 和网格搜索相比 ,优点是迭代次数少(节省时间) ,粒度可以到很小 ,缺点是不容易找到全局最优解 。应用举例:例如我们想调logistic回归的正则化超参数 ,就把黑箱函数设置成logistic回归 ,自变量为超参数 ,因变量为logistic回归在训练集准确度 ,设置一个可以接受的黑箱函数因变量取值 ,例如0.95 ,得到的超参数结果就是可以让logistic回归分类准确度超过0.95的一个超参数 。也就是说你设置以下你想得到的精确度 他会给你推荐超参数取值 。
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!