l1l2正则化优缺点(L1,L2,L0区别,为什么可以防止过拟合)
本文目录
L1,L2,L0区别,为什么可以防止过拟合
监督学习的过程可以概括为:最小化误差的同时规则化参数。最小化误差是为了让模型拟合训练数据,规则化参数是为了防止过拟合。参数过多会导致模型复杂度上升,产生过拟合,即训练误差很小,但测试误差很大,这和监督学习的目标是相违背的。所以需要采取措施,保证模型尽量简单的基础上,最小化训练误差,使模型具有更好的泛化能力(即测试误差也很小)。范数规则化有两个作用:1)保证模型尽可能的简单,避免过拟合。 2)约束模型特性,加入一些先验知识,例如稀疏、低秩等。 1)实现参数的稀疏有什么好处吗? 一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对 测试 数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。 2)参数值越小代表模型越简单吗? 是的。为什么参数越小,说明模型越简单呢,这是因为越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。 L2范数即欧氏距离:从两个角度来解释这个问题。角度一:数学公式 这个角度从权值的更新公式来看权值的收敛结果。 首先来看看L1和L2的梯度(导数的反方向): 所以(不失一般性,我们假定:wi等于不为0的某个正的浮点数,学习速率η 为0.5):L1的权值更新公式为wi= wi- η * 1 = wi- 0.5 * 1,也就是说权值每次更新都固定减少一个特定的值(比如0.5),那么经过若干次迭代之后,权值就有可能减少到0。 L2的权值更新公式为wi= wi- η * wi= wi- 0.5 * wi,也就是说权值每次都等于上一次的1/2,那么,虽然权值不断变小,但是因为每次都等于上一次的一半,所以很快会收敛到较小的值但不为0。 L1能产生等于0的权值,即能够剔除某些特征在模型中的作用(特征选择),即产生稀疏的效果。L2可以得迅速得到比较小的权值,但是难以收敛到0,所以产生的不是稀疏而是平滑的效果。 角度二:几何空间 这个角度从几何位置关系来看权值的取值情况。 直接来看下面这张图:高维我们无法想象,简化到2维的情形,如上图所示。其中,左边是L1图示,右边是L2图示,左边的方形线上是L1中w1/w2取值区间,右边得圆形线上是L2中w1/w2的取值区间,绿色的圆圈表示w1/w2取不同值时整个正则化项的值的等高线(凸函数),从等高线和w1/w2取值区间的交点可以看到,L1中两个权值倾向于一个较大另一个为0,L2中两个权值倾向于均为非零的较小数。这也就是L1稀疏,L2平滑的效果。 假设原先损失函数是C0,那么在L2和L1正则条件下对参数求导分别是:可以想象用梯度下降的方法,当w小于1的时候,L2正则项的惩罚效果越来越小,L1正则项惩罚效果依然很大,L1可以惩罚到0,而L2很难。 L1+L2结合的方式,即elastic net。这种方式同时兼顾特征选择(L1)和权重衰减(L2)。其公式如下这种方式同时兼顾特征选择(L1)和权重衰减(L2)。其公式如下 上式中,t为正则项与L(w)之间的trade-off系数,和之前的描述一致,p是elastic net里独有的参数,它是L1和L2之间的一个trade-off,如果p为0,那么上式退化为L2正则化,如果p为1,那么上式退化为L1正则化。所以当p取值为0到1时(不包含端点),上式兼顾了L1和L2的特点。又由于L1为1范式,L2为2范式,那么elastic net就介于1范式和2范式之间。总结:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下,选择Lasso比较合适,因为它能自动选择特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用Ridge也许更合适。L0/L1/L2范数的联系与区别 L0,L1,L2正则化浅析 为什么L1稀疏,L2平滑? (赞)l1 相比于 l2 为什么容易获得稀疏解? (赞)***隐藏网址***机器学习中的正则化技术
l1正则和l2正则的区别
L1,L2正则都可以看成是 条件限制,即
∥w∥≤c
∥w∥2≤c
当w为2维向量时,可以看到,它们限定的取值范围如下图:
所以它们对模型的限定不同
而对于一般问题来说,L1 正则往往取到正方形的顶点,即会有很多分量为0,具有稀疏性,有特征选择的作用
l1正则与l2正则的特点是什么,各有什么优势
正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
更多文章:
教师怎么在微信直播教学呀用哪个平台?有哪些好用的教学直播讲课软件
2024年6月13日 05:13
志愿填报辅助系统(模拟志愿填报辅助系统必须使用IE11浏览器吗)
2024年6月30日 22:31
装备2合1合成版传奇手游(传奇世界手游装备合成详解 装备怎么合成)
2024年8月17日 08:15