学习资源

思科

网络工程

华为

网络工程

红帽

系统运维

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

数据库

OCA

OCP

OCM

MySQL

微软

系统运维

MTA

MCSA

MCSE

软件开发

编程设计

Java

Android

HTML5

其他

Python

学习文章

当前位置：首页 > >学习文章 > >

大数据-L1正则化和L2正则化的联系和区别

发布时间： 2020-06-23 11:31:12

损失函数的惩罚项

机器学习中，一般损失函数后边会添加一个额外项，一般称作L1正则化L2正则化或者L1范数L2范数。L1、L2正则化可以看做是损失函数的惩罚项。对于线性回归模型，使用L1正则化得模型称作Lasso回归，使用L2正则化的模型称作Ridge回归（岭回归）。

L1正则化是指权值向量中各个元素的绝对值之和，例如|w1| + |w2|。

L2正则化是指权值向量中各个元素的平方和然后再求平方根。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，用于特征选择。

假设有如下带有L1正则化的目标函数等高线图：

大数据-L1正则化和L2正则化的联系和区别

L1正则化的目标函数求解

图中等值线是J0函数等值线，黑色菱形是L函数的图形。我们现在的目标就是不仅要原函数更接近紫色的小圈，同时要使得菱形值越小越好。并且加入L1范数的解，一定是某条等高线和菱形的切点。这个切点位于顶点时就是最优解。这个顶点的坐标为（0，w）。（二维情况有四个顶点，多维情况下有更多）

L2正则化可以产生参数值较小的模型，能适应不同的数据集，一定程度上防止过拟合，抗扰动能力强。

大数据-L1正则化和L2正则化的联系和区别

L2正则化的目标函数求解

L2正则的分析与L1类似，只不过L函数由菱形变成了圆形，仍旧求原曲线和圆形的切点作为最优解。此时切点不容易在坐标轴上，而是位于靠近坐标轴的部分，因此我们可以说L2范数能让解比较小（靠近0），但是比较平滑（不等于0）。

最后，我们所说的希望模型结构风险（SRM）最小化，是要求拟合误差足够小（经验风险ERM最小化），同时模型不要太复杂（正则化项极小化），这样得到的模型具有较强的泛化能力，即对未知的数据有更好的预测能力。

L1正则化和L2正则化L1正则化

就是在loss function后边所加正则项为L1范数，加上L1范数容易得到稀疏解（0比较多）。L2正则化就是loss function后边所加正则项为L2范数的平方，加上L2正则相比于L1正则来说，得到的解比较平滑（不是稀疏），但是同样能够保证解中接近于0（但不是等于0，所以相对平滑）的维度比较多，降低模型的复杂度。

QQ空间新浪微博腾讯微博人人网微信更多

上一篇：【Java技术】SpringBoot入门基础

下一篇： oracle数据库简介

十八年老品牌

微信咨询：gz_togogo 咨询电话：18922156670 咨询网站客服：在线客服

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

学习文章

大数据-L1正则化和L2正则化的联系和区别

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们