正则化最小二乘(偏最小二乘回归通俗理解)
本文目录
偏最小二乘回归通俗理解
偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应变量和自变量之间最大方差的超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models)。当Y是分类数据时称为“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”。
研究认为,集多元线性回归分析、典型相关分析、主因子分析等方法于一体的偏最小二乘回归方法( PLS) 更适用于FM 分析, 可以避免数据非正态分布、因子结构不确定性( factor indeterminacy) 和模型不能识别等潜在问题。
偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是Tikhonov正则化)。
偏最小二乘算法被用在偏最小二乘路径建模中,一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。
偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。
偏最小二乘法是集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个“响应”矩阵,因此具有预测功能。
交替最小二乘法(Alternating Least Squares, ALS)
所有以物品为中心的模型在处理隐式数据时有个共同的劣势 -- 他们都不提供区分用户偏好与偏好的置信度的能力。
潜在因素模型 ,又称 隐语义模型 ,是协同过滤系统中的另一种实现方案,其整体目标是发掘已有评分数据中的隐藏因子。通过对 user-item 评分矩阵进行 奇异值分解(Singular Value Decomposition, SVD) 推断出模型。
通常一个隐语义模型为每个用户 定义一个用户因子向量 , 为每一个物品 定义物品因子向量 。通过计算两个向量的内积得到预测结果,如 。
优化目标是最小化代价函数,即: 其中 用作模型正则化。
布尔型变量,表示用户 对物品 的感情偏好。定义如下:
如果用户 消费过某物品 ,即 ,这暗示用户 喜爱物品 ;另一方面,如果用户 从未消费过物品 ,我们认为用户 对该物品 没有偏好。
置信度用于衡量对偏好值 的信心。定义如下: 我们的目标是发现每一个用户 的向量 和每一个物品 的向量 。分别称为用户因子 user-factor 和 物品因子 item-factor 。
随机初始化 ,利用公式 更新得到 ,然后利用公式 更新 ,直到误差值变化很小或者达到最大迭代次数。 通过迭代的方式交替计算两个 公式 ,最终得到一个存储用户因子的矩阵 和 存储物品因子的矩阵 ,进而用于相似性发现和推荐结果生成。
通过计算物品因子矩阵与物品因子矩阵转置的点积,得到物品间的相似性得分:
通过计算用户因子矩阵与物品因子矩阵转置的点积,得到为某个用户推荐各物品的得分:
如何判断岭回归的结果是否理想
可用吉洪诺夫正则化进行分析。1、岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际,更可靠的回归方法,对病态数据的拟合要强于最小二乘法。2、对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元上的元素很小,在计算时就会表现出病态的特征。3、岭回归,又称脊回归、吉洪诺夫正则化,是对不适定问题进行回归分析时最经常使用的一种正则化方法。
最小二乘支持向量机训练样本是什么意思
最小二乘支持向量机训练样本是测试最小二乘支持向量机 的数据集。支持向量机(Support Vector Machine,SVM)是由Vapnik等人于20世纪90年代提出来的一种基于统计学习理论的新型学习机器模型,具有很强的模型泛化能力和极强的非线性处理能力,近年来受到了很多学者的关注,并被广泛的应用到了很多领域,如模式识别,图像检索和蛋白质数据分析等。 支持向量机是一种基于核的学习方法,它将输入空间中无法处理的非线性样本,通过核函数将其映射到特征空间中,使其获得有利于问题解决的线性性能。最小二乘支持向量机是支持向量机的一种变形,同支持向量机一样,也是一种基于核的学习方法。核函数是最小二乘支持向量机的主要元素,它将直接影响到最小二乘支持向量机的性能,而核参数又是核函数的主要元素,因此对其核参数的选择对于提高模型的学习和泛化能力起到了至关重要的作用。如果只是具备了高性能的核函数而缺乏适当的正则化参数,也将影响最小二乘支持向量机的性能,所以对核参数和正则化参数的选择很重要。
怎么求此函数在能量表项
自由粒子的哈密顿量是动量算符的平方除以质量,P的本征态当然是P^2的本征态。首先,如同粒子在空间有位置分布一样,粒子的动量在空间也有分布。写出概率波,用φ(p)代替φ(r),表示动量分布的概率密度。这里只是通过类比引入一个符号。随后写出逆表达式,即φ(p)的表达式,可以看出粒子动量为p的概率与|φ(p)|^2成比例,因此可以得出粒子动量在某范围内的概率。
更多文章:
哪几款CRM系统免费又好使用的呢?有哪些免费的轻量级在线CRM系统
2024年5月6日 04:29
疾风剑豪bug(LOL中,看到有网友录制亚索新BUG无CD连Q,我对线时却哭了,具体怎么操作)
2024年7月23日 23:21
solidworks2012安装方法(如何安装solidworks201264位)
2024年5月5日 15:35
台式电脑没有无线网卡怎么连wifi(台式电脑没有无线网卡能用无线网吗)
2024年7月2日 10:40
autodesksmoke(视频剪切,特效,合并,转换,哪个软件好用、易学)
2024年7月2日 23:57
起点中文网手机版(起点中文网手机版为什么显示有这么多评论但是点进去却只有那两条如何看到全部的评论)
2024年7月2日 12:01
粉末游戏鸟玩家有什么用?App Store里面有什么好玩的体育类手机游戏
2024年5月10日 01:22