首页 雷火电竞app正文

民谣,机器学习总结(算法):回归、分类、正则化、模型优化、生成学习-雷火电竞csgo

admin 雷火电竞app 2019-11-05 123 0

在本文中,咱们深化了解传统机器学习(ML)算法,包括回归、分类、核、高斯进程、贝叶斯线性回归、SVM、聚类和决议计划树,还包括本钱函数,正则化,MLE, MAP,拉普拉斯近似和受限玻尔兹曼机,咱们也将快速了解像LSTM这样的深度网络。

回归

线性回归

线性回归模型y = f(x),线性向量为w

增加差错

标准化

在许多机器学习(ml)算法或回归中,咱们假定输入现已被预处理和标准化。

残差平方和加权平方和

为了练习一个线性回归机器学习模型,咱们最小化了一个本钱函数。一个常见的方针函数是rss(残差平方和)。相应的回归称为最小二乘线性回归。

用多项式回归改换基

为了增加模型的杂乱性,咱们能够增加或更改输入的基。鄙人面的示例中,增加了多项式基(polynomial bases)。

假如没有这种改换,假如它们的鸿沟对错线性的,则很难将两类数据分隔。可是,增加的x 12x 2 2重量将低维空间中的非线性决议计划鸿沟改换为高维空间中的线性鸿沟。理论上,低维中的任何鸿沟形状都能够转化为更高维度的线性鸿沟。转化后,咱们能够将数据分类为具有线性代数的组。

线性回归的一般方式是

其间g能够是恣意函数,包括非线性、对数等。一般以为线性回归只对线性函数建模是过错的。经过扩展输入的基,y = f(x)中的函数f能够是杂乱的非线性的。

在机器学习(ML)中,特征工程师运用范畴常识来结构类似于输入和猜测之间联系的g。可是,它很难,咱们很简略做过头。为了纠正这个问题,咱们能够运用L1赏罚。L1本钱有利于w的稀少性,这答应练习在进行猜测时挑选较少的基向量。当包括太多多输入特征而且机器学习模型很以简略过度拟合时,则能够缓解这个问题。

Gram矩阵

线性回归的一般解能够用下面的Gram矩阵核算

依据参数和非依据参数

关于线性回归y =wᵀx,咱们运用练习数据拟合模型以找到w。这种类型的模型称为依据参数的模型。该函数是预先界说的,咱们的使命是找到最适合数据的模型参数θ。关于非依据参数的模型,咱们对函数没有假定,咱们让数据来模仿函数自身。

接下来,咱们将研讨一个名为Kernel的非依据参数的模型。

Kernel

在此之前,咱们将线性回归推广为y =wᵀg(x)。跟着核办法的概念,咱们进一步拓宽思路,讨论x与其它练习数据点X ⁽ⁱ⁾的联系。这答应咱们依据练习数据而不是预界说的函数来构建函数。

这儿,咱们不是从wᵀx进行猜测,而是核算x和练习数据点xᵢ之间的类似度k。然后,咱们将它与相应的模型参数wᵢ相乘。咱们汇总了一切数据点的成果以进行猜测。直观地,咱们核算练习数据标签的加权平均值。假如数据类似,咱们就用较大的权重;假如数据不同,咱们就用较小的权重。例如,在猜测您多年受教育的薪水时,咱们会对具有相同教育年限的数据运用更高的权重,然后咱们从练习数据薪酬中核算加权平均值。

核的一般界说是:

一般,它将xᵢxⱼ映射到高维空间并核算其内积以探究类似性。但实际上,咱们能够将方程式简化为一种简略丈量两个数据点类似性的方式。例如,咱们能够运用下面的高斯散布。

径向基函数(RBF - 高斯核)

RBF对核函数运用高斯函数。咱们构成一个新的basis z为输入,其间zᵢⱼ丈量练习数据点i和j之间的类似性。然后咱们运用练习数据来运用像MSE这样的方针函数拟合模型参数w。

核函数是对称的,矩阵是正半定的。

为了进行新的猜测,咱们运用核函数将x转化为矩阵。

直观地,RBF核算输入到每个练习数据点的间隔,并将其乘以相应的权重wᵢ 进行猜测。咱们依据类似度核算输出的加权平均值。

分类

回归分类

咱们能够运用贝叶斯定理来查看输入x是否应归于类y = 0或类y = 1。例如,假如标签y应为1,咱们期望p(y = 1 | x)> p(y = 0 | x)。或许,咱们能够用等式xᵀw+ b核算线性回归值。假如符号为负,则y归于1.如下所示,假如p(x | y)是高斯散布的,则贝叶斯定理等效于线性回归。

可是,当咱们期望咱们的猜测为-1或1时,xᵀw是无界的。本钱函数的挑选在这儿必需求当心。如下所示,运用xᵀw作为输入的最小平方本钱函数能够在本钱函数中增加赏罚,即便它正确地猜测x的类而没有歧义。

要处理此问题,咱们能够运用逻辑回归或切换到其他本钱函数,如hinge丢失或逻辑丢失。

逻辑回归

在做出决议之前,咱们能够将xᵀw的成果运用于逻辑函数(也称为sigmoid函数)。这会将无界xᵀw挤压在0和1之间。

如下图所示,logistic函数与对数比值(logits)有关。事实上,咱们能够从Logit导出Logistic函数。在这个比如中,咱们将运用xᵀw来核算logistic函数的得分。可是能够运用其他的评分办法,包括深度网络代替线性回归办法。

贝叶斯分类器

贝叶斯分类器运用贝叶斯定理将x分类为最佳y值,该值为下面的RHS项供给最高值。

本钱函数与正则化

均方差错(MSE)

MSE很受欢迎,由于它易于运用滑润差分进行核算。但它简略遭到离群值的影响,咱们会不成比例地赏罚大差错。假如咱们有喧闹的噪声数据,咱们会过多地重视将这些数据,咱们应该首要疏忽它们。线性回归的MSE本钱函数是

相应的优化解析解(正规方程)是

具有L2正则化的MSE称为岭回归。相应的最优解是

以下是运用最小均方差错(LMS)的梯度下降

L0,L1,Huber Loss或正则化

Huber丢失将低差错范围内的L2丢失与高差错范围内的L1丢失相结合。

L1和L2正则化比较

L2具有更滑润的梯度,因而练习更安稳。可是L1也很受欢迎,由于它促进了稀少性。如下图所示,增加L1正则化后的最长处倾向于参数为0。

假如L1正则化与最小二乘差错一同运用,则线性回归称为Lasso回归。尽管挑选取决于详细的数据和问题范畴,L2正则化好像更受欢迎,但能够自在测验两者。

凸性

让咱们考虑以下通用的p-norm本钱函数。咱们应该如安在不同情形下优化方针函数?

  • 假如咱们没有任何正则化(λ = 0),假如XᵀX是可逆的,则能够优化解析解。
  • 假如p = 2,则确保有解析解。
  • 关于p≥1但不等于2,咱们能够运用迭代办法来找到大局最优。
  • 当p<1时,方针函数不为凸函数。与其他挑选比较,大局最优是没有确保的。咱们只能用数值办法求得部分最优解。

穿插熵

在机器学习(ML)中,咱们期望咱们的猜测与ground truth相匹配,其间P是ground truth,Q是模型猜测。关于分类,P(xᵢ)= 1标明ground truth标签i,不然P(xⱼ)= 0。因而,穿插熵是H(P,Q)= -log Q(xᵢ)。

Softmax函数

关于多类分类,咱们能够在核算穿插熵之前将softmax函数运用于核算得分。在线性回归中,ground truth类的得分等于xᵀw

KL散度

KL-divergence丈量两个数据散布之间的差异。P是ground truth,Q是模型猜测的散布。

留意:KL-Divergence不是对称的,它总是大于或等于0。

Jensen-Shannon散度

Jensen-Shannon散度是对称的。

逻辑丢失

它依据逻辑函数来衡量丢失。咱们能够将逻辑函数运用于输出,并运用穿插熵丢失或直接运用逻辑丢失,而不需求将输出传递给逻辑函数。

Hinge丢失

只有当猜测过错或太挨近决议计划鸿沟时,Hinge丢失才会对分类过错进行赏罚。Hinge损耗用于SVM。

小结

模型优化

最大似然估量(MLE)

MLE找到最大化观测数据xᵢ的或许性的模型参数。

负对数似然(NLL)

MLE有一个很长的乘法链,很简略呈现递减或爆破的问题。为了处理这个问题,咱们在方针函数上取对数函数。由于“对数”是单调函数,因而最大化MLE与最小化负对数似然(NLL)相同。

在优化方针时,只需模型参数是不变的,就能够加(减)或乘(除)值。咱们也能够加上一个单调函数。最优解坚持不变。

如下所示,NLL也与优化穿插熵相同

假如py |θ)能够经过zero-centered独立高斯散布建模,咱们能够证明最大化MLE等同于最小化MSE。

综上所述,高斯散布的指数函数的平方部分导致了MLE与最小二乘优化相同的原因。

线性回归的MLE

假定w是线性回归模型yᵢ = Xᵢᵀwᵢ + εᵢ的ground truth权重,其间εᵢ 为zero-centered高斯散布的噪声,方差等于σᵢ²。

由于噪声是高斯散布的,咱们能够将y建模为

在收集数据样本后,能够运用MLE练习W。咱们想问的下一个问题是,用这种办法,咱们的期望值和w的方差是多少。

如前所述,运用mle方针估量的w是无偏的。但是,假如σ²(XᵀX)-1较大,则方差较大,即咱们将得到具有不同练习数据集的十分不同的模型。总归,估量的w值对丈量数据中的噪声很灵敏。这是一个很好的比如,即便您的估量是无偏的,假如咱们的估量模型具有高方差,则该机器学习模型也欠好。

每一个矩阵X都能够用SVD来分化

上面的核算标明(XᵀX)-1与S²的倒数成正比。 S是对角矩阵,对角元素包括X的奇特值。因而,假如一些奇特值很小,则方差σ²(XᵀX)-1很高。因而,经过评价X的奇特值,咱们能够了解练习模型的方差。

X中的列高度相关时,会发作小的奇特值

当信息高度相关时,练习后的模型简略遭到方差的影响,简略被过度拟合。

为了处理这个问题,咱们能够增加L2正则化(岭回归)来束缚模型参数。这种正则化在数值上安稳了逆。没有它,即便X的细小改动也会导致w * 发作很大改动。

运用岭回归练习的w

当Sᵢᵢ十分小时,λ就有用了,S⁻¹中的单个元素将具有必定的上限。 不然,它将是无限大的而且扩大数据的细微改动并导致w的很大改动。

下面的公式比较了用岭回归和最小二乘法练习的w的差异。

λ再次约束了ridge回归与最小二乘解的间隔。 ridge回归的期望值和方差是

MLE是无偏的,但它或许有很高的方差。岭回归有偏,但方差较低。由于咱们总是能够调整λ,所以咱们能够运用岭回归调整对数据散布灵敏的解。

可选过程中的优化

在许多情况下,咱们需求将机器学习问题分化为两个可选过程的迭代,一个过程优化一个子集参数,另一个过程优化其他参数。EM算法便是一个比如。在这些问题中,咱们不能一起优化这两组参数(或许它太难或十分不安稳)。这两组参数之间往往存在相互依赖联系,不能一起核算它们的导数。由于这种相互依赖,咱们一次优化一个(参数θ1或θ2)(一起固定另一个)。

在每个过程中,本钱下降,解将收敛到部分或大局最优。但是,关于非凸方针函数,咱们不太或许抵达大局最优,但在实践中,许多问题依然产生了杰出的成果。

该算法运用了本钱的单调下降。在必定精度内,θ₁和θ₂的空间尺度有限,咱们不能永远地下降本钱,因而,解会收敛。

最大后验(MAP)

在此曾经,咱们将MSE用作练习模型的本钱函数。 MAP可用于优化模型。 它能够用来证明其他方针函数,如MSE。 在MLE中,咱们找到了p(yθ,x)中最高值的θ。 在MAP中,咱们优化θ以最大化p(θ| y,x)。

除了向相反方向迫临条件概率外,还有一个重要的差异。MLE用观测值的最佳似然找到θ的点估量。MAP运用bayes定理核算θ的一切值的概率散布。

为了核算pθ| y,x),咱们运用贝叶斯定理

假如咱们假定模型参数θ为zero centered,而且p(θ)和p(y |θ)都是高斯散布的,咱们能够证明MAP抵达的意图与运用L2作为本钱函数并参加L2正则化相同。

简而言之,咱们从前以为θ是高斯散布的。结合由高斯模型模仿的y(观测)的似然性,咱们得到了与岭回归相同的方针。

牛顿优化办法

咱们能够迭代地运用牛顿办法来定位最低本钱。

这是梯度下降法的一种代替办法,它只运用一阶导数。运用f (f”)的曲率,牛顿法更准确。但是,它的核算量很大,不值得在许多问题上花费精力。但是,关于曲率较大的方针函数,这对错常有用的。为了处理杂乱性问题,需求进行某种近似以使其具有可扩展性。

泰勒级数

运用泰勒级数,咱们能够打开并近似一个函数f。鄙人面的比如中,咱们把f打开到二阶。

经过微分上面的ε等式,最小化f的最佳 step ε*等于

纳什均衡

在博弈论中,纳什均衡是指在非协作环境下,在考虑了对手的一切或许战略后,没有任何一方会改动其战略。两边都对对方怀有敌意,他们没有办法传达自己的举动。考虑一下彼得和玛丽或许在监狱服刑的时刻,看看他们是怎么认罪的。

两边都坚持率直(Quiet)是有道理的,由于这是最低的入狱时刻。为了在不协作的环境下抵达纳什均衡,假如两边都坚持狡赖(confess)并取得6个月的拘禁,而不是1个月的拘禁。

生成学习VS判别学习

在深度学习(DL)中,咱们规划一个深度网络来从数据x猜测标签y,生成学习为给定的y树立一个模型,由朴素贝叶斯分类器能够看出,对p(x|y)建模比p(y, x)更简略

在生成学习中,咱们能够运用贝叶斯定理从p(x | y)模型猜测p(y | x)。

一般来说,生成学习是对p(x)的研讨。经过这种数据散布,咱们能够采样(或生成)数据。在GAN中,咱们创立了一个生成器,经过对噪声z进行采样来创立x。它模型为p(x | z)。在高斯混合模型中,咱们运用高斯散布的混合来模仿p(x)。

雷火电竞版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

最近发表

    雷火电竞csgo_雷火电竞2_雷火竞猜

    http://www.myriaresearch.com/

    |

    Powered By

    使用手机软件扫描微信二维码

    关注我们可获取更多热点资讯

    雷火电竞出品