博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(九)
阅读量:3519 次
发布时间:2019-05-20

本文共 1934 字,大约阅读时间需要 6 分钟。

眼瞅着这学期也快接近尾声了,也在讲我越来越不熟悉的东西了...

核平滑与局部方法

1. 核平滑器

(1) K-NN(K近邻)

KNN的思想已经说过很多遍了,大致就是找点x的k个近邻,然后取其 yi

平均值作为x点y的预测值
y^ 。不过这里我们就在想了,可不可以加权呀~于是从最简单的
y^=1kxiNk(x)yi ,我们给他按距离算个加权平均:
y^=xiNk(x)wiyi ,其中
wi

代表权重,离x点越近越大,越远越小。这样听起来更make sense一点嘛~近朱者赤,近墨者黑。

(2) 单峰函数

顾名思义,就是长得像一个山峰的函数,比如我们最经典的正态钟型函数,或者翻过来的二次抛物线函数等等。

(3) 权重(按距离)

我们定义权重 kλ(x,xi)=D(xxi2λ)

,再进一步归一化:
kλ(x,xi)Nj=1kλ(x,xj),1iN

多维的情况下,写成矩阵形式就是 kλ(x,xi)=D((xxi)A(xxi)λ)

,其中A为正定对角阵,然后我们就可以加权了。

2. 局部方法

(1) 一般概念

我们有数据集 D={

(xi,yi),1iN}

,然后定义函数族
F={
f(x|θ),θΘ}
。再定义损失函数
L(y,f(x)) , 我们的目标就是最小化
iL(yi,f(xi))

相应的引入了加权的概念之后,我们就可以定义加权损失函数: ikλ(x,xi)Nj=1kλ(x,xj)L(yi,f(xi|θ))

,然后对于每个x做优化,寻找使其最小化的
θ

(2) 具体例子

(i) 局部回归: y=f(x|θ)=θx=pj=1θjxj

,则损失函数为
N1k¯λ(x,xi)[yif(xi|θ)]2 ,其中
k¯λ(x,xi)

代表已经归一化的权重。

在线性的情况下,我们有 N1k¯λ(x,xi)[yip1θjxij]2

,有点类似于我们常见的加权最小二乘法。这里的思想也是,在x点附近的点权重会比较大,离x远的权重则比较小,整体感觉就是在x点附近做了一个回归分析。

(ii) 局部似然:和局部回归蛮像的,只是把损失函数换成(对数)似然函数,即从最大化 N1logP(yi|xi,θ)

到现在的最大化加权似然函数
N1k¯λ(x,xi)logP(yi|xi,θ)

3. 密度估计与分类

(1) 密度与分类: 我们有x和观测结果G的联合分布: P(x,G)=P(G)P(x|G)

,其中
p(G) 为先验的结果分布,在有K类结果的情况下,写成
πk=P(G=k) 。这样,也可以写开为
Pk(x)=P(x|G=k), 其中
1kK

反过来,后验概率 P(G|x)=P(G,x)P(x)=πkPk(x)K1πlPl(x)

,所以我们有贝叶斯分类器
G^=argmaxP(G|x)

(2) 密度估计

为了使用贝叶斯分类器,我们需要先对密度进行估计。

(i) 直方图: 最简单的就是根据直方图来估计密度,这个没什么好说的...

(ii) 核估计方法(Parzen):Parzen提出的核密度估计为 f(x)^=1Nkλ(xxi2λ)=1NNi=112πσ2e(xxi)22σ2

,该估计当
N
σ 在减小的时候,收敛于
f(x)

4. 核作为基函数

密度函数 f(x)=Ni=1wikλ(xxi2λ)

,然后定义函数族
F={
Ni=1wik(xxi2λ)}
,则其中
wi 我iyigexianxingde参数,
k 为指定的函数类,
λ 亦为函数参数。这样的话我们有三个函数的参数,指定某一个便可以简化函数形式。不过这里的问题是,没有很好的算法来求解优化问题。比如对于正态分布,我们以写出来
min{
wi},{
σj},{
μj}
L=min{
wi},{
σj},{
μj}
Ni=1(yimj=1wj12πσ2je(xiμj)22σ2j)

,然后的求解就比较复杂了。

上面的两个是非参数方法,下面说一些参数方法。

(iii) 混合模型(GMM, Gauss Mixed Model)

f(x|θ)=Kk=1πk12πσ2ke(xμk)22σ2k

,其中参数有
θ={
{
πk},{
μk},{
σk}}
,然后可以利用最大似然准则,最大化
Ni=1f(xi|θ)=maxθNi=1logf(xi|θ)

,具体算法可用EM,下节课详述。

-----稍稍跑题------

GMM,我印象中它怎么是 Generalized Moment Method, 广义矩估计呢?果然是被计量经济学祸害太深了...

转载地址:http://edvqj.baihongyu.com/

你可能感兴趣的文章
实现自己的权限管理系统(十三):redis做缓存
查看>>
实现自己的权限管理系统(十四):工具类
查看>>
JavaWeb面经(一):2019.9.14
查看>>
JavaWeb面经(二):2019.9.16 Synchronized关键字底层原理及作用
查看>>
JavaWeb面试经:redis
查看>>
牛客的AI模拟面试(1)
查看>>
深入浅出MyBatis:MyBatis解析和运行原理
查看>>
Mybatis与Ibatis
查看>>
字节码文件(Class文件)
查看>>
java中的IO流(一)----概述
查看>>
StringBuilder
查看>>
集合,Collection
查看>>
泛型详解
查看>>
泛型实现斗地主
查看>>
List集合
查看>>
ArrayList集合,LinkedList集合,Vector集合
查看>>
HashSet集合
查看>>
并发与并行,线程与进程
查看>>
方法引用,通过对象名引用成员变量
查看>>
常用工具类 Math:数学计算 Random:生成伪随机数 SecureRandom:生成安全的随机数 2020-2-13
查看>>