目录
一、重抽样
1、概念
2、用途
3、缺点
4、方法
二、交叉验证法(CV)
1、验证集方法
(1)原理
(2)评价指标:均方误差
(3)缺陷
2、留一交叉验证法(LOOCV)
(1)原理
(2)优缺点
(3)拟合方法
3、k折交叉验证法(一般k=5或k=10。)
(1)原理
(2)优缺点
(3)改进
4、k折交叉验证的偏差——方差权衡
二、自助法
1、作用
2、原理
当数据信息充分时,我们直接分好训练集跟测试集进,再建立模型进行拟合,最后得到的效果也会比较好;当数据不充分时,我们就需要对数据进行扩充,其中重抽样方法可以保留数据的特征,不会破坏数据原始的分布;而生成对抗网络(GAN)是基于噪声合成的数据,不做过多讨论。
一、重抽样
1、概念
通过反复从训练集中抽取样本,然后对每一个样本重新拟合一个感兴趣的模型,来获取关于拟合模型的附加信息。
2、用途
可以获得那些只用原始的训练样本来拟合模型所没有的东西。
3、缺点
计算量大,需要利用同一种统计方法对训练数据的不同子集拟合多次。
4、方法
(1)交叉验证法;
(2)自助法。
二、交叉验证法(CV)
1、验证集方法
(1)原理
将数据随机分配为训练集和测试集,然后用训练集建模,测试集进行检验。
(2)评价指标:均方误差
(3)缺陷
①测试错误率的验证法估计的波动很大;
②验证集错误率可能会高估在整个数据集上拟合模型所得到的测试错误率(因为只有一部分数据被观测,被训练的观测越少,统计方法的表现越不好)。
2、留一交叉验证法(LOOCV)
(1)原理
(2)优缺点
①偏差较小,更不容易高估测试错误率;
②多次运用LOOCV方法总会得到相近的结果,因为LOOCV方法在训练集和测试集的分割上不存在随机性,即没有改变数据的分布,且均值波动不大。
(3)拟合方法
一般情况下模型需要被拟合n次,但是可以用最小二乘法来拟合线性或者多项式回归模型。
其中,hi为杠杆值。
3、k折交叉验证法(一般k=5或k=10。)
(1)原理
(2)优缺点
①计算方便,误差波动小;
②计算量大 ;
③当检验真实数据时,测试均方误差的真值是未知的,因此很难衡量交叉验证估计的精度。
(3)改进
利用测试均方误差估计曲线的最小点的位置,而不是测试均方误差的真值。
4、k折交叉验证的偏差——方差权衡
LOOCV方法能提供近似无偏的测试误差估计,而k折CV方法会产生一个中等程度的偏差。当k<n时,LOOCV的方差大于k折CV,因此需要考虑偏差与方差平衡的问题。
三、自助法
1、作用
衡量一个指定的估计量或统计学习方法中的不确定因素。
2、原理
反复地从原始数据集中抽取观测得到的数据集。