决策树原理
- ⚫决策树:从训练数据中学习得出一个树状结构的模型。
- ⚫决策树属于判别模型。
- ⚫决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。
- ⚫决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
- 决策树算法是一种归纳分类算法,它通过训练数据学习,挖掘出有用的规则**,用于对新数据进行预测**
- 决策树算法属于监督学习方法
- 决策树归纳的基本算法是贪心算法,自顶向下来构建决策树。
- 贪心算法:在每一步选择中都采取在当前状态下最好/最优的选择
- 在决策树的生成过程中,分割方法即属性选择的度量是关键
决策树的优缺点:
- 优点:
- 1.推理过程容易理解,计算简单,可解释性强。
- 2.比较合适处理有缺失值的样本
- 3.可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要属性,减少变量的数目提供参考。
缺点:
- 1.容易造成过拟合,需要采用剪枝操作
- 2.忽略了数据之间的相关性
- 3.对于各类别样本数量不一致的数据,信息增益会偏向那些更多数值的特征。
-建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。
ID3算法
- ID3算法是以信息论为基础,以信息增益为衡量标准,从而实现对数据的归纳分类。
- ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性
- ID3算法的步骤:
- 1.初始化特征集合核数据集合
- 2.计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点
- 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不同分支的数据集合)
- 4.重复2、3两步,若子集值包含单一特征,则为分支叶子节点。
信息熵: H ( D ) = − ∑ k = 1 k ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum^{k}_{k=1}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|} H(D)=−k=1∑k∣D∣∣Ck∣log2∣D∣∣Ck∣
K K K是类别,D是数据集, C k C_{k} Ck是类别 K K K下的数据集
下边的数据中:
数量 | 是 | 否 | 信息熵 |
---|---|---|---|
15 | 9 | 6 | 0.971 |
H
(
D
)
=
−
∑
k
=
1
k
∣
C
k
∣
∣
D
∣
l
o
g
2
∣
C
k
∣
∣
D
∣
=
−
9
15
l
o
g
2
9
15
−
6
15
l
o
g
2
6
15
=
0.971
H(D)=-\sum^{k}_{k=1}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}=-\frac{9}{15}log_{2}\frac{9}{15}-\frac{6}{15}log_{2}\frac{6}{15}=0.971
H(D)=−k=1∑k∣D∣∣Ck∣log2∣D∣∣Ck∣=−159log2159−156log2156=0.971
H
(
D
∣
A
1
=
青
年
)
=
−
∑
k
=
1
k
∣
C
k
∣
∣
D
∣
l
o
g
2
∣
C
k
∣
∣
D
∣
=
−
2
5
l
o
g
2
2
5
−
3
5
l
o
g
2
3
5
=
0.971
H(D|A_{1}=青年)=-\sum^{k}_{k=1}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}=-\frac{2}{5}log_{2}\frac{2}{5}-\frac{3}{5}log_{2}\frac{3}{5}=0.971
H(D∣A1=青年)=−k=1∑k∣D∣∣Ck∣log2∣D∣∣Ck∣=−52log252−53log253=0.971
H
(
D
∣
A
1
=
中
年
)
=
−
∑
k
=
1
k
∣
C
k
∣
∣
D
∣
l
o
g
2
∣
C
k
∣
∣
D
∣
=
−
2
5
l
o
g
2
2
5
−
3
5
l
o
g
2
3
5
=
0.971
H(D|A_{1}=中年)=-\sum^{k}_{k=1}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}=-\frac{2}{5}log_{2}\frac{2}{5}-\frac{3}{5}log_{2}\frac{3}{5}=0.971
H(D∣A1=中年)=−k=1∑k∣D∣∣Ck∣log2∣D∣∣Ck∣=−52log252−53log253=0.971
H
(
D
∣
A
1
=
老
年
)
=
−
∑
k
=
1
k
∣
C
k
∣
∣
D
∣
l
o
g
2
∣
C
k
∣
∣
D
∣
=
−
4
5
l
o
g
2
4
5
−
1
5
l
o
g
2
1
5
=
0.7219
H(D|A_{1}=老年)=-\sum^{k}_{k=1}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}=-\frac{4}{5}log_{2}\frac{4}{5}-\frac{1}{5}log_{2}\frac{1}{5}=0.7219
H(D∣A1=老年)=−k=1∑k∣D∣∣Ck∣log2∣D∣∣Ck∣=−54log254−51log251=0.7219
信息增益
g
(
D
,
A
)
=
H
(
D
)
−
H
(
D
∣
A
)
g(D,A)=H(D)-H(D|A)
g(D,A)=H(D)−H(D∣A)其中,
H
(
D
∣
A
)
=
−
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
l
o
g
2
∣
D
i
∣
∣
D
∣
H(D|A)=-\sum^{n}_{i=1}\frac{|D_{i}|}{|D|}log_{2}\frac{|D_{i}|}{|D|}
H(D∣A)=−∑i=1n∣D∣∣Di∣log2∣D∣∣Di∣,n是特征A的取值个数
ID3算法的缺点
- ID3没有剪枝策略,容易过拟合
- 信息增益准则对可取值数目较多的特征有所偏好,类似”编号“的特征,其信息增益接近于
- 只能用于处理离散分布的特征
- 没有考虑缺失值
C4.5算法
- 定义:
- C4.5算法是Ross对ID3算法的改进。
- ⚫用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,
而C4.5用的是信息增益率。 - ⚫在决策树构造过程中进行剪枝。
- ⚫对非离散数据也能处理。
- ⚫能够对不完整数据进行处理。
- 信息增益
g R ( D , A ) = g ( D , A ) H A ( D ) g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)} gR(D,A)=HA(D)g(D,A),其中 H ( D ∣ A ) = − ∑ k = 1 k ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ H(D|A)=-\sum^{k}_{k=1}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|} H(D∣A)=−∑k=1k∣D∣∣Ck∣log2∣D∣∣Ck∣
- 过拟合的原因:
- 为了尽可能正确分类训练样本,节点的划分过程会不断重复直到不能再分,这样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据都具有的一般性质,从而导致过拟合。剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning)
- 通过剪枝处理去掉一些分支来降低过拟合的风险
- 预剪枝(prepruning)
- 预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间,但另一方面它是基于“贪心”策略,会带来欠拟合风险。
- 主要方法有:
节点内数据样本低于某一阈值;
所有节点特征都已分裂;
节点划分前准确率比划分后准确率高。 - 后剪枝
- 在已经生成的决策树上进行剪枝,从而得到简化版的剪枝决策树。
- 后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下,后剪枝的欠拟合风险更小,泛化性能往往优于预剪枝决策树
优缺点: - 剪枝策略可以再优化;
- C4.5 用的是多叉树,用二叉树效率更高;
- C4.5 只能用于分类;
- C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;
- C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。
CART算法
- ⚫ClassificationandRegressionTree(CART)是决策树的一种。
- ⚫用基尼指数来选择属性(分类),或用均方差来选择属性(回归)。
- ⚫顾名思义,CART算法既可以用于创建分类树,也可以用于创建回归树,两者在构建的过程中稍有差异。
- ⚫如果目标变量是离散的,称为分类树。
- ⚫如果目标变量是连续的,称为回归树。
- CART算法-回归
- 用均方差来选择属性对于连续值的处理,
C
A
R
T
CART
CART分类树采用基尼系数的大小来度量特征的各个划分点。对于任意划分特征
A
A
A,对应的任意划分点
s
s
s两边划分成的数据集
D
1
D_{1}
D1和
D
2
D_{2}
D2,求出使
D
1
D_{1}
D1和
D
2
D_{2}
D2各自集合的均方差最小,同时
D
1
D_{1}
D1和
D
2
D_{2}
D2的均方差之和最小所对应的特征和特征值划分点。表达式为:
m i n a , s [ m i n c 1 ∑ x i ∈ D 1 ( y i − c 1 ) 2 + m i n c 2 ∑ x i ∈ D 2 ( y i − c 2 ) 2 ] min_{a,s}[min_{c_{1}}\sum_{x_{i}\in D_{1}}{(y_{i}-c_{1})^{2}+min_{c_{2}}\sum_{x_{i}\in D_{2}}{(y_{i}-c_{2})}^{2}}] mina,s[minc1xi∈D1∑(yi−c1)2+minc2xi∈D2∑(yi−c2)2],其中, c 1 为 D 1 c_{1}为D_{1} c1为D1数据集合的样本输出均值, c 2 c_{2} c2为 D 2 D_{2} D2数据集样本输出的均值。
预测方式
- 对于决策树建立后做预测的方式,上面讲到了 C A R T CART CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
- CART算法采用一种“基于代价复杂度的剪枝”方法进行后剪枝,这种方法会生成一系列树,每个树都是通过将前面的树的某个或某些子树替换成一个叶节点而得到的,这一系列树中的最后一棵树仅含一个用来预测类别的叶节点。然后用一种成本复杂度的度量准则来判断哪棵子树应该被一个预测类别值的叶节点所代替。
- 这种方法需要使用一个单独的测试数据集来评估所有的树,根据它们在测试数据集熵的分类性能选出最佳的树。
决策树的差异
- 划分标准的差异:ID3 使用信息增益偏向特征值多的特征,C4.5 使用信息增益
率克服信息增益的缺点,偏向于特征值小的特征,CART 使用基尼指数克服
C4.5 需要求log 的巨大计算量,偏向于特征值较多的特征。 - 使用场景的差异:ID3 和C4.5 都只能用于分类问题,CART 可以用于分类和回
归问题;ID3 和C4.5 是多叉树,速度较慢,CART 是二叉树,计算速度很快; - 样本数据的差异:ID3 只能处理离散数据且缺失值敏感,C4.5 和CART 可以处
理连续性数据且有多种方式处理缺失值;从样本量考虑的话,小样本建议C4.5
、大样本建议CART。C4.5 处理过程中需对数据集进行多次扫描排序,处理成
本耗时较高,而CART 本身是一种大样本的统计方法,小样本处理下泛化误差
较大; - 样本特征的差异:ID3 和C4.5 层级之间只使用一次特征,CART 可多次重复使
用特征; - 剪枝策略的差异:ID3 没有剪枝策略,C4.5 是通过悲观剪枝策略来修正树的准
确性,而CART 是通过代价复杂度剪枝。