标签: 决策树 | 在下小宋

更新于2022-01-09|决策树| 条评论

决策树是一种以树状结构表示的分类和回归模型，从根节点开始，根据最优属性从上往下层层划分，最终输出叶子节点为分类结果值。决策树代表对象属性和对象值之间的一种映射关系。它由节点（node）和有向边（directed edge）组成，其节点有两种类型：内节点（internal node）和叶节点（leaf node），内部节点表示一个特征或属性，叶节点表示一个类。根节点是决策树最开始的结点，内部结点是可以继续分类的结点。决策树的学习本质上是从训练集中归纳出一组分类规则，得到与数据集矛盾较小的决策树，同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数，通常采用启发式方法，近似求解这一最优化问题。决策树学习算法包含特征选择、决策树生成与决策树的剪枝。决策树表示的是一个条件概率分布，所以深浅不同的决策树对应着不同复杂程度的概率模型。决策树的生成对应着模型的局部选择（局部最优），决策树的剪枝对应着全局选择（全局最优）。决策树常用的算法有ID3，C4.5，CART，下面通过一个简单的例子来分别介绍这几种算法。特征选择宗旨是在每一个决策点，选择能够使得样本的熵降低得最快，样本纯 ...