1. 决策树介绍
常用决策树生成算法分析 总结了当前主流的决策树生成算法:
- ID3和C4.5算法,当前最新的版本为5.0
- CART
- CHAID
- SLIQ
- SPRINT
2. ID3源码实现
ID3算法原理:从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高。所以ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。
算法源代码:数据挖掘-决策树ID3分类算法的C++实现
3. C4.5实现
C4.5的算法,在ID3的基础上计算信息增益,从而更加准确的反应信息量。其实通俗的说就是构建一棵加权的最短路径Haffman树,让权值最大的节点为父节点。
源码实现参见:决策树C4.5分类算法的C++实现