决策树C45算法的改进及应用.docx
- 文档编号:10263694
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:11
- 大小:227.10KB
决策树C45算法的改进及应用.docx
《决策树C45算法的改进及应用.docx》由会员分享,可在线阅读,更多相关《决策树C45算法的改进及应用.docx(11页珍藏版)》请在冰豆网上搜索。
决策树C45算法的改进及应用
第9卷第1期2009年1月167121819(2009120034204
科学技术与工程
ScienceTechnologyandEngineering
Vol
19No11Jan.2009Z2009Sci1Tech1Engng1
计算机技术
决策树C4.5算法的改进及应用
黄爱辉
(湖南娄底职业技术学院电子信息工程系,娄底417000
摘要根据C4.5算法中信息增益率计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的C4.5算法,减少了信息增益率的计算量,进而提高C4.5算法中信息增益率的计算效率。
改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度,将改进后的C4.5算法应用到成绩分析中。
关键词决策树C4.5算法信息增益率等价无穷小中图法分类号TP301.6;文献标志码
A
2008年9月1日收到
2007年娄底职业技术学院科研资助
项目(07ZF021资助
第一作者简介:
黄爱辉(1967,女,湖南娄底人,副教授,硕士,研究方向:
数据库与数据挖掘,多媒体制作;E2mai:
lhnldhah@tom.com。
近年来,决策树方法在机器学习、知识发现等领域得到了广泛应用。
数据挖掘作为一种发现大量数据中潜在信息的数据分析方法和技术,已经成为各界关注的热点。
其中,决策树以其出色的数据分析效率、直观易懂等特点,倍受青睐。
构造决策树有多种算法,国际上最早的、具有影响力的决策树是由Quinlan于1986年提出的ID3算法
[1]
是基于信息熵的决策树分类算法。
ID3算法采用信息熵作为属性选择标准,可这个标准易偏向于取值较多的候选属性。
Quinlan于1993年又提出了ID3的改进版本C4.5算法
[2]
C4.5算法用信息增益率来选
择决策属性,它继承了ID3算法的全部优点,在ID3的基础上还增加了对连续属性的离散化、对未知属性的处理和产生规则等功能。
在决策树算法中,决策树的复杂度和分类精度是需要考虑的两个最重要的因素。
常用的评价指标有:
预测准确性,描述分类模型准确预测新的或未知的数据类的能力。
描述的简洁性,模型描述越简洁,也就越易于理解。
计算复杂性,模型强健性,处理规模性。
1C4.5决策树算法
1.1C4.5决策树算法
C4.5决策树算法的核心思想是利用信息熵原理,选择信息增益率最大的属性作为分类属性,递归地构造决策树的分枝,完成决策树的构造
[3]
。
假设向量空间中的正例集PE和反例集NE的大小分别为p和n,ID3基于两个假设:
(1在向量空间H上的一棵正确决策树对任意例子的分类概率同H中正反例的概率一致;(2一棵决策树能对一例子做出正确类别判断所需的信息量为
I(p,n=-p
p+nlg2pp+n-np+nlg2
np+n
(1
如果以属性A作为决策树的根,A具有V个值(v1,v2,,,vv,它将H分为v个子集(H1,H2,,,Hv,假设Hi中含有Pi个正例和Ni个反例,子集Hi的信息熵E(HiE(Hi=-PiPi+Nilg2PiPi+Ni-NiPi+Nilg2
Ni
Pi+Ni
(2
以属性A为根分类的信息熵为E(A:
E(A=
E
v
i=1
Pi+ni
P+N
E(Hi(3
因此,以A为根的信息增益是G(A:
G(A=I(p,n-E(A(4
信息增益率等于信息增益对分割信息量的比值。
对样本集T,假设A有s个不同取值的离散属性,划分为s1,s2,,,sn共n个子集,用A分割样本集所得的信息增益的算法ID3相同,分割信息量由以下公式给出
S(s,A=-
E
n
i=1
sislg2si
s
(5
信息增益率由下式给出
G-R(s,A=G(s,AS(s,A
(6
C4.5算法选择G-R(A最大的属性A作为分支属性,较好地解决了ID3算法的多值属性偏向问题。
1.2C4.5算法代码
假设用T代表当前样本集,当前候选属性集用T.attributelist表示,则C4.5算法C4.5formtree(T,T.attributelist的伪代码如下
[5]
。
算法:
Generate_decision_tree由给定的训练数据产生一棵决
策树
输入:
训练样本samples;候选属性的集合attributelist输出:
一棵决策树(1创建根节点N;
(2IFT都属于同一类C,则返回N为叶节点,标记为类C;(3
IFattributelist为空ORT中所剩的样本数少于某给定值
则返回N为叶节点,标记N为T中出现最多的类:
(4FOReachattributelist中的属性
计算信息增益率informationgainratio;(5N的测试属性test.attribute=attributelist具有最高信
息增益率的属性;
(6IF测试属性为连续型
则找到该属性的分割阈值;(7Foreach由节点N一个新的叶子节点{If该叶子节点对应的样本子集T.为空
则分裂此叶子节点生成新叶节点,将其标记为
T中出现最多的类
Else
在该叶子节点上执行C4.5formtree(T.,T..
attributelist,继续对它分裂;
}
(8计算每个节点的分类错误,进行树剪枝。
2C4.5决策树算法改进
2.1C4.5算法改进的原理
根据上述信息量计算公式的特点,提出针对信息量计算的改进方法,用以简化信息量计算的复杂度。
由式(3和式(4可知,C4.5算法是对节点上的每个属性都要计算其信息增益率,然后从中选择信息增益率最大的属性作为该节点的属性。
由于在信息增益率计算过程中涉及到对数函数的计算,在计算程序中就得调用库函数,这样就增加了计算量时间。
如果能找到一种选择属性的新标准,使计算量减少,就可加快算法生成树的速度。
设在n个反例、p个正例属性的信息量为
信息熵为E(A=E
v
i=1
pi+ni
p+n
I(ni,pi。
其中I(ni,pi=-nipi+nilg2ni
ni+pi
-pini+pilg2pi
pi+ni
。
E(A=1(n+pln2En
i=1-pilnpini+pi-nilnni
ni+pi
(7
由于
1(n+pln2
为一常量且每步都要计算,可
省略。
E(A可变为:
E(A=
E
n
i=1
-piln
pini+pi-niln
ni
ni+pi
(8
用式(8作为选择节点属性熵的依据。
根据数学上的等价无穷小的理论,如果X很小,则ln(1+XUX,可得:
lnpini+pi=ln1-ni
ni+pi
U-nini+pi(9
ln
nini+pi=ln1-pi
ni+pi
U-pini+pi(10
将式(9、式(10代入式(8得Ec(A=
E
n
i=1
-piln
pini+pi-niln
ni
ni+pi
U35
1期黄爱辉:
决策树C4.5算法的改进及应用
2E
n
i=1
nipini+pi
(11
Sc(s,A=-
nipi+nilg2ni
ni+pi
-pini+pilg2pi
pi+ni
UE
n
i=1
pini+pi
(12G-R.(s,A=I(S,A-Ec(A
Sc(s,A
(13
因此可以用式(11、式(12和式13替换C4.5算法中的E(A、S(s,A和信息增益率,用来从中选择/信息增益率0最小的属性作为节点。
利用这种计算方法仅仅是加、乘、除的运算,在计算机上实现很快。
这样C4.5算法的计算量大大减少,提高了C4.5算法的效率。
2.2C4.5决策树算法及改进算法做比较2.2.1C4.5算法构造决策树
以UCI数据集中经典实例/天气表0中的24条记录为例
[5]
(根据天气条件的记录来决定是否适合
打高尔夫球,用C4.5决策树算法和改进的C4.5决策树算法构造的决策树相同,如图1
。
图1C4.5算法和改进后的C4.5构造的决策树
2.3改进的C4.5决策树算法应用
将数据挖掘分类技术应用于对高职院校教学的成绩信息挖掘无疑是非常有益的,它可以全面地分析考试成绩与各种因素之间隐藏的内在联系。
比如,经过对学校学生成绩相关数据库中数据的分析,数据挖掘工具可以回答诸如/哪些因素对学生的学习成绩可能有影响0等类似的问题,这是传统评价分析方法无法具备的。
通过数据挖掘分析,其评价结果能给教学带来前所未有的收获和惊喜。
提出采用数据挖掘中的改进后的C4.5决策树算
法,将大量的成绩数据转化为分类规则,从而更好地分析这些数据。
以表1/学生成绩分析基本数据集0为例,对影响学生学习成绩的因素进行分析。
由于学生信息
表中的属性字段很多,在建立成绩是否优良决策树模型时,以2005级计算机应用技术专业的5网页制作6课程成绩为例,选择了与成绩属性相关性较大的课后上机时间、课前对课程的了解程度、课堂学习情况、平时作业情况属性字段,是否优良属性作为类别属性,得到表1的数据。
表1成绩是否优良的数据集
每周上机时间课前对知识的了解程度课堂学习情况平时成绩是否优良[2基本了解差较差否2-4基本了解基本掌握较好是2-4基本了解基本掌握中否\4了解一些基本掌握中否2-4不了解基本掌握较好是2-4了解一些一般较好否2-4了解一些基本掌握较好是[2了解一些基本掌握
较差否[2了解一些
差
中
是
表中共有125条记录(学生,其中正例为41个,反例为84个。
用改进后的决策树C4.5对表中的数据进行处理,分别计算每个属性的信息增益率。
平时成绩的信息增益率最大,因此作为决策树的根节点,平时成绩有3个值,有三个分支,分别计
算平时成绩为/较好0、/中0、/差0的信息增益率,得到如图2
所示的决策树。
图2成绩是否优良决策树
(下转第42页
ResearchofApplicationofWebServiceinGrid
CHENWen2jun,QIXin,GAOYuan2tao
(AcademicAdministration,ChinaUniversityofPetroleum,Qingdao266555,P.R.China
[Abstract]AnewkindoftechnologyisintroducedforgridtheintegrationofWebServiceandGrid.Thepe2culiarityofWebServiceisappliedintothegridtechnology,andthenexperimentsaremadeofunderthegridenvi2ronmen.tTheresultsshowthattheWebServiceprovidesstablefoundationforthedevelopmentofGrid.
[Keywords]gridcomputationWebServicestateWSDLSOAP
(上接第36页
3结论
从上述用天气表中数据生成决策树的形态得到的结果,可以得出如下结论:
C4.5改进算法构造的决策树与C4.5算法构造的决策树有大致相同的分类准确率,在相同规模的数据集中,C4.5改进算法构造决策树所用的计算时间比C4.5算法构造决策树所用的计算时间少,充分说明C4.5改进算法提高了决策树构造的效率。
将C4.5算法应用到成绩分析中,通过决策树模型,找出影响成绩的因素,以便于教学。
参考文献
1HanJiawe,iMichelineK.数据挖掘:
概念与技术TP274.范明孟小峰,译.北京:
机械工业出版社,2001:
70218
2QuinlanJR.C4.5:
Programsformachinelearning.MorganKauff2man.1993
3李强,创建决策树算法的比较研究2ID3,C4.5,C5.0算法的比较.甘肃科学学报,2006;(12:
8487
4马秀红.数据挖掘中决策树的探讨.计算机工程与应用,2004;
(1:
185
5http:
//ftp.ics.uc.iedu/pub/machine2learning2database
C4.5AlgorithmofDecisionTreeImprovementandApplication
HUANGAi2hui
(Electronicinformationengineering,VocationalandTechnicalCollegeofLoud,iLoudi417000,P.R.China
[Abstract]AccordingtoC4.5algorithmintherateofinformationgaincharacteristicsoftheprincipleofusingmathematicalequivalentoftheinfinitesimalnatureofanewalgorithmtoimprovetheC4.5,reducetherateofinfor2mationgaincalculation,thusimprovingC4.5algorithmInformationgaincalculationoftherateofefficiency.Im2provedC4.5algorithmcomparedwiththeoriginalC4.5algorithm,decisiontreestructure,withthesameaccuracyrateandahigherspeed,willimproveaftertheC4.5algorithmappliedtotheanalysisofresults.
[Keywords]decisiontreeC4.5algorithminformationgain2ratioequivalentinfinitesimal
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 C45 算法 改进 应用