C45算法的源代码全解Word文档格式.docx
- 文档编号:19712995
- 上传时间:2023-01-09
- 格式:DOCX
- 页数:18
- 大小:28.58KB
C45算法的源代码全解Word文档格式.docx
《C45算法的源代码全解Word文档格式.docx》由会员分享,可在线阅读,更多相关《C45算法的源代码全解Word文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
ID3算法的优点是:
算法的理论清晰,方法简单,学习能力较强。
其缺点是:
只对比较小的数据集有效,且对噪声比较敏感,当训练数据集加大时,决策树可能会随之改变。
(2)C4.5算法
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝;
3)能够完成对连续属性的离散化处理;
4)能够对不完整数据进行处理。
C4.5算法与其它分类算法如统计方法、神经网络等比较起来有如下优点:
产生的分类规则易于理解,准确率较高。
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
(3)SLIQ算法
SLIQ算法对C4.5决策树分类算法的实现方法进行了改进,在决策树的构造过程中采用了“预排序”和“广度优先策略”两种技术。
1)预排序。
对于连续属性在每个内部结点寻找其最优分裂标准时,都需要对训练集按照该属性的取值进行排序,而排序是很浪费时间的操作。
为此,SLIQ算法采用了预排序技术。
所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。
具体实现时,需要为训练数据集的每个属性创建一个属性列表,为类别属性创建一个类别列表。
2)广度优先策略。
在C4.5算法中,树的构造是按照深度优先策略完成的,需要对每个属性列表在每个结点处都进行一遍扫描,费时很多,为此,SLIQ采用广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。
SLIQ算法由于采用了上述两种技术,使得该算法能够处理比C4.5大得多的训练集,在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。
然而它仍然存在如下缺点:
1)由于需要将类别列表存放于内存,而类别列表的元组数与训练集的元组数是相同的,这就一定程度上限制了可以处理的数据集的大小。
2)由于采用了预排序技术,而排序算法的复杂度本身并不是与记录个数成线性关系,因此,使得SLIQ算法不可能达到随记录数目增长的线性可伸缩性。
(4)SPRINT算法
为了减少驻留于内存的数据量,SPRINT算法进一步改进了决策树算法的数据结构,去掉了在SLIQ中需要驻留于内存的类别列表,将它的类别列合并到每个属性列表中。
这样,在遍历每个属性列表寻找当前结点的最优分裂标准时,不必参照其他信息,将对结点的分裂表现在对属性列表的分裂,即将每个属性列表分成两个,分别存放属于各个结点的记录。
SPRINT算法的优点是在寻找每个结点的最优分裂标准时变得更简单。
其缺点是对非分裂属性的属性列表进行分裂变得很困难。
解决的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈希表,其他属性列表的分裂只需参照该哈希表即可。
由于哈希表的大小与训练集的大小成正比,当训练集很大时,哈希表可能无法在内存容纳,此时分裂只能分批执行,这使得SPRINT算法的可伸缩性仍然不是很好。
C4.5算法
一.背景
最早的决策时算法是由Hunt等人于1966年提出的CLS。
当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。
ID3只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。
ID3算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。
C4.5是ID3算法的改进算法,不仅可以处理离散型描述属性,还能处理连续性描述属性。
C4.5采用了信息增益比作为选择分枝属性的标准,弥补了ID3算法的不足。
决策树算法的优点如下:
(1)分类精度高;
(2)成的模式简单;
(3)对噪声数据有很好的健壮性。
因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。
二.C4.5改进的具体方面
1.ID3算法存在的缺点
(1)ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。
信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。
(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。
2.C4.5算法做出的改进
(1)用信息增益率来选择属性
克服了用信息增益来选择属性时偏向选择值多的属性的不足。
信息增益率定义为:
其中Gain(S,A)与ID3算法中的信息增益相同,而分裂信息SplitInfo(S,A)代表了按照属性A分裂样本集S的广度和均匀性。
其中,S1到Sc是c个不同值的属性A分割S而形成的c个样本子集。
如按照属性A把S集(含30个用例)分成了10个用例和20个用例两个集合
则SplitInfo(S,A)=-1/3*log(1/3)-2/3*log(2/3)
(2)可以处理连续数值型属性
C4.5既可以处理离散型描述属性,也可以处理连续性描述属性。
在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同,按照该属性本身的取值个数进行计算;
对于某个连续性描述属性Ac,假设在某个结点上的数据集的样本数量为total,C4.5将作以下处理。
l
将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行排序,得到属性值的取值序列{A1c,A2c,……Atotalc}。
在取值序列中生成total-1个分割点。
第i(0<
i<
total)个分割点的取值设置为Vi=(Aic+A(i+1)c)/2,它可以将该节点上的数据集划分为两个子集。
从total-1个分割点中选择最佳分割点。
对于每一个分割点划分数据集的方式,C4.5计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。
(3)采用了一种后剪枝方法
避免树的高度无节制的增长,避免过度拟合数据,
该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。
方法中使用的公式如下:
其中N是实例的数量,f=E/N为观察到的误差率(其中E为N个实例中分类错误的个数),q为真实的误差率,c为置信度(C4.5算法的一个输入参数,默认值为0.25),z为对应于置信度c的标准差,其值可根据c的设定值通过查正态分布表得到。
通过该公式即可计算出真实误差率q的一个置信度上限,用此上限为该节点误差率e做一个悲观的估计:
通过判断剪枝前后e的大小,从而决定是否需要剪枝。
(4)对于缺失值的处理
在某些情况下,可供使用的数据可能缺少某些属性的值。
假如〈x,c(x)〉是样本集S中的一个训练实例,但是其属性A的值A(x)未知。
处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;
另外一种更复杂的策略是为A的每个可能值赋予一个概率。
例如,给定一个布尔属性A,如果结点n包含6个已知A=1和4个A=0的实例,那么A(x)=1的概率是0.6,而A(x)=0的概率是0.4。
于是,实例x的60%被分配到A=1的分支,40%被分配到另一个分支。
这些片断样例(fractionalexamples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。
C4.5就是使用这种方法处理缺少的属性值。
3. C4.5算法的优缺点
优点:
缺点:
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
三.C4.5算法源代码(C++)
//C4.5_test.cpp:
Definestheentrypointfortheconsoleapplication.
//
#include"
stdafx.h"
#include<
stdio.h>
math.h>
malloc.h"
stdlib.h>
const
int
MAX=10;
int**iInput;
i=0;
//列数
j=0;
//行数
void
build_tree(FILE
*fp,int*iSamples,int*iAttribute,int
ilevel);
//输出规则
choose_attribute(int*iSamples,int*iAttribute);
//通过计算信息增益率选出test_attribute
double
info(double
dTrue,double
dFalse);
//计算期望信息
entropy(double
dTrue,double
dFalse,double
dAll);
//求熵
splitinfo(int*list,double
check_samples(int
*iSamples);
//检查samples是否都在同一个类里
check_ordinary(int
//检查最普通的类
check_attribute_null(int
*iAttribute);
//检查attribute是否为空
get_attributes(int
*iSamples,int
*iAttributeValue,int
iAttribute);
_tmain(int
argc,_TCHAR*argv[])
{
FILE
*fp;
*fp1;
char
iGet;
a=0;
b=0;
//a,b是循环变量
int*iSamples;
int*iAttribute;
fp=fopen("
c:
\\input.txt"
"
r"
);
if
(NULL==fp)
printf("
error\n"
return
0;
}
iGet=getc(fp);
while
(('
\n'
!
=iGet)&
&
(EOF!
=iGet))
('
'
==iGet)
i++;
iAttribute=(int
*)malloc(sizeof(int)*i);
for
(int
k=0;
k<
i;
k++)
iAttribute[k]=(int)malloc(sizeof(int));
iAttribute[k]=1;
=iGet)
j++;
iInput=(int
**)malloc(sizeof(int*)*j);
iSamples=(int
*)malloc(sizeof(int)*j);
(a=0;
a<
j;
a++)
iInput[a]=(int
iSamples[a]=(int)malloc(sizeof(int));
iSamples[a]=a;
fclose(fp);
fp=fopen("
while(EOF!
iInput[a][b]=iGet-48;
b++;
(b==i)
a++;
fp1=fopen("
d:
\\output.txt"
w"
build_tree(fp1,iSamples,iAttribute,0);
*fp,int*iSamples,int*iAttribute,int
level)//
iTest_Attribute=0;
iAttributeValue[MAX];
l=0;
m=0;
*iSamples1;
(k=0;
MAX;
iAttributeValue[k]=-1;
(0==check_samples(iSamples))
fprintf(fp,"
result:
%d\n"
iInput[iSamples[0]][i-1]);
return;
(1==check_attribute_null(iAttribute))
check_ordinary(iSamples));
iTest_Attribute=choose_attribute(iSamples,iAttribute);
iAttribute[iTest_Attribute]=-1;
get_attributes(iSamples,iAttributeValue,iTest_Attribute);
((-1!
=iAttributeValue[k])&
(k<
MAX))
=iSamples[l])&
(l<
j))
(iInput[iSamples[l]][iTest_Attribute]==iAttributeValue[k])
m++;
l++;
iSamples1=(int
*)malloc(sizeof(int)*(m+1));
iSamples1[m]=iSamples[l];
iSamples1[m]=-1;
(-1==iSamples1[0])
level%d:
%d=%d\n"
level,iTest_Attribute,iAttributeValue[k]);
build_tree(fp,iSamples1,iAttribute,level+1);
k++;
choose_attribute(int*iSamples,int*iAttribute)
iTestAttribute=-1;
n=0;
iTrue=0;
iFalse=0;
iTrue1=0;
iFalse1=0;
iDepart[MAX];
iRecord[MAX];
dEntropy=0.0;
dGainratio=0.0;
test=0.0;
k<
k++)
iDepart[k]=-1;
iRecord[k]=0;
((l!
=2)&
(k<
(i-1)))
(iAttribute[k]==-1)
(l==1)
(k-1);
iAttribute[k];
k<
(i-1);
(iAttribute[k]!
=-1)
(0==iInput[iSamples[l]][i-1])
iFalse++;
(1==iInput[iSamples[l]][i-1])
iTrue++;
(n=0;
n<
l;
n++)//计算该属性有多少不同的值并记录
while((iDepart[m]!
=-1)&
(m!
=MAX))
(iInput[iSamples[n]][iAttribute[k]]==iDepart[m])
break;
(-1==iDepart[m])
iDepart[m]=iInput[iSamples[n]][iAttribute[k]];
((iDepart[m]!
=-1)&
n++)
(1==iInput[iSamples[n]][i-1])
iTrue1++;
(0==iInput[iSamples[n]][i-1])
iFalse1++;
iRecord[m]++;
dEntropy+=entropy((double)iTrue1,(double)iFalse1,(double)l);
dSplitinfo=splitinfo(iRecord,(double)l);
(-1==iTestAttribute)
iTestAttribute=k;
dGainratio=(info((double)iTrue,(double)iFalse)-dEntropy)/dSplitinfo;
else
test=(info((double)iTrue,(double)iFalse)-dEntropy)/dSplitinfo;
(dGainratio<
test)
dG
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- C45 算法 源代码