实验三决策树算法实验实验报告.docx
- 文档编号:9200055
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:13
- 大小:75.73KB
实验三决策树算法实验实验报告.docx
《实验三决策树算法实验实验报告.docx》由会员分享,可在线阅读,更多相关《实验三决策树算法实验实验报告.docx(13页珍藏版)》请在冰豆网上搜索。
实验三决策树算法实验实验报告
实验三-决策树算法实验实验报告
实验三决策树算法实验
一、实验目的:
熟悉和掌握决策树的分类原理、实质和过程;掌握典型的学习算法和实现技术。
二、实验原理:
决策树学习和分类.
三、实验条件:
四、实验内容:
1根据现实生活中的原型自己创建一个简单的决策树。
2要求用这个决策树能解决实际分类决策问题。
五、实验步骤:
1、验证性实验:
(1)算法伪代码
算法Decision_Tree(data,AttributeName)输入由离散值属性描述的训练样本集data;候选属性集合AttributeName。
输出一棵决策树。
(1)创建节点N;
(2)Ifsamples都在同一类C中then(3)返回N作为叶节点,以类C标记;(4)Ifattribute_list为空then
(5)返回N作为叶节点,以samples中最普遍的类标记;//多数表决(6)选择attribute_list中具有最高信息增益的属性test_attribute;(7)以test_attribute标记节点N;
(8)Foreachtest_attribute的已知值v//划分samples;
(9)由节点N分出一个对应test_attribute=v的分支;
(10令Sv为samples中test_attribute=v的样本集合;//一个划分块(11)IfSv为空then
(12)加上一个叶节点,以samples中最普遍的类标记;
(13)Else加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值。
(2)实验数据预处理
Age:
30岁以下标记为“1”;30岁以上50岁以下标记为“2”;50岁以上标记为“3”。
Sex:
FEMAL----“1”;MALE----“2”
Region:
INNER CITY----“1”;TOWN----“2”; RURAL----“3”; SUBURBAN----“4” Income:
5000~2万----“1”;2万~4万----“2”;4万以上----“3” Married Children Car
Mortgage
Pep:
以上五个条件,若为“是”标记为“1”,若为“否”标记为“2”。
Agesexregionincomemarriedchildrencarmortgagepep
121121122
121122221
214121221
211112222
121112222
121121211
212112112
211121121
213122121
212221222
221222211
212211211
221212212
111212221
321211122
111211121
113222121
312212221
323311121
322312112
313311221
321312122
321311111
311312112
313312222
324312211
313322112
(3)Matlab语句:
[TreeRulesMatrix]=DecisionTree(DataSet,AttributName);
六、实验结果:
实验程序:
function[TreeRulesMatrix]=DecisionTree(DataSet,AttributName)
%输入为训练集,为离散后的数字,如记录1:
11321;
%前面为属性列,最后一列为类标
ifnargin<1
error('请输入数据集');
else
ifisstr(DataSet)
[DataSetAttributValue]=readdata2(DataSet);
else
AttributValue=[];
end
end
ifnargin<2
AttributName=[];
end
Attributs=[1:
size(DataSet,2)-1];
Tree=CreatTree(DataSet,Attributs);
disp([char(13)'TheDecisionTree:
']);
showTree(Tree,0,0,1,AttributValue,AttributName);
Rules=getRule(Tree);
RulesMatrix=zeros(size(Rules,1),size(DataSet,2));
fori=1:
size(Rules,1)
rule=cell2struct(Rules(i,1),{'str'});
rule=str2num([rule.str([1:
(find(rule.str=='C')-1)])rule.str((find(rule.str=='C')+1):
length(rule.str))]);
forj=1:
(length(rule)-1)/2
RulesMatrix(i,rule((j-1)*2+1))=rule(j*2);
end
RulesMatrix(i,size(DataSet,2))=rule(length(rule));
end
end
functionTree=CreatTree(DataSet,Attributs)%决策树程序输入为:
数据集,属性名列表
%disp(Attributs);
[SValRecords]=ComputEntropy(DataSet,0);
if(S==0)%当样例全为一类时退出,返回叶子节点类标
fori=1:
length(ValRecords)
if(length(ValRecords(i).matrix)==size(DataSet,1))
break;
end
end
Tree.Attribut=i;
Tree.Child=[];
return;
end
if(length(Attributs)==0)%当条件属性个数为0时返回占多数的类标
mostlabelnum=0;
mostlabel=0;
fori=1:
length(ValRecords)
if(length(ValRecords(i).matrix)>mostlabelnum)
mostlabelnum=length(ValRecords(i).matrix);
mostlabel=i;
end
end
Tree.Attribut=mostlabel;
Tree.Child=[];
return;
end
fori=1:
length(Attributs)
[Sa(i)ValRecord]=ComputEntropy(DataSet,i);
Gains(i)=S-Sa(i);
AtrributMatric(i).val=ValRecord;
end
[maxvalmaxindex]=max(Gains);
Tree.Attribut=Attributs(maxindex);
Attributs2=[Attributs(1:
maxindex-1)Attributs(maxindex+1:
length(Attributs))];
forj=1:
length(AtrributMatric(maxindex).val)
DataSet2=[DataSet(AtrributMatric(maxindex).val(j).matrix',1:
maxindex-1)DataSet(AtrributMatric(maxindex).val(j).matrix',maxindex+1:
size(DataSet,2))];
if(size(DataSet2,1)==0)
mostlabelnum=0;
mostlabel=0;
fori=1:
length(ValRecords)
if(length(ValRecords(i).matrix)>mostlabelnum)
mostlabelnum=length(ValRecords(i).matrix);
mostlabel=i;
end
end
Tree.Child(j).root.Attribut=mostlabel;
Tree.Child(j).root.Child=[];
else
Tree.Child(j).root=CreatTree(DataSet2,Attributs2);
end
end
end
function[EntropyRecordVal]=ComputEntropy(DataSet,attribut)%计算信息熵
if(attribut==0)
clnum=0;
fori=1:
size(DataSet,1)
if(DataSet(i,size(DataSet,2))>clnum)%防止下标越界
classnum(DataSet(i,size(DataSet,2)))=0;
clnum=DataSet(i,size(DataSet,2));
RecordVal(DataSet(i,size(DataSet,2))).matrix=[];
end
classnum(DataSet(i,size(DataSet,2)))=classnum(DataSet(i,size(DataSet,2)))+1;
RecordVal(DataSet(i,size(DataSet,2))).matrix=[RecordVal(DataSet(i,size(DataSet,2))).matrixi];
end
Entropy=0;
forj=1:
length(classnum)
P=classnum(j)/size(DataSet,1);
if(P~=0)
Entropy=Entropy+(-P)*log2(P);
end
end
else
valnum=0;
fori=1:
size(DataSet,1)
if(DataSet(i,attribut)>valnum)%防止参数下标越界
clnum(DataSet(i,attribut))=0;
valnum=DataSet(i,attribut);
Valueexamnum(DataSet(i,attribut))=0;
RecordVal(DataSet(i,attribut)).matrix=[];%将编号保留下来,以方便后面按值分割数据集
end
if(DataSet(i,size(DataSet,2))>clnum(DataSet(i,attribut)))%防止下标越界
Value(DataSet(i,attribut)).classnum(DataSet(i,size(DataSet,2)))=0;
clnum(DataSet(i,attribut))=DataSet(i,size(DataSet,2));
end
Value(DataSet(i,attribut)).classnum(DataSet(i,size(DataSet,2)))=Value(DataSet(i,attribut)).classnum(DataSet(i,size(DataSet,2)))+1;
Valueexamnum(DataSet(i,attribut))=Valueexamnum(DataSet(i,attribut))+1;
RecordVal(DataSet(i,attribut)).matrix=[RecordVal(DataSet(i,attribut)).matrixi];
end
Entropy=0;
forj=1:
valnum
Entropys=0;
fork=1:
length(Value(j).classnum)
P=Value(j).classnum(k)/Valueexamnum(j);
if(P~=0)
Entropys=Entropys+(-P)*log2(P);
end
end
Entropy=Entropy+(Valueexamnum(j)/size(DataSet,1))*Entropys;
end
end
end
functionshowTree(Tree,level,value,branch,AttributValue,AttributName)
blank=[];
fori=1:
level-1
if(branch(i)==1)
blank=[blank'|'];
else
blank=[blank''];
end
end
blank=[blank''];
if(level==0)
blank=['(TheRoot):
'];
else
ifisempty(AttributValue)
blank=[blank'|_____'int2str(value)'______'];
else
blank=[blank'|_____'value'______'];
end
end
if(length(Tree.Child)~=0)%非叶子节点
ifisempty(AttributName)
disp([blank'Attribut'int2str(Tree.Attribut)]);
else
disp([blank'Attribut'AttributName{Tree.Attribut}]);
end
ifisempty(AttributValue)
forj=1:
length(Tree.Child)-1
showTree(Tree.Child(j).root,level+1,j,[branch1],AttributValue,AttributName);
end
showTree(Tree.Child(length(Tree.Child)).root,level+1,length(Tree.Child),[branch(1:
length(branch)-1)01],AttributValue,AttributName);
else
forj=1:
length(Tree.Child)-1
rule=cell2struct(content(j,1),{'str'});
content(j,1)={[num2str(Tree.Attribut)','num2str(i)','rule.str]};
end
Rules=[Rules;content];
end
else
Rules={['C'num2str(Tree.Attribut)]};
end
end
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 决策树 算法 报告