第八章决策表值约简.docx
- 文档编号:27741739
- 上传时间:2023-07-04
- 格式:DOCX
- 页数:11
- 大小:83.95KB
第八章决策表值约简.docx
《第八章决策表值约简.docx》由会员分享,可在线阅读,更多相关《第八章决策表值约简.docx(11页珍藏版)》请在冰豆网上搜索。
第八章决策表值约简
第八章信息表值约简
值约简是在属性约简的基础上对决策表的进一步简创。
本章将就决策表的值约简问题进行系统分析,并介绍几种主要的值约简算法。
■1决策表值约简概述
在第7章中,我们介绍了决策信息表的属性约简,通过属性约简,可以将决策表中■决策分类不必要的属■省略,从而实现决策表的简化,这有利于从决策表中分析发现对决策分类起作用的属,禺。
但是,属性约简只是程度上去掉了决策表中的冗余属*,但是还没有充分去掉决策表中的冗余信剧。
例如,在表7.3-1所示的关于气象信息的决策表表的属性约简结果中,女U果在条件Oiitlook=SuimyATemperatuie=Hot下,决策属性的取值肯定是N,而无需考虑条件属性Windy的取值是Tine还是Falseo
显然,这个属性约简结果,对于决策分类来说,仍然包含冗余信息。
根据第四章中介绍的决策规则,我们匡能够直接从该表毎到满意的决策规则訂这就是说我们还需要进一步对决策表进行处理,得到更加简化的决策表,这就是我们本章将要讨论的决策表值约简问题。
与属性约简中的属性核-样,值约简中也町以瑟相应的值核。
决策表S=(U,C,D,V,f),对于任意的xwU,用比表示决策规则,即dx:
des([x]c)=>dcs([x]o)>dx(a)=a(x),aeCuD,且dx|C、dx|D分别称为dx的条件和决策。
定义考虑-个相容知识表达系统q,对决策规则&有
[x]cc[x]d八匚1!
〔
■若[X]c-{r}口X]D,则T不是比的核值属性,[为山中可省
略的。
■2决策表值约简算法
8.2.1一般值约简算法
对于一个经过属性约简而得到的决策表,我们可以时应其中的每一个膜形成一条决策规则。
因此,我们可以務决策表中的样本用规则来表示,这样,约简后的决策表,实际上就是一个规则集合。
对丁这个规则集合,我们可以利用如下算法来进行简化:
对于规则集合中的每条规则
对于该规则中的任意条件属性
L!
果去掉该条/
•属性,该规则不和规贝1
[1
1f
*•
昌中的其它规则
i
P突,则可以〃
U八/U/\JJJ11丿[丄”
•
1•1
■
经过这样处理得到的规则集合中的所仃规则都不含有冗余条件属
,禺,也就是说,规则的条件属性数目已经被尽可能减少卫。
但是,这
个算法的■,比如,由于
处理规则中条件属性的顺序不同,我们都可以得到不司I
得到的规则集合就会有所不同。
因此,我们往往需要一些启发式知识
来指导这一过程的进行,
8.2.2归纳值约简算法
我们在7.3.3一节中对归纳属性约简进行了介绍,这里对归纳值约圃加以讨论。
山核値的定义,求得毎个规则醞的核值属性,就可形成决策表皑条件属性核值表。
但是,这样做的工作量太大。
为了介绍归纳值约简算法,先看如下命题。
命题8.2-1对相容知识表达系统S=(U,C,D,V,f),则以属性a为
核值属性的决策规则集合为
core(a)={dx|xe(U-posc.{a}(D))}。
证明:
VaeC,令B=posc.{a}(D)。
对VxwU-B,如果规则dx:
des([x]c.{a})=dcs([x]D)为不相容决策规则,则必存在一决策规则使得dxJ(C-{a})=dx|(C-{a}),而dx|D^dx|D,即x=[x]c-a},但xP[x]d,因此[x]c*} 所以a为决策规则dx的核值属性,即core(a)={dx|xe(U-posc.{a}(D))}0 根据上述命题,可以方便地求取任意条件属性a的core(a)|,从而得到肤策表的条件属性核值莉。 在此基础上,我们来计算快策规则属性值的简化。 令U/D={y】,y2,表示论域U上由决策属性划分的决策类集,对每一个决策等价类,定义决策规则类DRC为 DRC(y)={dx: des([x]c)ndes([x]D)|xwU且[x]ccy},VyeU/Do 求解知识表达系统决策表的最小决策算法,可通过分别求解各个决策类的最小决策算法来实现。 各决策类的最小决策算法则通过删除决策规则类中决策规则的冗余属性值及冗余规则来实现。 用core(y),VyeU/D表示决策类y的核值属性集,core(dx)表示决策规则比的核值属性集,则有 core(y)cC,core(dx)cC,且 core^y}=\^core(dx)。 dxeDRC(y) 下-而给出求取决策类y的最小决策算法步骤: 1)任取dxeDRC(y); 2)如果[xLgdjUy,则输出决策规则 比: des([x]D\DRC{y)=DRC(y)/[x]iorc{d), 转9); 其中,DRC(y)=DRC(y)/[x]t<>rc{dx)表示从DRC(y)中删除规则 dx: des([x,]c)=>des([x,]D),这里,e[x]core{d)o 3)令Ai=core(y)-core(dx),A2=C-coie(y),在测度函数w(a)=|posc-(a}(D)|/|U|下对Ai、A? 中元素排序,得有序集OAi、OA2,则有序集OA=OA2OA2且|OA|=m,OA的m个有序杲子集分别为Ti(OA),T2(OA),Tm(OA),相应的元素个数丿7111,D.2,•..,11m° 4)j=l; 5)i=l; 6)令B=core(dx)u厂(04),女口果[x]BCy,输出dx: des([x]B)=>des([x]D)»DRC(y)=DRC(y)/[x]B,转9); 7)1=1+1,如果i9j,转6); 8)j=j+1,如果j 9)如果DRC(y>(|),转1); 10)结束。 根据上述步骤,依次求得各决策类ywU/D的最小决策算法,就可以得到整个决策表的最小决策算法。 823启发式值约简算法 分析最小值约简,也可以从值核入于。 算法输入: 信息系统T(假定系统有n条记录,m-l个条件属性, 1个决策属性)。 算法输出: T的值约 第一步对信息表中陈件属性进行逐列*。 删除该列后,若产仆】冲突记录,则保留冲突记录的原该属性值: 否则,如果仃重复记录,则将重复记录的该属性值标记为可: 对丁慎他记录,将该属性值榻记为“? ”。 For(j=lTom-1) For(i=lTon){ If msjc#i小f&羊jz¥mq/fT严H-Tii=TAT吐TJ Elseif mgj人V/Q人冗工? TTn=几)) TL; ElseT;j=? ; } FogTon)Tim=Tjm; 第二步删除可能产生的重复记录,并考察每条含有标记“? ”的记录。 若仅由未被标记的属性值即可以判断出决策,则将标记“? ”改为“*”;否则,将标记“? ”修改为原属性值;若某条记录的所有条件属性均被标记,则标记“? ”修改为原属性值。 For(j=lToni-1) For(i=lTon){ ifTj==? { ifV/(/HmT(T;/=zT]==*)) T\rTtJ. ElseIf v<- AT>1工*TTa==Tkl)T几”==TJ n=*. ElseT: j=Tij; } } 第三步删除所有条件属性均被标记为的记录及可能产生的重复记录(假定Card(r)=/7,)o 第四步如果两条记录仅有一个条件属性值不同,且其中一条记录该属性被标记为“*”,那么,对该记录如果可由未被标记的属性值判断出决策,则删除另外一条记录;否则,删除本记录。 Foreachtuple(z)m厂{ If332工"Tl严TMTL=朴\/2=itT;j=Tp{ IfV;,(V/0H加AT'jH*)TT炉==TpTThm==TJ 删除记录k; Else删除记录i; } ElseifSt3i(/hmATn*TkiAT\i~*AV7O*Tij==7\)){ IfB(U工加ATkj工*)TTh=『JTThm=TJ 删除记录i; Else删除记录R; } } 经过上述值约简之后得到的新信息表,所有属性值均为该表的值核,所有记录均对应为一条决策规则。 8.2.4基于决策矩阵的值约简算法 这里对Ziarko等人用于获取具有最大适应度(一般化)规则的值约简算法进行介绍,釆用的是可变精度Rough集模型。 对于一个属性约简结果信息表RED,令X,+(i=l,2,...,y)>X~0=1,2,...,p)表示关系R*(RED)的等价类,X;uPOS$ed(Y),X;匸NEG? ed(X),决策矩阵M=(My)wp定义为: Mtj={(dJ(X「4)): aeRED,f(X: a)工/(X“)}。 也就是说,My包含了在等价类X: 和X;上具有不同值的所有属性值对。 给定等价类X: 将M’j的各个元素作为一个布尔表达式,决策规则集合可以表达为如下形式的布尔函数: =a(vM..)o 可以看出,布尔函数B的基木蕴含实际上是属于正域POS爲⑺的等价类X「的最大一般化规则。 因此,通过发现所有决策函数B’(i=1,2,...,y)的基本蕴含,就可以计算出正域POS的所有最大 一般化规则。 Zmiko等人将此算法成功地应用于一个水资源调度系统的设计中,有关内容可以参考本书10.1节。 .3缺省规则获取算法 前面对属性约简和值约简的算法进行了介绍,症过约简,得到的结果就直接和决策规贝页瓦唾鱼就是得到了决策规则C对于决策衣,我们也A卜一血介绍 Skowron提出的和通过投影得到缺省决策规则的算法 La 、玖伏朿1 Jyrr fy|Ar f/•tT小 ii1i 1^1<~zr**rjjjy\ <-<<,o «owron: •H|? 1 * 扌应f >/1A-41 1Jii •11 A ” 1 X 7 •決• 1• Skowron的缺省规则获取方法 输入: 决策表A*=(U,A*),其中A*=(C\D),U是决策表中个体(或称为元素、样本)的全集,A*是每个个体的属性集,包括条件属性集C*和决策属性D; 输出: 缺省规则集。 第一步: 根据条件属性计算A*的不分明关系,即条件属性对决策表A*的划分: Eg(Eg)属于WlNDC), K=如果某个划分Eg对特定决策(如XJ的 成员度超过一定阈值,则根据决策表A*的可辨识矩阵产生相应的缺省规则,即 如果坨(Eg),x)=|%c・)nX」/|%c・)|n“”,则得到规则 5血(“工)*仇功I慎〃限,cl,其中,限门n叩陽爲是规则"(3)的可信度因子。 第二步: 将决策表A*加入决策表集合屮,即U/={A*}o 第三步: 如果屮=①,则结束;否则,从屮中取出一个决策表A=(UA),计算其属性核CoreD(C)o通过删除某一核属性(如Cg)可以得到条件属性上的投影CPr=C-Ccut,其中r=l,-,Card(CoreD(C)),C为该决策表的条件属性集合,Cm是删掉的核条件属性。 对每个投影Cp「作如下处理: 1如果CPr= 2将投影得到的新决策表A-(U,AJ加入屮(屮=屮u{AJ),其中A-(CPr,D); 3根据条件属性计算投影Cp「的不分明关系,即条件属性对该投影决策表A,的划分Eg)(E{KCti)属于U/IND(CPI), K=l,—|t/〃Ngj|)。 4如果某个划分Eg)对特定决策(如XJ的成员度超过一定阈 值,则根据决策表A,的可辨识矩阵产生相应的缺省规则,即如果仏(%®,XJ=慎g)"〃恳心)卜“则得到规则 Rf: Des(E^K,CPr)—>Des(xj,D)囤心打)ClXj 5为每条缺省规则R,构造封锁该规则的事实: 若存在EnE属于U/IND(C),并且E是E(K,Cp「)的子集,并且 E,nxy=,则形成如下事实: F': Des(Ei,CCul)tNOT(R)。 第四步: 转第三步。 下面举例说明该算法。 表&3-1所示的决策表,其条件属性为C={a,b,c},决策属性为d,共有100个元素,分为4类,所有元素被条件属性划分为5个不分明关系。 表8.3-1的可辨识矩阵如表8.3-2所示。 其核属性为a和c,如果所有的阈值取为0.55,可以得到如下规则: Ri: aiC3~*di|1.0»R? : aici_>d211.0»R3: b? cifch|1.0, R4: a2->d2I1.0,R5: b3-*d2I1.0,R6: a3~*d3|0.8, R7: bs-*chI0.8, 这里,规则a^bjCLdp|p的含义是如果条件属性b、c的值分别为1、j、k,则其结论d为p,规则的可信度为U。 ci-*NOT(Rn)o Skowron解决了在决策表中有冲突和不一致情况下的规则获取问题,而且,即使对于一致的情况,为了能够得到适应度更大的缺省规则,他也通过删掉决策表中的核属性来引入人为的不一致性,得到适应度更大的、具有不确定性的缺省规则,使得所得到的规则对待识样本具有更好的适应性。 如果我们只是从决策表中获取确定规则(即可信度为1.0的规则),那么对一些待识样本就无法处理。 假设有一个待识样本,我们只知道其属性"的取值为1,我们就无法根据确定规则推断其结论是什么;但如果我们釆用缺省规则,就能够在一定程度上判定这个样本可能是第1类(di)样木,可信度为0.91o但是,Skowion的这一方法并不完备。 如果待识样本为mbscs,根据规则Ri可以得到结论di,根据规则R5可以得到结论ch,这两条规则的可信度均为1.0,我们仍然无法判定该样本的类别。 同样,如果是样本a1b5c2,根据规则R9可以判定结论为山,其可信度为0.91,而根据规则R7可以判定结论为d3,其可信度为0.8,我们又如何判定该样本的类别呢? 显然,出现这些问题的原因在于规则之间有冲突(矛盾)。 对于不一致性问题,我们将在下一章中进行讨论。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 决策 表值约简