结合遗传算法对人体神经的特征选择.docx
- 文档编号:10329970
- 上传时间:2023-02-10
- 格式:DOCX
- 页数:12
- 大小:137.06KB
结合遗传算法对人体神经的特征选择.docx
《结合遗传算法对人体神经的特征选择.docx》由会员分享,可在线阅读,更多相关《结合遗传算法对人体神经的特征选择.docx(12页珍藏版)》请在冰豆网上搜索。
结合遗传算法对人体神经的特征选择
神经vs.统计分类器结合遗传算法的特征选择
PingZhang,BrijeshVerma,KuldeepKumar
邦德大学的信息技术系,澳大利亚大学信息技术系以及中昆士兰大学。
2004年9月10日
文摘
数字钼靶是一个最适当的方法来检查乳腺癌。
它使用数字乳腺相发现可疑区域,并含有良性和恶性了的小概化灶。
然而,很难区分开来良性和恶性小概化灶。
这是反映在不必要的活检中比例高的,和许多人死亡进行造成误诊侦测能力或者晚些时候。
一个基于计算机的特征选取、分类系统能够提供一种意见的放射学家在评估了小概化灶。
通过本文的研究提出的和研究特征选择算法结合神经和统计分类模式。
结果表明,本文提出的方法能完成找到合适的特征子集和神经分类器取得较好的效果的两种统计模型。
1.介绍
乳腺癌是癌症死亡的主要原因女性在40-55岁之间。
目前没有一定的方法来防止乳腺癌癌症。
这是一个为什么早期检测的原因是一个非常美丽的国家重要的因素,从而提高存活率。
数字钼靶被认为是最可靠的方法来及早发现,然而,在开始阶段,视觉线索是细微的,不同的出现,令诊断困难,具有挑战性。
看起来就像一个微在小亮点乳房癌的诊断。
大多数最小检测乳腺癌出现了小概化灶,然而很难辨别良性和恶性了小概化灶。
到决定可疑的面积上数字乳房癌之诊断包含良性,恶性了小概化灶,传统的组织要被去掉检查乳腺活检使用技术。
计算机分类系统的了小概化灶可以提供一种意见到放射科医师和降低一系列的没有必要的活检。
数码照相带来了这种可能性利用计算机辅助诊断系统。
当前的图像处理技术方便,但检测微分类恶性肿瘤或良性了小概化灶仍是非常具有挑战性的,一个艰难的问题。
直接一个重要的因素是特征分级结果的影响提取。
研究人员花了许多时间在尝试找到一个组织的功能,将援助他们在提高分类恶性了小概化灶。
一个特征是唯一的可不会受到太大了分类,但可能重要的现实意义如果结合其他的特性。
全套特点包括冗余的或无关的信息,组合、构建多分类器使用随机所选特征参数实现更好的性能在分类上完成设置功能。
保证唯一途径选择最优的特征向量是一个完全无遗漏搜索所有可能的子集功能。
然而,搜索空间会很需要探索型。
对于N特征、一些可能的子集是2N。
特征子集选取被定义为一种过程的一个子集选择的特点大的特点,最大限度地分类已知的过程性能所有可能的子集。
这篇文章的目的提出及考核neural-genetic算法结合神经和统计分类寻找最重要特征一套特点适合分类异常对小钙化灶。
这个命题统一组织如下:
第二部分已做了大量的工作;第三节描述了该研究方法;实验的结果在第4讨论了;第5节的优化设计提供了依据该方法所期望的结果。
结论说明了未来发展方向。
2.文献
研究者把很多努力放在寻找最大的特点或最佳组合特征赋予最高分类效果使用适当的分类器。
搜索策略和最佳优先搜索已被使用通过Kohavi和Somerfield找到子集预测精度高的特点。
成本使用,特征加权技术重量分配一个实特征。
体重相关的特点、它的关联和意义的分类任务。
约翰孙俐检查了利用启发式搜索特征子集的选择,大多数这些方法承担的单调性衡量分类性能,然后使用的分枝定界搜索。
这单调性假设似乎运作合理某种形式与线性分类。
然而,他们能表现出具有非线性分类器的表现,如神经网络。
Racz和Nieniewski采用最多歧视成分分析和一名前锋反向选择策略减少输入46189大小为他的计算机辅助诊断系统分析的基础上,microcalcifi疾病学组。
有些人探究了随机和人口的基础启发式搜索技术,如遗传算法选择的特征子集用于不同分类。
遗传算法提供multicriteria方法非常有吸引力进行优化,从而无法处理由科技部进行其他的方法。
遗传算法为特征选择纹理分类器在合成孔径机载雷达图像。
他们发现更多有效的特征的图像和其他分类。
涉及遗传策略进行特征值筛选的创造力和组合常见的随机抽样的功能和决策表处理大规模特征空间展示了一个很好的结果。
全面回顾文献、神经网络特别有效的进行微调码解决方案一旦有前景的地区搜救空间有被证实。
Chitre疾病学组用反向传播(BP)神经网络微形象结构分类比较结果与统计意义下的分类。
铅和钎使用BP算法小波transform-based卡尔曼滤波方法神经网络质量检测。
使用BP与动量和电力需求管理向神经网络分类。
他取得了分类效果的对良性和81.25%恶性的。
Zakos,开发了一种计算机辅助诊断系统数字乳腺相基于模糊神经和特征提取技术。
他们使用了模糊技术微检测模式和神经网络把它微妙的从奈梅亨数字mammographic数据库被用于他们的实验。
他们的研究取得了非常值得称赞的结果分类效果明显,分类为良性或恶性的。
进化算法通常是相当快速有效的全局搜索,大型搜索空间多联方式的优化问题。
使用毒气用于训练神经网络,最近开始接受相当多的关注。
比较摘要现有基于梯度的训练,如英国石油,不是基于遗传算法的计算衍生工具误差表面,可不能出现有时非常昂贵的发现。
对目标,这是由遗传算法训练用户定义适应度函数。
这使这个更容易降低整体的复杂性。
虽然很缓慢,它是不敏感的初始的状况。
据我们所知,没有技术结合神经网络和遗传算法的用于开采最好的特征和数字乳腺相分类了小概化灶,使计算机癌症检测更为现实。
概述所提出的方法在下面描述。
3.研究方法
3.1Mammographic数据库中备案
在这项研究中数字数据库的检查(DDSM)大学护理佛罗里达是用来实验。
建立DDSM使这种可能性比较不同的研究结果。
它提供了一个大乳腺相关的数字格式。
在DDSM中,总结了可疑的地区源于标记在电影里的两经验丰富的放射科医师。
每个边界异常的指定为链码,这便于特征提取为每个码可疑的地区在图像文件中。
3.2特征提取
能够找到最好的特征或组合特点及分类效果得到更高的模式识别字母,这项研究目的是一个最主要的分类。
并对模型中的特征抽取技术是由三部分:
(1)区域提取乳腺相标记;
(2)功能萃取法提取(3)功能选择所需的分类。
3.2.1区域提取
区域提取处理提取灰色值在所有的可疑的地区在乳腺相专家放射科医师的标志。
它完成了三个步骤:
(1)根据描述链码的“.OVERLAY”文件的数据库中,提取边界可疑的地区。
(2)瘦身的边界。
(3)提取所有的灰色价值的领域和边界地区。
3.2.2提取特征抽取的地区
一套特点是通过计算每个可疑的面积的研究。
特点是常用的现有的特点,在相关的文献资料和修改由我们取得了更高的比率分类的传统部分。
特点是:
(1)像素数字,
(2)AHg直方图(平均),(3)平均灰色的水平(银),(4)修改的能量(MEgy),(5)修改熵Metp),(6)修改标准偏差(并),(7)修改的倾斜(移键控(MSk)),(8)平均水平边界灰色水准(包),(9)差异(Df),(10)对比(Ctr),(11)能量(Egy),(12)熵(Etp),(13)标准偏差(SD),(14)的倾斜(Sk)。
每个特性计算公式描述如下:
对于每一种公式总数是小组利用像素,可是一个指标的图像I,K灰色层次总数(如下。
4096),j是灰色的水平(如下。
0-4095价值),I(g)是灰色的水平的价值像素g在图像I,N(j)是像素数字与灰色水平j在图像I,P(I(g)的概率灰色的水平(g)重视I出现在图像中,I,P(g)=N(I(g)公吨,P(j)的可能性灰色的水平价值j发生在图像中,I,P(j)=N(j)/T的水平。
像素数字是像素的的计数提取的区域。
3.2.3特征选择算法
在这项研究中,一个neural-genetic算法特征选择了基于神经网络模式分类。
每个个体在整个人口代表候选人解决特征子集选择问题。
这里,214可能的特征子集。
在这个阶段,二元向量维度14代表个体在人口。
再换句话说,染色体定义内容14个基因,每一个基因特征,它是可以取出来的2值。
0的值表明,相应的特点是未被选中,值为1意味着其特点是选择。
一个初始种群随机生成的染色体1点二进制交叉和二进制变异执行。
轮盘赌轮选择策略也用于特征选择的算法。
有关参数设置如下:
人口大小:
30、数字产生:
200条;概率交叉:
0.8,概率的突变:
0.2。
染色体健康计算根据分类效果的进化而来的特征子集,如图1显示的是
3.3分类
3.3.1神经分类器
所选特征的输入是神经网络,用于分类。
输入信号的数目取决于自动选择遗传算法的处理。
价值观的投入是归一化的特征介于0和1。
一个用于隐层神经网络。
隐层节点的节点进行调整试图达到最优分类率。
一个输出的神经网络用于该研究。
值之间也设置为01。
你想要的结果被指定为0为良性和1为恶性的。
输出珍惜每一个实际的不到阈值2是神经网络分类是良性的。
这意味着有关输入特征属于良性的微小概化。
输出值超过门槛意味着,神经网络将输入属于一个特征恶性的微小概化。
选择输出训练为
特点神经计算
输入网络合适
图
(一)基于神经网络的特征选择分类
对分类和不同的最合适的选择是另一个单独训练输入遗传算法。
在该算法中包括许多特征选择的后代。
在每一代人,评价个人(特征子集)包括训练神经网络。
标准遗传算法具有较轮盘赌一样轮选择策略用于此研究。
神经网络训练的过程中,每一个的基因人口中的个体代表权重输入层和隐层之间和重量隐层和输出之间的神经网络。
这结果是基于随机初始化的人口中的每个人,下列参数40岁;数量许多世代的概率100;交叉:
0.8,突变的可能性:
0.2。
这里交叉由2点的实际价值交叉。
2分(point1和point2)随机选择,在那里point1
为随机值,一个小的突变0.1~0.2之间加入到每根重量选定的成员那将会表现突变。
神经网络训练后最好的重物的神经网络的归类利率进一步特征选择了。
所有的程序实现采用C语言在UNIX平台。
3.3.2判别分析
判别分析作为一个整体,是有关明确的关系变量和一套互连的变量。
更确切地说,假设有一个有限数目说k的截然不同数量、种类、阶级或组。
分析模型应用于分析存在的组织已知的先验,例如个案研究考虑在这里,我们知道有两个(k=2)类型的乳腺相即恶性肿瘤或良性。
为了进行分类,个人这两组,它是程序可以比较的个人未知的是产生于各自的组。
也就是说,测试后适当的变量计算马哈拉诺比斯从每组的距离意思乳腺分类如下:
规则:
分配照相与观察向量X形GP1(恶性)
那就是:
另有良性(GP2的),在
为团体意味着向量的已知,组织和S是普遍的协方差矩阵和
这里我们假设有非常强的这两组有平等的方差统计矩阵。
这方面进行了研究,发现合理使用Box-M测试统计在满足正常的假设。
上面的规则将导致线性判别函数很容易处理。
但是,我们也同时调查了二次判别函数假设平等和这一结果被发表比较简单。
为判别作了详尽的说明和分析。
3.3.3逻辑回归
物流回归模型被广泛应用于生存分析统计,那里的反应通常代表以0或1,这取决于实验单位,例如,病人中存活下来。
这种概念也同样可以用于分类人是否在分类问题良性或恶性肿瘤基于某些特征。
对于二进制逻辑回归模型变量可以写成
这y=1,如果病人恶性肿瘤;y=0,如果病人良性肿瘤。
(病人恶性)=
是定量的还是定量独立变量。
参数估计物流模式可以通过用极大似然估计方法技术。
该算法采用有一定的理想包装SPSS统计软件性能普通最小二乘法相比,不可以用来验证错误是不正常分布。
4.实验结果
共有67的微小概化等方面进行提取出来,从数字乳腺相离开基准数据库的实验。
这提出了一种实验时间使用47微区(24良性,23恶性)培训和20微区(11良性的,9癌症)是用作测试。
所有的程序用C语言来执行。
大量的实验证实,使用不同的参数找时间特征或多种特性最好的分类微区进入良性和恶性的。
这是同样表现在决定理想的神经网络参数设置分类和微选定的特性集合。
实验结果进行了分类效果的测试集,若需计算遗传特征选择,在一些隐藏的单位和输出阈值实验中进行调整找到组合的功能和神经网络结构进行了分析,从而获得最佳的分类效果。
研究结果被描述为以下。
在所有的表、专栏的特点利用了0和1。
这里0表示反应的特点是未被选中,1意味着其特点是选择。
”B-E”(良性-错误)是用来表示数字分类错误良性了小概化灶整体训练集或测试M-E,microcacifications进行误差整个训练集或测试集合。
T-E(总数-错误)指的是数量的分类错误所有的小概化灶整体训练集或测试集合。
Total-classification的缩写为T-rate
4.1实验使用阈值0.5藏起了单位2-18
在分析研究结果从2隐藏单位到18隐藏的单位,它是引起别人的注意只能有少数特征的越来越频繁比其他的选择。
在每一个实验,大部分的特性集,得到了最高分类效果都被选中了很多次,最频繁的选择几代人。
表1聚集众特征组合,拿到最高的分类效果,使用不同的一些隐藏的单位。
我们可以看到,在每一次筛选、特征名列第六和特征7号都被选中了不断。
第八届特征几乎所有的选择,他们也是如图2显示每个特点发生的频率给那些特性集的高分类率超过80%的。
表1实验的分类效果最高的不同的隐藏的单位
4.2实验使用阈值0.4时阈值0.3
以前所有试验使用0.5为产出门槛,因为分类它是在0和1之间中间值。
它实验结果表明,被发现在大多数良性分类率高于恶性分类率。
这改变低门槛做进一步的实验和发现,如果它能取得更好的成绩。
事实上,门槛0.6被用来做实验也是。
结果是一样的预测,它不是比用阈值0.5。
这可能是因为良性分类效果很好比恶性,而不是相反。
频率选定的
指数的功能
图
(2)选择的每个特性的速度在实验随着产出的阈值0.5
表2特征选择达到的分类效果>80%使用阈值0.4
表2显示实验的结果使用产出水准下限0.4。
介绍了在特征子集达到了分类效果的测试集不少于80%。
很明显,在每一个特征包括特征7号。
除了他们,均包括名列第六。
有趣的是,这两种选择是两个,没有达到最高的分类效果在实验使用8隐藏的单位。
这个主要结果一致实验使用阈值0.5。
选择的每个特性的频率高的分类率的实验情况下使用阈值0.4。
这一趋势线一致的结果表明,在研究图2。
虽然特征选择结果一致利用阈值0.5,0.4实验利用阈值达到更高的目标。
0.4分类效果。
深入研究使用0.3作为输出阈值是为了得到更多的证据,证明了特征选择一致结果,预计会达到更高的分类率。
频率选定的
指数的功能
图3选择的每个特性的速度在实验随着产出的阈值0.4。
也就不足为奇了,特征选择显示了相似的结果,因为它出现在先前的实验。
7号、特征修改仍然是最常被选中,这是选择偏差超过在以前的实验。
一些特征子集达到最高分类效果85.0%。
组合分类测试集准确率80%。
表3显示特征组合,达到85.0%分类率,到目前为止。
一个新角色的结果,所有的特征子集这里包括传统的标准偏差,除了最受欢迎的特征修改标准的倾斜。
另一个特色、边界平均灰色水平还会筛选每个其中之一。
使用更多的实验0.2进行阈值与菌分类效果最高8隐藏单位。
总体结果不是更好些的在过去的实验。
表3特征选择分类效果达到85%使用不同的一些隐藏的单位和阈值的实验阈值0.4
特征(1-selected)隐藏单位阈值培训T-rate(%)测试T-rate(%)
表4所选特征所使用的判别分类器
表5所选特征对数回归技术使用分类利用截止0.4
同时进行的实验用判别和逻辑回归模型技术和结果能显示在表4和5。
因为它可以看出,结果比使用神经分类器好。
表6分类的特点,用3不同分类
5.讨论和分析
正如我们所看到的表在前一节,最高的分类效果85%被完成与创始人几套选定的特点。
两统计模型所选套特征,都拿到最高的分类效果70%。
然而最低分类率达到统计方法与选择的特征设置仅为50%。
这不是很难解释。
首先,其特点选择基于神经网络和所进行的分类效果的测试集。
其次,神经网络结果许多因素影响:
最初的参数,隐藏的单位,甚至不同训练方法等。
有限的主要因素的归类率会使数据库和特征提取的局限性。
这可以解释比较训练样本的数量使用之培训。
当使用37个样本训练分类率达到86.5%。
当使用47样本训练最高训练分类率仅为80.9%。
这表明,很难找到一个合适的神经网络的数据库中提取的特征的分类。
我们使用时47样本使模型运用统计学方法,我们发现的总是病例。
我们也使用随机选择的特征集和做了实验采用神经网络,判别分析和逻辑回归模型的方法。
我们证明了特征的选择算法是有效的。
观察结果,我们结果发现所有的选择以最高的分类有包含第7,13和14个。
所以我们试图用只有这三个特征,并进一步探讨的问题实验。
结果显示于表格6。
6.结论和进一步的研究
我们提出和研究了遗传算法的基础上三分类特征参数选择方法。
一些特征子集的最好的选择微分类。
最高的分类85.0%率,为测试集被完成采用该特征参数,选择一个神经网络分类器,利用统计技术验证方法为特征选择非常激动人心和有效的。
我们可以说,是3的功能,例如修改斜,标准偏差;斜在我们最重要和有效14特征。
除此之外,直方图,修改标准偏差和边界平均灰色水平应也被认为是更重要的特征。
进一步的研究需要才能进行通过增加更多的特征为进一步的选择提供更大的数据库。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 遗传 算法 人体 神经 特征 选择
![提示](https://static.bdocx.com/images/bang_tan.gif)