基于神经网络的肿瘤细胞检测.docx
- 文档编号:11540476
- 上传时间:2023-03-19
- 格式:DOCX
- 页数:27
- 大小:264.82KB
基于神经网络的肿瘤细胞检测.docx
《基于神经网络的肿瘤细胞检测.docx》由会员分享,可在线阅读,更多相关《基于神经网络的肿瘤细胞检测.docx(27页珍藏版)》请在冰豆网上搜索。
基于神经网络的肿瘤细胞检测
摘要
肿瘤已经成为影响人类健康的一大杀手。
近年来,肿瘤的治疗方法越来越多,治疗效果也越来越好,但是肿瘤早期的诊断却是一个比较大的难题,特别是对于肿瘤的良性与恶性的诊断仍然是一个科学难题。
针对这一问题,基于BP神经网络建立诊断模型,从而建立应用于乳腺癌早期诊断的计算机辅助方法,降低源于对临床细胞形态学诊断方法经验不足时的误判率。
本文使用BP神经网络,肿瘤数据采用美国新墨西哥州立大学Neuroimaging中心提供的、由高性能光学显微镜采集的肿瘤细胞和健康组织细胞的一系列数据,在Matlab环境下通过采取肿瘤患者的医学指标,建立BP神经网络,使用500组数据对网络进行训练,并且通过调整隐层节点的数量以及参数来达到网络的快速收敛和更高的准确率,最终使用随机的69组数据进行网络测试,得到较好的预测精度。
BP网络的应用,为解决肿瘤的良性与恶性的早期诊断,给出了一定的参考方法。
关键词:
肿瘤;医学诊断;BP神经网络
Abstract
Tumorhasbecomeamajorkillerofhumanhealth.Inrecentyears,thereemergesmoreandmorecancertreatmentandthetreatmentisgettingbetter,butthediagnosisofcanceronearlystageisstillabigproblem,especiallyinthediagnosisofthebenignandmalignanttumors.Tosolvethisproblem, a diagnosticmodelisestablishedbasedonBPneuralnetworks,acomputer-aideddiagnosticsystemcanbefurtherdevelopedforearlydetectionofbreasttumor,andfinallyreducethemisdiagnosisratioresultingfromthelackofexperiencederivedfromclinicalcellmorphologicaldiagnosticmethods.
Inthispaper,weapplytheBPneuralnetworktodealwiththemedicaldataincludingtumorcellsandhealthytissuecellsacquiredfromtheNeuroimagingCenteroftheNewMexicoStateUniversitycollectingthroughhigh-performanceopticalmicroscope.AfterestablishingtheBPneuralnetwork,wepick500samplestotrainthenetwork,adjustthenumberofhiddenlayernodesandthecorrespondingparameterstoachievethenetworkswithfasterconvergenceandhigheraccuracyrate.Atlast,weuserandom69samplesfornetworktesting,andgetgoodpredictionaccuracy.TheapplicationoftheBPneuralnetworkstotheearlydiagnosisofthebenignandmalignanttumorsisagoodreferenceforfuturestudy.
Keywords:
Cancer;Medicaldiagnosis;BPneuralnetwork
目录
1绪论1
1.1课题背景与意义1
1.2课题研究现状1
1.3课题研究的主要内容2
1.4Matlab工具介绍3
1.4研究步骤及方法5
2神经网络方法6
2.1人工神经网络概述6
2.1.1人工神经网络的概念6
2.1.2人工神经网络的主要方向8
2.1.3人工神经网络特点8
2.1.4人工神经网络优缺点9
2.2径向基网络10
2.3支持向量机11
2.4小波神经网络12
2.5BP神经网络12
2.5.1BP神经网络优点13
2.5.2BP神经网络缺点13
2.5.3BP神经网络算法与步骤14
3研究方法16
3.1数据解释16
3.2模型建立16
3.3训练过程17
4结果21
4.1网络优化21
4.2数据实测21
5讨论23
总结24
致谢25
参考文献26
1绪论
1.1课题背景与意义
肿瘤按照最简单的分类为两种:
良性肿瘤与恶性肿瘤。
顾名思义,良性肿瘤对于人类并无致命性,可通过现代医疗手段治愈,而恶性肿瘤又称癌症,乃是当今医学无法攻克的难题之一,其极高的病死率常年来都威胁着人类的生命健康。
一连串惊人的数字、例证,无情的发射出惊醒人类的信号。
当今世界,对人类生命威胁最严重的疾病之一仍属癌症。
在我们生活的这个地球上,每年约有500余万人因癌症而绝望的离世。
据调查,在我们中国,每年便有100万人患上癌症,每年死于癌症的病人约80万人。
仅在台湾省每年因癌症而死亡的人数就达2万余人,从该省所有死亡人数的统计来看,每5人中就有1人死于癌症。
就世界范围而言,癌症的总发病率近年来不断增高,虽然由于医学技术的进步,癌症的死亡率已经呈下降趋势,但是由于现代生活节奏的紊乱,环境的恶化,总体癌症死亡人数仍然在增加。
癌症也并非完全不可治愈,癌症是否可以治愈,在于两个关键点——
1.癌症发生部位
2.癌症发现时间
本文讨论的重点也在于此,癌症的发生部位无法人为改变与控制,但是癌症的发现时间却是可以通过先进的检测技术,及早的检测与确认,为癌症的治疗带来宝贵的时间。
本文使用BP神经网络,通过采取肿瘤患者的医学指标,并且通过调整隐层节点的数量来达到网络的快速收敛和更高的准确率,为解决肿瘤的良性与恶性的早期诊断,给出了一定的参考方法。
1.2课题研究现状
人工神经网络(简称神经网络)具有复杂模式和进行联想、推理记忆的功能,它是解决某些传统方法无法解决的问题的有力工具。
目前,它日益受到重视,同时其他科学的发展,为其提供了更大的机会。
1986年,由Rumelhart和McCelland为首的科学家小组提出了误差反向传播算法(ErrorBackPropagationAlgorithm,简称BP算法),由于多层前馈网络的训练经常采用误差反向传播算法,人们也常把多层前馈网络成为BP网络。
由于具有结构简单、工作状态稳定、易于硬件实现等优点,在众多的神经网络模型中,BP网络的应用最为广泛,尤其是在模式识别及分类、系统仿真、故障只能诊断、图像处理、函数拟合、最优预测等方面。
人工神经网络是模仿生物神经系统中神经元的一种数学处理方法。
由于它具有并行处理方式、自组织、自学习能力、联想记忆和容错等能力,因而可以起到专家系统的作用。
特别是在分类诊断以及基于分类的智能控制和优化求解方面,神经网络专家系统比传统的专家系统性能更为优越。
神经网络在医疗诊断中已经有了一些应用,如在生物医学中的高分子序列分析、图像分析及辅助诊断等许多领域取得了很好的效果。
目前,人工神经网络在医疗诊断中主要有以下几个方面:
(1)临床疾病诊断
急性心肌梗塞是最早应用神经网络进行诊断的疾病之一,始于1989年,主要应用了前馈式神经网络BP学习算法。
此后,陆续有其他疾病应用人工神经网络进行诊断,如呼吸衰竭、痴呆、精神疾病、性传播疾病等,均取得了良好的诊断结果。
神经网络没过UCI数据库中有4个关于心脏病诊断的数据库,每个数据库中有76个属性,但是只有14个是有用的。
1989年,DetranoR等利用对数回归判别函数,分别用Hungarian、Longbeach、Swiss3个数据库的数据进行冠心病的诊断,准确率约为77%;David、AhaDennisKibler用Clevelland数据库的数据进行冠心病的诊断,准确率为78.9%。
(2)影像学分析
应用于X线的骨肿瘤、胸部及肺部肿瘤诊断、PET扫描、核磁共振扫描等。
(3)医学信号检测与识别(图像识别、影像判别等)
波形分析,如心电图的波形分析(心肌梗塞、心室肥厚、房性、室性异位节律、房颤、室颤、室扑。
ST-T波形改变等)、肌电图分析、脑电图分析(老年性痴呆、癫痫等)。
(4)后果预测
重大疾病的后果预测,如ICU病房患者的死亡率、存活率预测,前列腺癌症的死亡率、复发率、存活率预测等。
(5)生物医药领域
在基础研究方面,应用ANN模型进行基因识别和DNA序列分析。
在药学方面,应用ANN进行药物分析和药代动力学研究、中草药鉴别、药物设计、化学结构识别、生产工艺控制等。
1.3课题研究的主要内容
研究的基本内容是理解和人工神经网络方法的基本原理,利用上述方法处理和分析肿瘤细胞数据(美国新墨西哥州立大学Neuroimaging中心提供的、由高性能光学显微镜采集的肿瘤细胞和正常组织细胞的一系列数据),研究人工神经网络在鉴别肿瘤细胞中应用的可行方法。
拟解决的主要问题是如何针对细胞光学检测技术的特点(数据量大,特征参数与肿瘤细胞的关系不明显,细胞个体差异和操作误差的影响),应用人工神经网络来建立适当的数学模型和算法分析,通过对样本进行训练来优化神经网络的参数,再用测试样本来检验神经网络的分类精度,最终达到识别肿瘤细胞的目的。
1.
1.4Matlab工具介绍
MATLAB是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。
它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。
MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连matlab开发工作界面接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。
MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完成相同的事情简捷得多,并且MATLAB也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。
在新的版本中也加入了对C,FORTRAN,C++,JAVA的支持。
可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。
MATLAB对许多专门的领域都开发了功能强大的模块集和工具箱。
一般来说,它们都是由特定领域的专家开发的,用户可以直接使用工具箱学习、应用和评估不同的方法而不需要自己编写代码。
目前,MATLAB已经把工具箱延伸到了科学研究和工程应用的诸多领域,诸如数据采集、数据库接口、概率统计、样条拟合、优化算法、偏微分方程求解、神经网络、小波分析、信号处理、图像处理、系统辨识、控制系统设计、LMI控制、鲁棒控制、模型预测、模糊逻辑、金融分析、地图工具、非线性控制设计、实时快速原型及半物理仿真、嵌入式系统开发、定点仿真、DSP与通讯、电力系统仿真等,都在工具箱(Toolbox)家族中有了自己的一席之地。
Matlab的优势所在:
(1)友好的工作平台编程环境
MATLAB由一系列工具组成。
这些工具方便用户使用MATLAB的函数和文件,其中许多工具采用的是图形用户界面。
包括MATLAB桌面和命令窗口、历史命令窗口、编辑器和调试器、路径搜索和用于用户浏览帮助、工作空间、文件的浏览器。
随着MATLAB的商业化以及软件本身的不断升级,MATLAB的用户界面也越来越精致,更加接近Windows的标准界面,人机交互性更强,操作更简单。
而且新版本的MATLAB提供了完整的联机查询、帮助系统,极大的方便了用户的使用。
简单的编程环境提供了比较完备的调试系统,程序不必经过编译就可以直接运行,而且能够及时地报告出现的错误及进行出错原因分析。
(2)简单易用的程序语言
Matlab是一个高级的矩阵/阵列语言,它包含控制语句、函数、数据结构、输入和输出和面向对象编程特点。
用户可以在命令窗口中将输入语句与执行命令同步,也可以先编写好一个较大的复杂的应用程序(M文件)后再一起运行。
新版本的MATLAB语言是基于最为流行的C++语言基础上的,因此语法特征与C++语言极为相似,而且更加简单,更加符合科技人员对数学表达式的书写格式。
使之更利于非计算机专业的科技人员使用。
而且这种语言可移植性好、可拓展性极强,这也是MATLAB能够深入到科学研究及工程计算各个领域的重要原因。
(3)强大的科学计算机数据处理能力
MATLAB是一个包含大量计算算法的集合。
其拥有600多个工程中要用到的数学运算函数,可以方便的实现用户所需的各种计算功能。
函数中所使用的算法都是科研和工程计算中的最新研究成果,而前经过了各种优化和容错处理。
在通常情况下,可以用它来代替底层编程语言,如C和C++。
在计算要求相同的情况下,使用MATLAB的编程工作量会大大减少。
MATLAB的这些函数集包括从最简单最基本的函数到诸如矩阵,特征向量、快速傅立叶变换的复杂函数。
函数所能解决的问题其大致包括矩阵运算和线性方程组的求解、微分方程及偏微分方程的组的求解、符号运算、傅立叶变换和数据的统计分析、工程中的优化问题、稀疏矩阵运算、复数的各种运算、三角函数和其他初等数学运算、多维数组操作以及建模动态仿真等。
(4)出色的图形处理功能
MATLAB自产生之日起就具有方便的数据可视化功能,以将向量和矩阵用图形表现出来,并且可以对图形进行标注和打印。
高层次的作图包括二维和三维的可视化、图象处理、动画和表达式作图。
可用于科学计算和工程绘图。
新版本的MATLAB对整个图形处理功能作了很大的改进和完善,使它不仅在一般数据可视化软件都具有的功能(例如二维曲线和三维曲面的绘制和处理等)方面更加完善,而且对于一些其他软件所没有的功能(例如图形的光照处理、色度处理以及四维数据的表现等),MATLAB同样表现了出色的处理能力。
同时对一些特殊的可视化要求,例如图形对话等,MATLAB也有相应的功能函数,保证了用户不同层次的要求。
另外新版本的MATLAB还着重在图形用户界面(GUI)的制作上作了很大的改善,对这方面有特殊要求的用户也可以得到满足。
(5)应用广泛的模块集合工具箱
MATLAB对许多专门的领域都开发了功能强大的模块集和工具箱。
一般来说,它们都是由特定领域的专家开发的,用户可以直接使用工具箱学习、应用和评估不同的方法而不需要自己编写代码。
目前,MATLAB已经把工具箱延伸到了科学研究和工程应用的诸多领域,诸如数据采集、数据库接口、概率统计、样条拟合、优化算法、偏微分方程求解、神经网络、小波分析、信号处理、图像处理、系统辨识、控制系统设计、LMI控制、鲁棒控制、模型预测、模糊逻辑、金融分析、地图工具、非线性控制设计、实时快速原型及半物理仿真、嵌入式系统开发、定点仿真、DSP与通讯、电力系统仿真等,都在工具箱(Toolbox)家族中有了自己的一席之地。
(6)实用的程序接口和发布平台
新版本的MATLAB可以利用MATLAB编译器和C/C++数学库和图形库,将自己的MATLAB程序自动转换为独立于MATLAB运行的C和C++代码。
允许用户编写可以和MATLAB进行交互的C或C++语言程序。
另外,MATLAB网页服务程序还容许在Web应用中使用自己的MATLAB数学和图形程序。
MATLAB的一个重要特色就是具有一套程序扩展系统和一组称之为工具箱的特殊应用子程序。
工具箱是MATLAB函数的子程序库,每一个工具箱都是为某一类学科专业和应用而定制的,主要包括信号处理、控制系统、神经网络、模糊逻辑、小波分析和系统仿真等方面的应用。
(7)应用软件开发(包括用户界面)
在开发环境中,使用户更方便地控制多个文件和图形窗口;在编程方面支持了函数嵌套,有条件中断等;在图形化方面,有了更强大的图形标注和处理功能,包括对性对起连接注释等;在输入输出方面,可以直接向Excel和HDF5进行连接。
1.4研究步骤及方法
模型建立和运算的过程采用matlab神经网络图形工具箱,BP网络形式为9个输入节点,表示判定乳腺癌良性和恶性的9个指标,隐层节点选择了5个数据用以比较网络效果,输出结果为两个二进制数据,用来表示乳腺癌良性和恶性的判定结果。
为了使BP网络实现快速收敛,第一层节点采用tansig传递函数,使输入数据经过第一层节点之后变为[-1,1]的标准数据,第二层节点采用purelin传递函数,主要是为了使训练速度变快。
将数据分为训练样本和测试样本,用训练样本对神经网络进行训练,达到参数学习的目的。
由于样本数量较大,将采用统计正确率的方式设置收敛阈值,只要人工神经网络识别肿瘤细胞的正确率达到该阈值便认为参数学习满足要求,停止训练。
2神经网络方法
神经网络(NeuralNetworks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。
神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、信息科学、控制论、机器人学、微电子学、心理学、光计算、分子生物学等有关,是一门新兴的边缘交叉学科。
1.
2.1人工神经网络概述
2.1.1人工神经网络的概念
一个人工神经网络ANN(ArtificialNeuralNetworks)就是一个信息处理系统,它具有通常生物神经学神经元网BNN(BiologicalNeuralNetwork)的某些特征,换句话说,人们探讨ANN作为人脑数学模型的综合系统,它具有如下几点:
(1)信息处理在大量简单的处理单元(称为神经元(neuron,units,cells或nodes))之间进行;
(2)通过它们之间的连接传送神经元之间的信号;
(3)各连接具有一个相应的加权,其值通常与输入信号相乘;
(4)各神经元利用一个称之为“激励函数”(Activationfunction)来处理加权的输入信号之和,以产生它的输出信号。
综上所述,一个ANN可表示为三个部分:
(1)神经元之间的连接模式,称为ANN结构(Architecture);
(2)决定这些连接权值的方法,称为训练(Training)或学习算法(Learningalgorithm);
(3)它的非线性“激励函数”(Activationfunction)。
显然,一个ANN是有大量简单神经元互连组成。
各个神经元与其它神经元是通过具有相应加权的有向通信连接线相连。
这里,权值能够表示为求解问题的知识。
应用ANN可以处理各种问题,如存储(Storing)和回忆(Recalling)数据、模式分类、匹配输入模式到输出模式、类似模式的归类或约束优化问题的求解等。
图1神经元结构模型
图2神经网络结构、层次
图1给出了一种简化的神经元结构。
它是一个多输入单输出的非线性元件,其输入输出关系可描述为:
(1)
(2)
其中xj(j=1,2,…,n)是从其它细胞传来的输入信号,θi为神经元单元的偏置(阈值),Wji表示从细胞j到细胞i的连接权值,n为输入信号数目,yi为神经元输出,f(x)称为激励函数,也叫做传递函数。
激励函数可为线性函数,但通常为像阶跃函数或S型曲线那样的非线性函数。
常用的神经元非线性函数列举如下:
(1)阈值型函数:
当yi取0或1时,f(x)为阶跃函数:
(3)
(2)S状曲线:
通常在(0,1)或(-1,1)内连续取值的单调可微分的函数,常用指数或正切等一类S状曲线来表示,如:
(4)
或
(5)
当x趋于无穷时,S状曲线趋近于阶跃函数,通常情况下
取值为1。
有时为方便起见,常看作是对应恒等于1的输入量x0的权值,这时式中的和式可记为:
(6)
其中:
(7)
2.1.2人工神经网络的主要方向
神经网络的研究内容相当广泛,反映了各学科交叉技术领域的特点。
目前,主要的研究工作集中在以下几个方面:
(1)生物原形研究
从生理学、心理学、解剖学、脑科学、病理学等生物科学方面研究神经系细胞、神经网络、神经系统的生物原形结构及其功能机理。
(2)建立理论模型
根据生物原形的研究,建立神经元、神经网络的理论模型。
其中包括概念模型、知识模型、物理化学模型、数学模型等。
(3)网络模型与算法研究
在理论模型研究的基础上构造具体的神经网络模型,以实现计算机模拟或准备制作硬件,包括网络学习算法的研究。
这方面的工作也成为技术模型研究。
(4)人工神经网络应用系统
在网络模型与算法研究的基础上,利用人工神经网络组成实际的应用系统,例如,完成某种信号处理或模式识别的功能、构造专家系统、制成机器人等等。
2.1.3人工神经网络特点
神经网络作为一种新技术之所以引起人们巨大的兴趣,并越来越多地用于控制领域,是因为与传统的控制技术相比,它具有以下重要的特征和性质:
(1)学习能力
学习能力是神经网络具有智能的重要表现,即通过训练可抽象出训练样本的主要特征,表现出强大的自适应能力。
(2)分布式
在传统的串行运行体系计算机中,信息分布在独立的存储单元中,任何部分内存的损坏都将导致整个信息的无效。
而在神经网络中,信息则分散分布在神经元的连接上,单个的连接权值和神经元都没多大的用途,但它们组合起来就能宏观上反映出一定的信息特征。
对个别神经元和连接权的损坏,并不会对信息特征造成太大的影响,表现了神经网络的强大的鲁棒性(受干扰时自动稳定的特性)和容错能力。
在输入信号受到一定干扰时,输出也不会有较大的畸变。
神经网络的信息分布特性,还使经过训练的神经网络具有强大的联想能力。
(3)并行性
神经网络是对人脑结构和功能的模拟,但更偏重对结构的模拟,各种神经元在处理信息时是各自独立的,它们分别接受输入,作用后产生输出。
这种并行计算的处理,使得它有可能用于实时快速处理信息,成为下一代智能计算机的基础。
(4)非线性
神经网络可有效地实现从输入空间到输出空间的非线性映射。
寻求输入到输出之间的非线性关系模型,是工程上普遍面临的问题。
对大部分无模型的非线性系统,神经网络都能很好地模拟。
因此,神经网络成为非线性研究的重要工具。
2.1.4人工神经网络优缺点
与传统的统计方法相比,人工神经网络具有无可比拟的优点:
(1)常规的影响因素分析方法如线性回归模型、logistic回
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 神经网络 肿瘤 细胞 检测