基因模型1Word下载.docx
- 文档编号:20891486
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:20
- 大小:546.30KB
基因模型1Word下载.docx
《基因模型1Word下载.docx》由会员分享,可在线阅读,更多相关《基因模型1Word下载.docx(20页珍藏版)》请在冰豆网上搜索。
5.癌症样本中存在子类与癌症样本和正常样本都有很高的相似性,但正常样本中不存在其他种类样本。
6.癌症样本与正常样本的区别只与基因表达水平有关,不考虑其他因素。
三.符号说明
符号意义
字母表示
单位
样本中基因的参数
无量纲
样本的数据矩阵
X
第i行最大的参数
第i行最小的参数
对矩阵X进行数据格式化矩阵
A
模糊相似矩阵的参数
模糊相似矩阵
R
建立模糊等价矩阵
'
编网法参数
四.问题分析
4.1对问题
(1)的分析
在问题
(1)中,需要我们预测待检测样本是癌症还是正常的样本,解决这一问题的方法就是如何构造一种合理的分类方法,表现出癌症与正常样本在基因表达水平上的区别。
首先我们运用聚类分析方法,先对前40个病人进行分类,创建这40个样本的数据矩阵,运用模糊数学方法,先对矩阵进行格式化,得到格式矩阵,再计算其模糊相似矩阵,最后运用编网法对矩阵进行聚类。
若前面20个样本(1-20号样本)中有某些样本与后面的20个样本(21-40号样本,即健康人的样本)归为一类,说明这些样本的基因没有导致癌症,因此可以判断为子类。
根据上述分析,我们将1-40号样本分为三类:
然后将待检测的20个样本写成一个矩阵,并且加入一个健康人的样本作为对照,运用模糊模型和编网法进行聚类,得到41-60号样本的致病基因及健康的基因。
然而,由于对照样本只有一个正常的基因,存在一定的偶然性,可能产生较大误差。
为了减小误差,确定样本分类,我们对模型进行改进,采用感知器神经网络模型,通过对数据的训练以及对41-60号样本数据的测试,分类出癌症样本和正常样本。
4.2对问题
(2)的分析
首先我们分别计算出癌症样本和正常样本的基因表达水平的样本均值,分别得到矩阵P与矩阵Q,然后我们作折线图分析矩阵P、Q的数值差异,通过图像可以明显看出二者之间的区别,也就是这样能清楚地表现癌症与正常样本在基因表达水平上的区别。
然后,通过在癌症样本中计算每个样本与癌症样本均值P的距离(即为矩阵对应项平均差之和),得到一组数据;
五.模型建立及求解
对问题
(1)的模型建立以及求解:
5.1模型Ⅰ——模糊聚类分析法
5.1.1建立样本矩阵及数据规格化
通过所给的数据,我们提取前40个样本建立矩阵X
x1=(x1,1,x1,2,x1,3………x1,114);
x2=(x2,1,x2,2,x2,3………x2,114);
…………
x40=(x40,1,x40,2,x40,3………x40,114);
由于114个指标的量纲和数量级数相同,这里直接利用原始数据进行计算,必须对原始数据进行无量纲化处理。
利用极差值规格化公式
进行数据格式化,可得矩阵A。
5.1.2建立模糊相似矩阵
依据规格化后的数据矩阵A,确定模糊相似矩阵R,采用欧式距离公式
计算相似系数,式中m=114(一个样本基因个数),c为适当选择的常数,可使得0<
<
1.选择0.3,可得模糊相似矩阵如下:
R=
5.1.3建立模糊等价矩阵
为了使上面所得的模糊相似矩阵R满足传递性,需要将其改造成模糊等价矩阵R*。
这里采用平方法计算传递闭包:
R—R2—……..—R2k—……..,将模糊相似矩阵进行自乘可得:
我们得到R*=
R*=
R*即为模糊等价矩阵。
5.1.4聚类分析
得到模糊等价关系R*后,采用编网法对其进行聚类。
编网法分类的步骤:
(1)根据被分类元素的相似性构造相似矩阵A;
(2)取如
[0,1],用入水平截取A
;
(3)在A
的对角线上填上代表分类元素的符号,而在对角线下方,以“*”代表1,“0”略去不写;
(4)由“*”分别向对角线画竖线和横线,称之为编网;
(5)在编网中,进过同一点的横,竖线称为打上了节,通过打结而能互相连接起来的点属于同一类;
(6)调整
的值,以找到符合要求的分类。
通过以上方法,我们用
=0.75水平截取,在
的对角线上代表分类元素的符号,在对角线下方,将元素中大于0.75的取为’1”,小于0.75的取为“0”,由“1”分别向对角线画竖线及横线进行编网,将进过同一点的横,竖线称为打上了结,通过“打结”而相互连接起来的点属于同一类
图1编网法对1-40号样本分类示意图
通过图1可以看出:
V1={213172021222324252627303134353639}这些个样本归为一类。
在这个分类中,有2131720这几个样本是从癌症病人身上取得放入基因样本,但是他又在健康人的基因样本中,因此,我们认为它是子类。
因此我们将前面的40个基因样本分为以下三类:
健康人的基因样本
x21x22x23x24x25x26x27x28x29x30x31x32x33x34x35x36x37x38x39x40
致病基因样本的子类
x2x13x17x20
癌症基因样本的子类
x1x3x4x5x6x7x8x9x10x11x12x14x15x16x18x19
5.1.5对20个待检测基因样本进行预测
将这20个基因样本的数据写成一个矩阵P,并且加入一个健康人的基因样本作为对照样本这里我们选作样本21,按照以上的各种方法求出矩阵P的模糊相似矩阵为P1=
经过编网法进行聚类的结果为下图:
图2编网法对未知样本分类示意图
从图中可以看出:
M1={41424445474950535758}这些样本与正常样本归为一类,所以在这些样本应该是正常的样本。
而样本{43464851525455565960}这些样本是癌症样本。
用以上方法对后面的样本进行分类时,我们只选了一个健康的样本,由于存在一定偶然性,可能会产生较大的误差,所以,我们决定用感知器神经网络来解决这个问题,优化分类结果。
5.2模型二神经网络模型
5.2.1单层感知器工作原理
对于只有两个输入的判别边界是直线
,选择合适的学习算法可训练出满意的结果,当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开。
如下图所示:
图3单层感知器工作原理示意图
5.2.2单层感知器学习算法思想
1、基于迭代的思想,通常是采用误差校正学习规则的学习算法。
2、可以将偏差作为神经元突触权值向量的第一个分量加到权值向量中,输入向量和权值向量可分别写成如下的形式:
3、令上式等于零,可得到在维空间的单层感知器的判别超平面。
4、单层感知器学习算法
第一步,设置变量和参量:
为激活函数,为网络实际输出,为期望输出,为学习速率,为迭代次数,为实际输出与期望输出的误差。
第二步,初始化:
给权值向量的各个分量赋一个较小的随机非零值,置
第三步,输入一组样本,并给出它的期望输出。
第四步,计算实际输出:
第五步,求出期望输出和实际输出求出差
根据误差判断目前输出是否满足条件,一般为对所有样本误差为零或者均小于预设的值,则算法结束,否则将值增加1,并用下式调整权值:
然后转到第三步,进入下一轮计算过程
通过编程实现得到以下结果:
Columns1through16
0111101011111110
Columns17through20
1110
通过上述即如果可以看出
V1={4146485660}规划为一类,这类样本是癌症样本。
V2={424344454749505152535455575859}这类样本是正常的。
所以,41-60号基因分类如下:
癌症基因样本
x41x46x48x56x60
健康人基因样本
x42x43x44x45x47x49x50x51x52x53x54x55x57x58x59
对问题
(2)的模型建立以及求解
5.3可视化表现癌症和正常样本差异
用矩阵C表示样本中前20个癌症的样本:
c1=(c1,1,c1,2,c1,3………c1,114);
c2=(c2,1,c2,2,c2,3………c2,114);
c20=(c20,1,c20,2,c20,3………c20,114);
我们新建一个样本C*表示这20个样本数据均值的样本,并用这个样本表示癌症的样本中心。
同样,我们计算出正常样本的中心D*。
分析C*,D*中的数据,得到下图:
图4癌症样本和正常样本的基因表达水平的样本均值对比图
上图中系列一为癌症病例的各基因表达水平平均值,系列三为正常样本基因表达水平平均值,通过比较我们可以清楚看到,癌症病例的基因由于某种原因,几乎所有基因表达水平的平均值都低于正常样本水平。
由此,我们可以得出这样一个结论,如果某一样本的基因表达水平大部分接近正常样本的曲线,我们就认为该样本为正常,同理,如果此样本大部分接近癌症病例的曲线,我们就认为此样本为癌症样本。
这样,通过上图,我们不仅可以清楚地表现癌症与正常样本在基因表达水平上的区别,即癌症基因表达水平普遍低于正常样本水平;
还能通过将新样本的点带入上图中,粗略判断样本类型。
5.4癌症样本存在子类的可视化判断
我们分别计算每个癌症样本到这个样本中心的距离,我们定义第i个样本到这个样本中心的距离di为:
,并分别求出这20个距离为:
Columns1through9
1.78002.70001.85001.62002.52002.06001.43001.27001.5500
Columns10through18
1.87001.55002.98003.39001.44001.64001.92003.48001.5500
Columns19through20
1.45003.1200
对这20个数据进行图形分析,得到下列图形:
图5癌症样本(包含子类)与均值间的距离
通过这个图形,我们发现样本25131720与其他的样本差距较大。
而这几个样本与我们在模型一中求出的癌症样本子类基本一致,所以我们可以假设这几个样本就是癌症样本的子类。
再用同样的方法对20个健康基因的样本分别求出每个样本到样本中心的距离:
1.33002.09001.72001.82001.66001.52001.45003.38001.8100
1.95001.55001.80002.70001.40001.79002.29002.59002.5600
1.22002.6600
图6正常样本(不包含子类)与均值间的距离
从图中我们可以看出正常样本与均值距离集中在区间[1.00,3.00]中,为了鉴定样本2、13、17、20是不是子类,即样本中的基因是不是正常的基因,我们将这几个样本与正常样本放在一起进行上述方法研究,求出每个样本到样本中心的距离进行对比判断。
(其中后4个数据是加入子类的数据)
Columns19through24
1.22002.66002.71001.80001.91001.9800
根据以上数据,做出下面图形:
图7正常样本(包含子类)与均值间的距离
通过上面图形可以看出4个子类(21-24)到样本中心的距离和前20个正常样本到样本中心的距离基本无差异,所以可以认为假设成立,即这4个样本是癌症样本的子类。
六.模型评价
6.1模型的优缺点:
优点:
(1)在问题一中,模糊数学聚类分析方法与神经网络相结合,使模型更加完善。
(2)模型里面有很多的图表,能很直观的反映出数据的特征。
(3)利用EXCEL软件对数据进行处理并作出各种平面图,简便,直观、快捷。
缺点:
(4)在模型一聚类分析中,在运用编网法分类的时候,当
取值不同时,所取得分类不一样,即所得的分类结果不稳定。
(5)运用样本间的距离来表示样本间的相似程度,可能不精确。
(6)模型没有对灵敏度进行分析,对数据没有预测性。
6.2模型的推广:
随着现在各种传染疾病,艾滋等疾病的不断出现,我们可不可以把这个模式进行改进推广,应用到这些疾病进行预测。
同时,癌症的广义类别(如乳腺癌、肝癌或肺癌)中很多都还具有许多子类,这些子类病情的严重性和所需的特定治疗方法和药物各不相同,说明了广义类别中的差异。
所以,医生应该根据每种子类,对症下药。
但目前还没有确定癌症的所有子类,随着针对临床特征的新药物和治疗方法的不断涌现,区分癌症的子类就变得越来越重要。
该模型对于癌症与正常样本,癌症与子类进行粗略分类有一定帮助。
七.参考文献
[1]韩中庚,数学建模方法及其应用,北京:
高等教育出版社,2005年。
[2]姜启源,谢金星,数学模型(第三版),北京:
高等教育出版社,2003年。
[3]梁保松,曹殿立,模糊数学及其应用,北京:
科学出版社,2007年。
[4]范周田,模糊矩阵理论与应用,北京:
科学出版社,2006年
[5]袁新生,邵大宏,郁时炼,LINGO和EXCEL在数学建模中的应用,北京:
科学出版社,2007年
[6]SimonHaykin,神经网络原理,机械工业出版社,2004年。
[7]史忠植,神经网络,高等教育出版社,2010
八.附录
部分matlab程序代码:
%%%%%%%%%%%%%%%%%%%%%
%求样本的标准化矩阵
fori=1:
r
A_new(i,1:
l)=(A(i,:
)-min(A(i,:
)))/(max(A(i,:
))-min(A(i,:
)));
end
%求样本的相似矩阵
40
forj=1:
sum=0
fork=1:
114
sum=sum+(p_new(i,k)-p_new(j,k))*(p_new(i,k)-p_new(j,k));
r(i,j)=1-0.3*sqrt(sum);
得到预测样本分类的相似矩阵
r=
Columns1through9
1.00000.39330.44090.47010.69940.59390.56550.54070.5201
0.39331.00000.65280.26970.41600.58170.34070.54000.3305
0.44090.65281.00000.38340.43740.58220.40570.47070.3752
0.47010.26970.38341.00000.50580.48200.71790.40840.4556
0.69940.41600.43740.50581.00000.73740.63790.70000.6291
0.59390.58170.58220.48200.73741.00000.58750.77270.6231
0.56550.34070.40570.71790.63790.58751.00000.54800.6089
0.54070.54000.47070.40840.70000.77270.54801.00000.5697
0.52010.33050.37520.45560.62910.62310.60890.56971.0000
0.58350.47300.54610.49510.63500.64610.52630.57280.4578
0.59390.50790.60950.49570.65600.73320.55410.61330.5845
0.54490.31680.46850.71210.57460.55220.70250.45230.5834
0.56470.31000.43920.69950.59740.55300.75480.47760.5873
0.57510.51580.57230.50470.65390.70340.55750.62890.4636
0.42780.22190.34440.78240.46140.44020.68760.35610.4272
0.41870.24620.26260.46980.46830.45480.55220.48180.4617
0.42820.21960.34280.76230.47820.43930.68570.35090.4526
0.46180.69180.69860.40270.52090.69340.44010.60750.3916
0.60660.33830.46450.72660.61770.58170.73310.47790.5344
0.56780.46310.58960.42220.50410.54800.44080.45350.3857
0.61980.28760.37950.48580.57640.49610.58080.46540.5237
0.58350.59390.54490.56470.57510.42780.41870.42820.4618
0.47300.50790.31680.31000.51580.22190.24620.21960.6918
0.54610.60950.46850.43920.57230.34440.26260.34280.6986
0.49510.49570.71210.69950.50470.78240.46980.76230.4027
0.63500.65600.57460.59740.65390.46140.46830.47820.5209
0.64610.73320.55220.55300.70340.44020.45480.43930.6934
0.52630.55410.70250.75480.55750.68760.55220.68570.4401
0.57280.61330.45230.47760.62890.35610.48180.35090.6075
0.45780.58450.58340.58730.46360.42720.46170.45260.3916
1.00000.62040.53290.53760.76190.45290.32540.46560.6448
0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因 模型
![提示](https://static.bdocx.com/images/bang_tan.gif)