毕业论文样板最新.docx
- 文档编号:2921941
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:16
- 大小:100.62KB
毕业论文样板最新.docx
《毕业论文样板最新.docx》由会员分享,可在线阅读,更多相关《毕业论文样板最新.docx(16页珍藏版)》请在冰豆网上搜索。
毕业论文样板最新
基因表达数据分析的方法
摘要:
基因表达数据的一个重要应用是给疾病样本分类,如鉴别白血病的类型。
而对成千上万个基因表达进行分析,必产生总量巨大的数据集。
近年来,支持向量机(SVM)的理论已经取得重大进展,其算法实现策略以及实际应用也发展迅速,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。
利用这一技术分析与整理这些基因表达数据,已有效地解决了生物信息学上这一海量数据的瓶颈问题。
本文就支持向量机在基因表达数据分析方面的算法和应用进行了介绍和分析。
关键词:
生物信息学;基因表达数据;支持向量机
Methodsofgeneexpressiondataanalysis
Abstract:
Geneexpressiondatahasanimportantapplicationtotheclassificationofdiseasesamples,suchasidentifyingthetypesofleukemia.Theanalysisofthousandsofgeneexpressiondata,willproduceatremendousamountofdatasets.Inrecentyears,supportvectormachine(SVM)theorythatsignificantprogresshasbeenmadetowardsitsstrategyandpracticalapplicationsofalgorithmshasbeendevelopingrapidlyandbecameovercomethe"Dimensiondisaster"and"Over-study",apowerfulmeansofthetraditionaldifficulties.Usingthistechnologyanalysisandcollationofthesegeneexpressiondatahavebeeneffectivelysolvedbottleneckontheenormousbioinformaticsdata.Thispaperdiscussesthealgorithmsandapplicationofsupportvectormachineingeneexpressiondataanalysis.
Keywords:
Bioinformatics;Geneexpressiondata;Supportvectormachine
目录
1引言……………………………………………………………………………
(1)
2生物技术的发展前景…………………………………………………………
(1)
2.1生物信息学的研究现状…………………………………………………
(2)
2.2基因芯片与基因表达数据………………………………………………
(2)
2.2.1基因芯片………………………………………………………………(3)
2.2.2基因表达数据…………………………………………………………(3)
3基因表达数据分析的方法……………………………………………………(3)
3.1支持向量机………………………………………………………………(4)
3.1.1支持向量分类…………………………………………………………(4)
3.1.2分类问题的识别算法…………………………………………………(4)
3.1.3支持向量机模型………………………………………………………(6)
3.2支持向量机在基因表达数据分析中的应用……………………………(6)
3.2.1基因的选择:
t统计法……………………………………………………(7)
3.2.2降维方法:
PCA和PLS…………………………………………………(7)
3.2.3分类结果和评价………………………………………………………(8)
4结论……………………………………………………………………………(12)
致谢………………………………………………………………………………(13)
参考文献…………………………………………………………………………(13)
基因表达数据分析的方法
数学与应用数学专业本科函授校内班李冠斌
指导教师:
宋杰副教授
1引言
随着人类基因组计划的完成,人们逐步关注不同人群、正常与疾病状态下DNA序列的变化。
DNA序列的变化是有机体种属之间存在差异或种属内存在差异的根本原因,也是影响有机体正常状态和疾病状态的关键因素,对这些基因型差异进行定位、识别以及分类有着重要的定义,这是研究基因型变化与表型变化关系的第一步,是有针对性地预防和治疗疾病的基础。
单核苷酸多态性(SNP)[1]是人类基因组中最常见的一种变化。
获得一个基因的序列之后,下一个问题自然就是:
怎样利用已知的基因组序列来认识该基因产品的作用是什么?
为了了解一个基因的功能,必须知道该基因在什么时候、什么地方表达,其表达所需要的环境条件是什么?
也就是要知道该基因所对应的mRNA产生的时间和环境条件以及mRNA的数量。
弄清基因在不同组织中、不同条件下及不同的发展阶段的转录丰度,对于解决上述问题是非常重要的。
尽管mRNA不是基因的最终产物,但转录是基因法则的第一步,而且认识基因调节网络需要了解转录水平信息。
通过测定基因在某一器官中,不同条件下、不同的发展阶段和不同的组织中的转录水平,可以建立基因表达谱,用以描绘基因组中每一个基因的动态功能。
基因表达矩阵是用来描述基因表达数据的矩阵,行代表基因,列代表样本(如:
不同的组织,发展阶段和处理);每个格子的数字表示某一基因在某组织(发展阶段或某种处理)中的表达水平。
建立这样的矩阵有助于给疾病样本分类,如鉴别肿瘤的类型,以达到最大疗效同时使毒性最低。
2生物技术的发展前景
生物技术是20世纪末期,在现代分子生物学等生命科学的基础上,发展起来的一个新兴独立的技术领域,已被广泛应用于医疗保健、农业生产、食品生产、生物加工、资源开发利用、环境保护,对农牧业、制药业及其相关产业的发展有着深刻的影响,成为全球发展最快的高新技术之一。
2.1生物信息学的研究现状
生物信息学(Bioinformatics)是一门新兴的交叉学科。
它所研究的材料是生物学的数据,而它进行研究所采用的方法。
则是从各种计算技术衍生出来的[2]。
20世纪50年代,DNA双螺旋结构的阐明开创了分子生物学的时代。
以生物学和医学为主要研究内容的生命科学研究从此进入了前所未有的高速发展的阶段。
分子生物学和遗传学的文献积累到90年代中期约40多万篇,到2000年则增长至约50万篇,即在约5年间,增长了10万篇。
与此同时,更为大量的数据已经不再以传统的文献形式发表了;这里,最为典型的是DNA序列的数据。
至2001年初,国际数据库中记录的接近一千万条DNA序列的碱基数已超过110亿!
事实上,现在这一数目已达500亿!
在今天的一个大型的基因组测序中心,每天可进行十万个测序反应,产生出107的序列数据。
自1999年6月开始进入大规模测序阶段,在短短的8个月内,测序能力上升了将近8倍。
至2000年6月,这些中心在6个星期内的测序量就相当于一个人的基因组。
也就是说,每周7天,每天24小时,每秒即可产生1000个碱基的数据!
随着各国政府和工业界对此的重视,资金大量投入。
欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(NationalCenterforBiotechnologyInformatics,NCBI)、欧洲生物信息学研究所(EuropeanBioinformaticInstitute,EBI)、日本信息生物学中心(CenterforInformationBiology,CIB)等。
NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。
它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。
进而促使测序能力的高速上升,使得DNA序列数据每14个月增长一倍!
与上述生物学数据的海量特征相比,生物学数据的复杂特征更具有挑战性。
生物学数据的复杂性一方面固然是源于生物体的结构和功能,以及生命活动过程本身的多样性和复杂性,另一方面则是由生物学研究的“社会学原因”所造成的。
即生物学的实验数据,一般是在既无标准词法(semantics)、又无句法(syntax)的条件下生成的。
这一情况必然进一步加剧生物学数据的复杂性。
生物学数据在海量和复杂性方面所提出的挑战是严峻的。
2.2基因芯片与基因表达数据
十分幸运的是,在过去的二十多年里,电子计算机芯片对于数字处理的能力的增长基本符合Moore定律(指数增长)。
如今的大型计算机的数据处理能力,已经发展到每秒数千亿次乃至数万亿次计算的水平了。
有了这一技术支持条件,基因组研究所产生的海量数据,才能够得以有效地加以管理和运行。
2.2.1基因芯片
基因芯片(genechip),又称DNA微阵列(DNAmicroarray),是由大量DNA或寡核苷酸探针密集排列做形成的探针阵列,其工作的基本原理是通过杂交检测信息。
基因芯片把大量已知序列探针集成在同一个基片上,经过标记的若干靶核酸序列通过与芯片特定位置上的探针杂交,便可根据碱基互补匹配的原理确定靶基因的序列,通过处理和分析基因芯片杂交检测图象,可以对生物细胞或组织中大量的基因信息进行分析[3]。
因而,基因芯片能够在同一时间内分析大量的基因,实现生物基因信息的大规模检测。
2.2.2基因表达数据
大部分的基因芯片的研究主要是监控基因表达水平,获得基因表达图谱。
基因芯片技术是革命性的基因分析,这使得可以监测表达特定组织的基因和比较不同条件下组织的基因表达的等级成为可能,因而,基因表达的数据集已越来越丰富。
基因芯片实验将产生大量的数据,管理与分析这些数据是生物信息学所面临的一个挑战。
数据管理的目的是为了更好地利用和共享数据,而数据分析的目标则是从大量的实验数据中提取隐含的生物学信息。
特别是对基因表达数据在大规模数据集上进行分析、归纳,可以深入了解基因的功能,理解遗传网络,提供许多疾病发病机制的信息。
然而,计算与检测能力的提高并没有有效地解决生物学的数据问题。
海量的数据通过分析与整理后所产生的有用信息(基因表达数据)量变得更巨大,而最大的挑战则是数据分析。
基因芯片的表达监控实验产生大量的数据,在这些数据背后隐藏着丰富的信息,需要通过细致的数据分析揭示这些信息,得到有益的结果。
但海量的、复杂的基因表达数据使得这一挑战变得不可能。
概括地讲,我们就需要一个好的数据挖掘方法从大型数据库或数据仓库中提取人们感兴趣的、事先未知的、有用的或潜在有用的信息。
3基因表达数据分析的方法
就生物信息而言,挖掘生物分子数据库已经过二十多年的历程。
以前生物信息学的数据挖掘工作主要集中在序列信息方面,而现在通过分析处理基因表达数据挖掘基因功能信息已成为生物信息学研究的一个重点。
数据挖掘常用的方法有:
统计分析、聚类分析、决策树、自组织映射、神经网络、遗传算法等[4]。
在基因表达数据分析研究中,有一个基本假设,即基因在何时、何地表达的信息携带了关于基因功能的信息。
这样,数据挖掘的重要应用就是按照基因表达图谱的相似性分类组织基因。
这里主要介绍支持向量机方法。
3.1支持向量机
支持向量机(supportvectormachine)是数据挖掘中的一项新技术,它是由Vapnik及其合作者发明。
在20世纪90年
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业论文 样板 最新