H7N9病毒非结构蛋白NS1的基因序列分析.docx
- 文档编号:27992863
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:36
- 大小:1.23MB
H7N9病毒非结构蛋白NS1的基因序列分析.docx
《H7N9病毒非结构蛋白NS1的基因序列分析.docx》由会员分享,可在线阅读,更多相关《H7N9病毒非结构蛋白NS1的基因序列分析.docx(36页珍藏版)》请在冰豆网上搜索。
H7N9病毒非结构蛋白NS1的基因序列分析
生物信息学课程设计报告
题目:
H7N9病毒非结构蛋白NS1的基因序列分析
专业:
班级:
学号:
姓名:
指导教师:
2013年12月19日
目录
1绪论3
1.1生物信息学概况3
1.2软件工具4
1.3H7N9简介5
1.4课题目的6
1.5课题设计的主要内容6
本章总结6
2查找序列并进行Blast分析7
2.1登录GenBanK并查找H7N9病毒的一段基因序列7
2.2对序列进行Blast分析12
本章总结15
3.进行多序列比对15
3.1目标15
3.2多序列比对过程15
本章总结18
4构建系统发育树19
4.1目标19
4.2将.Aln文件转化为.meg文件19
4.3用Mega5.2构建系统发育树22
本章总结26
5设计引物26
5.1目标26
5.2引物设计过程26
本章总结32
6结果分析和讨论32
6.1结果分析32
6.2结果讨论32
1绪论
1.1生物信息学概况
生物信息学(Bioinformatics)[1]是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。
它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。
其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学可以定义为对分子生物学中两类信息流的研究:
1.第一类信息流源于分子生物学的中心法则:
DNA序列被转录为mRNA序列,后者被翻译为蛋白质序列。
蛋白质序列继而折叠为具功能的三维结构。
按照达尔文演化理论,这些功能被生物体的环境所选择,从而驱动群体中DNA序列的进化。
因此,第一类的生物信息学应用关注于中心法则中任一阶段的信息传递,包括DNA序列中基因的组织与控制、确定DNA中的转录单位、从序列预测蛋白质结构以及分子功能分析。
2.第二类信息流是基于科学方法:
提出关于生物学活动的假设,设计实验以验证这些假设,评估结果与假设的相容性,然后根据实验数据对原假设作扩展或修正。
第二类的生物信息学应用关注于这一流程中的信息传递,包括产生假设、设计实验、通过数据库将实验结果组织起来、检验数据与模型的相容性以及修正假设的各个系统。
生物信息学的主要研究方向包括:
1.序列分析
2.计算进化生物学
3.生物多样性的度量
4.蛋白质结构预测
5.蛋白质表达分析
6.比较基因组学
7.基因表达分析
8.调控分析
9.生物系统模拟
当前一些发达国家的政府、科研机构均非常重视,纷纷建立相应的机构或部门进行这方面的研究、开发和服务。
如美国国家生物信息中心(NationalCentreof
BiotechnologyInformation,NCBI),欧洲分子生物学网络(EuropeanMolecular
BiologyNetwork,EMBNet)。
另外一些生物公司亦非常重视生物信息学并组建相关的部门来从事相应的研发和应用。
在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。
许多科研单位已经开始或准备开始从事这方面的研究工作。
北京大学研究建立起一个EMBL的镜像数据库(),并提供部分的检索服务。
复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。
中科院上海生化所、生物物理所等单位在数据分析和基因预测方面也有相当的基础。
、
1.2软件工具
1.2.1Blast
BLAST(BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLAST结果中的得分是对一种对相似性的统计说明。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:
403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。
从BLAST发展到NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核酸序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
1.2.2Fasta
FASTA程序是第一个广泛使用的数据库相似性搜索程序。
程序引用取代矩阵实行局部比对以获得最佳搜索。
但众所周知,使用这种策略会非常耗费工作时,为了提高速度,在实施耗时的最佳搜索之前,程序使用已知的字串检索出可能的匹配。
在速度和敏感度之间权衡选择依赖于ktup参数。
它决定了字串的大小。
增大ktup参数就会减少字串命中的数目,也就会减少所需要的最佳搜索的数目和搜索的速度。
从2.0版本开始,FASTA对每一个检索的比对都提供一个统计学显著性的评估。
1.2.3Clustal
Clustal是一款用来对核酸与蛋白序列进行多序列比对(multiplesequencealignment)的软件。
可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助。
Clustal包括Clustalx和Clustalw(前者是图形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。
1.2.4Mega
MEGA的全称是MolecularEvolutionaryGeneticsAnalysis分子进化遗传分析。
MEGAisanintegratedtoolforautomaticandmanualsequencealignment,inferringphylogenetictrees,miningweb-baseddatabases,estimatingratesofmolecularevolution,andtestingevolutionaryhypotheses.MEGA可用于序列比对、进化树的推断、估计分子进化速度、验证进化假说等。
MEGA还可以通过网络(NCBI)进行序列的比对和数据的搜索。
1.2.5PrimerPremier
PrimerPremier是一款由加拿大的Premier公司开发的专业用于PCR或测序引物以及杂交探针的设计,评估的软件。
主要功能分四种,即引物设计、限制性内切酶位点分析、DNA基元(motif)查找和同源性分析功能。
前三种为其主要功能。
此外,该软件还有一些特殊功能,其中最重要的是设计简并引物,另外还有序列"朗读"、DNA与蛋白序列的互换、语音提示键盘输入等等。
PrimerPremier软件还可以针对模板DNA的来源以相应的遗传密码规则转换DNA和氨基酸序列。
软件共给出八种生物亚结构的不同遗传密码规则供用户选择,有纤毛虫大核(CiliateMacronuclear)、无脊椎动物线粒体(InvertebrateMitochondrion)、支原体(Mycoplasma)、植物线粒体(PlantMitochondrion)、原生动物线粒体(ProtozoanMitochondrion)、一般标准(Standard)、脊椎动物线粒体(VertebrateMito-chondrion)和酵母线粒体(YeastMitochondrion)。
1.2.6BioEdit
BioEdit是一个序列编辑器与分析工具软件。
功能包括:
序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。
1.3H7N9简介
流感是由流感病毒引起的一种急性呼吸道传染病。
流感病毒可分为甲(A)、乙(B)、丙(C)三型。
其中,甲型流感依据流感病毒特征可分为HxNx共135种亚型。
所有人类的流感病毒都可以引起禽类流感,但不是所有的禽流感病毒都可以引起人类流感,禽流感病毒中,H5、H7、H9可以传染给人。
H7N9亚型禽流感病毒是一种新型禽流感,以前仅在禽间发现,从未发现过人的感染情况。
2013年3月底,在上海和安徽两地率先发现发现3例人感染H7N9禽流感病例。
H7N9型禽流感是全球首次发现的新亚型流感病毒,尚未纳入中国法定报告传染病监测报告系统,并且也尚未有疫苗推出,人类对该病毒及其所致疾病的研究资料十分有限。
被该病毒感染均在出现发热、咳嗽等呼吸道感染症状,进而发展为严重肺炎和呼吸困难。
2013年4月经调查,H7N9禽流感病毒基因来自于东亚地区野鸟和中国上海、浙江、江苏鸡群的基因重配。
H7N9禽流感病毒的8个基因片段中,H7片段与浙江鸭群中分离的禽流感病毒相似,浙江鸭群中的病毒往上追溯,与东亚地区野鸟中分离的禽流感病毒基因相似;N9片段与东亚地区野鸟中分离的禽流感病毒相似。
其余6个基因片段与H9N2禽流感病毒相似。
据病毒基因组比对和亲缘分析显示,H9N2禽流感病毒来源于中国上海、浙江、江苏等地的鸡群。
基因重配的发生地很有可能在中国的长三角地区,过程可能是亚欧大陆迁徙的野鸟(携带病毒)在自然迁徙过程中(经由韩国等东亚地区)和中国长三角地区的鸭群、鸡群携带的禽流感病毒进行基因重配而产生。
1-3-1H7N9病毒基本情况
1.4课题目的
在学习分子生物学、生物计算技术、生物网络数据库、生物信息学的基础上,培养学生进行核酸序列查询分析的能力。
本文简单介绍了如何从NCBI获取所需的DNA序列,然后对该序列进行Blast比对,查找相关序列,进行多序列比对,构建系统发育树,为该序列的PCR扩增设计引物。
1.5课题设计的主要内容
设计内容1:
以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式。
设计内容2:
以设计内容1为目标序列进行BLAST分析。
设计内容3:
通过BLAST或相关软件下载8条基因或蛋白质序列;
设计内容4:
以8条基因序列进行多序列比对;
设计内容5:
依照设计内容4构建系统发育树;
设计内容6:
以其中一条基因序列设计一条长度为20-50bp的一对引物。
本章总结
本章主要对有关概念进行总结。
大致总结了一下生物信息学的当前进展,并且对下面将要用的相关概念及有关软件进行了简要的介绍。
明确了本文的实验目的与内容。
2查找序列并进行Blast分析
2.1登录GenBanK并查找H7N9病毒的一段基因序列
1输入网址,进入Genbank。
如图2-1-1
2-1-1
在浏览器地址栏输入Genbank网址(http:
//www.ncbi.nlm.nih.gov/genbank/),进去Genbak网站。
如图2-1-1中红色方框1处所示。
2在搜索栏(图2-1-1黄色方框2处)输入关键词”H7N9”并回车,打开搜索结果界面。
2-1-2
如图2-1-2,即为关键词h7n9的搜索结果,黄色方框处为关键词。
3选择一条长度适当的序列,直接单击(如图2-1-2,绿色方框),打开Genbank格式(如图2-1-3)
2-1-3
所选序列的Genbank格式为
LOCUSKF768180864bpcRNAlinearVRL23-NOV-2013
DEFINITIONInfluenzaAvirus(A/chicken/Zhejiang/PA-DTID-ZJU01/2013(H7N9))
segment8nuclearexportprotein(NEP)andnonstructuralprotein1
(NS1)genes,completecds.
ACCESSIONKF768180
VERSIONKF768180.1GI:
558484185
KEYWORDS.
SOURCEInfluenzaAvirus(A/chicken/Zhejiang/PA-DTID-ZJU01/2013(H7N9))
ORGANISMInfluenzaAvirus(A/chicken/Zhejiang/PA-DTID-ZJU01/2013(H7N9))
Viruses;ssRNAnegative-strandviruses;Orthomyxoviridae;
InfluenzavirusA.
REFERENCE1(bases1to864)
AUTHORSXu,L.,Bao,L.,Deng,W.,Zhu,H.,Li,F.,Chen,T.,Lv,Q.,Yuan,J.,
Xu,Y.,Li,Y.,Yao,Y.,Gu,S.,Yu,P.,Chen,H.andQin,C.
TITLEPassagingofHuman-andChicken-OriginH7N9InfluenzaVirusesin
Pigs
JOURNALUnpublished
REFERENCE2(bases1to864)
AUTHORSXu,L.,Bao,L.,Deng,W.,Zhu,H.,Li,F.,Chen,T.,Lv,Q.,Yuan,J.,
Xu,Y.,Li,Y.,Yao,Y.,Gu,S.,Yu,P.,Chen,H.andQin,C.
TITLEDirectSubmission
JOURNALSubmitted(24-OCT-2013)InfluenzaGroup,PathogenCenter,Institute
ofLaboratoryAnimalSciences,ChineseAcademyofMedicalSciences,
No.5,PanjiayuanNanli,ChaoyangDistrict,Beijing,Beijing
100021,China
COMMENT##Assembly-Data-START##
SequencingTechnology:
:
Sangerdideoxysequencing
##Assembly-Data-END##
FEATURESLocation/Qualifiers
source1..864
/organism="InfluenzaAvirus
(A/chicken/Zhejiang/PA-DTID-ZJU01/2013(H7N9))"
/mol_type="viralcRNA"
/strain="A/chicken/Zhejiang/PA-DTID-ZJU01/2013"
/serotype="H7N9"
/isolation_source="pignasalswab"
/db_xref="taxon:
1413189"
/segment="8"
/note="pigadaptedP1-P3;
subtype:
H7N9"
gene1..838
/gene="NEP"
CDSjoin(1..30,503..838)
/gene="NEP"
/codon_start=1
/product="nuclearexportprotein"
/protein_id="AHA56912.1"
/db_xref="GI:
558484186"
/translation="MDSNTVSSFQDILTRMSKMQLRSSSEDLNGMITQFESLKLYRDS
LGEAAMRMGDLHSLQSRNGKWREQLSQKFEEIRWLIEEVRHRLKITENSFEQITFMQA
LQLLLEVEQEIRTFSFQLI"
gene1..654
/gene="NS1"
CDS1..654
/gene="NS1"
/codon_start=1
/product="nonstructuralprotein1"
/protein_id="AHA56913.1"
/db_xref="GI:
558484187"
/translation="MDSNTVSSFQVDCFLWHVRKRFADQEMGDAPFLDRLRRDQKSLR
GRSSTLGLDIRTATREGKHIVERILEEESDEAFKMSIASVPAPRYLTDMTLEEMSRDW
LMLIPKQKITGSLCIRMDQAIVDKNITLKANFSVIFNRLEALILLRAFTEEGAIVGEI
SPLPSLPGHTDKDVKNAIEILIGGFEWNDNTVRVSETLQRFAWRSSDEDGRSPLSTK"
ORIGIN
1atggattccaatactgtgtcaagcttccaggtagactgctttctttggcatgtccgcaaa
61cgatttgcagaccaagaaatgggtgatgccccatttctagaccggcttcgccgagatcag
121aagtccctgagaggaagaagcagcactcttggtctggacatcagaactgccacgcgtgaa
181ggaaagcatatagtggagcggattttagaggaagagtcagatgaagcatttaaaatgagt
241attgcttcagtgccagctccacgctatctaactgacatgactcttgaagaaatgtcaaga
301gattggttaatgctcattcccaaacagaaaataacagggtccctatgcattagaatggac
361caagcaatagtggacaaaaacatcacattgaaagcaaatttcagtgtgattttcaatcgg
421cttgaagccctgatactacttagagcttttacggaagaaggagcaattgtaggcgaaatc
481tcaccattaccttctcttccaggacatactgacaaggatgtcaaaaatgcaattgagatc
541ctcatcggaggatttgaatggaatgataacacagttcgagtctctgaaactctacagaga
601ttcgcttggagaagcagcgatgaggatgggagatctccactctctacaaagtagaaacgg
661gaaatggagagaacagttaagccagaagttcgaagaaataagatggttgattgaagaagt
721acgacatagattaaaaattacggagaatagctttgagcaaataacttttatgcaagcctt
781acaactattgcttgaagtggagcaagagataagaactttctcgtttcagcttatttaatg
841ataaaaaacacccttgtttctact
//
从中可以了解序列的基本信息。
4点击图2-1-3中红色方框处的”Fasta“选项,可打开序列的fasta格式,如图2-1-4
2-1-4
原序列Fasta格式为:
>gi|558484185|gb|KF768180.1|InfluenzaAvirus(A/chicken/Zhejiang/PA-DTID-ZJU01/2013(H7N9))segment8nuclearexportprotein(NEP)andnonstructuralprotein1(NS1)genes,completecds
ATGGATTCCAATACTGTGTCAAGCTTCCAGGTAGACTGCTTTCTTTGGCATGTCCGCAAACGATTTGCAG
ACCAAGAAATGGGTGATGCCCCATTTCTAGACCGGCTTCGCCGAGATCAGAAGTCCCTGAGAGGAAGAAG
CAGCACTCTTGGTCTGGACATCAGAACTGCCACGCGTGAAGGAAAGCATATAGTGGAGCGGATTTTAGAG
GAAGAGTCAGATGAAGCATTTAAAATGAGTATTGCTTCAGTGCCAGCTCCACGCTATCTAACTGACATGA
CTCTTGAAGAAATGTCAAGAGATTGGTTAATGCTCATTCCCAAACAGAAAATAACAGGGTCCCTATGCAT
TAGAATGGACCAAGCAATAGTGGACAAAAACATCACATTGAAAGCAAATTTCAGTGTGATTTTCAATCGG
CTTGAAGCCCTGATACTACTTAGAGCTTTTACGGAAGAAGGAGCAATTGTAGGCGAAATCTCACCATTAC
CTTCTCTTCCAGGACATACTGACAAGGATGTCAAAAATGCAATTGAGATCCTCATCGGAGGATTTGAATG
GAATGATAACACAGTTCGAGTCTCTGAAACTCTACAGAGATTCGCTTGGAGAAGCAGCGATGAGGATGGG
AGATCTCCACTCTCTACAAAGTAGAAACGGGAAATGGAGAGAACAGTTAAGCCAGAAGTTCGAAGAAATA
AGATGGTTGATTGAAGAAGTACGACATAGATTAAAAATTACGGAGAATAGCTTTGAGCAAATAACTTTTA
TGCAAGCCTTACAACTATTGCTTGAAGTGGAGCAAGAGATAAGAACTTTCTCGTTTCAGCTTATTTAATG
ATAAAAAACACCCTTGTTTCTACT
2.2对序列进行Blast分析
1.进入NCBI提供的在线Blast分析网站(http:
//blast.ncbi.nlm.nih.gov/Blast.cgi),选择核酸核苷酸Blast(如图2-2-1,红色圆圈处)
2-2-1
2.进入Blast主界面,选择从文件导入序列,输入2.2中取得的序列(已保存为fasta格式)。
如图2-2-2
2-2-2
选择红圈处的从文件输入序列,导入预先以fasta格式保存的序列文件
3.在网页下方找到Blast按钮(如图2-2-3红圈),点击开始Blast分析
2-2-3
4.经过一小段时间的等待,获得了分析结果。
如图2-2-4,2-2-5所示。
按照课题需求下载相关序列中的8条,保存为FASTA格式备用。
如图2-2-6所示
2-2-4Blast分析结果
2-2-5Blast找到的相关序列
2-2-6将相关序列保存为FASTA格式备用
本章总结
本章详细介绍了本次课题的基础工作,即从GenBank上下载目标序列,通过Blast进行分析并找出相关序列的过程。
为下面课题的进程准备了材料。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- H7N9 病毒 结构 蛋白 NS1 基因 序列 分析