2 重测序BSA分析项目结题报告Word文档下载推荐.docx
- 文档编号:16965424
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:36
- 大小:151.35KB
2 重测序BSA分析项目结题报告Word文档下载推荐.docx
《2 重测序BSA分析项目结题报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《2 重测序BSA分析项目结题报告Word文档下载推荐.docx(36页珍藏版)》请在冰豆网上搜索。
3生物信息学分析.............................................................................................................5
3.1测序数据质控......................................................................................................5
3.1.1原始数据介绍...........................................................................................5
3.1.2碱基测序质量分布...................................................................................7
3.1.3碱基类型分布............................................................................................9
3.1.4低质量数据过滤.....................................................................................10
3.1.5测序数据统计..........................................................................................10
3.2与参考基因组比对统计.....................................................................................11
3.2.1比对结果统计..........................................................................................11
3.2.2插入片段分布统计..................................................................................11
3.2.3深度分布统计.........................................................................................12
3.3SNP检测与注释................................................................................................14
3.3.1样品与参考基因组间SNP的检测.......................................................14
3.3.2样品之间SNP的检测...........................................................................17
3.3.3SNP结果注释.........................................................................................19
3.4SmallInDel检测与注释....................................................................................22
3.4.1样品与参考基因组间SmallInDel的检测...........................................22
3.4.2样品之间SmallInDel检测....................................................................22
1
3.4.3SmallInDel的注释.................................................................................23
3.5关联分析.........................................................................................................26
3.5.1高质量SNP筛选...................................................................................26
3.5.2SNP-index方法关联结果.......................................................................26
3.5.3ED方法关联结果...................................................................................28
3.5.4候选区域筛选..........................................................................................29
3.6候选区域的功能注释.....................................................................................30
3.6.1候选区域的SNP注释...........................................................................30
3.6.2候选区域的基因注释.............................................................................30
3.6.2.1候选区域内基因的GO富集分析.......................................................31
3.6.2.2候选区域内基因的KEGG富集分析.................................................33
3.6.2.3候选区域内基因COG分类统计........................................................36
3.7结果可视化.........................................................................................................37
4数据下载.......................................................................................................................38
4.1结果文件查看说明.............................................................................................38
参考文献...........................................................................................................................39
2
1项目概况
1.1合同关键指标
(1)完成X个样品的重测序,共产生XGbpCleanData,保证Q30达到80%。
(2)数据评估:
测序数据量,测序数据质量和GC含量的统计。
(3)与基因组比对:
比对效率,基因组覆盖度,基因组覆盖深度统计。
(4)变异检测和注释:
SNP、InDel的检测和注释。
(5)关联分析:
通过计算两个混池间等位基因的基因型频率确定与目标性状关联的区域。
(6)候选SNP注释:
对关联区域内的SNP注释,包括位置信息和非同义突变信息。
(7)候选基因注释:
对关联区域内的基因进行GO、KEGG、COG、NR、SwissProt数据库注释。
1.2项目基本信息
(1)样品信息:
编号样品编号BMKP亲本1(父本)M亲本2(母本)B1混池1
B2
混池注:
BMK编号:
百迈客对样品的统一编号,实验建库和后续信息分析均使用该编号。
混池规模:
30+30;
群体类型:
F2群体;
研究性状:
水稻千粒重
(2)参考基因组信息:
根据水稻的基因组大小以及GC含量等信息,最终选取日本晴水稻基因组作为参考基因组。
具体信息如下所示:
1.测序物种信息:
水稻(Oryzasativa),实际基因组大小为419.8Mb,GC含量为45.67%;
[1]基因组,组装出的基因)sativaindicaOryza2.参考物种信息:
日本晴水稻(组大小为374.3Mb,GC含量为43.56%,ScaffoldN50为500Kb,,该基因组1
组装到染色体水平,有基因注释信息,版本号为v7.0,下载地址:
http:
//rapdb.dna.affrc.go.jp/。
1.3项目执行情况
(1)样品信息到位时间为2016年XX月XX日。
(2)样品检测合格时间为2016年XX月XX日。
(3)项目启动时间为2016年XX月XX日。
(4)项目分析完成时间为2016年XX月XX日。
1.4项目结果概述
(1)数据质控
测序共获得XXGbp数据量,过滤后得到的CleanReads为XXGbp,Q30达到80%,平均每个样品测序深度X。
样品与参考基因组平均比对效率为XX%,平均覆盖深度为X,基因组覆盖度为XX%(至少一个碱基覆盖)。
(2)变异检测
SNP检测:
样品P、M之间共获得XX个SNP,其中非同义突变的SNP共XX个;
样品B1、B2之间共获得XX个SNP,引起非同义突变的SNP共XX个。
InDel检测:
样品P、M之间共获得XX个SmallInDel;
样品B1、B2之间共获得XX个SmallInDel。
(3)关联分析:
SNP-index关联算法,共得到XX个与性状相关的侯选区域,总长度为XXbp;
ED关联算法,共得到XX个与性状相关的侯选区域,总长度为XXbp,两种方法取交集得到XX个与性状相关的侯选区域,总长度为XXbp。
关联区域内包含非同义突变SNP位点的基因共XX个,同义突变SNP位点的基因共XX个。
2项目流程
2.1实验流程
实验流程按照Illumina公司提供的标准protocol执行,包括样品检测、文库构建、文库质量检测和上机测序,具体流程如下:
实验流程图
样品检测合格后,用超声破碎的方法将DNA随机打断成350bp的片段,DNA片段经末端修复、3'
端加A、加测序接头、纯化、PCR扩增完成测序文库的构建。
文库TM4000进行测序。
经质检合格后通过IlluminaHiSeq
2.2信息分析流程
信息分析的内容包括:
数据质控(去除接头和低质量数据)、与参考基因组比对、变异检测与注释(SNP、InDel)、关联分析、候选SNP及候选基因的注释。
重测序BSA生物信息分析具体流程如下图所示:
3
重测序BSA生物信息分析流程图
4
3生物信息学分析
3.1测序数据质控
3.1.1原始数据介绍
高通量测序(如IllunimaHiSeq4000等测序平台)得到的原始图像数据文件,经碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(Reads)的序列信息以及其对应的测序质量信息。
测序样品中真实数据随机截取结果如下:
@HWI-7001455:
110:
C3B41ACXX:
4:
1101:
1401:
21631:
N:
0:
TAAGGC
CTCTCTCCTATCTTTCCAACCATCTGATAACACCGAACATCCATATTGAGCCCACACTTCTTGATGATCTTTCAATATTTTATGAT
+
CCCFFFFFHHHHHJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJHHHHHHHFFFFFFFFEEEEEE
FASTQ格式文件中每个Read由四行描述,其中第一行以“@”开头,随后为Illumina测序识别符(SequenceIdentifiers)和描述文字(选择性部分);
第二行是碱基序列;
第三行以“+”开头,随后为Illumina测序识别符(选择性部分);
第四行是对应序列的测序质量。
Illumina测序识别符(SequenceIdentifiers)详细信息见如下:
Illumina测序标识详细信息
Uniqueinstrumentname
HWI-7001455
RunID110
FlowcellIDC3B41ACXX
Flowcelllane
Tilenumberwithintheflowcelllane1101
'
x'
-coordinateoftheclusterwithinthetile1401
y'
-coordinateoftheclusterwithinthetile
2163
Memberofapair,1or2(paired-endormate-pairreadsonly)
Yifthereadfailsfilter(readisbad),Notherwise
N
0whennoneofthecontrolbitsareon,otherwiseitisanevennumber
0
Indexsequence
TAAGGC
通过使用第四行中每个字符对应的ASCII值进行计算,即得到对应第二行碱基5
的测序质量值。
如果测序错误率用e表示,IllunimaHiSeq4000的碱基质量值用Qphred表示,则有下列关系:
Q=-10log(e)
10phredIllunimaCasava1.8版本测序错误率与测序质量值简明对应关系如下表所示:
对应字符测序质量值测序错误率
.135%
5201%
?
0.1%30
I
0.01%
40
碱基识别(BaseCalling)分析软件:
IllunimaCasava1.8版本
测序参数:
双端测序(Pairedend,PE)
测序序列读长:
151bp
6
碱基测序质量分布3.1.2
每个碱基测序错误率是通过测序Phred数值(Phredscore,Qphred)得到,而Phred数值是在碱基识别(BaseCalling)过程通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:
碱基正确识别率Phred分值不正确的碱基识别
90%101/10
99%1/10020
99.9%1/100030
99.99%
1/10000
在Hiseq4000测序系统测序时,首先会对文库进行芯片制备,目的是将文库DNA模板固定到芯片上,在固定DNA模板的过程中,每个DNA分子会形成一个簇,一个簇就是一个测序位点,在进行固定过程中极少量的簇与簇之间物理位置会发生重叠,在测序时,测序软件通过前4个碱基对这些重叠的点进行分析和识别,将这些重叠点位置分开,保证每个点测到的是一个DNA分子,因此测序序列5′端前几个碱基的错误率相对较高。
另外测序错误率会随着测序序列(SequencedReads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的。
因此在进行碱基测序质量分布分析时,样品的碱基质量分布在前4个碱基和后十几个碱基的质量值会低于中间测序碱基,但其质量值都高于Q30,根据质量值和错误率的关系,我们将质量值转换成错误率,绘制错误率分布图如下:
7
样品P碱基错误率分布
注:
横坐标为reads的碱基位置,纵坐标为单碱基错误率,前151bp为双端测序序列的第一端测序reads的错误率分布情况,后151bp为另一端测序reads的错误率分布情况。
8
碱基类型分布3.1.3碱基类型分布用于检测有无AT、GC分离现象,这种分离现象可能是建库测序过程中差异扩增引起的,直接影响到后续的分析。
高通量测序的序列为基因组随机打断后的DNA片段,位点在整个基因组的分布是近似均匀的,同时根据碱基互补配对的原则,A与T和C与G的含量分别是一致的。
由于测序仪器本身的局限性,前几个碱基的A/T和C/G含量可能存在着一定波动。
样品各碱基比例分布如下所示:
样品P各碱基比例分布
横坐标为reads的碱基位置,纵坐标为碱基所占的比例;
不同颜色代表不同的碱基类型,绿色代表碱基G,蓝色代表碱基C,红色代表碱基A,紫色代表碱基T,灰色代表测序中识别不出的碱基N。
前151bp为双端测序序列的第一端测序reads的碱基分布,后151bp为另一端测序reads的碱基分布。
每个cycle代表测序的每个碱基,如第一cycle即表示该项目所有测序reads在第一个碱基的A、T、G、C、N的分布情况。
该图的结果显示AT、CG碱基基本不发生分离,且曲线较平缓,说明测序结果正常。
9
3.1.4低质量数据过滤测序得到的原始测序序列(SequencedReads)或者RawReads,里面含有带接头的、低质量的Reads,为了保证信息分析质量,对RawReads进行过滤,得到Clean
Reads,用于后续信息分析。
数据过滤的主要步骤如下:
(1)去除带接头(adapter)的reads。
(2)若一条reads上N(未能确定出具体的碱基类型)的比例大于10%,则过滤掉该Pair-endreads。
(3)去除低质量reads(质量值Q≤xx的碱基数占整条read的50%以上)。
数据过滤统计结果见下表:
数据过滤统计表
Adapter_RelatedInferior_percentClean_ReadsBMKIDRaw_Reads(%)
%)(
P
M
B1
B2
BMKID:
百迈客对项目样品的统一编号;
Raw_Reads:
原始测序reads数;
Adapter_Related:
含接头被过滤的reads比例;
Inferior_percent:
N含量超过10%的reads和质量值低于10的碱基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 重测序BSA分析项目结题报告 重测序 BSA 分析 项目 报告