基因测序案例Word下载.docx
- 文档编号:17613487
- 上传时间:2022-12-07
- 格式:DOCX
- 页数:47
- 大小:2.46MB
基因测序案例Word下载.docx
《基因测序案例Word下载.docx》由会员分享,可在线阅读,更多相关《基因测序案例Word下载.docx(47页珍藏版)》请在冰豆网上搜索。
mRNA合并数据:
X1X2X3X4X5X6X1-X6合并=T
↓↓↓↓↓↓
7组拼接数据:
X1●X2●X3●X4●X5●X6●X1●-X6●合并=T●
蛋白质翻译库X1d●X2d●X3d●X4d●X5d●X6d●Td●
按照链特异性文库建库strand-specific
RNA
sequencing(Directional
RNA-Seq)
SmallRNA合并:
Y1Y2Y3Y4Y5Y6Y1-Y6合并=U
↓↓↓↓↓↓↓
注释比对库Y1Y2Y3Y4Y5Y6U
蛋白质组数据:
D1D2D3D4D5D6D1-D6合并=V
注释比对库D1D2D3D4D5D6V
对比15次:
L1-L2,L1-L3,L1-L4,L1-L5,L1-L6;
L2-L3,L2-L4,L2-L5,L2-L6;
L3-L4,L3-L5,L3-L6;
L4-L5,L4-L6;
L5-L6
4)原始数据:
每发育节点转录组3组重复数据;
SmallRNA的3组重复数据;
蛋白组学1组数据。
合并数据:
3个原始重复测序数据合并为1组再组装、mapping。
转录组X1~X6,组装库X1●~X6●;
SmallRNA为Y1~Y6;
蛋白质组为D1~D6。
总数据:
转录组X1~X6合并为T、组装库T●、再mapping,;
SmallRNA的Y1~Y6合并为U、再mapping;
蛋白组学D1-6合并为V、再mapping,转录组蛋白翻译库W。
5)经费包括测序及以下所有信息分析费在内,信息分析费不再另行支付。
2.目标及技术内容(流式细胞仪预测该虫基因为235M,已完成了1个成虫样2G转录组测序,注释率80%)
(1)Hiseq2000完成18个(花绒寄甲Dastarcushelophoroides)RNA样品链特异性转录组测序,每个样品产生4Gbcleandata以上,并完成相应的信息分析。
Q2095%以上,Q3090%以上
(2)Illumina完成18个(花绒寄甲Dastarcushelophoroides)RNA样品SmallRNA测序(包括miRNA,rRNA,tRNA,snRNA,piRNA,snoRNA,microRNAs,siRNA,miRNAs等),保证每个样本产生不低于15~20M的cleanreads,并完成相应的信息分析。
(3)运用iTRAQ技术,完成6个样品的蛋白组学定量分析。
对6个(花绒寄甲Dastarcushelophoroides)样品进行标记,将液相色谱与质谱联用,保证每个样本产生的蛋白质数不少于转录组注释数据量的1/10、鉴定非冗余蛋白质数不少于转录组数据量的0.6/10(果蝇9124个),通过生物信息分析鉴定蛋白和比较差异蛋白的表达量,并完成相应的信息分析。
3.转录组技术路线
3.1项目描述
对18个RNA样品进行检测,样品检测合格后采取以下技术路线对转录组进行测序:
常规转录组测序样品制备――上机测序(每个样品产生4Gbcleandata)――生物信息学分析。
7组组装数据:
功能注释√√√√√√√
1
ORF/CDS预测√√√√√√√
SSR/SNP分析√√√√√√√
lncRNA预测√√√√√√√
RNA-Seq;
trinity组装
X1-X2,X1-X3,X1-X4,X1-X5,X1-X6;
X2-X3,X2-X4,X2-X5,X2-X6;
X3-X4,X3-X5,X3-X6;
X4-X5,X4-X6;
X5-X6
1)项目分析流程
(1)转录组denovo组装
单独拼接:
每个发育时期3个生物学重复样本测序数据合并为1组后进行链特异性组装。
六个发育时期转录组数据X1~X6,按照链特异性文库进行组装获得6个转录本(Ttranscript),之后使用CD-HIT软件聚类获得各自的Unigene。
(2)混样拼接:
将六组不同发育时期,三次生物学重复的样本测序数据合并为T,通过拼接组装为大转录本T●(Ttranscript),使用CD-HIT软件聚类获得其的Unigene。
(3)组装结果评估:
将组装得到转录本与NCBI中该物种或近源物种的已知序列(转录本或基因组)进行比对,评估组装结果。
2)功能注释
将通过拼接获得转录本X1●-X6●、T●的蛋白数据库(nr、Swiss-Prot、IPR、TrEMBL、KEGG和KOG等数据库)进行比对,通过被比对序列的相似行进行功能注释。
3)KEGG注释
转录组的KEGG注释主要是对得到的基因注释进行KEGGPathway分析,此分析是基于预测得到ORF序列,利用KAAS预测得到对应的KO号,然后利用KO号对应到KEGGpathway上,分析基因与KEGG中酶注释的关系文件以及映射到pathway的信息。
4)GO注释5)KOG分类
6)预测编码蛋白框CDS(ESTScan预测)7)转录本的可变剪切异构体isoforms分析
8)转录本SSR和SNP分析9)lncRNA的预测
将未比对上蛋白数据库的序列作为lncRNA的预测候选序列,与已知lncRNA数据比对进行预测。
10)mRNA表达分析
将使用T●为参考序列,将18个样本(六个发育时期三次生物学重复)的原始数据reads分别mapping到T●序列上进行基因表达定量分析。
11)差异基因分析
12)差异表达基因功能富集性分析(GO富集分析和KEGG代谢通路富集分析)
13)时空表达顺序分析14)基因共表达网络分析
15)补充说明:
(1)以上1-9项分析项目7个转录本(X1●-X6●、T●)平行分析。
(2)将使用T●为参考序列,将18个样本(六个发育时期三次生物学)的原始数据reads分别mapping到T●序列上进行基因表达定量分析。
(同一个物种不同发育时期的基因组序列是一样,所以基因对应转录产物mRNA也是一致的。
不同的发育时期只存在基因表达或不表达的情况。
每个发育时期单独拼接的转录本只代表该时期的基因表达情况,而T●涵盖该物种6个时期所有基因表达情况。
若某个时期有测序reads能mapping到T●的某个转录本,则表示该转录本有表达,否之则为不表达。
)
(3)后续蛋白定量分析,使用T●所对应的蛋白序列为Td●参考序列。
3.2生物信息学分析内容注意:
除常规分析项外,下述(也包含常规分析)必须全部做
1.对原始数据进行去除接头序列及低质量reads的处理
1)原始数据L1(1-3)、L2(1-3)、L3(1-3)、L4(1-3)、L5(1-3)、L6(1-3)测序产量统计
2)L1(1-3)、L2(1-3)、L3(1-3)、L4(1-3)、L5(1-3)、L6(1-3)测序质量与测序错误
●测序质量Q与测序错误E;
●GC/AT碱基组成分布,原始数据处理后质量及碱基质量分布(fastqc工具);
●测序饱和度分析测序饱和度分析图;
●rawdata产出统计,rawdata及cleandata的数据量及Q20、Q30统计,rawdata及cleandata测序质量分布图,duplicaterate统计
3)测序随机性分析
2.转录组组装与分析(可首选赤拟谷盗**Triboliumcastaneum、次选家蚕*Bombyxmori,或侯选黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti做参考靠基因,但公司在选择时必须慎重,一旦选定,后边其他分析所使用的参考基因组,也必须是该处所选定的种类;
也可直接以T●作为参考基因,因为T●数据量肯定超过各个发育节点的数据量。
不要求特别优异的结果)
除常规程序性分析外,提供以下分析的数据及展示图:
1)转录本N10/N20/N30/N40/N50/N60/N70/N80/N90的长度统计,绘制转录本长度分布图
(1)X1●、X2●、X3●、X4●、X5●、X6●、T●转录本组装结果统计,必须提供数据库;
(2)6个发育阶段X1●、X2●、X3●、X4●、X5●、X6●与T●组装结果之间的差异;
2)转录本结合tgicl、cd-hit聚类(比对各样本reads到unigene。
下述“7B”还要详细分析),提供分析数据及展示图
(1)X1●、X2●、X3●、X4●、X5●、X6●、T●转录本聚类;
(2)通过功能注释寻找X1●、X2●、X3●、X4●、X5●、X6●间的共有、特有基因。
3)组装结果分析(可变剪切分析见下述3),提供以下分析数据及展示图:
(1)常规程序性分析Contig长度分布、Transcript长度分布、Unigene长度分布分析;
(2)形成unigenesreads的总数、长度分布(用reads比对Unigene得到);
unigenes序列长度、频数分布;
(3)NR、GO、KOG、KEGG、Swiss-Prot、Uniprot、TrEMBL等数据库比对,提供注释数据库
●X1●、X2●、X3●、X4●、X5●、X6●、T●各自的比对结果
●X1●、X2●、X3●、X4●、X5●、X6●、T●各自未比对出的数量分析
(4)未比对上的进行CDS/EST基因全长预测(研发:
必须预测,尽量有准确性)
●X1●、X2●、X3●、X4●、X5●、X6●、T●各自的ESTScan/GENEScan预测结果及序列;
●
X1●、X2●、X3●、X4●、X5●、X6●、T●各自的ESTScan/GENEScan预测结果差异分析,提供图和数据;
(5)冗余序列分析(6个阶段,在reads层面做duplicate分析)
●X1●、X2●、X3●、X4●、X5●、X6●各自的冗余序列频度分布分析,提供6张图及数据──────────→
●T●冗余序列频度分布分析,提供图及数据
(6)重复序列分析(用bowtie与Repbase比对识别已知重复序列。
Repbase重复序列数据库,RepeatScout、LTR-finder、TendemRepeatFinder、Repeatmoderler、Piler等程序:
X1●、X2●、X3●、X4●、X5●、X6●、T●各自的重复序列数量比较等;
(7)基因覆盖度分析(尽量分析):
cDNA片段的随机性检验图;
(样品中所有基因的5’到3’区域上序列覆盖情况分析,以评估测序实验结果的均一性)
●X1●、X2●、X3●、X4●、X5●、X6●、T●各自的覆盖度及其差异
3.转录组拼接后转录本的可变剪切异构体转录本或isoforms分析(与基因组分布分析印证/结合:
将X1●、X2●、X3●、X4●、X5●、X6●、T●数据库与EST数据库相结合,或与UniProt、ASDB、及“blog_4d2fda500101ajzm.html”等数据库相结合。
用denovoassembly方法做可变剪切分析(与有参考基因组的相比精度虽差,但不要紧。
或先跟近源物种比,再考虑蛋白库比较)提供分析数据及展示图
特别提醒:
先做前体分析(否则后边的成熟体可能找不到或预测不出来)→再做成熟体→基因组分布→染色体分布
(1)T●数据库的可变剪切异构体分析;
(2)X1●、X2●、X3●、X4●、X5●、X6●各自的数据库可变剪切异构体分析;
(3)T●与X1●、X2●、X3●、X4●、X5●、X6●可变剪切异构体间的差异分析。
4.Reads/Unigene在基因组上的分布/集合(提供unigene和reads的集合,与组装结果互相印证、校正;
unigene-mRNA间的比对:
①使用denovoassemblytools工具(或基因组拼接Genomicsassembly:
Velvet,SOAPdenovo)→转录组组装Transcriptassembly:
Trinity,可将组装的X1●、X2●、X3●、X4●、X5●、X6●、T●作为基因组。
②参考已知基因组赤拟谷盗Triboliumcastaneum、家蚕Bombyxmori、黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti等之一,但必须与“2.转录组组装与分析”所选定的种类保持一致;
也可直接以T●作为参考基因组,因为T●数据量肯定超过各个发育接点的数据量。
③用Bedtools工具,下载不同feature的bed格式的文件(如:
UCSCTable),使用bedtools的相关程序,a--bed用比对完后的bed文件,b--用下载的bed文件。
注意:
本项目分析,尽量选无参的)
(1)CDS、tRNA、rRNA、Unmapped等Reads分布数分别在X1●、X2●、X3●、X4●、X5●、X6●、T●的分布;
(2)X1●、X2●、X3●、X4●、X5●、X6●6个阶段及T●基因组分布分析,提供比对率图和数据;
(3)同源性比较,提供比对率图和数据(同源基因受选择压力(KA/KS)分析);
(4)Reads/Unigene在基因组结构上的分布比例(尽量做,参考基因组选择必须与“2.转录组组装与分析”所选定的种类保持一致;
该分析也可直接以T●作为参考基因组,因为前期完成的2G测序的注释率已达80%,T●数据量肯定超过各个发育接点的数据量。
5.基因结构分析
1)X1●、X2●、X3●、X4●、X5●、X6●的ORF预测:
ORF长度分布图,ORF长度统计,ORF预测及Indel预测文件、结果图(参考基因组选择必须与“2.转录组组装与分析”所选定的种类保持一致);
2)X1●、X2●、X3●、X4●、X5●、X6●独立分析,提供分析数据及展示图
(1)各自的SSR分析:
短串联重复序列(simpletandemrepeats,STRs)或简单重复序列(simplesequencerepeats)分析,SSR分析结果统计,提供图和数据;
(2)各自的SNP(SingleNucleotidePolymorphisms,单核苷酸多态性)分析,SNP数量统计(利用①TSC(TheSNPConsortiumLtd.)websitehttp:
//snp.cshl.org②dbSNPHomePagehttp:
//www.ncbi.nlm.nih.gov/SNP/index.html等进行搜索③刘峰等。
辣椒转录组SNP挖掘及多态性分析,园艺学报2014,41
(2):
343–348→利用Blast2go程序,对多态性SNP-EST序列进行功能注释(E<
10-10)和GO分及KEGG分析);
●SNP在EST序列中的特征(即SNP在X1●、X2●、X3●、X4●、X5●、X6●6个阶段序列中的分布)
●EST-SNP序列功能分析(即同义突变、非同义突变)
3)T●分析,提供分析数据及展示图
(1)SSR分析:
T●短串联重复序列(simpletandemrepeats,STRs)或简单重复序列(simplesequencerepeats)分析,SSR分析结果统计,各组间的差异分析,提供图和数据;
(2)T●SNP(SingleNucleotidePolymorphisms,单核苷酸多态性)分析,SNP数量统计;
4)SSR、SNP分析结果在X1●、X2●、X3●、X4●、X5●、X6●、T●6个阶段间的差异比较分析;
6.lncRNA的预测(参考基因组必须与“2.转录组组装与分析”所选定的种类保持一致。
方法:
mRNA+lncRNA预测程序==进行lncRNA预测==用已拿到的lncRNA数据进行验证
参考基因组:
赤拟谷盗Triboliumcastaneum、家蚕Bombyxmori、黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti;
或T●
(1)X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA预测
(2)具polyA尾及无polyA尾的lncRNA在6个发育阶段间的分布统计
(3)X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA表达量计算(RPKM/FPKM);
(4)预测出的lncRNA分别在X1●、X2●、X3●、X4●、X5●、X6●中的表达模式
(5)X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA和mRNA的共表达网络分析;
(6)X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA调控的靶基因预测(根据上述共表达网络分析结果,使用多重Lasso回归分析完成)
(7)lncRNA与靶基因分别在X1●、X2●、X3●、X4●、X5●、X6●互作过程(有能力就做)
7.mRNA表达分析(该部分虽在比对reads到组装的unigene即可实现,但根据需要,还应单独提出,进行细化分析:
依据cDNA文库数据拼接Unigene的X1●、X2●、X3●、X4●、X5●、X6●、T●库,参考基因组选择必须与“2.转录组组装与分析”所选定的种类保持一致;
表达量计算;
以及比对reads到unigene,做差异分析。
参考转录本使用X1●、X2●、X3●、X4●、X5●、X6●、T●参考Unigene序列,计算每样本的基因表达情况——克服困难,尽力做,包括时序差异分析)
A.基因表达量分析提供分析数据及展示图
1)L1、L2、L3、L4、L5、L6的Unigenes表达量估计,表达趋势分析,提供图和数据;
2)L1、L2、L3、L4、L5、L6:
散点矩阵图,提供相关图和数据;
3)L1、L2、L3、L4、L5、L6表达量差异性比对分析,提供图和数据;
B.Unigene差异表达分析
除常规程序性分析外,提供以下分析数据及展示图:
1)重复相关性检测==L1、L2、L3、L4、L5、L6各自的3个重复间的检验
L1:
1-3;
L2:
L3:
L4:
L5:
L6:
1-3间的生物学重复相关性统计,一致性分析,差异分析,X1-T、X2-T、X3-T、X4-T、X5-T、X6-T的相关性热图。
2)差异表达基因筛选与分析,提供分析数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因 案例