书签分享收藏举报版权申诉 / 47

立即下载加入VIP,免费下载

当前位置：首页 > 小学教育 > 小学作文 > 基因测序案例Word下载.docx

基因测序案例Word下载.docx

文档编号：17613487
上传时间：2022-12-07
格式：DOCX
页数：47
大小：2.46MB

基因测序案例Word下载.docx

《基因测序案例Word下载.docx》由会员分享，可在线阅读，更多相关《基因测序案例Word下载.docx（47页珍藏版）》请在冰豆网上搜索。

基因测序案例Word下载.docx

mRNA合并数据：

X1X2X3X4X5X6X1-X6合并=T

↓↓↓↓↓↓

7组拼接数据：

X1●X2●X3●X4●X5●X6●X1●-X6●合并=T●

蛋白质翻译库X1d●X2d●X3d●X4d●X5d●X6d●Td●

按照链特异性文库建库strand-specific

RNA

sequencing（Directional

RNA-Seq）

SmallRNA合并：

Y1Y2Y3Y4Y5Y6Y1-Y6合并=U

↓↓↓↓↓↓↓

注释比对库Y1Y2Y3Y4Y5Y6U

蛋白质组数据：

D1D2D3D4D5D6D1-D6合并=V

注释比对库D1D2D3D4D5D6V

对比15次：

L1-L2，L1-L3，L1-L4，L1-L5，L1-L6；

L2-L3，L2-L4，L2-L5，L2-L6；

L3-L4，L3-L5，L3-L6；

L4-L5，L4-L6；

L5-L6

4）原始数据：

每发育节点转录组3组重复数据；

SmallRNA的3组重复数据；

蛋白组学1组数据。

合并数据：

3个原始重复测序数据合并为1组再组装、mapping。

转录组X1～X6，组装库X1●～X6●；

SmallRNA为Y1～Y6；

蛋白质组为D1～D6。

总数据：

转录组X1～X6合并为T、组装库T●、再mapping，；

SmallRNA的Y1～Y6合并为U、再mapping；

蛋白组学D1-6合并为V、再mapping，转录组蛋白翻译库W。

5）经费包括测序及以下所有信息分析费在内，信息分析费不再另行支付。

2．目标及技术内容（流式细胞仪预测该虫基因为235M，已完成了1个成虫样2G转录组测序，注释率80%）

（1）Hiseq2000完成18个（花绒寄甲Dastarcushelophoroides）RNA样品链特异性转录组测序,每个样品产生4Gbcleandata以上，并完成相应的信息分析。

Q2095%以上，Q3090%以上

（2）Illumina完成18个（花绒寄甲Dastarcushelophoroides）RNA样品SmallRNA测序（包括miRNA，rRNA，tRNA，snRNA，piRNA，snoRNA，microRNAs，siRNA，miRNAs等），保证每个样本产生不低于15～20M的cleanreads，并完成相应的信息分析。

（3）运用iTRAQ技术，完成6个样品的蛋白组学定量分析。

对6个（花绒寄甲Dastarcushelophoroides）样品进行标记，将液相色谱与质谱联用，保证每个样本产生的蛋白质数不少于转录组注释数据量的1/10、鉴定非冗余蛋白质数不少于转录组数据量的0.6/10（果蝇9124个），通过生物信息分析鉴定蛋白和比较差异蛋白的表达量，并完成相应的信息分析。

3．转录组技术路线

3．1项目描述

对18个RNA样品进行检测，样品检测合格后采取以下技术路线对转录组进行测序：

常规转录组测序样品制备――上机测序（每个样品产生4Gbcleandata）――生物信息学分析。

7组组装数据：

功能注释√√√√√√√

1

ORF/CDS预测√√√√√√√

SSR/SNP分析√√√√√√√

lncRNA预测√√√√√√√

RNA-Seq；

trinity组装

X1-X2，X1-X3，X1-X4，X1-X5，X1-X6；

X2-X3，X2-X4，X2-X5，X2-X6；

X3-X4，X3-X5，X3-X6；

X4-X5，X4-X6；

X5-X6

1）项目分析流程

（1）转录组denovo组装

单独拼接：

每个发育时期3个生物学重复样本测序数据合并为1组后进行链特异性组装。

六个发育时期转录组数据X1～X6，按照链特异性文库进行组装获得6个转录本（Ttranscript），之后使用CD-HIT软件聚类获得各自的Unigene。

（2）混样拼接：

将六组不同发育时期，三次生物学重复的样本测序数据合并为T,通过拼接组装为大转录本T●（Ttranscript），使用CD-HIT软件聚类获得其的Unigene。

（3）组装结果评估：

将组装得到转录本与NCBI中该物种或近源物种的已知序列（转录本或基因组）进行比对，评估组装结果。

2）功能注释

将通过拼接获得转录本X1●-X6●、T●的蛋白数据库（nr、Swiss-Prot、IPR、TrEMBL、KEGG和KOG等数据库）进行比对，通过被比对序列的相似行进行功能注释。

3）KEGG注释

转录组的KEGG注释主要是对得到的基因注释进行KEGGPathway分析，此分析是基于预测得到ORF序列，利用KAAS预测得到对应的KO号，然后利用KO号对应到KEGGpathway上，分析基因与KEGG中酶注释的关系文件以及映射到pathway的信息。

4）GO注释5）KOG分类

6）预测编码蛋白框CDS（ESTScan预测）7）转录本的可变剪切异构体isoforms分析

8）转录本SSR和SNP分析9）lncRNA的预测

将未比对上蛋白数据库的序列作为lncRNA的预测候选序列，与已知lncRNA数据比对进行预测。

10）mRNA表达分析

将使用T●为参考序列，将18个样本（六个发育时期三次生物学重复）的原始数据reads分别mapping到T●序列上进行基因表达定量分析。

11）差异基因分析

12）差异表达基因功能富集性分析（GO富集分析和KEGG代谢通路富集分析）

13）时空表达顺序分析14）基因共表达网络分析

15）补充说明：

（1）以上1-9项分析项目7个转录本（X1●-X6●、T●）平行分析。

（2）将使用T●为参考序列，将18个样本（六个发育时期三次生物学）的原始数据reads分别mapping到T●序列上进行基因表达定量分析。

（同一个物种不同发育时期的基因组序列是一样，所以基因对应转录产物mRNA也是一致的。

不同的发育时期只存在基因表达或不表达的情况。

每个发育时期单独拼接的转录本只代表该时期的基因表达情况，而T●涵盖该物种6个时期所有基因表达情况。

若某个时期有测序reads能mapping到T●的某个转录本，则表示该转录本有表达，否之则为不表达。

）

（3）后续蛋白定量分析，使用T●所对应的蛋白序列为Td●参考序列。

3．2生物信息学分析内容注意：

除常规分析项外，下述（也包含常规分析）必须全部做

1．对原始数据进行去除接头序列及低质量reads的处理

1）原始数据L1（1-3）、L2（1-3）、L3（1-3）、L4（1-3）、L5（1-3）、L6（1-3）测序产量统计

2）L1（1-3）、L2（1-3）、L3（1-3）、L4（1-3）、L5（1-3）、L6（1-3）测序质量与测序错误

●测序质量Q与测序错误E；

●GC/AT碱基组成分布，原始数据处理后质量及碱基质量分布（fastqc工具）；

●测序饱和度分析测序饱和度分析图；

●rawdata产出统计，rawdata及cleandata的数据量及Q20、Q30统计，rawdata及cleandata测序质量分布图，duplicaterate统计

3）测序随机性分析

2.转录组组装与分析（可首选赤拟谷盗**Triboliumcastaneum、次选家蚕*Bombyxmori，或侯选黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti做参考靠基因，但公司在选择时必须慎重，一旦选定，后边其他分析所使用的参考基因组，也必须是该处所选定的种类；

也可直接以T●作为参考基因，因为T●数据量肯定超过各个发育节点的数据量。

不要求特别优异的结果）

除常规程序性分析外，提供以下分析的数据及展示图：

1）转录本N10/N20/N30/N40/N50/N60/N70/N80/N90的长度统计，绘制转录本长度分布图

（1）X1●、X2●、X3●、X4●、X5●、X6●、T●转录本组装结果统计，必须提供数据库；

（2）6个发育阶段X1●、X2●、X3●、X4●、X5●、X6●与T●组装结果之间的差异；

2）转录本结合tgicl、cd-hit聚类（比对各样本reads到unigene。

下述“7B”还要详细分析），提供分析数据及展示图

（1）X1●、X2●、X3●、X4●、X5●、X6●、T●转录本聚类；

（2）通过功能注释寻找X1●、X2●、X3●、X4●、X5●、X6●间的共有、特有基因。

3）组装结果分析（可变剪切分析见下述3），提供以下分析数据及展示图：

（1）常规程序性分析Contig长度分布、Transcript长度分布、Unigene长度分布分析；

（2）形成unigenesreads的总数、长度分布（用reads比对Unigene得到）；

unigenes序列长度、频数分布；

（3）NR、GO、KOG、KEGG、Swiss-Prot、Uniprot、TrEMBL等数据库比对，提供注释数据库

●X1●、X2●、X3●、X4●、X5●、X6●、T●各自的比对结果

●X1●、X2●、X3●、X4●、X5●、X6●、T●各自未比对出的数量分析

（4）未比对上的进行CDS/EST基因全长预测（研发：

必须预测，尽量有准确性）

●X1●、X2●、X3●、X4●、X5●、X6●、T●各自的ESTScan/GENEScan预测结果及序列；

●

X1●、X2●、X3●、X4●、X5●、X6●、T●各自的ESTScan/GENEScan预测结果差异分析，提供图和数据；

（5）冗余序列分析（6个阶段，在reads层面做duplicate分析）

●X1●、X2●、X3●、X4●、X5●、X6●各自的冗余序列频度分布分析，提供6张图及数据──────────→

●T●冗余序列频度分布分析，提供图及数据

（6）重复序列分析（用bowtie与Repbase比对识别已知重复序列。

Repbase重复序列数据库，RepeatScout、LTR-finder、TendemRepeatFinder、Repeatmoderler、Piler等程序：

X1●、X2●、X3●、X4●、X5●、X6●、T●各自的重复序列数量比较等；

（7）基因覆盖度分析（尽量分析）：

cDNA片段的随机性检验图；

（样品中所有基因的5’到3’区域上序列覆盖情况分析，以评估测序实验结果的均一性）

●X1●、X2●、X3●、X4●、X5●、X6●、T●各自的覆盖度及其差异

3．转录组拼接后转录本的可变剪切异构体转录本或isoforms分析（与基因组分布分析印证/结合：

将X1●、X2●、X3●、X4●、X5●、X6●、T●数据库与EST数据库相结合，或与UniProt、ASDB、及“blog_4d2fda500101ajzm.html”等数据库相结合。

用denovoassembly方法做可变剪切分析（与有参考基因组的相比精度虽差，但不要紧。

或先跟近源物种比，再考虑蛋白库比较）提供分析数据及展示图

特别提醒：

先做前体分析（否则后边的成熟体可能找不到或预测不出来）→再做成熟体→基因组分布→染色体分布

（1）T●数据库的可变剪切异构体分析；

（2）X1●、X2●、X3●、X4●、X5●、X6●各自的数据库可变剪切异构体分析；

（3）T●与X1●、X2●、X3●、X4●、X5●、X6●可变剪切异构体间的差异分析。

4．Reads/Unigene在基因组上的分布/集合（提供unigene和reads的集合，与组装结果互相印证、校正；

unigene-mRNA间的比对：

①使用denovoassemblytools工具（或基因组拼接Genomicsassembly:

Velvet,SOAPdenovo）→转录组组装Transcriptassembly:

Trinity，可将组装的X1●、X2●、X3●、X4●、X5●、X6●、T●作为基因组。

②参考已知基因组赤拟谷盗Triboliumcastaneum、家蚕Bombyxmori、黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti等之一，但必须与“2.转录组组装与分析”所选定的种类保持一致；

也可直接以T●作为参考基因组，因为T●数据量肯定超过各个发育接点的数据量。

③用Bedtools工具，下载不同feature的bed格式的文件（如：

UCSCTable），使用bedtools的相关程序，a--bed用比对完后的bed文件，b--用下载的bed文件。

注意：

本项目分析，尽量选无参的）

（1）CDS、tRNA、rRNA、Unmapped等Reads分布数分别在X1●、X2●、X3●、X4●、X5●、X6●、T●的分布；

（2）X1●、X2●、X3●、X4●、X5●、X6●6个阶段及T●基因组分布分析，提供比对率图和数据；

（3）同源性比较，提供比对率图和数据（同源基因受选择压力（KA/KS）分析）；

（4）Reads/Unigene在基因组结构上的分布比例（尽量做，参考基因组选择必须与“2.转录组组装与分析”所选定的种类保持一致；

该分析也可直接以T●作为参考基因组，因为前期完成的2G测序的注释率已达80%，T●数据量肯定超过各个发育接点的数据量。

5.基因结构分析

1）X1●、X2●、X3●、X4●、X5●、X6●的ORF预测：

ORF长度分布图，ORF长度统计，ORF预测及Indel预测文件、结果图（参考基因组选择必须与“2.转录组组装与分析”所选定的种类保持一致）；

2）X1●、X2●、X3●、X4●、X5●、X6●独立分析，提供分析数据及展示图

（1）各自的SSR分析：

短串联重复序列（simpletandemrepeats,STRs）或简单重复序列（simplesequencerepeats）分析，SSR分析结果统计，提供图和数据；

（2）各自的SNP（SingleNucleotidePolymorphisms，单核苷酸多态性）分析，SNP数量统计（利用①TSC（TheSNPConsortiumLtd.）websitehttp:

//snp.cshl.org②dbSNPHomePagehttp:

//www.ncbi.nlm.nih.gov/SNP/index.html等进行搜索③刘峰等。

辣椒转录组SNP挖掘及多态性分析，园艺学报2014，41

（2）：

343–348→利用Blast2go程序，对多态性SNP-EST序列进行功能注释（E<

10-10）和GO分及KEGG分析）；

●SNP在EST序列中的特征（即SNP在X1●、X2●、X3●、X4●、X5●、X6●6个阶段序列中的分布）

●EST-SNP序列功能分析（即同义突变、非同义突变）

3）T●分析，提供分析数据及展示图

（1）SSR分析：

T●短串联重复序列（simpletandemrepeats,STRs）或简单重复序列（simplesequencerepeats）分析，SSR分析结果统计，各组间的差异分析，提供图和数据；

（2）T●SNP（SingleNucleotidePolymorphisms，单核苷酸多态性）分析，SNP数量统计；

4）SSR、SNP分析结果在X1●、X2●、X3●、X4●、X5●、X6●、T●6个阶段间的差异比较分析；

6.lncRNA的预测（参考基因组必须与“2.转录组组装与分析”所选定的种类保持一致。

方法：

mRNA+lncRNA预测程序==进行lncRNA预测==用已拿到的lncRNA数据进行验证

参考基因组：

赤拟谷盗Triboliumcastaneum、家蚕Bombyxmori、黑腹果蝇Drosophilamelanogaster、冈比亚按蚊Anophelesgambiae、意大利蜜蜂Apismellifera、埃及伊蚊Aedesaegypti；

或T●

（1）X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA预测

（2）具polyA尾及无polyA尾的lncRNA在6个发育阶段间的分布统计

（3）X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA表达量计算（RPKM/FPKM）；

（4）预测出的lncRNA分别在X1●、X2●、X3●、X4●、X5●、X6●中的表达模式

（5）X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA和mRNA的共表达网络分析；

（6）X1●、X2●、X3●、X4●、X5●、X6●各自的lncRNA调控的靶基因预测（根据上述共表达网络分析结果，使用多重Lasso回归分析完成）

（7）lncRNA与靶基因分别在X1●、X2●、X3●、X4●、X5●、X6●互作过程（有能力就做）

7.mRNA表达分析（该部分虽在比对reads到组装的unigene即可实现，但根据需要，还应单独提出，进行细化分析：

依据cDNA文库数据拼接Unigene的X1●、X2●、X3●、X4●、X5●、X6●、T●库，参考基因组选择必须与“2.转录组组装与分析”所选定的种类保持一致；

表达量计算；

以及比对reads到unigene，做差异分析。

参考转录本使用X1●、X2●、X3●、X4●、X5●、X6●、T●参考Unigene序列，计算每样本的基因表达情况——克服困难，尽力做，包括时序差异分析）

A．基因表达量分析提供分析数据及展示图

1）L1、L2、L3、L4、L5、L6的Unigenes表达量估计，表达趋势分析，提供图和数据；

2）L1、L2、L3、L4、L5、L6：

散点矩阵图，提供相关图和数据；

3）L1、L2、L3、L4、L5、L6表达量差异性比对分析，提供图和数据；

B.Unigene差异表达分析

除常规程序性分析外，提供以下分析数据及展示图：

1）重复相关性检测==L1、L2、L3、L4、L5、L6各自的3个重复间的检验

L1：

1-3；

L2：

L3：

L4：

L5：

L6：

1-3间的生物学重复相关性统计，一致性分析，差异分析，X1-T、X2-T、X3-T、X4-T、X5-T、X6-T的相关性热图。

2）差异表达基因筛选与分析，提供分析数据

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基因案例

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基因测序案例Word下载.docx
链接地址：https://www.bdocx.com/doc/17613487.html

基因测序案例Word下载.docx

热门标签