1rnaseq质量控制.docx
- 文档编号:9786369
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:14
- 大小:635.42KB
1rnaseq质量控制.docx
《1rnaseq质量控制.docx》由会员分享,可在线阅读,更多相关《1rnaseq质量控制.docx(14页珍藏版)》请在冰豆网上搜索。
1rnaseq质量控制
RNA-seq质量控制
1建库流程
1.1TotalRNA样品检测
1.1.1琼脂糖凝胶电泳分析RNA降解程度以及是否有污染
一句话总结:
琼脂检测主要观察28s和18s。
判断RNA好坏的标准是28s,18s是否清晰,尤其是28S亮度比18s亮度大
28s,主要是剪切前的前体RNA,主要包括不均一核RNA(未剪切成熟的mRNA前体)和主要是28s,18s,5s的前体转录子。
前体存在于细胞核(然后加工剪切成28s,18s,5s和成熟的小片段的mRNA。
这些成熟的RNA进入到胞浆。
有功能的mRNA是存在于胞浆中的成熟的mRNA,前体mRNA是没有翻译功能的(蛋白质翻译机器,核单倍体是位于胞浆中的)。
真正成熟的mRNA,主要集中在28s和18s之间的荧光背景(一般每条基因mRNA量很少,所以,整体一般看不到明显带).如果28s只是比18s稍高,或者亮度差不多,即使条带清晰,也已经提示部分降解了。
大片段开始降解,从28s降解到18s最后降解到5s。
这样降解过程中,28s减少,18s增多,28s:
18s比例就会下降。
如果最容易降解的28s都没有降解,(从比例推断),那么更难降解的mRNA,就推理出肯定是完好的了。
泳道:
123456789
这张图片就是一个离心柱子提取RNA的不同降解情况的典型例子。
泳道1,5,6,7,8,9部分降解了,所以28s是首先降解,28s条带变淡,而部分降解首先是降解成较小的18s左右的片段,所以18s条带明显变粗,造成28s:
18s的比例竟然小于1了。
然后在不该看到条带或者应该是很弱的5s位置,出现了较明显的5s大小的降解带。
3,4是完全降解了,28s,18s已经基本降解光了。
两条带都看不见了。
最后降解成的小片段正好和5s大小一致,所以在5s位置看到了大量的一条浓浓的降解小片段,和5s一样大小。
2就是完全正常提取的RNA,大家可以看到28s:
18s比例大约是2:
1,5s位置也基本见不到带。
这就说明完全正常,无降解。
(2)Nanodrop检测RNA的纯度(OD260/280比值)
一句话总结:
260/280大约在2.0而260/230ration在2.0-2.2.
OD260代表核酸的吸光度,OD280代表蛋白质的吸光度。
280、320、230、260nm下的吸光度分别代表了核酸、背景(溶液浑浊度)、盐浓度和蛋白等有机物的值。
A230测定其它碳源物质,如酚,糖类等;A260是核酸的吸收峰测RNA和DNA,引物等的浓度用的;A280是蛋白质的吸收峰。
一般的,我们只看OD260/OD280(Ratio,R)——1.8~2.0时,我们认为RNA中蛋白或者时其他有机物的污染是可以容忍的,不过要注意,当用Tris作为缓冲液检测吸光度时,R值可能会大于2(一般应该是<2.2的)。
当R<1.8时,溶液中蛋白或者其他有机物的污染比较明显,你可以根据自己的需要决定这份RNA的命运。
当R>2.2时,说明RNA已经水解成单核酸了。
纯RNA的A260/A280的比值为2.0。
OD260/OD230的比值还表明RNA的纯度——其值<2.0表明裂解液中有亚硫氰胍和β-巰基乙醇残留,其值>2.4,需用乙酸盐,乙醇沉淀RNA。
(3)Qubit对RNA浓度进行精确定量
一句话总结:
RNA-seq测序需要至少300ng总RNA
(4)Agilent2100精确检测RNA的完整性
一句话总结:
2100RIN值高好,样品间RIN值相差1-1.5最好。
Agilent2100对文库的insertsize进行检测,RIN值反应的是样品的降解。
RIN=RNAintegritynumber,即RNA分子完整数,从0-10,直接反应了RNA质量的好坏,此数值越大表明RNA质量越好越完整。
1.2建库流程
1.2.1ssRNA-seq建库(针对长非编码RNA分析)
RNA检测合格后,通过epicentreRibo-ZeroTM试剂盒去除rRNA(可以拿到非polyA的转录本)随后加入fragmentationbuffer将RNA打断成150-200bp短片段150-200bp,以短片段RNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。
纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPureXPbeads进行片段大小选择。
之后用USER酶降解含有U的cDNA第二链,最后进行PCR富集得到链特异性cDNA文库。
图:
lncRNA建库
1.2.2小RNA建库
样品检测合格后,使用SmallRNASamplePreKit构建文库,利用SmallRNA的3’及5’端特殊结构(5’端有完整的磷酸基团,3’端有羟基),以totalRNA为起始样品,直接将SmallRNA两端加上接头,然后反转录合成cDNA。
随后经过PCR扩增,PAGE胶电泳分离目标DNA片段,切胶回收得到的即为cDNA文库。
1.2.3普通转录组建库
样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。
随后加入fragmentationbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。
纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPureXPbeads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。
构建原理图如下:
图RNA-seq建库
1.2.4Chip-seq建库流程
染色体免疫共沉淀(ChIP)是一种用于研究蛋白质与DNA的体内相互作用的经典实验技术。
采用特异性抗体将目的蛋白进行免疫沉淀,由此可以把目的蛋白所结合的基因组DNA片段也富集下来。
方法1:
Cross-likingChromatinImmunoprecipitation(X-ChIP)
甲醛处理细胞,使DNA-protein的相互结合作用被交联固定,裂解细胞,得到全细胞裂解液。
超声处理,将基因组DNA打断至100-500bp。
抗体免疫沉淀:
在细胞裂解液中加入一抗和beads,并进行孵育。
采用合适的实验条件进行洗脱,并解交联。
通过qPCR对ChIP结果进行验证。
准备好的ChIP后的DNA样品可以用于ChIPSequencing建库。
方法2:
NativeChromatinImmunoprecipitation
通过非变性的方式得到核裂解液。
微球菌核酸酶(Micrococcalnuclease)消化染色质,得到单核小体或核小体寡聚体。
抗体免疫沉淀:
在细胞裂解液中前后加入一抗和beads,并进行孵育。
DNA分离。
通过qPCR对ChIP结果进行验证。
6.准备好的ChIP后的DNA样品可以用于ChIPSequencing建库。
最后DNA片段末端修复,3’端加A碱基,连接测序接头公司Paired-EndDNASamplePrepkit)。
PCR扩增及DNA产物的片段大小选择一般为100-300bp,包括接头序列在内合格的文库用于上机测序。
2质量控制相关的变量
2.1readsqualityissue
2.1.1测序错误率BaseQuality
Basequalityindicatestheconfidenceinthebasecall
q=−10*log10(0.01)=20
测序错误率特征
(1)测序错误率会随着测序序列(SequencedReads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的。
(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。
所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合
图前6碱基错误率高,125bp测序错误率高
2.1.2CG含量
正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。
因此好的样本中四条线应该平行且接近。
当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresentedsequence的污染。
当所有位置的GC含量一致的表现出bias时,往往代表文库有bias(建库过程或本身特点),或者是测序中的系统误差。
前几个不稳定duetotherandomhexamerprimingduringPCRamplification,属于正常的现象
红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。
曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresentedreads)。
形状接近正态但偏离理论分布的情况提示我们可能有系统偏差
图:
重复序列检测
2.1.3重复序列
理论上出现重复序列的概率是很低的。
如果出现重复的序列,很多是人工的artificiallyPCR扩增。
下图是横坐标是duplication的次数,纵坐标是duplicatedreads的数目,以uniquereads的总数作为100%。
fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。
重复数目大于等于10的reads被合并统计
如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-representedk-mer。
出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。
K-mer可以用于检测是否有接头存在。
2.1.4比对统计:
检测对reference的比对情况
检测mappingratio,看比对上的总数,还可以同污染源的基因组进行比对。
2.1.5rRNA/tRNA的污染
组成RNA的污染,如rRNA和tRNA,最高时可以占整个转录组的60-90%。
建库时对这类RNA进行降解。
有2种方法,一种是使用磁珠进行吸附选择有poly-a的转录本。
第二种是对核糖体RNA进行消化。
即使这样,仍然会有大量的核糖体rRNA污染存在。
2.1.6SaturationTestofSequencingDepth
测序深度不同,对低丰度的基因使用FPKM定量也并不稳定,此外做可变剪切,lncRNA需要更高的深度才能检测。
一般认为100*-150*可以饱和。
.
2.1.7生物学重复
RNA-seq通常要求至少2个生物学重复,注意区别生物学重复和技术重复,生物学重复一般建议皮尔逊相关系数0.92以上。
可以通过聚类,计算相关系数,PCA样品研究样品之间的关系。
2.1.8覆盖整齐度CoverageUniformity
RNA-seq测序的结果,理论上每个位点被测序到的机会是相等的,但是由于poly-A选择,3’端往往会具有更高的coverage.此外大多数reads应该位于基因注释区。
2.1.9链特异性StrandSpecificity
转录本可以从正义链和反义链进行转录,大多数基因位于正义链,但仍有部分能从反义链上转录出来,比如天然反义转录本NAT,普通的转录组数据可以通过剪切位点GT/AG区分方向,但是无法定量反义转录本的表达量。
2.2FastQ的数据格式
1.原始序列数据
高通量测序(如IlluminaHiSeqTM2000/MiseqTM)得到的原始图像数据文件经CASAVA碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
FASTQ格式文件中每个read由四行描述,如下:
@HWI-ST1276:
71:
C1162ACXX:
1:
1101:
1208:
24581:
N:
0:
CGATGT
NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT
+
#55?
?
?
BBBBB?
BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH
其中第一行以“@”开头,随后为Illumina测序标识别符(SequenceIdentifiers)和描述文
字(选择性部分);
第二行是碱基序列;
第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);
第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二
行碱基的测序质量值。
Perl代码:
ord$base-33
3软件使用
3.1常用的软件的名称
FastQC:
PRINSEQ做质量检测并可视化
Trimmomatic,Cutadapt,andFastX,Fastx-toolkits
3.2软件的命令和参数
3.2.1对文件进行
fastqcreads.fastq.gz
3.2.2FliterandTrim
java-jartrimmomatic-0.32.jarPE-phred64reads1.fastq.gzreads2.fastq.gzpaired1.fq.gzunpaired1.fq.gzpaired2.fq.gzunpaired2.fq.gzAVGQUAL:
20
prinseq-lite.pl-fastqreads1.fastq-fastq2reads2.fastq-phred64-min_qual_mean20-out_goodqual_filtered-out_badnull–no_qual_header–log–verbose
java-jartrimmomatic-0.32.jarPE-phred64reads1.fastq.gzreads2.fastq.gzpaired1.fq.gzunpaired1.fq.gzpaired2.fq.gzunpaired2.fq.gzTRAILING:
20MINLEN:
50
1.2去掉含有5‘adapter污染的序列的command:
/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper-itest.fltqual.fastq-otest.fltqual.f5.fastq-a"GTTCAGAGTTCTACAGTCCGACGATC"-C-Q33-v
1.3含有3’adapter的序列保留,且trim掉3‘adapter的command:
/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper-itest.fltqual.f5.fastq-otest.fltqual.f5.t3.fastq-a"AGATCGGAAGAGCACACGTCT"-c-Q33-v
整理zhaot
2015-5-9
参考:
https:
//www.huck.psu.edu/content/instrumentation-facilities/genomics-core-facility/samples/rna-seq-samples
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- rnaseq 质量 控制