Illumina测序基础知识.docx
- 文档编号:1179177
- 上传时间:2022-10-18
- 格式:DOCX
- 页数:13
- 大小:77.52KB
Illumina测序基础知识.docx
《Illumina测序基础知识.docx》由会员分享,可在线阅读,更多相关《Illumina测序基础知识.docx(13页珍藏版)》请在冰豆网上搜索。
Illumina测序基础知识
Illumina测序基础知识
第一个要给大家讲的,是它这个flowcell。
Flowcell翻成中文,就叫“流动池”。
我们来看这个图片。
图片当中,我们看到一个象载玻片大小的芯片。
这个芯片里面,是做了8条通道。
在这个通道的内表面,是做了专门的化学修饰。
它的化学修饰,主要是用2种DNA 引物,把它(2种DNA引物)种在玻璃表面。
这两种(DNA引物的)序列是和接下来要测序的DNA文库的接头序列相互补的。
而且这2种引物是通过共价键,连到Flowcell上去。
之所以要用共价键连到Flowcell上去,是因为接下来有大量的液体要流过这个Flowcell,只有有共价键连接的这些DNA,才不会被冲掉。
这就是Flowcell。
文库制作
再接下来,讲一下文库、和文库的制作(过程)
所谓的DNA文库,实际上是许多个DNA片段,在两头接上了特定的DNA接头,型成的DNA混合物。
文库有2个特点,第1个特点,是当中这一段插入的DNA,它的序列是各种各样的。
第2个特点,它的两头的接头序列,是已知的,而且是人工特地加上去的。
要做这个文库,首先是把基因组DNA,用超声波打断。
然后打断之后,两头用酶把它补平,再用Klenow酶在3’端加上一个A碱基。
然后,再用连接酶把这个接头给连上去。
连好了接头的DNA混合物,我们就称为一个“文库”。
英文也称作“library”。
桥式PCR
做好了Library之后,就要做桥式PCR了。
桥式PCR,实际上是把文库种到芯片上去,然后进行扩增,这样的一个过程。
这个过程,首先是把文库加入到芯片上,因为文库两头的DNA序列,和芯片上引物是互补的,所以,就会产生互补杂交。
那么,要读这个Index的序列,先用碱把上面这根测完“Read1”的序列,把上面这根DNA链给解链掉。
解链掉之后,再加入中性液,然后,加入“Read2”这个测序引物。
Read2测序引物结合的位点,正好,就在这个Index序列的旁边。
接下来,就进行第2轮测序,一般来说,是读6到8个碱基。
把这6到8个碱基读下来,我们就可以知道,这某一个具体的一段DNA,它来自于原始的哪个样本。
双端测序
这是Illumina的最核心的另外一个技术,就是双端测序。
那么双端测序,就是说,一根DNA链,除了从正向读一遍,还可以从DNA的负向,再读一遍。
这一下子就把Illumina测序的有效长度加了一倍。
这是非常有实际用途的。
那么这个倒链的过程,是这样,先让这个DNA先合成,合成出来这根互补链。
有了这个互补链之后,用一个化学试剂,在原来这根链的根上切一下。
切一下,原来这根模板链就掉了,剩下那根互补链。
再接下来,就进行第2端的测序。
第2端的测序原理,和第一端的测序原理是一样的。
加上了“Read3”的这个引物,依次往下,一个一个碱基地往下读。
大规模平行测序
那么最重要的事情是什么呢?
一个点,经过几百个循环,就读出了几百个碱基。
但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就是“簇”。
那么上亿个“cluster”,每个循环,它都可以读出地么多序列,这是Illumina测序非常强大的原因。
因为是成千上万,准确说是上亿上链都在合成,这个就得到了很大的一个测序数据量。
IlluminaHiSeq测序仪的工作原理。
也就是芯片上发生了这么多变化,HiSeq是如何把这些信息给读出来,并且把扫描出来的荧光信号,又通过怎样一系列的加工,变成可以识别的“A、C、G、T”的碱基序列的。
HiSeq首先是一台高精度的显微光学扫描仪。
然后再配上了一整套的液流系统,和计算机软硬件,再加温控系统,组成这样一台测序仪。
其中最核心,也是结构最复杂的,是它的光学系统。
前一期,我们讲了,Illumina测序仪主要是靠4种dNTP分别带有不同的荧光基团,在被激光照了之后,发出不同颜色的荧光。
再通过对光的颜色的分辩,可以判断出到底是哪个碱基。
光路结构
这里,我们要说明一下:
感光元件CCD,它本身是色盲。
所以,它一定要配合滤光片,才能分辩出颜色来。
那我们先来看一下,HiSeq的光路图。
左边这两个元器件,就是激光器。
一个发出红色激光,另一个发出绿色激光。
其中红色激光主要是激发A和C,这两种碱基上的荧光基团;而绿色激光主要是激发G和T,这两种碱基上的荧光基团。
红色和绿色这两束光,通过一面半透半反镜,组成一道激光。
这道激光打在Flowcell上。
那么请注意,Flowcell就放在这个位置。
在Flowcell里面,结合在DNA上的那个荧光基团在激光的照射下,就发出荧光。
荧光通过3面半透半反镜,和1面全反镜,被分成4条光路,这4道光线,分别通过一道滤光片,这4张滤光片的滤过波长不一样。
这样,这4道光在经过了滤光片之后,就变成了4种颜色不同的光线。
然后,这4条颜色不同的光线,各自照在一面反射镜上,通过反射镜进入到CCD。
这4个CCD就记录到不同颜色的光线。
TDI线扫描
HiSeq的光线扫描是“线扫描”,和传统的相机不一样,传统的相机是面扫描。
HiSeq采取了一种特定的叫“TDI”线扫描方式,TDI是Timedelayintegration的缩写。
在HiSeq上之所以采取TDI扫描方式,因为它有非常明显的优点。
第一个优点,就是它的扫描速度非常快,在HiSeq2500上,从Flowcell的一个Lane的一头扫到另外一头,也就是一个“Swath”的扫描时间,大概只有20秒种不到。
第二个好处,就是它的扫描精度非常高。
在最新的HiSeqV4版试剂上,它的光点密度,大概可以达到每平方毫米90万个点,要扫描清楚这么高密度的光点,扫描仪的扫描精度是可想而知的。
TDI扫描的第三个好处,是这种方式,可以把Flowcell的上表面、和下表面都扫描到。
Flowcell(测序芯片)
接下来,我们再要详细介绍这张Flowcell。
那么,先来看一下,这张flowcell有点象一张载玻片,在这一张片子里面,我们可以看到,它做了8条通道。
每条通道,我们称为一个Lane。
这8个Lane之间,相互是隔绝的。
每个Lane的两端各有一个小孔。
这两个小也孔,就是液流流进、流出的地方。
每个Lane的上表面和下表面,都分别以共价键的方式,种了2种DNA引物。
这两种DNA引物,是与文库接头的两头序列相互补的。
上一期(节目)我们已经说明了这一点。
一个Lane里面,分成2个面,上表面、和下表面。
上表面和下表面,都种了DNA引物,也都是可以产生测序数据的。
在每一条Lane的每一个面,又被分成了3个扫描通道,每个道被称为一个“swath”。
每条Swath是从头到底被连续扫描的。
但是它的数据,在进行数据分析的时侯,是被分割成16个小方块。
这每一个小方块,被称为一个“tile”。
这样一张Flowcell,总共就是768个Tile。
每个Tile在扫描的时侯,会根据4种颜色,产生4张照片。
图像处理
扫描完了之后,就要进行图像处理。
扫描出来的最原始的文件,它的格式是“.tiff”文件。
Tiff文件记录了每个像素点上采集到的光强度。
Tiff文件的优点是它是完全无损,保留了所有的原始信息。
但它也有它的不足之处。
它的不足之处就是它的这个文件太大了。
它的数据量很大,既不便于数据的传输,也不便于数据的存储。
接下来,计算机软件就把图像文件转化成光点文件。
光点文件叫“.BCL”文件。
也就是“Basecalling”的英文缩写。
要把图像文件,转化成BCL文件,就是把4种颜色的4张照片,组合在一起,变成一张有4种颜色的彩色照片。
这其中首先要解决的,是4张照片在空间位置上的匹配问题,因为4张照片是通过4个CCD分别拍下来的,所以,会有一定的空间上的偏差。
软件要通过对4张照片上,亮点相互比对,找到最合适的、匹配的位置。
这里,我们要说明一下,如果被测的文库是碱基不平衡的文库,在这个空间匹配上就会遇到问题。
什么叫碱基平衡呢?
也就是说,在测序过程当中,每个循环,A、C、G、T四种碱基,都是比较均匀在存在的。
最典型是人全基因组文库,这是一个典型的碱基平衡文库。
那什么是碱基不平衡文库呢?
最典型的,就是PCR扩增子产生的文库。
PCR扩增子的特点:
PCR是有特定的起始位点的,一个特定的测序循环中,几乎所有的片段都是同一种碱基,而剩下的3种碱基,就特别少。
这在反映到照片上去的时侯,就变成:
一张照片特别亮,光点很多。
而其它的三张照片就特别暗,上面的光点就很少。
这时侯,要软件做空间上的比对,软件就会觉得困难,因为对于那几张暗的照片,软件很难判断上面的光点,是否与那张亮的照片上的光点真正对得上。
结果,就是判断出来的可靠性变差。
最后,就是测序的数据质量变差,有效数据量也会变少。
要解决这个问题,办法是在测序过程中掺入一些碱基平衡的文库。
例如掺人全基因组文库。
或者也可以掺Illumina提供的标准的PhiX文库,这些都是碱基平衡文库。
它的作用,是在每个循环当中,为每一种颜色的照片,都提供足够多的亮点。
这样,它可以弥补那些不平衡的文库当中缺亮点的问题。
BCL文件
当把4种颜色的光点组成一个文件之后,软件就会生成一个“.BCL”文件。
“.BCL”文件就是光点文件,它对每个光点,记录了以下的内容。
首先一个光点处在哪个Lane里面。
其次,这个光点在这个Lane的哪个Tile里面。
第3,就是这个亮点在这个Tile的X轴和Y轴的座标位置。
第4,是记录了这个光点当中“红、黄、蓝、绿”四种光的对应的光强。
这个图是BCL文件的一个示意图。
实际上,BCL文件是二进制文件,无法拿来直接阅读。
也正是因为BCL文件难于阅读,并且很难改动,所以,BCL文件几乎不存在做假的可能。
在测序过程当中,有许多客户会要求测序公司提供原始的测序数据,如果客户是包Lane、或者包Flowcell的,一般测序公司是可以提供BCL文件的。
客户在拿到BCL文件之后,可以用“BCL2FASTQ”这个软件,把BCL文件转化成FASTQ序列语文件。
以此,客户可以来验证,测序公司提供的数据是否是原始的,是否是真实的。
再说一下最初生成的那个tiff文件。
tiff文件实在太大了,所以,测序仪在测序过程中,只把tiff文件作为中间文件。
最后是把这个tiff文件删掉的。
如果客户想要原始的图像文件,在HiSeqV4之前,可以让测序公司保留“.CIF”文件。
CIF文件是一种彩色图案的向量文件,它的优点是比tiff文件的数据量小很多。
测序公司把CIF文件给客户之后,客户就可以看到原始的图像文件了。
但是,请注意:
在HiSeq升级到V4之后,保留CIF文件的这个选项是被取消掉了。
所以,对于要测V4Lane的客户来说,是拿不到CIF文件了。
碱基识别
接下来,我们讲一下碱基识别。
我们之前讲:
4种dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。
这个实际上是一种简化了的说法。
实际情况,要比这个复杂得多。
来看这个图,这是2种荧素的荧光的波长图。
我们会发觉,这两种荧光色,它发出来的发射光,它在波长上是有交叠的。
在X的这个位置,主要是绿色荧光素的贡献,但是蓝色荧光素,也有少许贡献。
而在Y这个波长位置,蓝色荧光素是做了主要贡献,但是绿色荧光素,也有少量供献。
在实际测序过程中,是4种荧光素发出的亮,相互有交叠,相互之间的交系,变得更加复杂。
那么,现在我们要做的事情,是把A、C、G、T,4种荧光素的贡献给拆开。
首先,我们就要确定4种荧光素在4个被测波长处的贡献率。
我们可以看一下,这个表,就是4种荧光素,在4个波长分别有不同的贡献率。
这样就组成一个4X4的贡献率表格。
我们在实际的分析当中,等于解一个4元1次、4联方程。
因为是4个未知数,又是4个方程,所以肯定是可以解出来的。
说解方程,有点复杂。
那么我们来打一个比方。
让大家来理解这个事情。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Illumina 基础知识