书签分享收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > 外语学习 > 法语学习 > Illumina测序基础知识.docx

Illumina测序基础知识.docx

文档编号：1179177
上传时间：2022-10-18
格式：DOCX
页数：13
大小：77.52KB

Illumina测序基础知识.docx

《Illumina测序基础知识.docx》由会员分享，可在线阅读，更多相关《Illumina测序基础知识.docx（13页珍藏版）》请在冰豆网上搜索。

Illumina测序基础知识.docx

Illumina测序基础知识

第一个要给大家讲的，是它这个flowcell。

Flowcell翻成中文，就叫“流动池”。

我们来看这个图片。

图片当中，我们看到一个象载玻片大小的芯片。

这个芯片里面，是做了8条通道。

在这个通道的内表面，是做了专门的化学修饰。

它的化学修饰，主要是用2种DNA 引物，把它（2种DNA引物）种在玻璃表面。

这两种（DNA引物的）序列是和接下来要测序的DNA文库的接头序列相互补的。

而且这2种引物是通过共价键，连到Flowcell上去。

之所以要用共价键连到Flowcell上去，是因为接下来有大量的液体要流过这个Flowcell，只有有共价键连接的这些DNA，才不会被冲掉。

这就是Flowcell。

文库制作

再接下来，讲一下文库、和文库的制作（过程）

所谓的DNA文库，实际上是许多个DNA片段，在两头接上了特定的DNA接头，型成的DNA混合物。

文库有2个特点，第1个特点，是当中这一段插入的DNA，它的序列是各种各样的。

第2个特点，它的两头的接头序列，是已知的，而且是人工特地加上去的。

要做这个文库，首先是把基因组DNA，用超声波打断。

然后打断之后，两头用酶把它补平，再用Klenow酶在3’端加上一个A碱基。

然后，再用连接酶把这个接头给连上去。

连好了接头的DNA混合物，我们就称为一个“文库”。

英文也称作“library”。

桥式PCR

做好了Library之后，就要做桥式PCR了。

桥式PCR，实际上是把文库种到芯片上去，然后进行扩增，这样的一个过程。

这个过程，首先是把文库加入到芯片上，因为文库两头的DNA序列，和芯片上引物是互补的，所以，就会产生互补杂交。

那么，要读这个Index的序列，先用碱把上面这根测完“Read1”的序列，把上面这根DNA链给解链掉。

解链掉之后，再加入中性液，然后，加入“Read2”这个测序引物。

Read2测序引物结合的位点，正好，就在这个Index序列的旁边。

接下来，就进行第2轮测序，一般来说，是读6到8个碱基。

把这6到8个碱基读下来，我们就可以知道，这某一个具体的一段DNA，它来自于原始的哪个样本。

双端测序

这是Illumina的最核心的另外一个技术，就是双端测序。

那么双端测序，就是说，一根DNA链，除了从正向读一遍，还可以从DNA的负向，再读一遍。

这一下子就把Illumina测序的有效长度加了一倍。

这是非常有实际用途的。

那么这个倒链的过程，是这样，先让这个DNA先合成，合成出来这根互补链。

有了这个互补链之后，用一个化学试剂，在原来这根链的根上切一下。

切一下，原来这根模板链就掉了，剩下那根互补链。

再接下来，就进行第2端的测序。

第2端的测序原理，和第一端的测序原理是一样的。

加上了“Read3”的这个引物，依次往下，一个一个碱基地往下读。

大规模平行测序

那么最重要的事情是什么呢？

一个点，经过几百个循环，就读出了几百个碱基。

但实际上，这个芯片上可以有上亿个点，上亿个“cluster”，也就是“簇”。

那么上亿个“cluster”，每个循环，它都可以读出地么多序列，这是Illumina测序非常强大的原因。

因为是成千上万，准确说是上亿上链都在合成，这个就得到了很大的一个测序数据量。

IlluminaHiSeq测序仪的工作原理。

也就是芯片上发生了这么多变化，HiSeq是如何把这些信息给读出来，并且把扫描出来的荧光信号，又通过怎样一系列的加工，变成可以识别的“A、C、G、T”的碱基序列的。

HiSeq首先是一台高精度的显微光学扫描仪。

然后再配上了一整套的液流系统，和计算机软硬件，再加温控系统，组成这样一台测序仪。

其中最核心，也是结构最复杂的，是它的光学系统。

前一期，我们讲了，Illumina测序仪主要是靠4种dNTP分别带有不同的荧光基团，在被激光照了之后，发出不同颜色的荧光。

再通过对光的颜色的分辩，可以判断出到底是哪个碱基。

光路结构

这里，我们要说明一下：

感光元件CCD，它本身是色盲。

所以，它一定要配合滤光片，才能分辩出颜色来。

那我们先来看一下，HiSeq的光路图。

左边这两个元器件，就是激光器。

一个发出红色激光，另一个发出绿色激光。

其中红色激光主要是激发A和C，这两种碱基上的荧光基团；而绿色激光主要是激发G和T，这两种碱基上的荧光基团。

红色和绿色这两束光，通过一面半透半反镜，组成一道激光。

这道激光打在Flowcell上。

那么请注意，Flowcell就放在这个位置。

在Flowcell里面，结合在DNA上的那个荧光基团在激光的照射下，就发出荧光。

荧光通过3面半透半反镜，和1面全反镜，被分成4条光路，这4道光线，分别通过一道滤光片，这4张滤光片的滤过波长不一样。

这样，这4道光在经过了滤光片之后，就变成了4种颜色不同的光线。

然后，这4条颜色不同的光线，各自照在一面反射镜上，通过反射镜进入到CCD。

这4个CCD就记录到不同颜色的光线。

TDI线扫描

HiSeq的光线扫描是“线扫描”，和传统的相机不一样，传统的相机是面扫描。

HiSeq采取了一种特定的叫“TDI”线扫描方式，TDI是Timedelayintegration的缩写。

在HiSeq上之所以采取TDI扫描方式，因为它有非常明显的优点。

第一个优点，就是它的扫描速度非常快，在HiSeq2500上，从Flowcell的一个Lane的一头扫到另外一头，也就是一个“Swath”的扫描时间，大概只有20秒种不到。

第二个好处，就是它的扫描精度非常高。

在最新的HiSeqV4版试剂上，它的光点密度，大概可以达到每平方毫米90万个点，要扫描清楚这么高密度的光点，扫描仪的扫描精度是可想而知的。

TDI扫描的第三个好处，是这种方式，可以把Flowcell的上表面、和下表面都扫描到。

Flowcell（测序芯片）

接下来，我们再要详细介绍这张Flowcell。

那么，先来看一下，这张flowcell有点象一张载玻片，在这一张片子里面，我们可以看到，它做了8条通道。

每条通道，我们称为一个Lane。

这8个Lane之间，相互是隔绝的。

每个Lane的两端各有一个小孔。

这两个小也孔，就是液流流进、流出的地方。

每个Lane的上表面和下表面，都分别以共价键的方式，种了2种DNA引物。

这两种DNA引物，是与文库接头的两头序列相互补的。

上一期（节目）我们已经说明了这一点。

一个Lane里面，分成2个面，上表面、和下表面。

上表面和下表面，都种了DNA引物，也都是可以产生测序数据的。

在每一条Lane的每一个面，又被分成了3个扫描通道，每个道被称为一个“swath”。

每条Swath是从头到底被连续扫描的。

但是它的数据，在进行数据分析的时侯，是被分割成16个小方块。

这每一个小方块，被称为一个“tile”。

这样一张Flowcell，总共就是768个Tile。

每个Tile在扫描的时侯，会根据4种颜色，产生4张照片。

图像处理

扫描完了之后，就要进行图像处理。

扫描出来的最原始的文件，它的格式是“.tiff”文件。

Tiff文件记录了每个像素点上采集到的光强度。

Tiff文件的优点是它是完全无损，保留了所有的原始信息。

但它也有它的不足之处。

它的不足之处就是它的这个文件太大了。

它的数据量很大，既不便于数据的传输，也不便于数据的存储。

接下来，计算机软件就把图像文件转化成光点文件。

光点文件叫“.BCL”文件。

也就是“Basecalling”的英文缩写。

要把图像文件，转化成BCL文件，就是把4种颜色的4张照片，组合在一起，变成一张有4种颜色的彩色照片。

这其中首先要解决的，是4张照片在空间位置上的匹配问题，因为4张照片是通过4个CCD分别拍下来的，所以，会有一定的空间上的偏差。

软件要通过对4张照片上，亮点相互比对，找到最合适的、匹配的位置。

这里，我们要说明一下，如果被测的文库是碱基不平衡的文库，在这个空间匹配上就会遇到问题。

什么叫碱基平衡呢？

也就是说，在测序过程当中，每个循环，A、C、G、T四种碱基，都是比较均匀在存在的。

最典型是人全基因组文库，这是一个典型的碱基平衡文库。

那什么是碱基不平衡文库呢？

最典型的，就是PCR扩增子产生的文库。

PCR扩增子的特点：

PCR是有特定的起始位点的，一个特定的测序循环中，几乎所有的片段都是同一种碱基，而剩下的3种碱基，就特别少。

这在反映到照片上去的时侯，就变成：

一张照片特别亮，光点很多。

而其它的三张照片就特别暗，上面的光点就很少。

这时侯，要软件做空间上的比对，软件就会觉得困难，因为对于那几张暗的照片，软件很难判断上面的光点，是否与那张亮的照片上的光点真正对得上。

结果，就是判断出来的可靠性变差。

最后，就是测序的数据质量变差，有效数据量也会变少。

要解决这个问题，办法是在测序过程中掺入一些碱基平衡的文库。

例如掺人全基因组文库。

或者也可以掺Illumina提供的标准的PhiX文库，这些都是碱基平衡文库。

它的作用，是在每个循环当中，为每一种颜色的照片，都提供足够多的亮点。

这样，它可以弥补那些不平衡的文库当中缺亮点的问题。

BCL文件

当把4种颜色的光点组成一个文件之后，软件就会生成一个“.BCL”文件。

“.BCL”文件就是光点文件，它对每个光点，记录了以下的内容。

首先一个光点处在哪个Lane里面。

其次，这个光点在这个Lane的哪个Tile里面。

第3，就是这个亮点在这个Tile的X轴和Y轴的座标位置。

第4，是记录了这个光点当中“红、黄、蓝、绿”四种光的对应的光强。

这个图是BCL文件的一个示意图。

实际上，BCL文件是二进制文件，无法拿来直接阅读。

也正是因为BCL文件难于阅读，并且很难改动，所以，BCL文件几乎不存在做假的可能。

在测序过程当中，有许多客户会要求测序公司提供原始的测序数据，如果客户是包Lane、或者包Flowcell的，一般测序公司是可以提供BCL文件的。

客户在拿到BCL文件之后，可以用“BCL2FASTQ”这个软件，把BCL文件转化成FASTQ序列语文件。

以此，客户可以来验证，测序公司提供的数据是否是原始的，是否是真实的。

再说一下最初生成的那个tiff文件。

tiff文件实在太大了，所以，测序仪在测序过程中，只把tiff文件作为中间文件。

最后是把这个tiff文件删掉的。

如果客户想要原始的图像文件，在HiSeqV4之前，可以让测序公司保留“.CIF”文件。

CIF文件是一种彩色图案的向量文件，它的优点是比tiff文件的数据量小很多。

测序公司把CIF文件给客户之后，客户就可以看到原始的图像文件了。

但是，请注意：

在HiSeq升级到V4之后，保留CIF文件的这个选项是被取消掉了。

所以，对于要测V4Lane的客户来说，是拿不到CIF文件了。

碱基识别

接下来，我们讲一下碱基识别。

我们之前讲：

4种dNTP，各标一种荧光基团，红、黄、蓝、绿，四种颜色，根据颜色来判断碱基种类。

这个实际上是一种简化了的说法。

实际情况，要比这个复杂得多。

来看这个图，这是2种荧素的荧光的波长图。

我们会发觉，这两种荧光色，它发出来的发射光，它在波长上是有交叠的。

在X的这个位置，主要是绿色荧光素的贡献，但是蓝色荧光素，也有少许贡献。

而在Y这个波长位置，蓝色荧光素是做了主要贡献，但是绿色荧光素，也有少量供献。

在实际测序过程中，是4种荧光素发出的亮，相互有交叠，相互之间的交系，变得更加复杂。

那么，现在我们要做的事情，是把A、C、G、T，4种荧光素的贡献给拆开。

首先，我们就要确定4种荧光素在4个被测波长处的贡献率。

我们可以看一下，这个表，就是4种荧光素，在4个波长分别有不同的贡献率。

这样就组成一个4X4的贡献率表格。

我们在实际的分析当中，等于解一个4元1次、4联方程。

因为是4个未知数，又是4个方程，所以肯定是可以解出来的。

说解方程，有点复杂。

那么我们来打一个比方。

让大家来理解这个事情。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Illumina 基础知识

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Illumina测序基础知识.docx
链接地址：https://www.bdocx.com/doc/1179177.html

Illumina测序基础知识.docx

热门标签