如何进行多基因组比对共线性分析Word文件下载.docx
- 文档编号:20623281
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:15
- 大小:306.11KB
如何进行多基因组比对共线性分析Word文件下载.docx
《如何进行多基因组比对共线性分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《如何进行多基因组比对共线性分析Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。
”文本输入字段设置Mauve输出比对结果的位置。
如果留空,Mauve将提示选择输岀文件的位置。
1.1.4设置自定义比对参数
在原始的Mauve(mauveAligner)和渐进Mauve(ProgressiveMauve)这2种算法之间的比对参数是不同的,将在后面的部分中详细讨论。
1.1.5计算比对
一旦基因组序列被载入,点击“Align…”按钮就开始比对了。
将弹出一个控制台对话框,显示比对的进度。
1.1.6取消运行比对
在2.1.0版本中,可以通过返回"
Alignsequence…”对话框并点击"
Cancelalignment"
按钮来取消正在运行的比对。
此外,退出Mauve程序也会使得运行中的比对终止。
如果所有这些都失败了,可以使用Windows任务管理器、MacOSX进程检查器或unix中的“kill”命令来终止正在运行的比对(mauveAligner或progressiveMauve)»
2、渐进的基因组比对参数
默认情况下,Mauve选择了一组比对参数,这些参数适合于比对具有中到高数量的基因组重排事件的亲缘关系接近基因组。
但是,有些时候需要(而且应该!
)调整一些比对参数来改变Mauve的行为。
例如,最小LCB权重的默认值经常太低,应该手动选择一个恰当的值替换。
当比对时,
2.1progressiveMauve参数描述:
匹配种子重量Matchseedweight
与mauveAligner—样,在第一次锚泄比对时,种子大小参数设程为种子模式的最小权重用于生成局部多重比对(匹配)。
当在比对差异基因组或同时比对更多的基因组时,较低的种子权重可能提供更好的灵敏度。
然而,因为Mauve还要求匹配的种子必须在每个基因组中是唯一的,所以将这个值设垃得太低会降低灵敏度。
默认的种子权重(重量〉Defaultseedweight
设宜此选项将允许Mauve选择一个初始匹配种子权重,该权重适宜于被比对的序列长度。
1MB基因组的默认种子大小通常是X个左右,5MB基因组的默认种子大小是15左右,种子大小随着比对基因组的大小而增加。
默认值可能是相对保守的(太大),特别是当比对有更多差异性的基因组时。
期一方而,较高的种子权重减少了噪声匹配,在某些情况下可以产生更好的比对结果。
使用种子家族Useseedfamilies
设置这个选项会导致progressiveMauve使用三种间隔的种子模式来搜索匹配项,而不是只使用一个。
使用三种种子模式可以极大地提高对不同基因组的敏感性,并允许使用较高的种子权重对亲缘关系密切相关的生物体进行分析而不失去其分析的灵敏度。
在大多数情况下,使用种子家族仅需要多岀少量的额外汁算时间。
确定LCBsDetermineLCBs
如果禁用此选项,Mauve将简单地识别基因组之间的匹配(局部多重比对)。
在命令行界而一章中可以看到匹配生成的描述。
假设为共线性基因组Assumecollineargenomes
如果确泄要比对的基因组之间没有重排,则选择此选项。
在比对共线基因组时使用这个选项可以加快progressiveMauve的运行时间。
完全比对和迭代细化FullalignmentandIterativeRefinement
选择**Fullalignment"
选项导致ProgressiveMauve对基因组序列施用MUSCLE执彳亍递归的锚搜索和一个完全的空位比对。
如果没有选择,ProgressiveMauve将识别比对锚,将它们聚类成LCBs中以完成比对。
IterativeRefinement选项应用MUSCLE来优化初始比对,通常会改进初始比对。
当MUSCLE执行独立树的细化迭代时,应该使用这个选项来避免使用单一的引导树导致有偏见的系统发育关系推断。
Sum-of-pairsLCB得分Sum-of-pairsLCBscoring
此选项选择是否在所有对现存序列中应用断点罚分,或者是否将罚分应用于推断的祖先基因排序上。
由于ProgressiveMauve不能准确推断祖先的基因顺序,即使它能,它也不能推断祖先的基因组含疑,因此这个选项应该被认为是“实验性的”,只能在比对共线性基因组时禁用。
原始Mauve(mauveAligner)比对参数
默认情况下,Mauve选择了一组比对参数,这些参数适合于对具有中等到高数量级基因组重排事件的亲缘关系密切相关基因组进行比对。
但是,可以(而且应该!
)调整一些比对参数来改变Mauve的行为。
例如,最小LCB权重的默认值经常太低,应该手动选择适合的值替换。
当比对有更多差异性的基因组时,可以减少种子的大小,以找到更多的比对锚,并在基因组上实现更大的比对覆盖率。
另一种选择是禁用完整的比对过程,允许Mauve快速生成基因组组织的比较图。
FilesT>
araineters^
DefaultseedweightMatchSeedWeiglit:
;
U=^|
37111519
HDetermineLCBsMinLCBweight;
default
Assumecollineargenomes
下面的部分描述对话框中的各个输入字段。
mauveAligner参数描述:
在第一次锚左比对时,种子大小参数设置为种子模式的最小权重用于生成局部多重比对(匹配)。
当在比对差异基因组或同时比对更多的基因组时,较低的种子权重可能提供更好的灵敏度。
然而,因为Mauve还要求匹配的种子必须在每个基因组中是唯一的,所以将这个值设程得太低会降低灵敏度。
默认的种子权重(重量)Defaultseedweight
设置此选项将允许Mauve选择一个初始匹配种子权重,该权重适宜于被比对的序列长度。
1MB基因组的默认种子大小通常是11个左右,5MB基因组的默认种子大小是15左右,种子大小随着比对基因组的大小而增加。
最小LCB重量MinLCBWeight
LCB权重设置为共线性区域中确左的匹配核昔酸的最小数目,使该区域被认为是真正的同源性而不是随机的相似性。
Mauve使用一种叫做多余断点消除(greedybreakpointelimination)的算法来计算一组具有给立最小权值的局部共线性区域(LCBs)。
默认情况下,LCB的重量是种子大小的3倍。
但是,默认值通常过低,应该手动设置该值。
确定最小LCB权重值的合理值,通常涉及到构造与默认值的初始比对,然后使用MauveGUI中的LCB权重滑块(请参阅下一节)来找到消除所有错误重排的权重。
然后可以使用手动确怎的权重值重新排列序列。
扩展LCBsExtendLCBs
控制mauveAligner是否将尝试扩展现有LCBs的范用并搜索其他LCBs。
对于一些数据集,LCB扩展可能是非常耗时的,并且可能不会在比对方而提供很大的改善。
如果确定要比对的基因组之间没有重排,则选择此选项。
在比对共线基因组时使用这个选项可以提高比对的准确度。
比对Aligner
设置mauveAligner是使用MUSCLE还是ClustalW来计算左位锚点之间的全局比对。
肌肉是首选,因为它更快,更准确。
孤岛和主链大小IslandandBackbonesizes
孤岛是指一个基因组的序列区域,它有一个或多个英他基因组缺少的序列。
此参数设程了比对空位大小,用于计算孤岛和主链片段。
有关更多信息,请参阅下而的.islands和.backbone的描述。
完全比对Fullalignment
选择“完全比对”选项会导致Mauve执行递归锚搜索,并使用ClustalW或MUSCLE渐进比对方法对基因组序列进行全空位比对。
如果未被选中,Mauve将标识LCBs,但不会执行递归锚搜索或渐进比对。
3、得到的比对结果如何解读?
3.1显示布局
根据输入的基因组序列排列显示成一个水平的“而板”上。
每个基因组的而板包含基因组序列的名称,显示基因组序列坐标的刻度,以及一条黑色的水平中心线。
彩色区域块出现在中心线的上方或下方。
每一个区域块都是一个区域,能与另一个基因组的一部分对齐比对上,并且可能是同源的,并且在基因组内部不受重排的影响。
当一个区块位于中心线之上时,被对齐的区域相对于第一个基因组序列是正向对齐的。
中心线以下的块,则表示是以反向互补对齐的区域。
区块外的区域表示输入基因组之间缺乏同源性。
在每个区块中,Mauve绘制了基因组序列的相似性轮廉图。
相似剖而的高度对应于该基因组序列区域的平均保守水平。
完全白色的区域表示没有比对上,可能包含了该基因组的特有序列。
相似剖面的高度被讣算为与一个比对区域的平均对齐列爛成反比。
图1(上图)显示了大肠杆菌K12MG1655.S.flexneri2a301和S.flexneri2457T的比对结
果。
请注意,在s.flexneri中反向互补区域是如何被消楚地描绘成基因组中心线以下的区
块。
这三个基因组下载自NCBIFTP站点,并使用ProgressiveMauve默认参数,如前一节
所述。
在图1中,第一个基因组中的有色区域用直线连接到第二个和第三个基因组中相似的有色区域。
这些线表示每个基因组中哪些区域是同源的。
注意线交叉成“X”模式,它碰巧发生在这些生物体中预测的复制起点和终点的附近。
当以复杂的重排方式来检视基因组时,LCB的连接线可能会令人困惑,它们可以通过输入Shift+L(同时按下Shift和L)或使用“视图”菜单来隐藏(或再次可见)。
在标准的配色方案中,彩色块所覆盖的序列区域在基因组之间是完全共线性和同源的。
彩色块的边界通常表示基因组重排的断点,除非序列在断点区域被获得或丢失。
3.2主色调方案
当用ProgressiveMauve讣算岀一种比对时,可以使用一种显示模式,即在所有基因组中保守区域的颜色与在基因组子集中保守的区域的颜色不同。
我们把所有基因组中的保守区域称为"
主干”,用淡紫色表示岀来。
应用颜色模式比对三大肠杆菌和志贺氏菌,禁用LCB轮廓在“View・>
Style”菜单中产生:
图2(上图)显示了大肠杆菌K12MG1655、S.flexneri2a301和S.flexneri2457T相同的比对
结果,但显示的样式设置不同。
相似的部分用紫色表示,在三个基因组中均存在的,而绿
色部分仅在Shigellaflexneri福氏志贺氏菌中存在。
在大肠杆菌E.coli和S.flexneri2457T中
均存在的共有片段是用棕色表示的,但是在全基因组的整体视图中太小而不能被看到(见下
图)。
黑色框跟随鼠标光标,突出显示每个基因组中的同源位点。
点击相似性区域将对齐同
源区域
3.3放大注释的功能
如果比对上的基因组序列是包含注释特征的基因库文件格式,Mauve将在序列相似性概要文件旁边显示其注释特征。
出于效率考虑,只有在显示的序列小于IMbp时才会岀现带注释的特性。
要放大比对结果,可以使用工具栏上的放大镜按钮,或者使用键盘快捷键Ctrl+Up来放大(同时按Control和向上箭头键)和Ctrl+Down来缩小。
在MacOSX上,所有这些快捷键都用Command键代替,所以放大是Command+Up等。
一旦看到的序列小1:
IMbp,注释的CDS特征就会显示为白色框,tRNAs为绿色,rRNAs为红色,而misc_RNA为蓝色。
当鼠标指针停留在某个特性上时,Mauve将显示其限左符。
当单击某个特性时,Mauve会在弹岀窗口中显示一个详细的特性限立符列表,以及一个链接到与该基因对应的NCBIEntrez蛋白质条目的菜单。
图3(上图)显示了放大的385mbp区域,它在大肠杆菌E.coliK12基因组中emrD编码区域的相同比对。
注释的基因显示为白色框,从反向链转录的基因向下移动。
在大肠杆菌K12中,鼠标光标(显示为一条黑线)悬停在emrDCDS区域上。
该基因的n端与上游区域的相似性图用棕色表示,表明S.flexneri2a301分离株缺失了这段DNA。
这种片段缺失可能对该
S.flexneri2a301的基因调控产生潜在的影响。
3.4导航显ZK
缩放和移动显示界面
比对的显示界而是交互式的,提供了放大特左区域和左右移动显示的能力。
通过使用放大镜和显示器上方工具栏上的箭头控制按钮,可以完成比对结果的可视化导航。
或者,键盘快捷键允许通过对齐显示快速移动。
按下Ctrl+上箭头和Ctrl+下箭头可以放大和缩小显示,而Ctrl+左箭头和Ctrl+右箭头分别可以向左和向右移动(mac上是Command+left或Command+right)a按I'
Ctrl+左和Ctrl+右的"
shift"
键可以加速向左和向右的移动。
鼠标控制
当鼠标移到比对结果显示上时,Mauve会用黑色竖条突出显示每个基因组的比对和同源位点。
通过在序列相似图中点击鼠标,Mauve将排列每个基因组的同源位点。
最后,按住shift键在相似度图上点击拖动,可以选择部分对齐。
重排序列和改变参考基因组
在查看许多基因组的比对结果时,通常需要重新排序基因组序列。
这可以通过点击每个基因组左边的上下箭头按钮来完成。
默认情况下,Mauve使用第一个基因组序列作为参考基因组,为反向区域分配参考方向。
可以通过点击“R”按钮来改变参考基因组,也在基因组序列显示的左侧。
以下是三种大肠杆菌和志贺氏菌在重新排序和改变了参考基因组后的比对结果:
隐藏序列
在查看大量基因组序列的比对结果时,将显示范用限制在感兴趣的几个基因组上,从而有助于简化视图。
这可以通过单击显示器左侧的减号按钮来完成。
例如,这是一个22个基因组的排列视图,其中许多是隐藏的。
搜索注释特性
每个优秀的分子生物学家都有自己关注的基因。
自从2.0.0版本以来,Mauve有一个方便的接口,可以轻松找到您最关注的基因。
注释可以通过基因名称、产物描述、氨基酸序列等信息进行搜索。
点击工具栏上的双筒望远镜按钮,或通过“View->
GoTo->
FindFeatures”菜单项,即可激活搜索功能。
Mauve会显示一个搜索界而窗口:
“sequenceNavigator
在展示的例子中,三种大肠杆菌和志贺氏杆菌的序列已经被用来寻找编码与青霊素相关产物的基因。
每个基因组的搜索结果显示在右侧。
一个特定的基因,dacC被选中。
当单击dacC时,显示器将自身重新聚焦到【卞]绕dacC基因的区域上,该区域用浅蓝色突出显示:
有趣的是,dacC编码的青霉素结合蛋白在志贺氏菌基因组中似乎是假基因。
对周围区域的检查发现了两个注释为IS600的CDS区域,这是一个众所周知的转座因子,它是克隆志贺菌的。
IS600插入到dacC基因的末端。
用Mauve做岀能用于岀版/发表质疑的图形
虽然Mauve提供了一种方法来导出当前显示的图像文件,使用“file-'
Exportimage…”菜单项,但是导岀的图像是栅格图形,对于期刊岀版可能不是理想的。
要使用Mauve创建能发表的高质量的EPS或PDF图形,最好直接打印为postscript文件或PDF。
这是通过选择“File->
Print”,然后从打印对话框中选择PDF或postscript输出来完成的。
在MacOSX±
打印对话框中有一个“保存为PDF”的选项,可以很容易地使用。
/£
Windows系统中,没有内置的PDF渲染器,尽管有一些第三方销售带有此功能的软件。
AdobeAcrobat包含一个PDF渲染器,CutePDF和pdf995等公司提供免费的PDF渲染软件。
另一个选择是使用“Printtofile…"
复选框在windows打印对话框。
如果安装了postscript打印机驱动程序,生成的文件将是postscript(EPS)格式。
无需连接真正的打卬机,就可以在Windows中安装postscript打印机驱动程序,只需转到打印机控制而板并选择“Addprinter”即可。
选择“连接到此讣算机的本地打印机”,而不是"
自动检测并安装我的即插即用打印机”。
单击Next。
选择"
使用以下端口”并选择“文件:
(打印到文件)”。
当提示输入打印机型号时,选择AppleColorLW12/660PS,单击Next。
选择打印机名称,就完成了。
创建postscript或PDF文件后,通常需要编辑该文件。
进行编辑的最佳程序是Adobeillustrator,因为它被设计用于编辑矢量图形文件,如postscript和PDF。
像开源Inkscape这样的貝他图形编辑软件可能也值得研究来使用。
虽然处理矢量格式的Mauve图像(如PDF或EPS)看起来很麻烦,但你的努力将得到回报,得到淸晰的打印质量,远远超过颗粒状和像素化的截图。
此外,Mauve图形在PDF或EPS格式可以缩放打印在大型多页格式或海报没有损失的视觉质量。
一套左位同源特征(基因、CDS、tRNA等)的输出
从2.3.0版本开始,Mauve就能够识别一组位置相同的序列特性,并导出一组带注释的特性。
注释的特征可以是CDS、gene、rRNA、tRNA或misc_RNA°
通过progressiveMauve生成的比对结果,可以从菜单中选择“Tools->
Export->
ExportPositionalOrthologs"
来导出。
然后将岀现一个窗口,请求同源特征输出文件的保存位置,这些文件种带有可识別算法的一些可配苣参数。
一个参数是对位置同源序列的核昔酸一致性的允许范围。
要称为位置同源物,一对标注的特征必须在指左范国内具有平均成对的核昔酸一致性。
核昔酸的一致性只计算在这对注释特征共享的保守区域上,不包括大的空位。
第二个参数是配对中这对标注的特征的“覆盖率”。
覆盖率是根据一个特性与期一个特性的比例来计算的。
如果特征A的长度的X%比对到特征B,B的长度的Y%比对到特征A,且X和Y都在用户规泄的允许覆盖范围内,则认为A和B是位置同源的。
一旦Mauve确泄了输入基因组中所有成对的位置同源特征,它就会将传递性应用到位置同源预测中。
如果A被发现与B同源,B与C同源,那么A也必然与C同源,即使A和C不符合上述规定的核苛酸一致性或覆盖度要求。
为什么这些是位置同源而不是直系同源?
已有文献研究认为,直系同源的进化关系不能作为传递性应用。
这在一般情况下是正确的,岀于这个原因,我们应该把由Mauve推断出的位置同源特征仅仅看作是:
推断,这种推断在某些情况下可能是错误的。
通常,同源基因位于同一染色体同位置下确实是直系同源的,因此通过传递应用同源的推断通常会得到正确的结果。
但偶尔的进化过程,如基因转换与重复的基因复制,可能会产生一种情况,即位置同源物是一个旁系同源。
因此,我们建议使用位置同源导出特征的用户在解释Mauve生成的同源的进化史时要谨慎。
在本文档的早期版本和软件中,这些特性被称为“位豊宜系同源”。
此描述已被修订为“位置同源物”,以帮助阐明一些导出的特征可能具有与直系同源不一致的进化历史。
普逊错误认知:
sequencesimilarityishomology.
除了控制位置同源推断过程的参数外,导岀窗口还包含一个选项,用于输出一系列文件,此文件对应每个位垃同源集对应的多个比对位点。
GenBank注释的/locus_tag限泄符用于为这些输岀文件作特性命名。
3.5键盘控制集Keyboardcontrolreference
功能
键盘
放大
Ctrl+t
缩小
Ctrl+I
向左滑动图像
Ctrl+—
向右滑动图像
大幅度左滑
Shift+Ctrl+—
大幅度右滑
Shift+Ctrl+一
打开一个已存在的比对文件
Ctrl+O
打印当前视图
Ctrl+P
页而布局打印设置
Ctrl+Shift+P
输出当前视图为图像
Ctrl+E
关闭当前比对窗口
Ctrl+W
退出Mauve
Ctrl+Q
显示或隐藏LCB连接线
Shift+L
显示或隐藏LCB轮廓
Q
注意:
在MacOSX中命令键用以取代以上的这些快捷键
其他的配色方案
当“完全比对”选项被禁用时,有几种配色方案可用。
当使用相似配置文件显示査看完全比对时,这些配色方案不可用。
LCB颜色LCBColor
每个局部共线性区域(LCB)被分配到一个唯一的颜色。
多样性的颜色MultiplicityColor
根据它们的多样性,匹配的颜色是不同的,其中多样性被左义为匹配
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 进行 多基因 线性 分析