书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 金融投资 > RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx

RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx

文档编号：17209632
上传时间：2022-11-28
格式：DOCX
页数：15
大小：1.67MB

《RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx》由会员分享，可在线阅读，更多相关《RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx（15页珍藏版）》请在冰豆网上搜索。

RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx

FASTA文件或能通过网络界面处理的收集的FASTA文件。

1.点击网页浏览器，进入http:

//www.repeatmasker.org/cgi-bin/WEBRepeatMasker.通过序列名或浏览文件下载FASTA序列文件（最大100kb），或者粘贴FASTA序列（最大100kb）到指定的文本框。

如果输入的序列包含非DNA符号或者序列太长，RepeatMasker会提示错误信息。

2.从单选框下的“returnformat”来选择结果的格式：

“html”或“tarfile”。

如果选择“html”，那么结果会以一个超文本标记语言（html.）文件输出。

如果选择“tarfile”，那么结果会打包为用Unix系统“tar”协议的文档。

3.从“returnmethod”下两个单选按钮选择会送结果的方法，即：

“html”或“email”。

如果选择这一步和上述第2步都选择“html”，那么所有的结果会通过窗口显示，如果过这步选择“html”，而第2步却选择“tarfile”，那么结果会在窗口内提供链接。

如果选择“email”，那么需要填写电子邮件地址，以确保结果可以通过电子邮件发送。

这里以“html”为例。

4.目前，可以选择点击提交序列的按钮来运行RepeatMasker，同时可选择其他选项来设置默认值。

如果系统默认值不能满足需要，可继续第5到8步并按第9步提交序列。

设置其他选项设置默认值后点击提交序列，结果会在窗口中展示，如图4.10.2,4.10.3,4.10.4和4.10.5.为理解结果的细节可以看参考。

5.通过点击Speed/Senitivity下的四个单选按钮来调整速度：

“rrush”，“quick”，“default”，或“slow”。

注意速度和敏感度相关。

比如选择“default”，为了便于理解结果可以看参考。

6.在下拉菜单中选择“DNAsource”的次选项，每一项等同于不同的重复原件库。

比如这里的例子，其默认值是人，选择人是因为其序列来自于人类的基因组。

注意如果待测序列所来自的生物体在菜单中没有，那么就必须本地运行命令行版本的RepeatMasker了，而且需要选用来自Rebase中的合适的副本文件。

如果Rebase中不含合适的副本文件，那么RECON（BaoandEddy,2002;

Steinetal.,2003）或RepeatScout（http:

Priceetal.,2005）会从头建立重复文件。

7.在下拉菜单的一系列功能中，单选按钮和LineageAnnotationOptions下的检查框（checkboxes）来选择合适的选择项。

这些选项不需要说明，比如选择ComparisonSpecies，与所选物种相关的世系特异性重复就会通过RepeatMasker输出。

8.在高级选项（AdvanceOption）的下拉菜单中，选择合适的选项。

这些选项同样简单明了。

比如，如果想在MaskingOption的两个选项间选择，则要么选择模糊特性，诸如“N”或“X”此类的隐藏，要么选择小写字母，这更适合于序列比对。

这些细节解释和附加选项可通过右边的下拉菜单中获得。

9.点击提交序列按钮运行RepeatMasker。

二、在Unix/Linux下运行RepeatMaker

命令行版本的RepeatMasker为使用者提供了更多的选择，并且没有最大100kb的长度限制。

要本地运行RepeatMasker需要获得RepeatMasker、cross_match和来自RepbaseUpdate的相应的重复元件库，下文有详细描述。

这也是对于RepeatMasker运行快速程序WU-BLAST所必须的（参见可选项目）。

注意：

对于不熟悉Unix的研究者请参见附录1C和附录1D。

必须资源：

硬件：

任意链接网络的Unix或Linux计算机

软件：

RepeatMasker：

现在软件为开源版本V.2.1，可从http:

//www.repeatmasker.org/RMDownload.html下载。

Cross_match：

软件为Phred/Phrap/Consed软件安装包的一部分，同时也是对学术研究者免费的（http:

//www.phrap.org/consed/consed.html#howToGet;

alsoseeUNIT11.2）。

为PhilGreen所写（phg@u.washington.edu）包括以下信息：

（a）姓名；

（b）同意网站上描述的授权条件（描述Cross_match要求）；

（c）研究机构或部门；

（d）以后联系用得e-mail地址（e-mail的获得需通过Unix电脑运行通用mail程序，因为许多程序发送的是非编码文件，而这是与一些mail程序相冲突的）。

需要注意的是获得许可需要花费大约两周的时间。

RepbaseUpdate：

这一数据库（http:

//www.girinst.org/;

Jurka,2001）包含大量可选择的重复元件库，这些是运行RepeatMasker所需的。

这些库对于学术研究者是免费下载的，对于需求者需要填写在线表格以说明要获得的数据库文件（http:

//www.girinst.org/accountservices/register.php）。

而商业性质的使用者需要联系JolantaWalichiewicz（jola@girinst.org）。

此外，如果要研究的基因组在RepbaseUpdate中没有合适的重复库时就需要利用RECON（BaoandEddy，2002）或RepeatScout（http:

Priceetal.,2005）来进行处理。

Steinetal.（2003）使用RECON建立了线虫C.elegans和C.briggsae的重复库。

RECON可以从RepeatMasker安装包中获得，有效的可用下载地址是：

http:

//www.repeatmasker.org/RepeatModeler.html，另外RepeatMasker利用RepeatScout软件从新的基因组序列中标注重复家族的序列。

某一FASTA文件（附件1B）或者一批FASTA文件可以通过命令行版RepeatMasker处理，注意在这里没有文件大小的限制。

例子中使用的是Caenorhabditiselegans的基因组全序列，有102,287,094bp长，下载自WormBase（http:

//www.wormbase.org）FTP站点（ftp:

//ftp.wormbase.org/pub/wormbase/genomes/elegans/sequences/dna/）。

系统准备

1、下载并安装RepeatMasker、TandemRepeatFinder（TRF）、cross_match、WU-BLAST和Repbase库文件。

RepeatMasker为Perl文件，可以安装在任一所需根目录下。

Cross_match会通过e-mail方式由作者发送给符合条件的申请者。

RepbaseUpdate将给予使用者名字和密码以便下载重复数据库文件。

在实例中，建立一个文件，将其命名为repeat并置于home根目录下，然后复制RepeatMasker、TRF和cross_match到这一目录下。

实例

命令如下：

$mkdirrepeat

$cdrepeat

2、更改程序许可。

命令：

$chmodu+xRepeatMasker

$chmodu+xcrossmatch

$ln-strf321.linux.exetrf

3、通过配置脚本设置路径

首先，找到Perl的安装路径：

$whichperl

默认为：

/usr/bin/perl

然后更改到repeat文件目录和RepeatMasker的目录，获得现在路径的命令是：

usernameRepeatMasker$pwd

默认路径是：

/home/username/repeat/RepeatMasker

接下来按照同样的方法获得TRF和cross_match的路径。

用下列命令安装程序：

$cdRepeatMasker

$perl./configure

输入所需路径，如实例中，键入Perl解释器的路径：

Enterpath:

/usr/bin/perl

键入RepeatMasker程序的本地安装路径：

/home/username/repeat/RepeatMasker

键入TRF的安装路径：

Enterpath:

/home/username/repeat

键入cross_match的安装路径：

/home/username/repeat/crossmatch

4、将repeat文件置于正确的目录中（即，RepeatMasker的目录）。

确保Libraries的次级目录在RepeatMasker的目录下并包含RepeatMasker.lib和RepeatMaskerLib.embl文件。

5、为输入和输出创建新目录。

注意要将RepeatMasker的输出文件和输入文件置于同一目录下。

命令如：

$mkdirRepeatMaskerfile

$cdRepeatMaskerfile

RepeatMaskerfile$

下载或复制包含C.elegans基因组序列的FASTA文件（如：

current.dna.fa.gz）并解压。

$gunzipcurrent.dna.fa.gz

6、调出命令行参数和选项的简介，方法是在命令行键入RepeatMasker，如：

$../RepeatMasker/RepeatMasker

将会显示以下内容：

SYNOPSIS

RepeatMasker[-options]<

seqfiles（s）infastaformat>

...

defaultsettingsareformaskingalltypeofrepeatsinaprimatesequence.

Choosefromanumberofoptions:

-qQuicksearch;

5-10%lesssensitive,2-5timesfasterthandefault

-nolowDonotmasklowcomplexityDNAorsimplerepeats

-div[number]Maskonlythoserepeats<

xpercentdivergedfromconsensusseq

-species<

queryspecies>

Specifythespeciesorcladeoftheinputsequence（chooseonlyone!

）

contaminationoptions

runningoptions

outputoptions

获得详细的帮助可键入：

$../RepeatMasker/RepeatMasker–h

运行RepeatMasker

7、在本地运行命令行版RepeatMasker：

%/path/to/RepeatMasker-elcurrent.dna.fa

如：

运行命令$../RepeatMasker/RepeatMasker-specieseleganscurrent.dna.fa

因为例子中的序列来自于C.elegans，使用-specieselegans命令以保证调用C.elegansRepbase重复元件数据库文件。

结果文件将写在RepeatMasker_file的目录中，在这一目录中调用的序列文件也在这里。

如例中结果文件包括：

current.dna.fa.masked

current.dna.fa.log

current.dna.fa.dna.cat

current.dna.fa.dna.out

current.dna.fa.dna.tbl

这些文件的解释参见后面输出结果文件的导读部分。

8、RepeatMasker为使用者提供了大量的选择以满足不同需要。

在这里仅对常用的选择进行介绍，更多的细节参见repeatmasker.help，这些也包含在RepeatMasker安装包中。

注意当命令众多时，这些选择项命令的先后顺序并不重要。

a.speciesoptions和-lib标志允许使用者为特定文库指定相应的物种。

RepeatMasker为许多生物提供通用名，比如-cat或-dog，但不是所有的生物都有通用名。

鉴于此，特别推荐拉丁名作为物种的命名。

使用者也可提供重复文库文件，特别是当文库文件不是来自于Repbase时，RepeatMasker使用-lib标记。

重复文库的默认值是首要的选择。

为RepeatMasker建立个人的重复数据库，repeatmasker.help推荐使用ID格式。

如

>

repeatname#class/subclass

或者是简略格式：

repeatname#class

b.掩码选项是确定哪一种重复需要掩蔽。

通常的选择项包括：

-cutoff、-nolow和-div。

-cutoff选项是设定调用-lib时掩蔽重复序列的水平值，默认的值是225.低于该值将出现更多的错误匹配。

-nolow是提示RepeatMasker不要掩蔽低复杂度的DNA或简单重复序列。

-div是用来设定离散度以限制掩码并对较小离散的（新生成的）重复序列子集进行注释。

c.有一些选项用来控制进程速度和搜索参数。

影响进程速度的选项有：

-q快速检索；

低于默认5%到10%敏感度，默认速度的3倍到4倍。

-qq急速检索；

低于默认10%的敏感度。

-s慢速减速；

高于默认0%到5%的敏感度；

默认速度的-2.5倍。

这些标记在输入长序列时会产生显著差异。

如果只需要快速检索，-qq会快速产生结果，与之对应的是结果的质量要求较高时，应使用默认（即不需要输入任何选项）或者是-s选项命令。

使用-pa（prallel）时可以引入更多的计算机来进行RepeatMasker运算，这种情况常用于输入的文件很多或查询文件很大（>

50kb）时。

-w（ublast）是用WU-BLAST替代cross_match（参见选择项目）。

d.输出选项支持以下频繁使用的命令格式（其他的可通过repeatmasker.help获得）：

-a在.align的输出文件中展示比对情况。

-small.maked文件中的序列全部转换成小写字母。

-xsmall将重复区间转换成小写字母（其余的大写）。

-x用X字母来掩蔽重复区域

-gff创建附加的GeneralFeatureFinding输出格式。

注意，-cut选项是不支持现行版本的RepeatMasker的，要获得该功能函数可以联系RobertHubley（rhubley@systemsbiology.org）。

运行RepeatMasker的WU-BLAST

如果通过RepeatMasker计算更大序列（比如智人的全基因组序列）时，进程时间将会显著延长。

而用WU-BLAST来取代cross-match时，进程时间会节省近30倍（Bedelletal.,2000）。

尽管含有WU-BLAST的RepeatMasker更节省时间，但是其整合依然有些限制：

（1）低复杂度的重复序列的掩蔽并不是像cross-match一样的效率；

（2）不支持一些输出格式；

（3）对其运算结果的精确度缺少评估。

对于不熟悉Unix运行环境的需要学习附录1c和1D。

必须资源

Unix或Linux站点

RepeatMasker（参见BasicProtocol2）

WU-BLAST2.0:

联系licensing@blast.wustl.edu

RepbaseUpdaterepeatlibraries（参见BasicProtocol2）

文件:

FASTA文件或FASTA文件集（附录1B）。

对于整合有WU-BLAST的RepeatMasker命令行版本对文件的运算没有大小限制。

本示例中引用的是下载自数据库WormBase（http:

//ftp.woembase.org/pub/wormbase/genomes/elegans/sequences/dna/）C.elegans的全基因组序列，其长度为102,278,094bp。

1、下载并安装RepeatMasker、WU-BLAST和Repeat文库文件。

注意直到2004年6月MaskerAid（Bedelletal.,2000）是RepeatMasker运算WU-BLAST所必须的。

现在这些功能被应用到程序中而不需要再进行整合。

鉴于此，建立一Repeat目录，然后将RepeatMasker/目录复制到该目录下。

完成这些操作需要利用mkdir更改根目录并创建一新的repeat目录。

利用cd锁定当前路径为repeat，如下操作：

mkdirrepeat

cdrepeat

复制RepeatMasker/到这一目录下，复制WU-BLAST软件包到这一目录下并解压

$gunzip-WUBLAST|tarxvf-wublast/解压后的存放目录

在wu-blast/目录下的程序如blastp和blastx在解压后均可执行操作。

2、更改程序权限和路径。

$chmodu+xwu-blast

3、通过运行配置脚本设定正确路径，参见BasicProtocol2.

加入WU-BLAST搜索引擎，键入：

Enterpath:

/home/mta57/repeat/wu-blast

4、为输入文件和输出文件创建新的目录。

RepeatMasker的输出文件和输入文件必须要在同一个目录写，如：

$mkdirRepeatMaskerfile

$cdRepeatMaskerfile/

[当前目录]$

接下来下载或复制C.elegans的全基因组序列的FASTA文件（current.dna.fa.gz）到相应的目录中并解压。

5、用-W（ublast）标签来运行程序，如：

$../RepeatMasker/RepeatMasker-w-specieseleganscurrent.dna.fa

这里的-w标签是用以指示WU-BLAST为使用的匹配引擎；

-specieselegans是用以指示使用C.elegansRepbase文库文件，因为运算的序列是C.elegans。

注意包含多个词的物种名需要用””（如：

”Caenorhabditiselegans”）。

除了用于指示WU-BLAST的-w选项命令外，其他的命令参数和选项与BasicProtocol2类似。

运算结果指导说明

RepeatMasker的运算结果会被写成5个不同的文件，这些文件与查询序列或序列集同在一个目录下。

其中，三个.out、.masked和.tbl扩展名的文件含有运算结果；

其他的文件是储存运算进程信息的，所以在此不再详述。

如果RepeatMasker是通过网络界面运算的，那么这三的文件会写成页面文件。

参见列表：

.out扩展名的文件

ColumnContent

SWscoreSmith-Watermanscoreofthematch

Percdiv.Percentsubstitutionsinmatchingregioncomparedtotheconsensus

Percdel.Percentofbasesoppositeagapinthequerysequence（deletedbp）

Percins.Percentofbasesoppositea

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: RepeatMasker 网页命令行使用说明中文翻译

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx
链接地址：https://www.bdocx.com/doc/17209632.html

RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx

热门标签