RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx
- 文档编号:17209632
- 上传时间:2022-11-28
- 格式:DOCX
- 页数:15
- 大小:1.67MB
RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx
《RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx》由会员分享,可在线阅读,更多相关《RepeatMasker网页版和命令行版使用说明中文翻译版Word文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
FASTA文件或能通过网络界面处理的收集的FASTA文件。
1.点击网页浏览器,进入http:
//www.repeatmasker.org/cgi-bin/WEBRepeatMasker.通过序列名或浏览文件下载FASTA序列文件(最大100kb),或者粘贴FASTA序列(最大100kb)到指定的文本框。
如果输入的序列包含非DNA符号或者序列太长,RepeatMasker会提示错误信息。
2.从单选框下的“returnformat”来选择结果的格式:
“html”或“tarfile”。
如果选择“html”,那么结果会以一个超文本标记语言(html.)文件输出。
如果选择“tarfile”,那么结果会打包为用Unix系统“tar”协议的文档。
3.从“returnmethod”下两个单选按钮选择会送结果的方法,即:
“html”或“email”。
如果选择这一步和上述第2步都选择“html”,那么所有的结果会通过窗口显示,如果过这步选择“html”,而第2步却选择“tarfile”,那么结果会在窗口内提供链接。
如果选择“email”,那么需要填写电子邮件地址,以确保结果可以通过电子邮件发送。
这里以“html”为例。
4.目前,可以选择点击提交序列的按钮来运行RepeatMasker,同时可选择其他选项来设置默认值。
如果系统默认值不能满足需要,可继续第5到8步并按第9步提交序列。
设置其他选项设置默认值后点击提交序列,结果会在窗口中展示,如图4.10.2,4.10.3,4.10.4和4.10.5.为理解结果的细节可以看参考。
5.通过点击Speed/Senitivity下的四个单选按钮来调整速度:
“rrush”,“quick”,“default”,或“slow”。
注意速度和敏感度相关。
比如选择“default”,为了便于理解结果可以看参考。
6.在下拉菜单中选择“DNAsource”的次选项,每一项等同于不同的重复原件库。
比如这里的例子,其默认值是人,选择人是因为其序列来自于人类的基因组。
注意如果待测序列所来自的生物体在菜单中没有,那么就必须本地运行命令行版本的RepeatMasker了,而且需要选用来自Rebase中的合适的副本文件。
如果Rebase中不含合适的副本文件,那么RECON(BaoandEddy,2002;
Steinetal.,2003)或RepeatScout(http:
Priceetal.,2005)会从头建立重复文件。
7.在下拉菜单的一系列功能中,单选按钮和LineageAnnotationOptions下的检查框(checkboxes)来选择合适的选择项。
这些选项不需要说明,比如选择ComparisonSpecies,与所选物种相关的世系特异性重复就会通过RepeatMasker输出。
8.在高级选项(AdvanceOption)的下拉菜单中,选择合适的选项。
这些选项同样简单明了。
比如,如果想在MaskingOption的两个选项间选择,则要么选择模糊特性,诸如“N”或“X”此类的隐藏,要么选择小写字母,这更适合于序列比对。
这些细节解释和附加选项可通过右边的下拉菜单中获得。
9.点击提交序列按钮运行RepeatMasker。
二、在Unix/Linux下运行RepeatMaker
命令行版本的RepeatMasker为使用者提供了更多的选择,并且没有最大100kb的长度限制。
要本地运行RepeatMasker需要获得RepeatMasker、cross_match和来自RepbaseUpdate的相应的重复元件库,下文有详细描述。
这也是对于RepeatMasker运行快速程序WU-BLAST所必须的(参见可选项目)。
注意:
对于不熟悉Unix的研究者请参见附录1C和附录1D。
必须资源:
硬件:
任意链接网络的Unix或Linux计算机
软件:
RepeatMasker:
现在软件为开源版本V.2.1,可从http:
//www.repeatmasker.org/RMDownload.html下载。
Cross_match:
软件为Phred/Phrap/Consed软件安装包的一部分,同时也是对学术研究者免费的(http:
//www.phrap.org/consed/consed.html#howToGet;
alsoseeUNIT11.2)。
为PhilGreen所写(phg@u.washington.edu)包括以下信息:
(a)姓名;
(b)同意网站上描述的授权条件(描述Cross_match要求);
(c)研究机构或部门;
(d)以后联系用得e-mail地址(e-mail的获得需通过Unix电脑运行通用mail程序,因为许多程序发送的是非编码文件,而这是与一些mail程序相冲突的)。
需要注意的是获得许可需要花费大约两周的时间。
RepbaseUpdate:
这一数据库(http:
//www.girinst.org/;
Jurka,2001)包含大量可选择的重复元件库,这些是运行RepeatMasker所需的。
这些库对于学术研究者是免费下载的,对于需求者需要填写在线表格以说明要获得的数据库文件(http:
//www.girinst.org/accountservices/register.php)。
而商业性质的使用者需要联系JolantaWalichiewicz(jola@girinst.org)。
此外,如果要研究的基因组在RepbaseUpdate中没有合适的重复库时就需要利用RECON(BaoandEddy,2002)或RepeatScout(http:
Priceetal.,2005)来进行处理。
Steinetal.(2003)使用RECON建立了线虫C.elegans和C.briggsae的重复库。
RECON可以从RepeatMasker安装包中获得,有效的可用下载地址是:
http:
//www.repeatmasker.org/RepeatModeler.html,另外RepeatMasker利用RepeatScout软件从新的基因组序列中标注重复家族的序列。
某一FASTA文件(附件1B)或者一批FASTA文件可以通过命令行版RepeatMasker处理,注意在这里没有文件大小的限制。
例子中使用的是Caenorhabditiselegans的基因组全序列,有102,287,094bp长,下载自WormBase(http:
//www.wormbase.org)FTP站点(ftp:
//ftp.wormbase.org/pub/wormbase/genomes/elegans/sequences/dna/)。
系统准备
1、下载并安装RepeatMasker、TandemRepeatFinder(TRF)、cross_match、WU-BLAST和Repbase库文件。
RepeatMasker为Perl文件,可以安装在任一所需根目录下。
Cross_match会通过e-mail方式由作者发送给符合条件的申请者。
RepbaseUpdate将给予使用者名字和密码以便下载重复数据库文件。
在实例中,建立一个文件,将其命名为repeat并置于home根目录下,然后复制RepeatMasker、TRF和cross_match到这一目录下。
实例
命令如下:
$mkdirrepeat
$cdrepeat
2、更改程序许可。
命令:
$chmodu+xRepeatMasker
$chmodu+xcrossmatch
$ln-strf321.linux.exetrf
3、通过配置脚本设置路径
首先,找到Perl的安装路径:
$whichperl
默认为:
/usr/bin/perl
然后更改到repeat文件目录和RepeatMasker的目录,获得现在路径的命令是:
usernameRepeatMasker$pwd
默认路径是:
/home/username/repeat/RepeatMasker
接下来按照同样的方法获得TRF和cross_match的路径。
用下列命令安装程序:
$cdRepeatMasker
$perl./configure
输入所需路径,如实例中,键入Perl解释器的路径:
Enterpath:
/usr/bin/perl
键入RepeatMasker程序的本地安装路径:
/home/username/repeat/RepeatMasker
键入TRF的安装路径:
Enterpath:
/home/username/repeat
键入cross_match的安装路径:
/home/username/repeat/crossmatch
4、将repeat文件置于正确的目录中(即,RepeatMasker的目录)。
确保Libraries的次级目录在RepeatMasker的目录下并包含RepeatMasker.lib和RepeatMaskerLib.embl文件。
5、为输入和输出创建新目录。
注意要将RepeatMasker的输出文件和输入文件置于同一目录下。
命令如:
$mkdirRepeatMaskerfile
$cdRepeatMaskerfile
RepeatMaskerfile$
下载或复制包含C.elegans基因组序列的FASTA文件(如:
current.dna.fa.gz)并解压。
$gunzipcurrent.dna.fa.gz
6、调出命令行参数和选项的简介,方法是在命令行键入RepeatMasker,如:
$../RepeatMasker/RepeatMasker
将会显示以下内容:
SYNOPSIS
RepeatMasker[-options]<
seqfiles(s)infastaformat>
...
defaultsettingsareformaskingalltypeofrepeatsinaprimatesequence.
Choosefromanumberofoptions:
-qQuicksearch;
5-10%lesssensitive,2-5timesfasterthandefault
-nolowDonotmasklowcomplexityDNAorsimplerepeats
-div[number]Maskonlythoserepeats<
xpercentdivergedfromconsensusseq
-species<
queryspecies>
Specifythespeciesorcladeoftheinputsequence(chooseonlyone!
)
contaminationoptions
runningoptions
outputoptions
获得详细的帮助可键入:
$../RepeatMasker/RepeatMasker–h
运行RepeatMasker
7、在本地运行命令行版RepeatMasker:
%/path/to/RepeatMasker-elcurrent.dna.fa
如:
运行命令$../RepeatMasker/RepeatMasker-specieseleganscurrent.dna.fa
因为例子中的序列来自于C.elegans,使用-specieselegans命令以保证调用C.elegansRepbase重复元件数据库文件。
结果文件将写在RepeatMasker_file的目录中,在这一目录中调用的序列文件也在这里。
如例中结果文件包括:
current.dna.fa.masked
current.dna.fa.log
current.dna.fa.dna.cat
current.dna.fa.dna.out
current.dna.fa.dna.tbl
这些文件的解释参见后面输出结果文件的导读部分。
8、RepeatMasker为使用者提供了大量的选择以满足不同需要。
在这里仅对常用的选择进行介绍,更多的细节参见repeatmasker.help,这些也包含在RepeatMasker安装包中。
注意当命令众多时,这些选择项命令的先后顺序并不重要。
a.speciesoptions和-lib标志允许使用者为特定文库指定相应的物种。
RepeatMasker为许多生物提供通用名,比如-cat或-dog,但不是所有的生物都有通用名。
鉴于此,特别推荐拉丁名作为物种的命名。
使用者也可提供重复文库文件,特别是当文库文件不是来自于Repbase时,RepeatMasker使用-lib标记。
重复文库的默认值是首要的选择。
为RepeatMasker建立个人的重复数据库,repeatmasker.help推荐使用ID格式。
如
>
repeatname#class/subclass
或者是简略格式:
repeatname#class
b.掩码选项是确定哪一种重复需要掩蔽。
通常的选择项包括:
-cutoff、-nolow和-div。
-cutoff选项是设定调用-lib时掩蔽重复序列的水平值,默认的值是225.低于该值将出现更多的错误匹配。
-nolow是提示RepeatMasker不要掩蔽低复杂度的DNA或简单重复序列。
-div是用来设定离散度以限制掩码并对较小离散的(新生成的)重复序列子集进行注释。
c.有一些选项用来控制进程速度和搜索参数。
影响进程速度的选项有:
-q快速检索;
低于默认5%到10%敏感度,默认速度的3倍到4倍。
-qq急速检索;
低于默认10%的敏感度。
-s慢速减速;
高于默认0%到5%的敏感度;
默认速度的-2.5倍。
这些标记在输入长序列时会产生显著差异。
如果只需要快速检索,-qq会快速产生结果,与之对应的是结果的质量要求较高时,应使用默认(即不需要输入任何选项)或者是-s选项命令。
使用-pa(prallel)时可以引入更多的计算机来进行RepeatMasker运算,这种情况常用于输入的文件很多或查询文件很大(>
50kb)时。
-w(ublast)是用WU-BLAST替代cross_match(参见选择项目)。
d.输出选项支持以下频繁使用的命令格式(其他的可通过repeatmasker.help获得):
-a在.align的输出文件中展示比对情况。
-small.maked文件中的序列全部转换成小写字母。
-xsmall将重复区间转换成小写字母(其余的大写)。
-x用X字母来掩蔽重复区域
-gff创建附加的GeneralFeatureFinding输出格式。
注意,-cut选项是不支持现行版本的RepeatMasker的,要获得该功能函数可以联系RobertHubley(rhubley@systemsbiology.org)。
运行RepeatMasker的WU-BLAST
如果通过RepeatMasker计算更大序列(比如智人的全基因组序列)时,进程时间将会显著延长。
而用WU-BLAST来取代cross-match时,进程时间会节省近30倍(Bedelletal.,2000)。
尽管含有WU-BLAST的RepeatMasker更节省时间,但是其整合依然有些限制:
(1)低复杂度的重复序列的掩蔽并不是像cross-match一样的效率;
(2)不支持一些输出格式;
(3)对其运算结果的精确度缺少评估。
对于不熟悉Unix运行环境的需要学习附录1c和1D。
必须资源
Unix或Linux站点
RepeatMasker(参见BasicProtocol2)
WU-BLAST2.0:
联系licensing@blast.wustl.edu
RepbaseUpdaterepeatlibraries(参见BasicProtocol2)
文件:
FASTA文件或FASTA文件集(附录1B)。
对于整合有WU-BLAST的RepeatMasker命令行版本对文件的运算没有大小限制。
本示例中引用的是下载自数据库WormBase(http:
//ftp.woembase.org/pub/wormbase/genomes/elegans/sequences/dna/)C.elegans的全基因组序列,其长度为102,278,094bp。
1、下载并安装RepeatMasker、WU-BLAST和Repeat文库文件。
注意直到2004年6月MaskerAid(Bedelletal.,2000)是RepeatMasker运算WU-BLAST所必须的。
现在这些功能被应用到程序中而不需要再进行整合。
鉴于此,建立一Repeat目录,然后将RepeatMasker/目录复制到该目录下。
完成这些操作需要利用mkdir更改根目录并创建一新的repeat目录。
利用cd锁定当前路径为repeat,如下操作:
mkdirrepeat
cdrepeat
复制RepeatMasker/到这一目录下,复制WU-BLAST软件包到这一目录下并解压
$gunzip-WUBLAST|tarxvf-wublast/解压后的存放目录
在wu-blast/目录下的程序如blastp和blastx在解压后均可执行操作。
2、更改程序权限和路径。
$chmodu+xwu-blast
3、通过运行配置脚本设定正确路径,参见BasicProtocol2.
加入WU-BLAST搜索引擎,键入:
Enterpath:
/home/mta57/repeat/wu-blast
4、为输入文件和输出文件创建新的目录。
RepeatMasker的输出文件和输入文件必须要在同一个目录写,如:
$mkdirRepeatMaskerfile
$cdRepeatMaskerfile/
[当前目录]$
接下来下载或复制C.elegans的全基因组序列的FASTA文件(current.dna.fa.gz)到相应的目录中并解压。
5、用-W(ublast)标签来运行程序,如:
$../RepeatMasker/RepeatMasker-w-specieseleganscurrent.dna.fa
这里的-w标签是用以指示WU-BLAST为使用的匹配引擎;
-specieselegans是用以指示使用C.elegansRepbase文库文件,因为运算的序列是C.elegans。
注意包含多个词的物种名需要用””(如:
”Caenorhabditiselegans”)。
除了用于指示WU-BLAST的-w选项命令外,其他的命令参数和选项与BasicProtocol2类似。
运算结果指导说明
RepeatMasker的运算结果会被写成5个不同的文件,这些文件与查询序列或序列集同在一个目录下。
其中,三个.out、.masked和.tbl扩展名的文件含有运算结果;
其他的文件是储存运算进程信息的,所以在此不再详述。
如果RepeatMasker是通过网络界面运算的,那么这三的文件会写成页面文件。
参见列表:
.out扩展名的文件
ColumnContent
SWscoreSmith-Watermanscoreofthematch
Percdiv.Percentsubstitutionsinmatchingregioncomparedtotheconsensus
Percdel.Percentofbasesoppositeagapinthequerysequence(deletedbp)
Percins.Percentofbasesoppositea
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- RepeatMasker 网页 命令行 使用说明 中文翻译