Bowtie2用法祥解Word格式文档下载.docx
- 文档编号:17706960
- 上传时间:2022-12-08
- 格式:DOCX
- 页数:8
- 大小:19.94KB
Bowtie2用法祥解Word格式文档下载.docx
《Bowtie2用法祥解Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《Bowtie2用法祥解Word格式文档下载.docx(8页珍藏版)》请在冰豆网上搜索。
<
要生存的索引文件前缀名>
必须参数:
-x<
由bowtie2-build所生成的索引文件的前缀。
首先在当前目录搜寻,然后
在环境变量BOWTIE2_INDEXES中制定的文件夹中搜寻。
-1<
双末端测寻对应的文件1。
可以为多个文件,并用逗号分开;
多个文件必须和-2
<
中制定的文件一一对应。
比如:
"
-1flyA_1.fq,flyB_1.fq-2flyA_2.fq,flyB
_2.fq"
.测序文件中的reads的长度可以不一样。
-2<
双末端测寻对应的文件2.
-U<
非双末端测寻对应的文件。
可以为多个文件,并用逗号分开。
测序文件中的reads的
长度可以不一样。
-S<
所生成的SAM格式的文件前缀。
默认是输入到标准输出。
以下是可选参数:
输入参数
-q输入的文件为FASTQ格式文件,此项为默认值。
-qseq输入的文件为QSEQ格式文件。
-f输入的文件为FASTA格式文件。
选择此项时,表示--ignore-quals也被选择了。
-r输入的文件中,每一行代表一条序列,没有序列名和测序质量等。
选择此项时,表示--
ignore-quals也被选择了。
-c后直接为比对的reads序列,而不是包含序列的文件名。
序列间用逗号隔开。
选择此项时,
表示—ignore-quals也被选择了。
-s/--skip<
int>
input的reads中,跳过前<
个reads或者pairs。
-u/--qupto<
只比对前<
个reads或者pairs(在跳过前<
个reads或者
pairs后)。
Default:
nolimit.
-5/--trim5<
剪掉5'
端<
长度的碱基,再用于比对。
(default:
0).
-3/--trim3<
剪掉3'
--phred33输入的碱基质量等于ASCII码值加上33.在最近的illuminapipiline中
得以运用。
最低碱基质量是“#”。
--phred64输入的碱基质量等于ASCII码值加上64.最低碱基质量是“B”。
--solexa-quals将Solexa的碱基质量转换为Phred。
在老的GAPipeline版本中得以
运用。
off.
--int-quals输入文件中的碱基质量为用“”分隔的数值,而不是ASCII码。
比如4040
3040...。
–end-to-end模式下的预设参数
--very-fastSameas:
-D5-R1-N0-L22-iS,0,2.50
--fastSameas:
-D10-R2-N0-L22-iS,0,2.50
--sensitiveSameas:
-D15-R2-N0-L22-iS,1,1.15(defaultin--end-to-endmode)
--very-sensitiveSameas:
-D20-R3-N0-L20-iS,1,0.50
–loca模式下的预设参数
--very-fast-localSameas:
-D5-R1-N0-L25-iS,1,2.00
--fast-localSameas:
-D10-R2-N0-L22-iS,1,1.75
--sensitive-localSameas:
-D15-R2-N0-L20-iS,1,0.75(defaultin--localmode)
--very-sensitive-localSameas:
比对参数:
-N<
进行种子比对时允许的mismatch数.可以设为0或者1.Default:
0.
-L<
设定种子的长度.
************************************************************
功能选项
给bowtie的一些参数设定值的时候,使用一个计算公式代替,于是值的大小与比对序列的长
度成一定关系。
func>
有三部分组成:
(a)计算方法,包括常数(C),线性(L),平方根(S)和
自然对数(G);
(b)一个常数;
(c)一个系数.
例如:
为L,-0.4,-0.6则计算公式为:
f(x)=-0.4+-0.6*x
为G,1,5.4则计算公式为:
f(x)=1.0+5.4*ln(x)
-i<
设定两个相邻种子间所间距的碱基数。
例如:
如果read的长度为30,种子的长度为10,相邻种子的间距为6,则提取出的种子如下
所示:
Read:
TAGCTACGCTCTACGCTATCATGCATAAAC
Seed1fw:
TAGCTACGCT
Seed1rc:
AGCGTAGCTA
Seed2fw:
CGCTCTACGC
Seed2rc:
GCGTAGAGCG
Seed3fw:
ACGCTATCAT
Seed3rc:
ATGATAGCGT
Seed4fw:
TCATGCATAA
Seed4rc:
TTATGCATGA
在--end-to-end模式中默认值为”-iS,1,1.15”.即表示f(x)=1+1.15*
sqrt(x).如果read长度为100,则相邻种子的间距为12.
--n-ceil<
设定read中允许含有不确定碱基(非GTAC,通常为N)的最大数目.
L,0,0.15.计算公式为:
f(x)=0+0.15*x,表示长度为100的read
最多运行存在15个不确定碱基.一旦不确定碱基数超过15,则该条read会被过滤掉.
--dpad<
Default:
15.
--gbar<
在read头尾<
个碱基内不允许gap.Default:
4.
--ignore-quals计算错配罚分的时候不考虑碱基质量.当输入序列的模式为-f,-r或
者-c的时候,该设置自动成为默认设置.
--nofw/--norc–nofw设定read不和前导链(forwardreferencestrand)进行比对;
--norc设定不和后随链(reverse-complementreferencestrand)进行比对.
bothstrandsenabled.
--end-to-end比对是将整个read和参考序列进行比对.该模式--ma的值为0.该模式为
默认模式,--local模式冲突.
--local该模式下对read进行局部比对,从而,read两端的一些碱基不比对,从而使比
对得分满足要求.该模式下–ma默认为2.
得分罚分参数
--ma<
设定匹配得分.--local模式下每个read上碱基和参考序列上碱基匹配,则
加<
分.在—end-to-end模式中无效.Default:
2.
--mpMX,MN设定错配罚分.其中MX为所罚最高分,MN为所罚最低分.默认设置下罚分与
碱基质量相关.罚分遵循的公式为:
MN+floor((MX-MN)(MIN(Q,40.0)/40.0)).
其中Q为碱基的质量值.如果设置了—ignore-qual参数,则错配总是罚最高分.Default:
MX=6,MN=2.
--np<
当匹配位点中read,reference上有不确定碱基(比如N)时所设定的罚分值.
1.
--rdg<
int1>
<
int2>
设置在read上打开gap罚分<
延长gap罚分<
.
5,3.
--rfg<
设置在reference上打开gap罚分<
延长gap罚分
.Default:
--score-min<
设定成为有效比对的最小分值.在—end-to-end模式下默认值为:
L,-0.6,-0.6;
在--local模式下默认值为:
G,20,8.
报告参数
-k<
默认设置下,bowtie2搜索出了一个read不同的比对结果,并报告其中最好的
比对结果(如果好几个最好的比对结果得分一致,则随机挑选出其中一个).而在该模式下,
bowtie2最多搜索出一个read<
个比对结果,并将这些结果按得分降序报告出来.
-a和-k参数一样,不过不限制搜索的结果数目.并将所有的比对结果都按降序报告出来.
此参数和-k参数冲突.值得注意的是:
如果基因组含有很多重复序列时,该参数会导致程序
运行极其缓慢.
Effort参数
-D<
比对时,将一个种子延长后得到比对结果,如果不产生更好的或次好的比对结果,
则该次比对失败.当失败次数连续达到<
次后,则该条read比对结束.Bowtie2才会
继续进行下去.Default:
15.当具有-k或-a参数,则该参数所产生的限制会自动调整.
-R<
如果一个read所生成的种子在参考序列上匹配位点过多.当每个种子平均匹配超
过300个位置,则通过一个不同的偏移来重新生成种子进行比对.<
则是重新生成种子
的次数.Default:
Paired-end参数
-I/--minins<
设定最小的插入片段长度.Default:
-X/--maxins<
设定最长的插入片段长度.Default:
500.
--fr/--rf/--ff设定上下游reads和前导链paired-end比对的方向.--fr:
匹配时,
read1在5'
端上游,和前导链一致,read2在3'
下游,和前导链反向互补.或者read2在
上游,read1在下游反向互补;
--rf:
read1在5'
端上游,和前导链反向互补,read2在
3'
端下游,和前导链一致;
--ff:
两条reads都和前导链一致.Default:
--fr.默认
设置适合于Illumina的paired-end测序数据;
若是mate-paired,则要选择—rf参数.
--no-mixed默认设置下,一对reads不能成对比对到参考序列上,则单独对每个read进
行比对.该选项则阻止此行为.
--no-discordant默认设置下,一对reads不能和谐比对(concordantalignment,
即满足-I,-X,--fr/--rf/--ff的条件)到参考序列上,则搜寻其不和谐比对(discon
cordantalignment,即两条reads都能独一无二地比对到参考序列上,但是不满足-I,
-X,--fr/--rf/--ff的条件).该选项阻止此行为.
--dovetailread1和read2的关系为dovetail的时候,该状况算为和谐比对.默认情况
下dovetail不算和谐比对.
--no-containread1和read2的关系为包含的时候,该状况不算为和谐比对.默认情况
下包含关系算为和谐比对.
--no-overlapread1和read2的关系为有重叠的时候,该状况不算为和谐比对.默认情
况下两个reads重叠算为和谐比对.
输出参数
-t/--time--un<
path>
将unpairedreads写入到<
--un-gz<
gzip压缩.
--un-bz2<
bz2压缩.
--al<
将至少能比对1次以上的unpairedreads写入<
--al-gz<
...,gzip压缩.
--al-bz2<
...,bz2压缩.
--un-conc<
将不能和谐比对的paired-endreads写入<
--un-conc-gz<
--un-conc-bz2<
--al-conc<
将至少能和谐比对一次以上的paired-endreads写入<
--al-conc-gz<
--al-conc-bz2<
...,bz2压缩.
--quiet安静模式,除了比对错误和一些严重的错误,不在屏幕上输出任何东西.
--met-file<
将bowtie2的检测信息(metrics)写入文件<
.用于debug.
metricsdisabled.
--met-stderr<
将bowtie2的检测信息(metrics)写入标准错误文件句柄.和上
一个选项不冲突.Default:
--met<
每隔<
秒写入一次metrics记录.Default:
Sam参数
--no-unal不记录没比对上的reads.
--no-hd不记录SAMheaderlines(以@开头).
--no-sq不记录@SQ的SAMheaderlines.
--rg-id<
text>
设定readgroupID为text。
在SAM文件的头中增加一行@RG,在输出的SAM
文件中添加Tag"
RG:
Z:
text"
。
--rg<
使用text作为@RG的一列,比如"
Pool1"
在@RG中加入多列,则多次使用
该参数即可。
在进行Variantcalling的过程中需要@RG头,SM信息和TagRG。
性能参数
-o/--offrate<
无视index的offrate值,以<
取代之.Index默认的<
值为5.<
值必须大于index的offrate值,同时<
越大,耗时越长,耗内存越少.
-p/--threadsNTHREADS设置线程数.Default:
1
--reorder多线程运算时,比对结果在顺序上会和文件中reads的顺序不一致,使用该选
项,则使其一致.
--mm使用内存定位的I/O来载入index,而不是常规的文件I/O.从而使多个bowtie程
序共用内存中同样的index,节约内存消耗.
其它参数:
--qc-filter滤除QSEQfileterfiled为非0的reads.仅当有—qseq选项时有效.
off.
--seed<
使用<
作为随机数产生的种子.Default:
--version打印程序版本并退出
-h/--help打印用法信息并推出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Bowtie2 用法