正则表达式基础和提高.docx
- 文档编号:24227693
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:22
- 大小:28.60KB
正则表达式基础和提高.docx
《正则表达式基础和提高.docx》由会员分享,可在线阅读,更多相关《正则表达式基础和提高.docx(22页珍藏版)》请在冰豆网上搜索。
正则表达式基础和提高
2007年07月03日01:
47JS正则表达式详解
关键词:
javascript
JS的正则表达式//校验是否全由数字组成
functionisDigit(s)
{
varpatrn=/^[0-9]{1,20}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
//校验登录名:
只能输入5-20个以字母开头、可带数字、“_”、“.”的字串
functionisRegisterUserName(s)
{
varpatrn=/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
//校验用户姓名:
只能输入1-30个以字母开头的字串
functionisTrueName(s)
{
varpatrn=/^[a-zA-Z]{1,30}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
}}
//校验密码:
只能输入6-20个字母、数字、下划线
{{{
functionisPasswd(s)
{
varpatrn=/^(\w){6,20}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
//校验普通电话、传真号码:
可以“+”开头,除数字外,可含有“-”
functionisTel(s)
{
//varpatrn=/^[+]{0,1}(\d){1,3}[]?
([-]?
(\d){1,12})+$/;
varpatrn=/^[+]{0,1}(\d){1,3}[]?
([-]?
((\d)|[]){1,12})+$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
//校验手机号码:
必须以数字开头,除数字外,可含有“-”
functionisMobil(s)
{
varpatrn=/^[+]{0,1}(\d){1,3}[]?
([-]?
((\d)|[]){1,12})+$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
//校验邮政编码
functionisPostalCode(s)
{
//varpatrn=/^[a-zA-Z0-9]{3,12}$/;
varpatrn=/^[a-zA-Z0-9]{3,12}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
//校验搜索关键字
functionisSearch(s)
{
varpatrn=/^[^`~!
@#$%^&*()+=|\\\][\]\{\}:
;'\,.<>/?
]{1}[^`~!
@$%^&()+=|\\\]
[\]\{\}:
;'\,.<>?
]{0,19}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
functionisIP(s)//byzergling
{
varpatrn=/^[0-9.]{1,20}$/;
if(!
patrn.exec(s))returnfalse
returntrue
}
正则表达式"^\\d+$" //非负整数(正整数+0)
"^[0-9]*[1-9][0-9]*$" //正整数
"^((-\\d+)|(0+))$" //非正整数(负整数+0)
"^-[0-9]*[1-9][0-9]*$" //负整数
"^-?
\\d+$" //整数
"^\\d+(\\.\\d+)?
$" //非负浮点数(正浮点数+0)
"^(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$"
//正浮点数
"^((-\\d+(\\.\\d+)?
)|(0+(\\.0+)?
))$" //非正浮点数(负浮点数+0)
"^(-(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"
//负浮点数
"^(-?
\\d+)(\\.\\d+)?
$" //浮点数
"^[A-Za-z]+$" //由26个英文字母组成的字符串
"^[A-Z]+$" //由26个英文字母的大写组成的字符串
"^[a-z]+$" //由26个英文字母的小写组成的字符串
"^[A-Za-z0-9]+$" //由数字和26个英文字母组成的字符串
"^\\w+$" //由数字、26个英文字母或者下划线组成的字符串
"^[\\w-]+(\\.[\\w-]+)*@[\\w-]+(\\.[\\w-]+)+$" //email地址
"^[a-zA-z]+:
//(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?
\\S*)?
$" //url
"^[A-Za-z0-9_]*$"
正则表达式使用详解简介
简单的说,正则表达式是一种可以用于模式匹配和替换的强有力的工具。
其作用如下:
测试字符串的某个模式。
例如,可以对一个输入字符串进行测试,看在该字符串是否存在一个电话号码模式或一个信用卡号码模式。
这称为数据有效性验证。
替换文本。
可以在文档中使用一个正则表达式来标识特定文字,然后可以全部将其删除,或者替换为别的文字。
根据模式匹配从字符串中提取一个子字符串。
可以用来在文本或输入字段中查找特定文字。
基本语法
在对正则表达式的功能和作用有了初步的了解之后,我们就来具体看一下正则表达式的语法格式。
正则表达式的形式一般如下:
/love/ 其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。
用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。
为了能够使用户更加灵活的定制模式内容,正则表达式提供了专门的“元字符”。
所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
较为常用的元字符包括:
“+”,“*”,以及“?
”。
“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次。
“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次。
“?
”元字符规定其前导对象必须在目标对象中连续出现零次或一次。
下面,就让我们来看一下正则表达式元字符的具体应用。
/fo+/ 因为上述正则表达式中包含“+”元字符,表示可以与目标对象中的“fool”,“fo”,或者“football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。
/eg*/ 因为上述正则表达式中包含“*”元字符,表示可以与目标对象中的“easy”,“ego”,或者“egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。
/Wil?
/ 因为上述正则表达式中包含“?
”元字符,表示可以与目标对象中的“Win”,或者“Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。
有时候不知道要匹配多少字符。
为了能适应这种不确定性,正则表达式支持限定符的概念。
这些限定符可以指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。
{n}n是一个非负整数。
匹配确定的n次。
例如,'o{2}'不能匹配"Bob"中的'o',但是能匹配"food"中的两个o。
{n,}n是一个非负整数。
至少匹配n次。
例如,'o{2,}'不能匹配"Bob"中的'o',但能匹配"foooood"中的所有o。
'o{1,}'等价于'o+'。
'o{0,}'则等价于'o*'。
{n,m}m和n均为非负整数,其中n<=m。
最少匹配n次且最多匹配m次。
例如,"o{1,3}"将匹配"fooooood"中的前三个o。
'o{0,1}'等价于'o?
'。
请注意在逗号和两个数之间不能有空格。
除了元字符之外,用户还可以精确指定模式在匹配对象中出现的频率。
例如,/jim{2,6}/上述正则表达式规定字符m可以在匹配对象中连续出现2-6次,因此,上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。
在对如何使用正则表达式有了初步了解之后,我们来看一下其它几个重要的元字符的使用方式。
\s:
用于匹配单个空格符,包括tab键和换行符;
\S:
用于匹配除单个空格符之外的所有字符;
\d:
用于匹配从0到9的数字;
\w:
用于匹配字母,数字或下划线字符;
\W:
用于匹配所有与\w不匹配的字符;
.:
用于匹配除换行符之外的所有字符。
(说明:
我们可以把\s和\S以及\w和\W看作互为逆运算)下面,我们就通过实例看一下如何在正则表达式中使用上述元字符。
/\s+/上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。
/\d000/ 如果我们手中有一份复杂的财务报表,那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。
除了我们以上所介绍的元字符之外,正则表达式中还具有另外一种较为独特的专用字符,即
定位符
。
定位符用于规定匹配模式在目标对象中的出现位置。
较为常用的定位符包括:
“^”,“$”,“\b”以及“\B”。
“^”定位符规定匹配模式必须出现在目标字符串的开头
“$”定位符规定匹配模式必须出现在目标对象的结尾
“\b”定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一
“\B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内,
即匹配对象既不能作为目标字符串的开头,也不能作为目标字符串的结尾。
同样,我们也可以把“^”和“$”以及“\b”和“\B”看作是互为逆运算的两组定位符。
举例来说:
/^hell/ 因为上述正则表达式中包含“^”定位符,所以可以与目标对象中以“hell”,“hello”或“hellhound”开头的字符串相匹配。
/ar$/ 因为上述正则表达式中包含“$”定位符,所以可以与目标对象中以“car”,“bar”或“ar”结尾的字符串相匹配。
/\bbom/ 因为上述正则表达式模式以“\b”定位符开头,所以可以与目标对象中以“bomb”,或“bom”开头的字符串相匹配。
/man\b/ 因为上述正则表达式模式以“\b”定位符结尾,所以可以与目标对象中以“human”,“woman”或“man”结尾的字符串相匹配。
为了能够方便用户更加灵活的设定匹配模式,正则表达式允许使用者在匹配模式中指定某一个范围而不局限于具体的字符。
例如:
/[A-Z]/ 上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。
/[a-z]/ 上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。
/[0-9]/ 上述正则表达式将会与从0到9范围内任何一个数字相匹配。
/([a-z][A-Z][0-9])+/ 上述正则表达式将会与任何由字母和数字组成的字符串,如“aB0”等相匹配。
这里需要提醒用户注意的一点就是可以在正则表达式中使用“()”把字符串组合在一起。
“()”符号包含的内容必须同时出现在目标对象中。
因此,上述正则表达式将无法与诸如“abc”等的字符串匹配,因为“abc”中的最后一个字符为字母而非数字。
如果我们希望在正则表达式中实现类似编程逻辑中的“或”运算,在多个不同的模式中任选一个进行匹配的话,可以使用管道符“|”。
例如:
/to|too|2/ 上述正则表达式将会与目标对象中的“to”,“too”,或“2”相匹配。
正则表达式中还有一个较为常用的运算符,即否定符“[^]”。
与我们前文所介绍的定位符“^”不同,否定符“[^]”规定目标对象中不能存在模式中所规定的字符串。
例如:
/[^A-C]/ 上述字符串将会与目标对象中除A,B,和C之外的任何字符相匹配。
一般来说,当“^”出现在“[]”内时就被视做否定运算符;而当“^”位于“[]”之外,或没有“[]”时,则应当被视做定位符。
最后,当用户需要在正则表达式的模式中加入元字符,并查找其匹配对象时,可以使用转义符“\”。
例如:
/Th\*/ 上述正则表达式将会与目标对象中的“Th*”而非“The”等相匹配。
在构造正则表达式之后,就可以象数学表达式一样来求值,也就是说,可以从左至右并按照一个优先级顺序来求值。
优先级如下:
1.\转义符
2.(),(?
:
),(?
=),[]圆括号和方括号
3.*,+,?
{n},{n,},{n,m}限定符
4.^,$,\anymetacharacter位置和顺序
5.|“或”操作
使用实例在JavaScript1.2中带有一个功能强大的RegExp()对象,可以用来进行正则表达式的匹配操作。
其中的test()方法可以检验目标对象中是否包含匹配模式,并相应的返回true或false。
我们可以使用JavaScript编写以下脚本,验证用户输入的邮件地址的有效性。
--starthiding
functionverifyAddress(obj)
{
varemail=obj.email.value;
varpattern=
/^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+/;
flag=pattern.test(email);
if(flag)
{
alert(“Youremailaddressiscorrect!
”);
returntrue;
}
else
{
alert(“Pleasetryagain!
”);
returnfalse;
}
}
//stophiding-->
正则表达式对象本对象包含正则表达式模式以及表明如何应用模式的标志。
语法1re=/pattern/[flags]
语法2re=newRegExp("pattern",["flags"])
参数re必选项。
将要赋值为正则表达式模式的变量名。
Pattern必选项。
要使用的正则表达式模式。
如果使用语法1,用"/"字符分隔模式。
如果用语法2,用引号将模式引起来。
Flags可选项。
如果使用语法2要用引号将flag引起来。
标志可以组合使用,可用的有:
g(全文查找出现的所有pattern)
i(忽略大小写)
m(多行查找)
示例下面的示例创建一个包含正则表达式模式及相关标志的对象(re),向您演示正则表达式对象的用法。
在本例中,作为结果的正则表达式对象又用于match方法中:
functionMatchDemo()
{
varr,re;//声明变量。
vars="TheraininSpainfallsmainlyintheplain";
re=newRegExp("ain","g");//创建正则表达式对象。
r=s.match(re);//在字符串s中查找匹配。
return(r);
}
正则表达式基础知识
一个正则表达式就是由普通字符(例如字符a到z)以及特殊字符(称为元字符)组成的文字模式。
该模式描述在查找文字主体时待匹配的一个或多个字符串。
正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
如:
JScript
VBScript
匹配
/^\[\t]*$/
"^\[\t]*$"
匹配一个空白行。
/\d{2}-\d{5}/
"\d{2}-\d{5}"
验证一个ID号码是否由一个2位数字,一个连字符以及一个5位数字组成。
/<(.*)>.*<\/\1>/
"<(.*)>.*<\/\1>"
匹配一个HTML标记。
下表是元字符及其在正则表达式上下文中的行为的一个完整列表:
字符
描述
\
将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。
例如,'n'匹配字符"n"。
'\n'匹配一个换行符。
序列'\\'匹配"\"而"\("则匹配"("。
^
匹配输入字符串的开始位置。
如果设置了RegExp对象的Multiline属性,^也匹配'\n'或'\r'之后的位置。
$
匹配输入字符串的结束位置。
如果设置了RegExp对象的Multiline属性,$也匹配'\n'或'\r'之前的位置。
*
匹配前面的子表达式零次或多次。
例如,zo*能匹配"z"以及"zoo"。
*等价于{0,}。
+
匹配前面的子表达式一次或多次。
例如,'zo+'能匹配"zo"以及"zoo",但不能匹配"z"。
+等价于{1,}。
?
匹配前面的子表达式零次或一次。
例如,"do(es)?
"可以匹配"do"或"does"中的"do"。
?
等价于{0,1}。
{n}
n是一个非负整数。
匹配确定的n次。
例如,'o{2}'不能匹配"Bob"中的'o',但是能匹配"food"中的两个o。
{n,}
n是一个非负整数。
至少匹配n次。
例如,'o{2,}'不能匹配"Bob"中的'o',但能匹配"foooood"中的所有o。
'o{1,}'等价于'o+'。
'o{0,}'则等价于'o*'。
{n,m}
m和n均为非负整数,其中n<=m。
最少匹配n次且最多匹配m次。
例如,"o{1,3}"将匹配"fooooood"中的前三个o。
'o{0,1}'等价于'o?
'。
请注意在逗号和两个数之间不能有空格。
?
当该字符紧跟在任何一个其他限制符(*,+,?
{n},{n,},{n,m})后面时,匹配模式是非贪婪的。
非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。
例如,对于字符串"oooo",'o+?
'将匹配单个"o",而'o+'将匹配所有'o'。
.
匹配除"\n"之外的任何单个字符。
要匹配包括'\n'在内的任何字符,请使用象'[.\n]'的模式。
(pattern)
匹配pattern并获取这一匹配。
所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9属性。
要匹配圆括号字符,请使用'\('或'\)'。
(?
:
pattern)
匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。
这在使用"或"字符(|)来组合一个模式的各个部分是很有用。
例如,'industr(?
:
y|ies)就是一个比'industry|industries'更简略的表达式。
(?
=pattern)
正向预查,在任何匹配pattern的字符串开始处匹配查找字符串。
这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如,'Windows(?
=95|98|NT|2000)'能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。
预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?
!
pattern)
负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串。
这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如'Windows(?
!
95|98|NT|2000)'能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。
预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
x|y
匹配x或y。
例如,'z|food'能匹配"z"或"food"。
'(z|f)ood'则匹配"zood"或"food"。
[xyz]
字符集合。
匹配所包含的任意一个字符。
例如,'[abc]'可以匹配"plain"中的'a'。
[^xyz]
负值字符集合。
匹配未包含的任意字符。
例如,'[^abc]'可以匹配"plain"中的'p'。
[a-z]
字符范围。
匹配指定范围内的任意字符。
例如,'[a-z]'可以匹配'a'到'z'范围内的任意小写字母字符。
[^a-z]
负值字符范围。
匹配任何不在指定范围内的任意字符。
例如,'[^a-z]'可以匹配任何不在'a'到'z'范围内的任意字符。
\b
匹配一个单词边界,也就是指单词和空格间的位置。
例如,'er\b'可以匹配"never"中的'er',但不能匹配"verb"中的'er'。
\B
匹配非单词边界。
'er\B'能匹配"verb"中的'er',但不能匹配"never"中的'er'。
\cx
匹配由x指明的控制字符。
例如,\cM匹配一个Control-M或回车符。
x的值必须为A-Z或a-z之一。
否则,将c视为一个原义的'c'字符。
\d
匹配一个数字字符。
等价于[0-9]。
\D
匹配一个非数字字符。
等价于[^0-9]。
\f
匹配一个换页符。
等价于\x0c和\cL。
\n
匹配一个换行符。
等价于\x0a和\cJ。
\r
匹配一个回车符。
等价于\x0d和\cM。
\s
匹配任何空白字符,包括空格、制表符、换页符等等。
等价于[\f\n\r\t\v]。
\S
匹配任何非空白字符。
等价于[^\f\n\r\t\v]。
\t
匹配一个制表符。
等价于\x09和\cI。
\v
匹配一个垂直制表符。
等价于\x0b和\cK。
\w
匹配包括下划线的任何单词字符。
等价于'[A-Za-z0-9_]'。
\W
匹配任何非单词字符。
等价于'[^A-Za-z0-9_]'。
\xn
匹配n,其中n为十六进制转义值。
十六进制转义值必须为确定的两个数字长。
例如,'\x41'匹配"A"。
'\x041'则等价于'\x04'&"1"。
正则表达式中可以使用ASCII编码。
.
\n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 正则 表达式 基础 提高