经过长时间学习VB.NET,对于VB.NET正则表达式很感兴趣,于是和大家分享一下关于选择符 、组与向后引用 、VB.NET正则表达式的匹配模式 、原子组与防止回溯 四个方面进行详细的分析和语法的讲解,看完本文你肯定有不少收获,希望本文能教会你更多东西。
1.选择符
VB.NET正则表达式中“ ¦”表示选择。你可以用选择符匹配多个可能的正则表达式中的一个。如果你想搜索文字“cat”或“dog”,你可以用﹤﹤cat ¦dog> > 。如果你想有更多的选择,你只要扩展列表﹤﹤cat ¦dog ¦mouse ¦fish> > 。选择符在正则表达式中具有***的优先级,也就是说,它告诉引擎要么匹配选择符左边的所有表达式,要么匹配右边的所有表达式。你也可以用圆括号来限制选择符的作用范围。如﹤﹤\b(cat ¦dog)\b> > ,这样告诉正则引擎把(cat ¦dog)当成一个正则表达式单位来处理。
注意正则引擎的“急于表功”性正则引擎是急切的,当它找到一个有效的匹配时,它会停止搜索。因此在一定条件下,选择符两边的表达式的顺序对结果会有影响。假设你想用正则表达式搜索一个编程语言的函数列表:Get,GetValue,Set或SetValue。一个明显的解决方案是﹤﹤Get ¦GetValue ¦Set ¦SetValue> > 。让我们看看当搜索SetValue时的结果。因为﹤﹤Get> > 和﹤﹤GetValue> > 都失败了,而﹤﹤Set> > 匹配成功。因为正则导向的引擎都是“急切”的,所以它会返回***个成功的匹配,就是“Set”,而不去继续搜索是否有其他更好的匹配。和我们期望的相反,正则表达式并没有匹配整个字符串。有几种可能的解决办法。
一是考虑到正则引擎的“急切”性,改变选项的顺序,例如我们使用﹤﹤GetValue ¦Get ¦SetValue ¦Set> > ,这样我们就可以优先搜索最长的匹配。我们也可以把四个选项结合起来成两个选项:﹤﹤Get(Value)? ¦Set(Value)?> > 。因为问号重复符是贪婪的,所以SetValue总会在Set之前被匹配。一个更好的方案是使用单词边界:﹤﹤\b(Get ¦GetValue ¦Set ¦SetValue)\b> > 或﹤﹤\b(Get(Value)? ¦Set(Value)?\b> > 。更进一步,既然所有的选择都有相同的结尾,我们可以把正则表达式优化为﹤﹤\b(Get ¦Set)(Value)?\b> > 。
2.组与向后引用
把正则表达式的一部分放在圆括号内,你可以将它们形成组。然后你可以对整个组使用一些正则操作,例如重复操作符。要注意的是,只有圆括号“()”才能用于形成组。“[]”用于定义字符集。“{}”用于定义重复操作。当用“()”定义了一个正则表达式组后,正则引擎则会把被匹配的组按照顺序编号,存入缓存。当对被匹配的组进行向后引用的时候,可以用“\数字”的方式进行引用。﹤﹤\1> > 引用***个匹配的后向引用组,﹤﹤\2> > 引用第二个组,以此类推,﹤﹤\n> > 引用第n个组。而﹤﹤\0> > 则引用整个被匹配的正则表达式本身。我们看一个例子。假设你想匹配一个HTML标签的开始标签和结束标签,以及标签中间的文本。比如 Thisisatest ,我们要匹配 和 以及中间的文字。我们可以用如下正则表达式:“ <([A-Z][A-Z0-9]*)[^> ]*> .*? \1>”首先,“ <”将会匹配“ ”的***个字符“ <”。然后[A-Z]匹配B,[A-Z0-9]*将会匹配0到多次字母数字,后面紧接着0到多个非“> ”的字符。***正则表达式的“> ”将会匹配“ ”的“> ”。
接下来正则引擎将对结束标签之前的字符进行惰性匹配,直到遇到一个“ ”符号。然后正则表达式中的“\1”表示对前面匹配的组“([A-Z][A-Z0-9]*)”进行引用,在本例中,被引用的是标签名“B”。所以需要被匹配的结尾标签为“ < B>”你可以对相同的后向引用组进行多次引用,﹤﹤([a-c])x\1x\1> > 将匹配“axaxa”、“bxbxb”以及“cxcxc”。如果用数字形式引用的组没有有效的匹配,则引用到的内容简单的为空。一个后向引用不能用于它自身。﹤﹤([abc]\1)> > 是错误的。因此你不能将﹤﹤\0> > 用于一个正则表达式匹配本身,它只能用于替换操作中。后向引用不能用于字符集内部。﹤﹤(a)[\1b]> > 中的﹤﹤\1> > 并不表示后向引用。在字符集内部,﹤﹤\1> > 可以被解释为八进制形式的转码。向后引用会降低引擎的速度,因为它需要存储匹配的组。如果你不需要向后引用,你可以告诉引擎对某个组不存储。例如:﹤﹤Get(?:Value)> > 。其中“(”后面紧跟的“?:”会告诉引擎对于组(Value),不存储匹配的值以供后向引用。
重复操作与后向引用当对组使用重复操作符时,缓存里后向引用内容会被不断刷新,只保留***匹配的内容。例如:﹤﹤([abc]+)=\1> > 将匹配“cab=cab”,但是﹤﹤([abc])+=\1> > 却不会。因为([abc])***次匹配“c”时,“\1”代表“c”;然后([abc])会继续匹配“a”和“b”。***“\1”代表“b”,所以它会匹配“cab=b”。应用:检查重复单词--当编辑文字时,很容易就会输入重复单词,例如“thethe”。使用﹤﹤\b(\w+)\s+\1\b> > 可以检测到这些重复单词。要删除第二个单词,只要简单的利用替换功能替换掉“\1”就可以了。
组的命名和引用在PHP,Python中,可以用﹤﹤(?P
下面是.NET中的例子:(?
3.VB.NET正则表达式的匹配模式
本教程所讨论的正则表达式引擎都支持三种匹配模式:﹤﹤/i> > 使正则表达式对大小写不敏感,﹤﹤/s> > 开启“单行模式”,即点号“.”匹配新行符﹤﹤/m> > 开启“多行模式”,即“^”和“$”匹配新行符的前面和后面的位置。
在正则表达式内部打开或关闭模式如果你在正则表达式内部插入修饰符(?ism),则该修饰符只对其右边的正则表达式起作用。(?-i)是关闭大小写不敏感。你可以很快的进行测试。﹤﹤(?i)te(?-i)st> > 应该匹配TEst,但是不能匹配teST或TEST.
4.原子组与防止回溯
在一些特殊情况下,因为回溯会使得引擎的效率极其低下。
让我们看一个例子:要匹配这样的字串,字串中的每个字段间用逗号做分隔符,第12个字段由P开头。我们容易想到这样的正则表达式﹤﹤^(.*?,){11}P> > 。这个正则表达式在正常情况下工作的很好。但是在极端情况下,如果第12个字段不是由P开头,则会发生灾难性的回溯。如要搜索的字串为“1,2,3,4,5,6,7,8,9,10,11,12,13”。首先,正则表达式一直成功匹配直到第12个字符。这时,前面的正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11,”,到了下一个字符,﹤﹤P> > 并不匹配“12”。所以引擎进行回溯,这时正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11”。继续下一次匹配过程,下一个正则符号为点号﹤﹤.> > ,可以匹配下一个逗号“,”。然而﹤﹤,> > 并不匹配字符“12”中的“1”。匹配失败,继续回溯。大家可以想象,这样的回溯组合是个非常大的数量。因此可能会造成引擎崩溃。
用于阻止这样巨大的回溯有几种方案:一种简单的方案是尽可能的使匹配精确。用取反字符集代替点号。例如我们用如下正则表达式﹤﹤^([^,\r\n]*,){11}P> > ,这样可以使失败回溯的次数下降到11次。另一种方案是使用原子组。原子组的目的是使正则引擎失败的更快一点。因此可以有效的阻止海量回溯。原子组的语法是﹤﹤(?> 正则表达式)> > 。位于(?> )之间的所有正则表达式都会被认为是一个单一的正则符号。一旦匹配失败,引擎将会回溯到原子组前面的正则表达式部分。前面的例子用原子组可以表达成﹤﹤^(?> (.*?,){11})P> > 。一旦第十二个字段匹配失败,引擎回溯到原子组前面的﹤﹤^> > 。
【编辑推荐】