Flex正则表达式中的通用规则-sscanf正则表达式用法

本文和大家重点讨论一下Flex正则表达式的其他通用规则，首先让我们看一下Flex正则表达式的概念和作用，Flex正则表达式（regularexpression）就是用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。

引言

Flex正则表达式（regularexpression）就是用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+”描述的特征是“一个'a'和任意个'b'”，那么'ab','abb','abbbbbbbbbb'都符合这个特征。

Flex正则表达式可以用来：

（1）验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。
（2）用来查找字符串，从一个长的文本中查找符合指定特征的字符串，比查找固定字符串更加灵活方便。
（3）用来替换，比普通的替换更强大。

Flex正则表达式学习起来其实是很简单的，不多的几个较为抽象的概念也很容易理解。之所以很多人感觉Flex正则表达式比较复杂，一方面是因为大多数的文档没有做到由浅入深地讲解，概念上没有注意先后顺序，给读者的理解带来困难；另一方面，各种引擎自带的文档一般都要介绍它特有的功能，然而这部分特有的功能并不是我们首先要理解的。下面看一下Flex正则表达式中的其他通用规则。

1.其他通用规则

还有一些在各个Flex正则表达式引擎之间比较通用的规则，在前面的讲解过程中没有提到。

1.1表达式中，可以使用"\xXX"和"\uXXXX"表示一个字符（"X"表示一个十六进制数）

形式字符范围

\xXX
编号在0~255范围的字符，比如：空格可以使用"\x20"表示

\uXXXX
任何字符可以使用"\u"再加上其编号的4位十六进制数表示，比如："\u4E2D"

1.2在Flex正则表达式"\s"，"\d"，"\w"，"\b"表示特殊意义的同时，对应的大写字母表示相反的意义

表达式可匹配

\S
匹配所有非空白字符（"\s"可匹配各个空白字符）

\D
匹配所有的非数字字符

\W
匹配所有的字母、数字、下划线以外的字符

\B
匹配非单词边界，即左右两边都是"\w"范围或者左右两边都不是"\w"范围时的字符缝隙

1.3在Flex正则表达式中有特殊意义，需要添加"\"才能匹配该字符本身的字符汇总

字符说明

^
匹配输入字符串的开始位置。要匹配"^"字符本身，请使用"\^"

$
匹配输入字符串的结尾位置。要匹配"$"字符本身，请使用"\$"

()
标记一个子表达式的开始和结束位置。要匹配小括号，请使用"$"和"$"

[]
用来自定义能够匹配'多种字符'的表达式。要匹配中括号，请使用"\["和"\]"

{}
修饰匹配次数的符号。要匹配大括号，请使用"\{"和"\}"

.
匹配除了换行符（\n）以外的任意一个字符。要匹配小数点本身，请使用"\."

?
修饰匹配次数为0次或1次。要匹配"?"字符本身，请使用"\?"

+
修饰匹配次数为至少1次。要匹配"+"字符本身，请使用"\+"

*
修饰匹配次数为0次或任意次。要匹配"*"字符本身，请使用"\*"

|
左右两边表达式之间"或"关系。匹配"|"本身，请使用"\|"

1.4括号"()"内的子表达式，如果希望匹配结果不进行记录供以后使用，可以使用"(?:xxxxx)"格式

举例1：表达式"(?\w)\1)+"匹配"abbccddefg"时，结果是"bbccdd"。括号"(?"范围的匹配结果不进行记录，因此"(\w)"使用"\1"来引用。

1.5常用的Flex正则表达式属性设置简介：Ignorecase，Singleline，Multiline，Global

表达式属性说明

Ignorecase

默认情况下，表达式中的字母是要区分大小写的。配置为Ignorecase可使匹配时不区分大小写。有的表达式引擎，把"大小写"概念延伸至UNICODE范围的大小写。

Singleline

默认情况下，小数点"."匹配除了换行符（\n）以外的字符。配置为Singleline可使小数点可匹配包括换行符在内的所有字符。

Multiline

默认情况下，表达式"^"和"$"只匹配字符串的开始①和结尾④位置。如：

①xxxxxxxxx②\n
③xxxxxxxxx④

配置为Multiline可以使"^"匹配①外，还可以匹配换行符之后，下一行开始前③的位置，使"$"匹配④外，还可以匹配换行符之前，一行结束②的位置。

Global

主要在将表达式用来替换时起作用，配置为Global表示替换所有的匹配。

【编辑推荐】