RegEx

Regular Expression

A sequence of characters that define a search pattern

Meta Characters 元字符

代码说明

.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

Characters Escapes 字符转义

Adding \ to match meta characters itself
e.g. google\.com匹配google.com，C:\\Windows匹配C:\Windows

Quantification 重复

代码/语法说明

*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

e.g. Windows\d+匹配Windows后面跟1个或更多数字

Characters Classes 字符类

[]

e.g. [aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)

[0-9]代表的含意与\d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于\w

Boolean "or" 分枝条件

|

\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。使用分枝条件时，要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

Grouping&backreference

分组和后向引用

() & \1

e.g. (\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式
使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类
e.g. \b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty。

Antonymy 反义

代码/语法说明

\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

e.g. \S+匹配不包含空白符的字符串

Lookaround 零宽断言

e.g. \b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc

(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading

Negative Lookaround

负向零宽断言

e.g. \d{3}(?!\d)匹配三位数字，而且这三位数字的后面不能是数字

(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。

Comments

(?#comment)

e.g. 2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

Lazy & Possessive

代码/语法说明

*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

e.g. a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）

RegEx

Regular Expression

Meta Characters 元字符

Characters Escapes 字符转义

Quantification 重复

Characters Classes 字符类

[]

Boolean "or" 分枝条件

|

Grouping&backreference

分组和后向引用

() & \1

Antonymy 反义

Lookaround 零宽断言

Negative Lookaround

负向零宽断言

Comments

(?#comment)

Lazy & Possessive

Reference

Some Practice

RegEx

RegEx

Shawn Shao

RegEx

Regular Expression

Meta Characters 元字符

Characters Escapes 字符转义

Quantification 重复

Characters Classes 字符类

[]

Boolean "or" 分枝条件

|

Grouping&backreference

分组和后向引用

() & \1

Antonymy 反义

Lookaround 零宽断言

Negative Lookaround

负向零宽断言

Comments

(?#comment)

Lazy & Possessive

Reference

Some Practice

RegEx

RegEx

Shawn Shao

More from Shawn Shao