定义

正则表示式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特殊字符，及这些特殊字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

常用规则

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字下划线
\s	匹配空白字符,等价于{\t\n\r\f}
\S	匹配任意非空字符
\d	匹配任意数字，等价于{0-9}
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配任意字符
[…]	用来表示一组字符，单独列出。:[amk] 匹配’a’,’m’,’k’
[^…]	表示不在[]中的字符，[^ abc ]表示除了a,b,c之外的字符。
*	匹配0个或多个的表达式
+	匹配1个或多个的表达式
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面表达式
{n,m}	匹配n到m此由前面正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
{}	匹配括号内的表达式，也表示一个组

re.match

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none

1	re.match(pattern,string,flags = 0)

1
2
3

import re
content = "hello 123 4567 world_this is a regex demo"
result = re.match('^hello\s\d\d\d\s\d{4}\s\w{10}.*demo$',content)

1
2
3

import re
content = "hello 123 4567 world_this is a regex demo"
result = re.match('^hello.*demo$',content)

1
2
3

import re
content = "hello 12345657 world_this is a regex demo"
result = re.match('^hello\s(\d+)\sworld.*demo$',content)

# .*会匹配尽可能多的字符串
import re
content = "hello 12345657 world_this is a regex demo"
result = re.match('^he.*(\d+)\sworld.*demo$',content)

#.*会匹配尽可能少的字符串
import re
content = "hello 12345657 world_this is a regex demo"
result = re.match('^he.*?(\d+).*demo$',content)

import re
#re.S 为匹配模式
content = "hello 1234567 world_this\nis a regex demo"
result = re.match('^he.*?(\d+).*?demo$',content,re.S)

1
2
3

import re
content = "price is $5.00"
result = re.match('price is \$5\.00',content)

re.search

re.search扫描整个字符串并返回第一个成功的匹配

1
2
3

import re
content = "hello1234567 world_this is a regex demo extra stings"
res = re.search("he.*?\d+.*?demo$",content)

re.findAll()

re.findAll()搜索整个字符串返回所有成功的匹配

re.sub

re.sub()搜索到符合的字符串，并进行替换。

1
2
3

import re
content = 'Extra stings hello 1234567 world_this is a regex extra stings'
content = re.sub('(\d+)',r'\1 8910')

r’\1 8910 r’\1 代表第一个匹配目标

re.compile

re.compile()将正则字符串编译成正则字符串对象