正则表达式的使用

定义

正则表示式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特殊字符,及这些特殊字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

常用规则

模式 描述
\w 匹配字母数字及下划线
\W 匹配非字母数字下划线
\s 匹配空白字符,等价于{\t\n\r\f}
\S 匹配任意非空字符
\d 匹配任意数字,等价于{0-9}
\D 匹配任意非数字
\A 匹配字符串开始
\Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串
\z 匹配字符串结束
\G 匹配最后匹配完成的位置
\n 匹配一个换行符
\t 匹配一个制表符
^ 匹配字符串的开头
$ 匹配字符串的末尾
. 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配任意字符
[…] 用来表示一组字符,单独列出。:[amk] 匹配’a’,’m’,’k’
[^…] 表示不在[]中的字符,[^ abc ]表示除了a,b,c之外的字符。
* 匹配0个或多个的表达式
+ 匹配1个或多个的表达式
? 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
{n} 精确匹配n个前面表达式
{n,m} 匹配n到m此由前面正则表达式定义的片段,贪婪方式
a|b 匹配a或b
{} 匹配括号内的表达式,也表示一个组

匹配规则

re.match

re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none

1
re.match(pattern,string,flags = 0)

最常规的匹配

1
2
3
import re
content = "hello 123 4567 world_this is a regex demo"
result = re.match('^hello\s\d\d\d\s\d{4}\s\w{10}.*demo$',content)

泛匹配

1
2
3
import re
content = "hello 123 4567 world_this is a regex demo"
result = re.match('^hello.*demo$',content)

匹配目标

1
2
3
import re
content = "hello 12345657 world_this is a regex demo"
result = re.match('^hello\s(\d+)\sworld.*demo$',content)

贪婪模式

1
2
3
4
# .*会匹配尽可能多的字符串
import re
content = "hello 12345657 world_this is a regex demo"
result = re.match('^he.*(\d+)\sworld.*demo$',content)

非贪婪模式

1
2
3
4
#.*会匹配尽可能少的字符串
import re
content = "hello 12345657 world_this is a regex demo"
result = re.match('^he.*?(\d+).*demo$',content)

匹配模式

1
2
3
4
import re
#re.S 为匹配模式
content = "hello 1234567 world_this\nis a regex demo"
result = re.match('^he.*?(\d+).*?demo$',content,re.S)

转义

1
2
3
import re
content = "price is $5.00"
result = re.match('price is \$5\.00',content)

RE的常用方法

re.search

re.search扫描整个字符串并返回第一个成功的匹配

1
2
3
import re
content = "hello1234567 world_this is a regex demo extra stings"
res = re.search("he.*?\d+.*?demo$",content)

re.findAll()

re.findAll()搜索整个字符串返回所有成功的匹配

re.sub

re.sub()搜索到符合的字符串,并进行替换。

1
2
3
import re
content = 'Extra stings hello 1234567 world_this is a regex extra stings'
content = re.sub('(\d+)',r'\1 8910')

r’\1 8910 r’\1 代表第一个匹配目标

re.compile

re.compile()将正则字符串编译成正则字符串对象

各位看官,看完打赏一下~