正则表达式

约 890 字大约 3 分钟

2025-10-02

Python 的正则表达式通过 re 模块提供支持，用于匹配、查找、替换和分割字符串。
正则表达式由普通字符和特殊字符（元字符）组成。以下是一些常用的元字符：

元字符	描述
`.`	匹配任意字符
`^`	匹配字符串开头
`$`	匹配字符串结尾
`*`	匹配前一个字符`0`次或多次
`+`	匹配前一个字符`1`次或多次
`?`	匹配前一个字符`0`次或`1`次
`{n}`	匹配前一个字符`n`次
`{n,}`	匹配前一个字符至少`n`次
`{n, m}`	匹配前一个字符至少`n`次, 至多`m`次
`\d`	匹配数字, 等价于`[0-9]`
`\D`	匹配非数字
`\w`	匹配字母、数字或下划线(等价于`[a-zA-z0-9_]`)
`\W`	匹配非字母、数字或下划线
`\s`	匹配空白字符
`\S`	匹配非空白字符
`[]`	匹配括号内任意一个字符
`	匹配左边或右边的表达式
`()`	分组, 捕获匹配的内容

re模块的常用函数

re.match() : 从字符串的开头匹配正则表达式

import re

result = re.match(r'\d+', '123abc')
if result:
  print("匹配成功:", result.group()) # 输出: 匹配成功: 123
else:
  print("匹配失败")

re.search() : 在字符串中搜索匹配正则表达式的第一个位置

import re

result = re.research(r'\d+', 'abc123def')
if result:
  print("匹配成功:", result.group()) # 输出: 匹配成功: 123
else:
  print("匹配失败")

re.findall() : 查找字符串中所有匹配正则表达式的内容, 返回列表

import re
result = re.findall(r'\d+', 'abc123def456')
print(result) # 输出: ['123', '456']

re.finditer() : 查找字符串中所有匹配正则表达式的内容, 返回迭代器

import re

result = re.finditer(r'\d+', 'abc123def456')
for match in result:
  print(match.group()) 
# 输出:
#     123
#     456

re.sub() : 替换字符串中匹配正则表达式的内容

import re

result = re.sub(r'\d+', 'NUM', 'abc123def456')
print(result) # 输出: abcNUMdefNUM

re.split() : 根据正则表达式分割字符串, 返回列表类型

import re

result = re.split(r'\d+', 'abc123def456ghi')
print(result) # 输出: ['abc', 'def', 'ghi']

正则表达式的分组

使用()可以将匹配的内容分组, 并通过group()方法获取

import re

result = re.search(r'(\d+)-(\d+)', '电话: 123-456')
if result:
  print("完整匹配", result.group()) # 输出: 123-456
  print("第一组", result.group(1))  # 输出: 123
  print("第二组", result.group(2))  # 输出: 456

贪婪匹配与非贪婪匹配

贪婪匹配 : re模块的大部分函数默认为贪婪匹配, 正则表达式会尽可能多地匹配字符
非贪婪匹配 : 在量词后加?, 尽可能少地匹配字符

import re
# 贪婪匹配
result = re.search(r'\d+', '123abc456')
print(result.group()) # 输出: 123

# 非贪婪匹配
result = re.search(r'\d+?', '123abc456')
print(result.group()) # 输出: 1

常用正则表达式示例

匹配邮箱地址

import re

email = "example@domain.com"
pattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'

if re.match(pattern, mail):
  print("email correct!")
else:
  print("email error!")

匹配手机号码

import re

phone = "13800138000"
pattern = r'^1[3-9]\d{9}$'

if re.match(pattern, phone):
  print("phone number correct!")
else:
  print("phone number error!")

提取HTML标签中的内容

import re

html = "<div>内容</div>"
pattern = r'<[^>]+>(.*?)</[^>]+>'
result = re.search(pattern, html)
if result:
  print("提取到内容:\n", result.group()) # 输出: 内容

注意事项

正则表达式的性能可能受模式复杂度的影响，尽量避免过于复杂的模式
在处理大量数据时, 建议预编译正则表达式以提高性能:

import re

data = "待匹配的字符串"
pattern = re.compile(r'\d+') # 预编译正则表达式
retult = pattern.findall(data)