正则表达式简单入门（正则表达式入门经典语句） - 原点资讯

它返回一个元组：

(sub(repl, string[, count]), 替换次数)

元组有两个元素，第一个元素是使用 sub 方法的结果，第二个元素返回原字符串被替换的次数。

看看例子：

正则表达式简单入门,正则表达式入门经典语句(13)

事实上，使用 compile 函数生成的 Pattern 对象的一系列方法跟 re 模块的多数函数是对应的，但在使用上有细微差别。

match 函数

match 函数的使用形式如下：

正则表达式简单入门,正则表达式入门经典语句(14)

search 函数

search 函数的使用形式如下：

re.search(pattern, string[, flags])

search 函数不能指定字符串的搜索区间，用法跟 Pattern 对象的 search 方法类似。

findall 函数

findall 函数的使用形式如下：

re.findall(pattern, string[, flags])

findall 函数不能指定字符串的搜索区间，用法跟 Pattern 对象的 findall 方法类似。

看看例子：

import re

print re.findall(r'd ', 'hello 12345 789')

# 输出

['12345', '789']

finditer 函数

finditer 函数的使用方法跟 Pattern 的 finditer 方法类似，形式如下：

re.finditer(pattern, string[, flags])

split 函数

split 函数的使用形式如下：

re.split(pattern, string[, maxsplit])

sub 函数

sub 函数的使用形式如下：

re.sub(pattern, repl, string[, count])

subn 函数

subn 函数的使用形式如下：

re.subn(pattern, repl, string[, count])

到底用哪种方式

从上文可以看到，使用 re 模块有两种方式：

使用 re.compile 函数生成一个 Pattern 对象，然后使用 Pattern 对象的一系列方法对文本进行匹配查找；

直接使用 re.match, re.search 和 re.findall 等函数直接对文本匹配查找；

下面，我们用一个例子展示这两种方法。

先看第 1 种用法：

import re

# 将正则表达式先编译成 Pattern 对象

pattern = re.compile(r'd ')

print pattern.match('123, 123')

print pattern.search('234, 234')

print pattern.findall('345, 345')

再看第 2 种用法：

import re

print re.match(r'd ', '123, 123')

print re.search(r'd ', '234, 234')

print re.findall(r'd ', '345, 345')

如果一个正则表达式需要用到多次（比如上面的 d ），在多种场合经常需要被用到，出于效率的考虑，我们应该预先编译该正则表达式，生成一个 Pattern 对象，再使用该对象的一系列方法对需要匹配的文件进行匹配；而如果直接使用 re.match, re.search 等函数，每次传入一个正则表达式，它都会被编译一次，效率就会大打折扣。

因此，我们推荐使用第 1 种用法。

匹配中文

在某些情况下，我们想匹配文本中的汉字，有一点需要注意的是，中文的 unicode 编码范围主要在 [u4e00-u9fa5]，这里说主要是因为这个范围并不完整，比如没有包括全角（中文）标点，不过，在大部分情况下，应该是够用的。

假设现在想把字符串 title = u'你好，hello，世界' 中的中文提取出来，可以这么做：

# -*- coding: utf-8 -*-

import re

title = u'你好，hello，世界'

pattern = re.compile(ur'[\u4e00-\u9fa5] ')

result = pattern.findall(title)

print result

注意到，我们在正则表达式前面加上了两个前缀 ur，其中 r 表示使用原始字符串，u 表示是 unicode 字符串。

执行结果: