Crossin的编程教室»论坛 › Python › 语言基础 › 【Python 第57课】正则表达式（3）

12 3 4 / 4 页下一页

查看: 37616|回复: 31

【Python 第57课】正则表达式（3）

[复制链接]

crossin先生

174 主题	45 好友	10万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

电梯直达

楼主

发表于 2013-9-22 16:51:05 |只看该作者 |倒序浏览

先来公布上一课习题的答案：

\bs\S*?e\b

有的同学给出的答案是"\bs.*?e\b"。测试一下就会发现，有奇怪的'sea sue'和'sweet see'混进来了。既然是单词，我们就不要空格，所以需要用"\S"而不是"."

昨天有位同学在论坛上说，用正则表达式匹配出了文件中的手机号。这样现学现用很不错。匹配的规则是"1.*?\n"，在这个文件的条件下，是可行的。但这规则不够严格，且依赖于手机号结尾有换行符。今天我来讲讲其他的方法。

匹配手机号，其实就是找出一串连续的数字。更进一步，是11位，以1开头的数字。

还记得正则第1讲里提到的[]符号吗？它表示其中任意一个字符。所以要匹配数字，我们可以用

[0123456789]

由于它们是连续的字符，有一种简化的写法：[0-9]。类似的还有[a-zA-Z]的用法。

还有另一种表示数字的方法：

\d

要表示任意长度的数字，就可以用

[0-9]*

或者

\d*

但要注意的是，*表示的任意长度包括0，也就是没有数字的空字符也会被匹配出来。一个与*类似的符号+，表示的则是1个或更长。

所以要匹配出所有的数字串，应当用

[0-9]+

或者

\d+

如果要限定长度，就用{}代替+，大括号里写上你想要的长度。比如11位的数字：

\d{11}

想要再把第一位限定为1，就在前面加上1，后面去掉一位：

1\d{10}

OK. 总结一下今天提到的符号：

[0-9]

\d

+

{}

现在你可以去一个混杂着各种数据的文件里，抓出里面的手机号，或是其他你感兴趣的数字了。

#==== Crossin的编程教室 ====#
微信ID：crossincode
论坛：http://crossin.me
QQ群：156630350

面向零基础初学者的编程课
每天5分钟，轻松学编程

表达式

收藏0

回帖奖励 +3

沙发

使用道具举报

fl0w

0 主题	0 好友	389 积分

中级会员

Rank: 3 Rank: 3

发消息

板凳

发表于 2013-9-25 14:47:32 |只看该作者

回帖奖励 +3

靠前

使用道具举报

simple

0 主题	0 好友	62 积分

注册会员

Rank: 2

发消息

地板

发表于 2013-9-27 09:11:32 |只看该作者

回帖奖励 +3

mport re
text = 'site sea sue sweet see case sse ssee loses'
pattern = re.compile(r'\bs\S*?e\b')
m = pattern.findall(text)
print m

为什么说上面这段代码就比下面的效率高啊

import re
text = 'site sea sue sweet see case sse ssee loses'
m = re.findall(r'\bs\S*?e\b',text)
print m

使用道具举报

crossin先生

174 主题	45 好友	10万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

5^#

发表于 2013-9-27 13:25:51 |只看该作者

simple 发表于 2013-9-27 09:11
mport re
text = 'site sea sue sweet see case sse ssee loses'
pattern = re.compile(r'\bs\S*?e\b')

compile会把正则表达式编译成一个对象，据说效率上会高一些，尤其在使用同一个规则多次匹配的时候

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

michael

0 主题	0 好友	152 积分

注册会员

Rank: 2

发消息

6^#

发表于 2013-10-2 00:30:21 |只看该作者

compile会把正则表达式编译成一个对象，据说效率上会高一些，尤其在使用同一个规则多次匹配的时候

使用道具举报

paul

0 主题	0 好友	49 积分

新手上路

Rank: 1

发消息

7^#

发表于 2014-6-22 20:28:35 |只看该作者

请教一下，我为什么一用\b，运行结果就会是not match?
import re
#text="Hi,I am Shirley Hilton,I am his wife."
text="site sea sue sweet see case sse ssee loses"
m=re.findall("\bs\S*?e\b",text)

if m:
print m
else:
print "not match"

代码如上，只要不用"\b"，都是可以正常运行的，麻烦懂的解释一下吧

使用道具举报