设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 37616|回复: 31
打印 上一主题 下一主题

【Python 第57课】 正则表达式(3)

[复制链接]

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
楼主
发表于 2013-9-22 16:51:05 |只看该作者 |倒序浏览

先来公布上一课习题的答案:


\bs\S*?e\b


有的同学给出的答案是"\bs.*?e\b"。测试一下就会发现,有奇怪的'sea sue'和'sweet see'混进来了。既然是单词,我们就不要空格,所以需要用"\S"而不是"."


昨天有位同学在论坛上说,用正则表达式匹配出了文件中的手机号。这样现学现用很不错。匹配的规则是"1.*?\n",在这个文件的条件下,是可行的。但这规则不够严格,且依赖于手机号结尾有换行符。今天我来讲讲其他的方法。


匹配手机号,其实就是找出一串连续的数字。更进一步,是11位,以1开头的数字。


还记得正则第1讲里提到的[]符号吗?它表示其中任意一个字符。所以要匹配数字,我们可以用

[0123456789]


由于它们是连续的字符,有一种简化的写法:[0-9]。类似的还有[a-zA-Z]的用法。


还有另一种表示数字的方法:

\d


要表示任意长度的数字,就可以用

[0-9]*

或者

\d*


但要注意的是,*表示的任意长度包括0,也就是没有数字的空字符也会被匹配出来。一个与*类似的符号+,表示的则是1个或更长。


所以要匹配出所有的数字串,应当用

[0-9]+

或者

\d+


如果要限定长度,就用{}代替+,大括号里写上你想要的长度。比如11位的数字:

\d{11}


想要再把第一位限定为1,就在前面加上1,后面去掉一位:

1\d{10}


OK. 总结一下今天提到的符号:

[0-9]

\d

+

{}


现在你可以去一个混杂着各种数据的文件里,抓出里面的手机号,或是其他你感兴趣的数字了。


#==== Crossin的编程教室 ====#
微信ID:crossincode
论坛:http://crossin.me
QQ群:156630350

面向零基础初学者的编程课
每天5分钟,轻松学编程


#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

25

积分

新手上路

Rank: 1

沙发
发表于 2013-9-23 15:29:55 |只看该作者

回帖奖励 +3

沙发
回复

使用道具 举报

0

主题

0

好友

389

积分

中级会员

Rank: 3Rank: 3

板凳
发表于 2013-9-25 14:47:32 |只看该作者

回帖奖励 +3

靠前
回复

使用道具 举报

0

主题

0

好友

62

积分

注册会员

Rank: 2

地板
发表于 2013-9-27 09:11:32 |只看该作者

回帖奖励 +3

mport re
text = 'site sea sue sweet see case sse ssee loses'
pattern = re.compile(r'\bs\S*?e\b')
m = pattern.findall(text)
print m

为什么说上面这段代码就比下面的效率高啊



import re
text = 'site sea sue sweet see case sse ssee loses'
m = re.findall(r'\bs\S*?e\b',text)
print m
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

5#
发表于 2013-9-27 13:25:51 |只看该作者
simple 发表于 2013-9-27 09:11
mport re
text = 'site sea sue sweet see case sse ssee loses'
pattern = re.compile(r'\bs\S*?e\b')

compile会把正则表达式编译成一个对象,据说效率上会高一些,尤其在使用同一个规则多次匹配的时候
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

152

积分

注册会员

Rank: 2

6#
发表于 2013-10-2 00:30:21 |只看该作者
compile会把正则表达式编译成一个对象,据说效率上会高一些,尤其在使用同一个规则多次匹配的时候
回复

使用道具 举报

0

主题

0

好友

49

积分

新手上路

Rank: 1

7#
发表于 2014-6-22 20:28:35 |只看该作者
请教一下,我为什么一用\b,运行结果就会是not match?
import re
#text="Hi,I am Shirley Hilton,I am his wife."
text="site sea sue sweet see case sse ssee loses"
m=re.findall("\bs\S*?e\b",text)

if m:
    print m
else:
    print "not match"

代码如上,只要不用"\b",都是可以正常运行的,麻烦懂的解释一下吧
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

8#
发表于 2014-6-22 23:15:55 |只看该作者
paul 发表于 2014-6-22 20:28
请教一下,我为什么一用\b,运行结果就会是not match?
import re
#text="Hi,I am Shirley Hilton,I am his  ...

字符里的\会被转义。\b是有另有含义。所以要么用\\b,(用\\转义成为\)。要么用r"\b"替代"\b",带前缀r的字符串表示raw,对其中的字符不转义
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

49

积分

新手上路

Rank: 1

9#
发表于 2014-6-23 18:06:27 |只看该作者
crossin先生 发表于 2014-6-22 23:15
字符里的\会被转义。\b是有另有含义。所以要么用\\b,(用\\转义成为\)。要么用r"\b"替代"\b",带前缀r ...

好的,谢谢,解决了!
回复

使用道具 举报

0

主题

0

好友

49

积分

新手上路

Rank: 1

10#
发表于 2014-6-23 21:57:59 |只看该作者
再问一个问题:前题答案用\bs\S*e\b,是不是也可以?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-4-20 07:34 , Processed in 0.020490 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部