设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 38290|回复: 31
打印 上一主题 下一主题

【Python 第57课】 正则表达式(3)

[复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
楼主
发表于 2013-9-22 16:51:05 |只看该作者 |正序浏览

先来公布上一课习题的答案:


\bs\S*?e\b


有的同学给出的答案是"\bs.*?e\b"。测试一下就会发现,有奇怪的'sea sue'和'sweet see'混进来了。既然是单词,我们就不要空格,所以需要用"\S"而不是"."


昨天有位同学在论坛上说,用正则表达式匹配出了文件中的手机号。这样现学现用很不错。匹配的规则是"1.*?\n",在这个文件的条件下,是可行的。但这规则不够严格,且依赖于手机号结尾有换行符。今天我来讲讲其他的方法。


匹配手机号,其实就是找出一串连续的数字。更进一步,是11位,以1开头的数字。


还记得正则第1讲里提到的[]符号吗?它表示其中任意一个字符。所以要匹配数字,我们可以用

[0123456789]


由于它们是连续的字符,有一种简化的写法:[0-9]。类似的还有[a-zA-Z]的用法。


还有另一种表示数字的方法:

\d


要表示任意长度的数字,就可以用

[0-9]*

或者

\d*


但要注意的是,*表示的任意长度包括0,也就是没有数字的空字符也会被匹配出来。一个与*类似的符号+,表示的则是1个或更长。


所以要匹配出所有的数字串,应当用

[0-9]+

或者

\d+


如果要限定长度,就用{}代替+,大括号里写上你想要的长度。比如11位的数字:

\d{11}


想要再把第一位限定为1,就在前面加上1,后面去掉一位:

1\d{10}


OK. 总结一下今天提到的符号:

[0-9]

\d

+

{}


现在你可以去一个混杂着各种数据的文件里,抓出里面的手机号,或是其他你感兴趣的数字了。


#==== Crossin的编程教室 ====#
微信ID:crossincode
论坛:http://crossin.me
QQ群:156630350

面向零基础初学者的编程课
每天5分钟,轻松学编程


#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

32#
发表于 2019-6-6 13:39:30 |只看该作者
pigcare 发表于 2019-6-6 08:38
这个转义感觉很难理解,加了r,不是查字符串里面的“\bs*e\b”,这样\b不就不能表示开头结尾了吗?转义后\ ...

你只有一个 . ,当然只匹配一个字符咯
你要么用 .*?
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

31#
发表于 2019-6-6 08:38:40 |只看该作者
crossin先生 发表于 2019-6-5 14:04
规则前面要加 r,避免字符串转义
r"\bs*e\b"

这个转义感觉很难理解,加了r,不是查字符串里面的“\bs*e\b”,这样\b不就不能表示开头结尾了吗?转义后\b才表示开头结尾吧?
后来我把代码改了下:
import re
print(re.findall(r"\bs.e\b"," site  sea sue sweet see case sse ssee loses"))
运行结果:
D:\python\class_temp01\venv\Scripts\python.exe C:/Users/hp/.PyCharmCE2019.1/config/scratches/scratch.py
['sue', 'see', 'sse']

Process finished with exit code 0
为什么没有site呢?
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

30#
发表于 2019-6-5 14:04:18 |只看该作者
pigcare 发表于 2019-6-5 10:54
请教一个问题,问什么我用Pyhton3,识别不了\b、\d呢,IDE是Pycharm,代码如下:
import re
print(re.finda ...

规则前面要加 r,避免字符串转义
r"\bs*e\b"
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

29#
发表于 2019-6-5 10:54:27 |只看该作者
请教一个问题,问什么我用Pyhton3,识别不了\b、\d呢,IDE是Pycharm,代码如下:
import re
print(re.findall("s\S*?e","site sea sue sweet see case sse ssee loses"))
print(re.findall("s\S*e","site sea sue sweet see case sse ssee loses"))
print(re.findall("\bs*e\b"," site sea sue sweet see case sse ssee loses"))
print(re.findall("/d{5}","1234 146347 12345 64432 132526"))
运行结果:
D:\python\class_temp01\venv\Scripts\python.exe C:/Users/hp/.PyCharmCE2019.1/config/scratches/scratch.py
['site', 'se', 'sue', 'swe', 'se', 'se', 'sse', 'sse', 'se']
['site', 'se', 'sue', 'swee', 'see', 'se', 'sse', 'ssee', 'se']
[]
[]

Process finished with exit code 0
回复

使用道具 举报

0

主题

0

好友

30

积分

新手上路

Rank: 1

28#
发表于 2019-3-28 22:21:54 |只看该作者
\bs.\S*e\b
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

27#
发表于 2018-7-28 01:03:30 |只看该作者
shan91 发表于 2018-7-27 15:35
老师,条件都放这么宽松了,为什么一个数字都搜索不出来~~

你的text是 ‘b’ 这个字符啊……

你直接用b这个变量就好了,何必多此一举,还弄错了
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

18

积分

新手上路

Rank: 1

26#
发表于 2018-7-27 15:35:41 |只看该作者
老师,条件都放这么宽松了,为什么一个数字都搜索不出来~~

正则式.png (2.6 KB, 下载次数: 287)

正则式.png

回复

使用道具 举报

0

主题

0

好友

96

积分

注册会员

Rank: 2

25#
发表于 2017-1-13 16:58:13 |只看该作者
import re
f = open('shouji.txt')
s = f.read()
print s
m = re.findall(r'1\d{10}',s)
for i in m:
    print i
f.close


aasasaf.jpg (98.62 KB, 下载次数: 298)

aasasaf.jpg

回复

使用道具 举报

0

主题

0

好友

4

积分

新手上路

Rank: 1

24#
发表于 2016-12-2 19:57:52 |只看该作者
assafasf
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-5-3 00:27 , Processed in 0.024213 second(s), 27 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部