查看: 50366|回复: 31

【Python 第57课】正则表达式（3）

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

电梯直达

楼主

发表于 2013-9-22 16:51:05 |只看该作者 |正序浏览

先来公布上一课习题的答案：

\bs\S*?e\b

有的同学给出的答案是"\bs.*?e\b"。测试一下就会发现，有奇怪的'sea sue'和'sweet see'混进来了。既然是单词，我们就不要空格，所以需要用"\S"而不是"."

昨天有位同学在论坛上说，用正则表达式匹配出了文件中的手机号。这样现学现用很不错。匹配的规则是"1.*?\n"，在这个文件的条件下，是可行的。但这规则不够严格，且依赖于手机号结尾有换行符。今天我来讲讲其他的方法。

匹配手机号，其实就是找出一串连续的数字。更进一步，是11位，以1开头的数字。

还记得正则第1讲里提到的[]符号吗？它表示其中任意一个字符。所以要匹配数字，我们可以用

[0123456789]

由于它们是连续的字符，有一种简化的写法：[0-9]。类似的还有[a-zA-Z]的用法。

还有另一种表示数字的方法：

\d

要表示任意长度的数字，就可以用

[0-9]*

或者

\d*

但要注意的是，*表示的任意长度包括0，也就是没有数字的空字符也会被匹配出来。一个与*类似的符号+，表示的则是1个或更长。

所以要匹配出所有的数字串，应当用

[0-9]+

或者

\d+

如果要限定长度，就用{}代替+，大括号里写上你想要的长度。比如11位的数字：

\d{11}

想要再把第一位限定为1，就在前面加上1，后面去掉一位：

1\d{10}

OK. 总结一下今天提到的符号：

[0-9]

\d

+

{}

现在你可以去一个混杂着各种数据的文件里，抓出里面的手机号，或是其他你感兴趣的数字了。

#==== Crossin的编程教室 ====#
微信ID：crossincode
论坛：http://crossin.me
QQ群：156630350

面向零基础初学者的编程课
每天5分钟，轻松学编程

表达式

收藏0

相关帖子

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

32^#

发表于 2019-6-6 13:39:30 |只看该作者

pigcare 发表于 2019-6-6 08:38
这个转义感觉很难理解，加了r，不是查字符串里面的“\bs*e\b”,这样\b不就不能表示开头结尾了吗？转义后\ ...

你只有一个 . ，当然只匹配一个字符咯
你要么用 .*?

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

pigcare

0 主题	0 好友	8 积分

新手上路

Rank: 1

发消息

31^#

发表于 2019-6-6 08:38:40 |只看该作者

crossin先生发表于 2019-6-5 14:04
规则前面要加 r，避免字符串转义
r"\bs*e\b"

这个转义感觉很难理解，加了r，不是查字符串里面的“\bs*e\b”,这样\b不就不能表示开头结尾了吗？转义后\b才表示开头结尾吧？
后来我把代码改了下：
import re
print(re.findall(r"\bs.e\b"," site sea sue sweet see case sse ssee loses"))
运行结果：
D:\python\class_temp01\venv\Scripts\python.exe C:/Users/hp/.PyCharmCE2019.1/config/scratches/scratch.py
['sue', 'see', 'sse']

Process finished with exit code 0
为什么没有site呢？

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

30^#

发表于 2019-6-5 14:04:18 |只看该作者

pigcare 发表于 2019-6-5 10:54
请教一个问题，问什么我用Pyhton3，识别不了\b、\d呢，IDE是Pycharm，代码如下：
import re
print(re.finda ...

规则前面要加 r，避免字符串转义
r"\bs*e\b"

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

pigcare

0 主题	0 好友	8 积分

新手上路

Rank: 1

发消息

29^#

发表于 2019-6-5 10:54:27 |只看该作者

请教一个问题，问什么我用Pyhton3，识别不了\b、\d呢，IDE是Pycharm，代码如下：
import re
print(re.findall("s\S*?e","site sea sue sweet see case sse ssee loses"))
print(re.findall("s\S*e","site sea sue sweet see case sse ssee loses"))
print(re.findall("\bs*e\b"," site sea sue sweet see case sse ssee loses"))
print(re.findall("/d{5}","1234 146347 12345 64432 132526"))
运行结果：
D:\python\class_temp01\venv\Scripts\python.exe C:/Users/hp/.PyCharmCE2019.1/config/scratches/scratch.py
['site', 'se', 'sue', 'swe', 'se', 'se', 'sse', 'sse', 'se']
['site', 'se', 'sue', 'swee', 'see', 'se', 'sse', 'ssee', 'se']
[]
[]

Process finished with exit code 0

使用道具举报