设为首页收藏本站

开启辅助访问切换到窄版

论坛BBS

Crossin的编程教室»论坛 › Python › 语言基础 › 【Python 第56课】正则表达式（2）

12 3 4 5 6 / 6 页下一页

发新帖

查看: 63380|回复: 54

上一主题

下一主题

【Python 第56课】正则表达式（2）

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

电梯直达

跳转到指定楼层

楼主

发表于 2013-9-18 00:21:05 |只看该作者 |正序浏览

有同学问起昨天那段测试代码里的问题，我来简单说一下。

1.
r"hi"

这里字符串前面加了r，是raw的意思，它表示对字符串不进行转义。为什么要加这个？你可以试试print "\bhi"和r"\bhi"的区别。
>>> print "\bhi"
hi
>>> print r"\bhi"
\bhi

可以看到，不加r的话，\b就没有了。因为python的字符串碰到“\”就会转义它后面的字符。如果你想在字符串里打“\”，则必须要打“\\”。
>>> print "\\bhi"
\bhi

这样的话，我们的正则表达式里就会多出很多“\”，让本来就已经复杂的字符串混乱得像五仁月饼一般。但加上了“r”，就表示不要去转义字符串中的任何字符，保持它的原样。

2.
re.findall(r"hi", text)

re是python里的正则表达式模块。findall是其中一个方法，用来按照提供的正则表达式，去匹配文本中的所有符合条件的字符串。返回结果是一个包含所有匹配的list。

3.
今天主要说两个符号“.”和“*”，顺带说下“\S”和“?”。
“.”在正则表达式中表示除换行符以外的任意字符。在上节课提供的那段例子文本中：
Hi, I am Shirley Hilton. I am his wife.

如果我们用“i.”去匹配，就会得到
['i,', 'ir', 'il', 'is', 'if']

你若是暴力一点，也可以直接用“.”去匹配，看看会得到什么。

与“.”类似的一个符号是“\S”，它表示的是不是空白符的任意字符。注意是大写字符S。

4.
在很多搜索中，会用“?”表示任意一个字符，“*”表示任意数量连续字符，这种被称为通配符。但在正则表达式中，任意字符是用“.”表示，而“*”则不是表示字符，而是表示数量：它表示前面的字符可以重复任意多次（包括0次），只要满足这样的条件，都会被表达式匹配上。

结合前面的“.*”，用“I.*e”去匹配，想一下会得到什么结果？
['I am Shirley Hilton. I am his wife']

是不是跟你想的有些不一样？也许你会以为是
['I am Shirle', 'I am his wife']

这是因为“*”在匹配时，会匹配尽可能长的结果。如果你想让他匹配到最短的就停止，需要用“.*?”。如“I.*?e”，就会得到第二种结果。这种匹配方式被称为懒惰匹配，而原本尽可能长的方式被称为贪婪匹配。

最后留一道习题：
从下面一段文本中，匹配出所有s开头，e结尾的单词。

site sea sue sweet see case sse ssee loses

#==== Crossin的编程教室 ====#
微信ID：crossincode
论坛：http://crossin.me
QQ群：156630350

面向零基础初学者的编程课
每天5分钟，轻松学编程

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

55^#

发表于 2019-1-4 17:49:36 |只看该作者

dreamwell 发表于 2019-1-4 09:09
“你若是暴力一点，也可以直接用“.”去匹配，看看会得到什么。”
坑啊，搞得我的电脑直接蓝屏。。。。。。 ...

这应该跟我无关……只是巧合吧

用 . 只是会把每一个字符都单独分开匹配出来

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

0 主题	0 好友	12 积分

Rank: 1

发消息

54^#

发表于 2019-1-4 09:09:14 |只看该作者

“你若是暴力一点，也可以直接用“.”去匹配，看看会得到什么。”
坑啊，搞得我的电脑直接蓝屏。。。。。。
版主，解释一下什么原因啊。。。。。。

回复

使用道具举报

2 主题	0 好友	60 积分

Rank: 2

发消息

53^#

发表于 2018-2-13 14:32:39 |只看该作者

import re
text = "site sea sue sweet see case sse ssee loses"
m = re.findall(r"\bs\S*?e\b", text)
print m

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

52^#

发表于 2017-8-26 13:04:36 |只看该作者

blueheart 发表于 2017-8-25 10:57
为什么要加r不转义?r是不转义字符串中的任何字符,保持它的原样.感觉不太对劲 ...

r是为了字符串不转义，分清字符串本身和正则规则这是两个东西
字符串不转义，才能保证正则拿到 \b 这个规则

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

1 主题	0 好友	80 积分

Rank: 2

发消息

51^#

发表于 2017-8-25 10:57:30 |只看该作者

import re
text = "site sea sue sweet see case sse ssee loses"
m = re.findall(r"\bs\S*?e\b",text) #不包括空白字符
if m:
print m
else:
print 'not match'

复制代码

为什么要加r不转义?r是不转义字符串中的任何字符,保持它的原样.感觉不太对劲

回复

使用道具举报

1 主题	0 好友	145 积分

Rank: 2

发消息

50^#

发表于 2017-3-1 22:23:47 |只看该作者

试着写了一下，r"\bs\S.?e\b"这个可以。不知道还有没有更简短的表达式

回复

使用道具举报

0 主题	0 好友	50 积分

Rank: 2

发消息

49^#

发表于 2017-2-4 22:30:41 |只看该作者

#-*- coding:utf-8 -*-
import re
text = "site sea sue sweet see case sse ssee loses"
m = re.findall(r"\bs\S*e\b", text)
if m:
print(m)
else:
print('not match')

复制代码

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

48^#

发表于 2017-2-1 11:17:24 |只看该作者

红白姬发表于 2017-1-31 11:11
懂了，谢谢老师
请问老师，我直接print "\b"
打印出的这个是什么字符啊？

回退键

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

0 主题	1 好友	36 积分

Rank: 1

发消息

47^#

发表于 2017-1-31 11:11:29 |只看该作者

crossin先生发表于 2017-1-31 10:54
正则的规则：
\b 表示匹配单词边界
\\ 表示匹配字符 \

懂了，谢谢老师
请问老师，我直接print "\b"
打印出的这个是什么字符啊？

QQ图片20170131111021.png (905 Bytes, 下载次数: 612)

QQ图片20170131111021.png

回复

使用道具举报

12 3 4 5 6 / 6 页下一页

发新帖

|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号 )

GMT+8, 2024-11-22 08:58 , Processed in 0.019763 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部