设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 38631|回复: 25
打印 上一主题 下一主题

【Python 第55课】 正则表达式(1)

[复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
楼主
发表于 2013-9-16 19:39:33 |只看该作者 |正序浏览
今天来挖个新坑,讲讲正则表达式。

什么是正则表达式?在回答这个问题之前,先来看看为什么要有正则表达式。

在编程处理文本的过程中,经常会需要按照某种规则去查找一些特定的字符串。比如知道一个网页上的图片都是叫做'image/8554278135.jpg'之类的名字,只是那串数字不一样;又或者在一堆人员电子档案中,你要把他们的电话号码全部找出来,整理成通讯录。诸如此类工作,如果手工去做,当量大的时候那简直就是悲剧。但你知道这些字符信息有一定的规律,可不可以利用这些规律,让程序自动来做这些无聊的事情?答案是肯定的。这时候,你就需要一种描述这些规律的方法,正则表达式就是干这事的。

正则表达式就是记录文本规则的代码。

所以正则表达式并不是python中特有的功能,它是一种通用的方法。python中的正则表达式库,所做的事情是利用正则表达式来搜索文本。要使用它,你必须会自己用正则表达式来描述文本规则。之前多次有同学表示查找文本的事情经常会遇上,希望能介绍一下正则表达式。既然如此,我们就从正则表达式的基本规则开始说起。

1.
首先说一种最简单的正则表达式,它没有特殊的符号,只有基本的字母或数字。它满足的匹配规则就是完全匹配。例如:有个正则表达式是“hi”,那么它就可以匹配出文本中所有含有hi的字符。

来看如下的一段文字:
Hi, I am Shirley Hilton. I am his wife.

如果我们用“hi”这个正则表达式去匹配这段文字,将会得到两个结果。因为是完全匹配,所以每个结果都是“hi”。这两个“hi”分别来自“Shirley”和“his”。默认情况下正则表达式是严格区分大小写的,所以“Hi”和“Hilton”中的“Hi”被忽略了。

为了验证正则表达式匹配的结果,你可以用以下这段代码做实验:
  1. import re
  2. text = "Hi, I am Shirley Hilton. I am his wife."
  3. m = re.findall(r"hi", text)
  4. if m:
  5.     print m
  6. else:
  7.     print 'not match'
复制代码
暂时先不解释这其中代码的具体含义,你只要去更改text和findall中的字符串,就可以用它来检测正则表达式的实际效果。

2.
如果我们只想找到“hi”这个单词,而不把包含它的单词也算在内,那就可以使用“\bhi\b”这个正则表达式。在以前的字符串处理中,我们已经见过类似“\n”这种特殊字符。在正则表达式中,这种字符更多,以后足以让你眼花缭乱。

“\b”在正则表达式中表示单词的开头或结尾,空格、标点、换行都算是单词的分割。而“\b”自身又不会匹配任何字符,它代表的只是一个位置。所以单词前后的空格标点之类不会出现在结果里。

在前面那个例子里,“\bhi\b”匹配不到任何结果。但“\bhi”的话就可以匹配到1个“hi”,出自“his”。用这种方法,你可以找出一段话中所有单词“Hi”,想一下要怎么写。

3.
最后再说一下[]这个符号。在正则表达式中,[]表示满足括号中任一字符。比如“[hi]”,它就不是匹配“hi”了,而是匹配“h”或者“i”。

在前面例子中,如果把正则表达式改为“[Hh]i”,就可以既匹配“Hi”,又匹配“hi”了。


#==== Crossin的编程教室 ====#
微信ID:crossincode
论坛:http://crossin.me
QQ群:156630350

面向零基础初学者的编程课
每天5分钟,轻松学编程


#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

14

积分

新手上路

Rank: 1

26#
发表于 2017-9-27 09:45:19 |只看该作者
crossin先生 发表于 2017-9-26 22:54
因为 \S 不存在对应的字符转义

受教。。希望能变成你这样得人。。
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

25#
发表于 2017-9-26 22:54:52 |只看该作者
shaonan 发表于 2017-9-26 22:12
你好,我提出疑问的原因是我发现对于\S来说,\\S和\S没有区别:这两段程序运行结果相同,怎么解释呢? ...

因为 \S 不存在对应的字符转义
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

14

积分

新手上路

Rank: 1

24#
发表于 2017-9-26 22:12:26 |只看该作者
crossin先生 发表于 2017-9-25 11:32
对的。或者在规则前面加上 r,避免字符串的转义

你好,我提出疑问的原因是我发现对于\S来说,\\S和\S没有区别:
  1. # 匹配所有s开头e结尾的单词 且单词字母大于2
  2. text = 'site sea sue sweet see case se ssee loses lsre'
  3. result = re.findall('\\bs\S+?e\\b',text)
  4. if result:
  5.     print result
  6. else:
  7.     print 'there is no match!'[/code

  8. [code]
  9. # 匹配所有s开头e结尾的单词 且单词字母大于2
  10. text = 'site sea sue sweet see case se ssee loses lsre'
  11. result = re.findall('\\bs\\S+?e\\b',text)
  12. if result:
  13.     print result
  14. else:
  15.     print 'there is no match!'
复制代码
这两段程序运行结果相同,怎么解释呢?
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

23#
发表于 2017-9-25 11:32:52 |只看该作者
shaonan 发表于 2017-9-24 23:03
请问我分析的对吗。。看了第二课又有些疑问。。

对的。或者在规则前面加上 r,避免字符串的转义
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

14

积分

新手上路

Rank: 1

22#
发表于 2017-9-24 23:03:48 |只看该作者
shaonan 发表于 2017-9-24 22:38
之前无脑的直接然后一直无匹配。。。忘记了在引号里要多加一个\ 了。。。。 ...

请问我分析的对吗。。看了第二课又有些疑问。。
回复

使用道具 举报

0

主题

0

好友

14

积分

新手上路

Rank: 1

21#
发表于 2017-9-24 22:38:27 |只看该作者
  1. # 正则表达式
  2. import re
  3. text = 'hi, my name is him. I na am 23 years old.'
  4. result = re.findall('\\bhi',text)
  5. if result:
  6.     print result
  7. else:
  8.     print 'there is no match!'
复制代码
之前无脑的直接
  1. result = re.findall('\bhi',text)
复制代码
然后一直无匹配。。。忘记了在引号里要多加一个\ 了。。。。
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

20#
发表于 2017-8-25 09:32:55 |只看该作者
blueheart 发表于 2017-8-25 09:21
请问Crossin先生为什么print  "\bhi"会打印出乱码出来的?

\b 是有特殊含义的字符,被转义了,所以要加 r
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

1

主题

0

好友

80

积分

注册会员

Rank: 2

19#
发表于 2017-8-25 09:21:31 |只看该作者
本帖最后由 blueheart 于 2017-8-25 09:23 编辑

请问Crossin先生为什么print  "\bhi"会打印出乱码出来的? re1.png

回复

使用道具 举报

0

主题

0

好友

28

积分

新手上路

Rank: 1

18#
发表于 2017-8-18 11:22:58 |只看该作者
crossin先生 发表于 2017-8-17 23:06
这个从代码看不出来。你得自己调试,把 yp 输出出来看看是什么
有些电影的数据是没有的 ...

crossin先生,我找到问题了,是有个list不是25长度,但是不是yp。原来分行写的语句不管哪行出了问题都显示最后一行出问题。。。。
谢谢你啦,打扰了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-22 00:00 , Processed in 0.052579 second(s), 39 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部