123 / 3 页下一页

楼主: crossin先生

【Python 第55课】正则表达式（1）

[复制链接]

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

11^#

发表于 2017-1-14 14:46:07 |只看该作者

l0ve1o24 发表于 2017-1-13 14:36
在前面那个例子里，“\bhi\b”匹配不到任何结果。但“\bhi”的话就可以匹配到1个“hi”，出自“his”。用这 ...

没明白你的意思，你想匹配哪一个？
\bhi\b 是匹配单词hi，不包括其他词中间的，这个没错。\bhi 就是匹配单词开头的 hi

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

l0ve1o24

0 主题	0 好友	96 积分

注册会员

Rank: 2

发消息

12^#

发表于 2017-1-14 20:36:40 |只看该作者

crossin先生发表于 2017-1-14 14:46
没明白你的意思，你想匹配哪一个？
\bhi\b 是匹配单词hi，不包括其他词中间的，这个没错。\bhi 就是匹配 ...

没有，你前面不是提了个问题吗？我看没同学解答，看了后面的课，差不多知道了

使用道具举报

tanlongfei

0 主题	0 好友	28 积分

新手上路

Rank: 1

发消息

13^#

发表于 2017-8-11 15:32:04 |只看该作者

有个问题，python3里，直接用r‘hi’，出来的就是\bhi\b的效果。。。就是只输出hi，不输出包括hi的单词。。。这个应该怎么输出包括hi的单词

import re
text = 'Hi,I am Shirly Hilton.I am his wife.'
m = re.findall(r'hi',text)
print(m)

复制代码

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

14^#

发表于 2017-8-11 23:49:31 |只看该作者

tanlongfei 发表于 2017-8-11 15:32
有个问题，python3里，直接用r‘hi’，出来的就是\bhi\b的效果。。。就是只输出hi，不输出包括hi的单词。。 ...

和py3无关，hi就是匹配hi呀，包含的单词，那你前后得加上通配符（往后面两课继续看下去）

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

tanlongfei

0 主题	0 好友	28 积分

新手上路

Rank: 1

发消息

15^#

发表于 2017-8-17 21:10:52 |只看该作者

嗯嗯，谢谢crossin先生，这两天没上，之前那个问题自己看了后面的明白了。
又有了新的问题，我现在在做练习题，抓取豆瓣推荐电影的练习题，然后代码已经写完，这个网址一共十页。非常奇怪的是，自动循环运行前八页的时候，都能顺利进行，运行第九页的时候，告诉我list长度出了问题，我然后自己看了下出问题的地方，长度正确，不知道问题出在了哪，麻烦crossin先生或者哪位大神给看下。

#https://movie.douban.com/top250?start=0&filter=
#上面这个网址以start跳动25翻页
import urllib.request
import re
import time
#这是抓取的函数
def zhua(mum):
#抓取电影，之后把这部分写成函数形式
url = 'https://movie.douban.com/top250?start=%d&filter='%num
web = urllib.request.urlopen(url).read().decode('UTF-8')
content = str(web)
#电影名
titles = re.findall(r'<span class="title">\w+',content)
titles = [i[20:] for i in titles] #此句为去除匹配电影名时的特定词
#导演
daoyan = re.findall(r'导演:\s[^&]+',content)
#主演
actors = re.findall(r'主[^<]+',content)
#上映日期
playtime = re.findall(r'\s{29}[0-9]+',content)
playtime = [i[29:] for i in playtime]
#产地和剧情
candj = re.findall(r' / .* / .*',content)
chandi = []
juqing = []
for i in range(0,25):
chandi.append(candj[i].split(' / ')[1])
juqing.append(candj[i].split(' / ')[1])
#一句话影评
yp = re.findall(r'<span class="inq">[^<]+',content)
yp = [i[18:] for i in yp]
outdata = []
for i in range(0,25):
outdata.append('电影名 '+titles[i]+'\n'\
+daoyan[i]+'\n'+actors[i]+'\n'\
+'上映日期 '+playtime[i]+'\n'\
+'产地/语言 '+chandi[i]+'\n'\
+juqing[i]+'\n'\
+'影评 '+yp[i]+'\n\n')
out = open('out.txt','a',encoding='utf-8')
for i in outdata:
out.write(i)
out.close()
#接下来是设计循环运行十次
for i in range(0,10):
print(i)
num = i*25
zhua(num)

复制代码

出现的问题是：

Traceback (most recent call last):
File "C:\Users\T\Desktop\913抓取豆瓣电影.py", line 51, in <module>
zhua(num)
File "C:\Users\T\Desktop\913抓取豆瓣电影.py", line 40, in zhua
+'影评 '+yp[i]+'\n\n')
IndexError: list index out of range
>>>

复制代码

谢谢

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

16^#

发表于 2017-8-17 23:06:43 |只看该作者

tanlongfei 发表于 2017-8-17 21:10
嗯嗯，谢谢crossin先生，这两天没上，之前那个问题自己看了后面的明白了。
又有了新的问题，我现在在做练习 ...

这个从代码看不出来。你得自己调试，把 yp 输出出来看看是什么
有些电影的数据是没有的

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

tanlongfei

0 主题	0 好友	28 积分

新手上路

Rank: 1

发消息

17^#

发表于 2017-8-18 11:11:03 |只看该作者

crossin先生发表于 2017-8-17 23:06
这个从代码看不出来。你得自己调试，把 yp 输出出来看看是什么
有些电影的数据是没有的 ...

嗯，先谢谢你那么晚还回复。。。
我那个是调试以后的，yp是当页25部电影的影评。正常来说，yp应该是一个长度为25的list，事实上，我在单独运行那一页的数据后，也是长度为25的list。然后就不知道为什么老是出错。
还有个需要注意的是，我觉得问题不在yp这，因为如果我把yp从函数的循环里删除了，理论上也是可以正常运行的，就是每个电影没有影评罢了，然后在那页还是会出错，出错原因还是一样的，只是出错的地方成了juqing这里，也是反馈说out of range。。。
然后把juqing也去了，反馈上一个chandi同样的问题。。。。
不知道你碰到过这样的情况吗，或者你知道该怎么解决吗