Crossin的编程教室
标题:
写了一个爬虫,为何老报错?
[打印本页]
作者:
w5132008
时间:
2013-9-7 22:51
标题:
写了一个爬虫,为何老报错?
本帖最后由 w5132008 于 2013-9-7 22:53 编辑
环境:win
版本:python3.3
老报错,ascii啥的。
测试可用帖子ID:
2537728260
,这个事符合判断要求的
import urllib.request
import re
#下载图片
def getImage(html):
reg=r'http://imgsrc.baidu.com/forum/w%3D580.+\.jpg'
imgre=re.compile(reg)
imglist=imgre.findall(html)
x=1
#限制下载的图片数
for imgurl in imglist:
if x<=10:
urllib.request.urlretrieve(imgurl,'%s.jpg'%x)
x+=1
else:
print('超过图片数量限制')
break
#获取html
def getHtml(url):
html=urllib.request.urlopen(url).read().decode('gbk')
reg=r'%C9%E3%D3%B0'
imgre=re.compile(reg)
resultlist=imgre.findall(html)
if resultlist:
return html
#获取帖子id
def getUrl(num):
url='http://tieba.baidu.com/p/%s'%num
return url
#从输入的帖子开始获取,直到上限
num=input('输入起始数:')
while int(num)<=2537728262:
url=getUrl(num)
html=getHtml(url)
getImage(html)
num+=1
else:
print('输入ID超出范围!')
复制代码
作者:
w5132008
时间:
2013-9-11 20:02
居然没人回复,老师,求教。。。
:'(:'(:'(:'(:'(:'(
作者:
crossin先生
时间:
2013-9-13 01:56
你的imgurl似乎取的不对
你把imgurl输出出来看看,似乎多了很多东西
作者:
hunter
时间:
2014-1-10 12:44
欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)
Powered by Discuz! X2.5