设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 6965|回复: 6
打印 上一主题 下一主题

爬取时光网数据出现异常

[复制链接]

4

主题

0

好友

52

积分

注册会员

Rank: 2

跳转到指定楼层
楼主
发表于 2018-5-28 12:40:36 |显示全部楼层 |倒序浏览
爬取时光网数据出现异常,如果试用代理则会报错:

将Rep类中的代理屏蔽的掉就能访问了,不知道是为什么。


#req = requests.get(url, headers=headers, proxies=proxies, timeout=2) 注释掉代理就能访问了
req = requests.get(url, headers=headers, timeout=2)


time.py中的测试地址是:
if __name__ ==  '__main__':
    ti = Time()
    res = ti.get_timetable_from_time('http://theater.mtime.com/China_Beijing_Xicheng/1815/', '寂静之地', '2018-05-30')

回复

使用道具 举报

4

主题

0

好友

52

积分

注册会员

Rank: 2

沙发
发表于 2018-5-28 12:44:08 |显示全部楼层
我是用的就是我们github上的film_tickets-master那个教程
回复

使用道具 举报

4

主题

0

好友

52

积分

注册会员

Rank: 2

板凳
发表于 2018-5-30 02:06:55 |显示全部楼层
crossin先生 发表于 2018-5-29 00:55
应该是代理里采集的ip失效了(或者可能当时就写死了几个ip),导致请求失败 ...

我试过了,淘票票没问题,就是时光网不行
回复

使用道具 举报

4

主题

0

好友

52

积分

注册会员

Rank: 2

地板
发表于 2018-5-30 02:09:29 |显示全部楼层
而且是连续几天都不行,我目前正在找开源的IP池来解决这个问题。用的haipproxy,但感觉太复杂了,装了2天还没装好,东西太多。这个是国内的一个爬虫工程师写的。
回复

使用道具 举报

4

主题

0

好友

52

积分

注册会员

Rank: 2

5#
发表于 2018-5-31 09:05:57 |显示全部楼层
嗯嗯,好的,多谢。
回复

使用道具 举报

4

主题

0

好友

52

积分

注册会员

Rank: 2

6#
发表于 2018-6-3 03:32:37 |显示全部楼层
老师用了其他代理池还是被时光网ban了。打算换ADSL服务器方案了。这方面有性价比高的服务器代理商吗?方便推荐一下吗?
回复

使用道具 举报

4

主题

0

好友

52

积分

注册会员

Rank: 2

7#
发表于 2018-6-3 14:37:57 |显示全部楼层
crossin先生 发表于 2018-6-3 12:46
这方面服务器我也没用过,没有过这么大量且频繁的请求需求

好的,多谢老师
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-5-5 10:39 , Processed in 0.026730 second(s), 22 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部