Crossin的编程教室

标题: 爬取时光网数据出现异常 [打印本页]

作者: fa2003    时间: 2018-5-28 12:40
标题: 爬取时光网数据出现异常
爬取时光网数据出现异常,如果试用代理则会报错:
请求网页 http://theater.mtime.com/China_Beijing_Xicheng/1815/ 失败

将Rep类中的代理屏蔽的掉就能访问了,不知道是为什么。


#req = requests.get(url, headers=headers, proxies=proxies, timeout=2) 注释掉代理就能访问了
req = requests.get(url, headers=headers, timeout=2)


time.py中的测试地址是:
if __name__ ==  '__main__':
    ti = Time()
    res = ti.get_timetable_from_time('http://theater.mtime.com/China_Beijing_Xicheng/1815/', '寂静之地', '2018-05-30')


作者: fa2003    时间: 2018-5-28 12:44
我是用的就是我们github上的film_tickets-master那个教程
作者: crossin先生    时间: 2018-5-29 00:55
应该是代理里采集的ip失效了(或者可能当时就写死了几个ip),导致请求失败
作者: fa2003    时间: 2018-5-30 02:06
crossin先生 发表于 2018-5-29 00:55
应该是代理里采集的ip失效了(或者可能当时就写死了几个ip),导致请求失败 ...

我试过了,淘票票没问题,就是时光网不行
作者: fa2003    时间: 2018-5-30 02:09
而且是连续几天都不行,我目前正在找开源的IP池来解决这个问题。用的haipproxy,但感觉太复杂了,装了2天还没装好,东西太多。这个是国内的一个爬虫工程师写的。
作者: crossin先生    时间: 2018-5-30 10:48
fa2003 发表于 2018-5-30 02:09
而且是连续几天都不行,我目前正在找开源的IP池来解决这个问题。用的haipproxy,但感觉太复杂了,装了2天还 ...

如果你自己练习,请求量不大,可以跳过proxy
请求量大的话那要用
作者: fa2003    时间: 2018-5-31 09:05
嗯嗯,好的,多谢。
作者: fa2003    时间: 2018-6-3 03:32
老师用了其他代理池还是被时光网ban了。打算换ADSL服务器方案了。这方面有性价比高的服务器代理商吗?方便推荐一下吗?
作者: crossin先生    时间: 2018-6-3 12:46
fa2003 发表于 2018-6-3 03:32
老师用了其他代理池还是被时光网ban了。打算换ADSL服务器方案了。这方面有性价比高的服务器代理商吗?方便 ...

这方面服务器我也没用过,没有过这么大量且频繁的请求需求
作者: fa2003    时间: 2018-6-3 14:37
crossin先生 发表于 2018-6-3 12:46
这方面服务器我也没用过,没有过这么大量且频繁的请求需求

好的,多谢老师




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5