- 帖子
- 27
- 精华
- 0
- 积分
- 122
- 阅读权限
- 20
- 注册时间
- 2017-8-13
- 最后登录
- 2018-2-24
|
爬的是今日头条里面的图片,但是在这个网页里面出问题了
https://www.toutiao.com/a6514108163745120771/
很明显,图片是包含在这个里面的,这是json
但是这个里面有一个反斜杠,搞不清楚是为什么?
image_pattern = re.compile('gallery: JSON.parse(.*?)siblingList', re.S)
img = re.findall(image_pattern, response.text)
用了一个正则把这个字符串给提取出来,提取出来的是一个列表
由于前面多了些括号,而且里面有个反斜杠,所以对这个字符串进行了处理
img[0].replace('\\','').strip()[2:-3]
再转换json对象的时候出错
data=json.loads(img[0].replace('\\','').strip()[2:-3])
分析的那个字符串发现的问题
把这段更改一下程序就可以执行下去,网页中看到了问题所在
是这个引号出问题了,不知道该怎么解决,抓了前十页的图,就这个地方出问题了,折腾了我一天,新手遇到问题没有办法呀
|
|