Crossin的编程教室

标题: 求助!爬虫爬取 知乎关键字搜索的话题 json.loads出错 [打印本页]

作者: zzz    时间: 2020-12-3 19:23
标题: 求助!爬虫爬取 知乎关键字搜索的话题 json.loads出错
在知乎中搜索关键字,然后使用json.loads解析搜索到的话题网页。

代码见上传的图片

尝试了许多方法却解决不了,是json语句的问题吗请问?



下载 (2).png (36.82 KB, 下载次数: 308)

代码

代码

下载 (1).png (122.37 KB, 下载次数: 315)

出现的错误

出现的错误

下载.png (141.44 KB, 下载次数: 314)

json文件

json文件

截屏2020-12-03 19.14.20.png (115.1 KB, 下载次数: 305)

知乎关键字搜索

知乎关键字搜索


作者: crossin先生    时间: 2020-12-4 21:10
你这应该把 html_data 给输出出来,看看是不是正确,是没有请求到结果,还是结果不符合json标准,再做进一步处理
作者: zzz    时间: 2020-12-7 10:56
本帖最后由 zzz 于 2020-12-7 16:07 编辑
crossin先生 发表于 2020-12-4 21:10
你这应该把 html_data 给输出出来,看看是不是正确,是没有请求到结果,还是结果不符合json标准,再做进一 ...

嗯嗯 您说的我明白了,现在请求网页的时候会出现新的问题,现在遇到的问题就是403forbidden,请求头中都写入了user-agent和cooike,想请问下这是什么问题咧?按着网上的一些方法尝试了还是没有解决,主要是有的知乎界面的json请求的时候就很顺利,现在遇到这个问题就卡住了

再补充一点,就是这个“知乎搜索界面”中的json就算是双击点开也是error,已经不是程序的问题了,在chrome中点开也是显示的error,请问是什么问题咧?


截屏2020-12-07 10.49.15.png (592.81 KB, 下载次数: 328)

想要请求到的json

想要请求到的json

截屏2020-12-07 10.54.25.png (69.38 KB, 下载次数: 304)

请求失败的截图

请求失败的截图

截屏2020-12-07 16.06.52.png (39.47 KB, 下载次数: 319)

在chrome中点开也显示error

在chrome中点开也显示error


作者: crossin先生    时间: 2020-12-7 22:20
那大概是跟 referer host 等 header值有关

另外这个message你可以print出来看到中文的




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5