设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 3381|回复: 4
打印 上一主题 下一主题

求助!爬虫爬取 知乎关键字搜索的话题 json.loads出错

[复制链接]

2

主题

0

好友

42

积分

新手上路

Rank: 1

跳转到指定楼层
楼主
发表于 2020-12-3 19:23:08 |只看该作者 |倒序浏览
在知乎中搜索关键字,然后使用json.loads解析搜索到的话题网页。

代码见上传的图片

尝试了许多方法却解决不了,是json语句的问题吗请问?



下载 (2).png (36.82 KB, 下载次数: 253)

代码

代码

下载 (1).png (122.37 KB, 下载次数: 260)

出现的错误

出现的错误

下载.png (141.44 KB, 下载次数: 260)

json文件

json文件

截屏2020-12-03 19.14.20.png (115.1 KB, 下载次数: 250)

知乎关键字搜索

知乎关键字搜索

回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2020-12-4 21:10:58 |只看该作者
你这应该把 html_data 给输出出来,看看是不是正确,是没有请求到结果,还是结果不符合json标准,再做进一步处理
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

2

主题

0

好友

42

积分

新手上路

Rank: 1

板凳
发表于 2020-12-7 10:56:34 |只看该作者
本帖最后由 zzz 于 2020-12-7 16:07 编辑
crossin先生 发表于 2020-12-4 21:10
你这应该把 html_data 给输出出来,看看是不是正确,是没有请求到结果,还是结果不符合json标准,再做进一 ...

嗯嗯 您说的我明白了,现在请求网页的时候会出现新的问题,现在遇到的问题就是403forbidden,请求头中都写入了user-agent和cooike,想请问下这是什么问题咧?按着网上的一些方法尝试了还是没有解决,主要是有的知乎界面的json请求的时候就很顺利,现在遇到这个问题就卡住了

再补充一点,就是这个“知乎搜索界面”中的json就算是双击点开也是error,已经不是程序的问题了,在chrome中点开也是显示的error,请问是什么问题咧?


截屏2020-12-07 10.49.15.png (592.81 KB, 下载次数: 270)

想要请求到的json

想要请求到的json

截屏2020-12-07 10.54.25.png (69.38 KB, 下载次数: 247)

请求失败的截图

请求失败的截图

截屏2020-12-07 16.06.52.png (39.47 KB, 下载次数: 264)

在chrome中点开也显示error

在chrome中点开也显示error

回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2020-12-7 22:20:41 |只看该作者
那大概是跟 referer host 等 header值有关

另外这个message你可以print出来看到中文的
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

5#
无效楼层,该帖已经被删除
您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-4-25 16:03 , Processed in 0.026650 second(s), 25 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部