设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 10061|回复: 3
打印 上一主题 下一主题

求助!知乎网页有了加密吗?源码里面没内容了

[复制链接]

1

主题

0

好友

19

积分

新手上路

Rank: 1

跳转到指定楼层
楼主
发表于 2021-1-5 11:34:08 |显示全部楼层 |倒序浏览
今天爬取知乎用户的回答时,遇到了新的问题,查看网页源码发现里面内容都变动了,例如想要爬取知乎管家的回答问题,链接:https://www.zhihu.com/people/zhihuadmin/answers

查看网页源码的时候发现已经没有了原来的结构化内容(原来是一条内容对应一个title,以及回答的问题的各种信息,一页展示20条回答),现在源码里什么都没有了,没办法用正则语言抓去内容了。尝试了beautifulsoup等方法也还是请求不到内容,可是在检查的时候内容都是呈现在开发者工具中的,希望老师可以给予解答,该怎么抓取回答过的问题呢?

回复

使用道具 举报

1

主题

0

好友

19

积分

新手上路

Rank: 1

沙发
发表于 2021-1-5 17:15:57 |显示全部楼层
本帖最后由 爬虫初学者 于 2021-1-5 17:18 编辑
crossin先生 发表于 2021-1-5 13:36
数据是通过ajax异步请求的,通过开发者工具的network可以去抓包
这篇里有简单介绍过:
https://zhuanlan.zh ...

谢谢你!可是我只是想爬取回答页面,是一个静态页面,没有涉及到ajax。

现在发现知乎的网页改了,比如:https://www.zhihu.com/people/zhihuadmin/answers,原来会含有页面加载的全部信息,现在不行了,直接解析解析不到内容了,用beautifulsoup也没有用,您看有解决方法吗?
回复

使用道具 举报

1

主题

0

好友

19

积分

新手上路

Rank: 1

板凳
发表于 2021-1-7 10:23:13 |显示全部楼层
crossin先生 发表于 2021-1-6 23:59
https://mp.weixin.qq.com/s/ou-SkjIHFS5Ie0u9esRzJw
付费班的爬虫小组这周开始,这个在我们的爬虫任务里算 ...

我能知道你的意思呀,可是你看那条ajax的链接是打不开的呀
回复

使用道具 举报

1

主题

0

好友

19

积分

新手上路

Rank: 1

地板
发表于 2021-1-8 10:31:34 |显示全部楼层
Luna小鹿 发表于 2021-1-7 23:22

我把能加的headers都加了,打开了,非常感谢你!
也非常谢谢crossin先生!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-5-3 20:10 , Processed in 0.017535 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部