Crossin的编程教室

标题: 求助!知乎网页有了加密吗?源码里面没内容了 [打印本页]

作者: 爬虫初学者    时间: 2021-1-5 11:34
标题: 求助!知乎网页有了加密吗?源码里面没内容了
今天爬取知乎用户的回答时,遇到了新的问题,查看网页源码发现里面内容都变动了,例如想要爬取知乎管家的回答问题,链接:https://www.zhihu.com/people/zhihuadmin/answers

查看网页源码的时候发现已经没有了原来的结构化内容(原来是一条内容对应一个title,以及回答的问题的各种信息,一页展示20条回答),现在源码里什么都没有了,没办法用正则语言抓去内容了。尝试了beautifulsoup等方法也还是请求不到内容,可是在检查的时候内容都是呈现在开发者工具中的,希望老师可以给予解答,该怎么抓取回答过的问题呢?


作者: crossin先生    时间: 2021-1-5 13:36
数据是通过ajax异步请求的,通过开发者工具的network可以去抓包
这篇里有简单介绍过:
https://zhuanlan.zhihu.com/p/39340856

更详细的你需要去找点爬虫教程看一看,关键字就是 ajax、异步请求、抓包等。
爬虫教程都会提到这个的,是比较常见的方式。
我们的爬虫课程里也有专门一节讲这个的
作者: 爬虫初学者    时间: 2021-1-5 17:15
本帖最后由 爬虫初学者 于 2021-1-5 17:18 编辑
crossin先生 发表于 2021-1-5 13:36
数据是通过ajax异步请求的,通过开发者工具的network可以去抓包
这篇里有简单介绍过:
https://zhuanlan.zh ...

谢谢你!可是我只是想爬取回答页面,是一个静态页面,没有涉及到ajax。

现在发现知乎的网页改了,比如:https://www.zhihu.com/people/zhihuadmin/answers,原来会含有页面加载的全部信息,现在不行了,直接解析解析不到内容了,用beautifulsoup也没有用,您看有解决方法吗?
作者: crossin先生    时间: 2021-1-6 23:51
爬虫初学者 发表于 2021-1-5 17:15
谢谢你!可是我只是想爬取回答页面,是一个静态页面,没有涉及到ajax。

现在发现知乎的网页改了,比如:h ...

已经回答你了,这些数据是通过 ajax 动态请求的,当然不在页面里

你把我告诉你的答案否定掉,然后再来反问一遍,你让我怎么回答你……

建议先去补一补网页基础,或者找一个靠谱的教程看一看(发你的文章里有,但估计你也没认真看)
作者: crossin先生    时间: 2021-1-6 23:55
QQ20210106-235524@2x.png

作者: crossin先生    时间: 2021-1-6 23:59
https://mp.weixin.qq.com/s/ou-SkjIHFS5Ie0u9esRzJw
付费班的爬虫小组这周开始,这个在我们的爬虫任务里算是非常基础的一个操作了

你不参加我这个也不要紧,这个靠谱点的教程看看,把基础先打好。不然别人跟你说的解答你都没法理解。
作者: 爬虫初学者    时间: 2021-1-7 10:23
crossin先生 发表于 2021-1-6 23:59
https://mp.weixin.qq.com/s/ou-SkjIHFS5Ie0u9esRzJw
付费班的爬虫小组这周开始,这个在我们的爬虫任务里算 ...

我能知道你的意思呀,可是你看那条ajax的链接是打不开的呀
作者: Luna小鹿    时间: 2021-1-7 23:11
本帖最后由 Luna小鹿 于 2021-1-7 23:13 编辑
爬虫初学者 发表于 2021-1-7 10:23
我能知道你的意思呀,可是你看那条ajax的链接是打不开的呀

可以打开

加headers信息就行了
作者: Luna小鹿    时间: 2021-1-7 23:16
Luna小鹿 发表于 2021-1-7 23:11
可以打开

加headers信息就行了

如何找headers信息,版主上面那个链接里也有写,都是爬虫基础
作者: Luna小鹿    时间: 2021-1-7 23:22
QQ20210107-232147@2x.png

作者: 爬虫初学者    时间: 2021-1-8 10:31
Luna小鹿 发表于 2021-1-7 23:22

我把能加的headers都加了,打开了,非常感谢你!
也非常谢谢crossin先生!




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5