设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 9624|回复: 10
打印 上一主题 下一主题

求助!知乎网页有了加密吗?源码里面没内容了

[复制链接]

1

主题

0

好友

19

积分

新手上路

Rank: 1

跳转到指定楼层
楼主
发表于 2021-1-5 11:34:08 |只看该作者 |倒序浏览
今天爬取知乎用户的回答时,遇到了新的问题,查看网页源码发现里面内容都变动了,例如想要爬取知乎管家的回答问题,链接:https://www.zhihu.com/people/zhihuadmin/answers

查看网页源码的时候发现已经没有了原来的结构化内容(原来是一条内容对应一个title,以及回答的问题的各种信息,一页展示20条回答),现在源码里什么都没有了,没办法用正则语言抓去内容了。尝试了beautifulsoup等方法也还是请求不到内容,可是在检查的时候内容都是呈现在开发者工具中的,希望老师可以给予解答,该怎么抓取回答过的问题呢?

回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2021-1-5 13:36:31 |只看该作者
数据是通过ajax异步请求的,通过开发者工具的network可以去抓包
这篇里有简单介绍过:
https://zhuanlan.zhihu.com/p/39340856

更详细的你需要去找点爬虫教程看一看,关键字就是 ajax、异步请求、抓包等。
爬虫教程都会提到这个的,是比较常见的方式。
我们的爬虫课程里也有专门一节讲这个的
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

1

主题

0

好友

19

积分

新手上路

Rank: 1

板凳
发表于 2021-1-5 17:15:57 |只看该作者
本帖最后由 爬虫初学者 于 2021-1-5 17:18 编辑
crossin先生 发表于 2021-1-5 13:36
数据是通过ajax异步请求的,通过开发者工具的network可以去抓包
这篇里有简单介绍过:
https://zhuanlan.zh ...

谢谢你!可是我只是想爬取回答页面,是一个静态页面,没有涉及到ajax。

现在发现知乎的网页改了,比如:https://www.zhihu.com/people/zhihuadmin/answers,原来会含有页面加载的全部信息,现在不行了,直接解析解析不到内容了,用beautifulsoup也没有用,您看有解决方法吗?
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2021-1-6 23:51:05 |只看该作者
爬虫初学者 发表于 2021-1-5 17:15
谢谢你!可是我只是想爬取回答页面,是一个静态页面,没有涉及到ajax。

现在发现知乎的网页改了,比如:h ...

已经回答你了,这些数据是通过 ajax 动态请求的,当然不在页面里

你把我告诉你的答案否定掉,然后再来反问一遍,你让我怎么回答你……

建议先去补一补网页基础,或者找一个靠谱的教程看一看(发你的文章里有,但估计你也没认真看)
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

5#
发表于 2021-1-6 23:55:56 |只看该作者
QQ20210106-235524@2x.png
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

6#
发表于 2021-1-6 23:59:21 |只看该作者
https://mp.weixin.qq.com/s/ou-SkjIHFS5Ie0u9esRzJw
付费班的爬虫小组这周开始,这个在我们的爬虫任务里算是非常基础的一个操作了

你不参加我这个也不要紧,这个靠谱点的教程看看,把基础先打好。不然别人跟你说的解答你都没法理解。
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

1

主题

0

好友

19

积分

新手上路

Rank: 1

7#
发表于 2021-1-7 10:23:13 |只看该作者
crossin先生 发表于 2021-1-6 23:59
https://mp.weixin.qq.com/s/ou-SkjIHFS5Ie0u9esRzJw
付费班的爬虫小组这周开始,这个在我们的爬虫任务里算 ...

我能知道你的意思呀,可是你看那条ajax的链接是打不开的呀
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

8#
发表于 2021-1-7 23:11:24 |只看该作者
本帖最后由 Luna小鹿 于 2021-1-7 23:13 编辑
爬虫初学者 发表于 2021-1-7 10:23
我能知道你的意思呀,可是你看那条ajax的链接是打不开的呀

可以打开

加headers信息就行了
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

9#
发表于 2021-1-7 23:16:07 |只看该作者
Luna小鹿 发表于 2021-1-7 23:11
可以打开

加headers信息就行了

如何找headers信息,版主上面那个链接里也有写,都是爬虫基础
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

10#
发表于 2021-1-7 23:22:36 |只看该作者
QQ20210107-232147@2x.png
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-4-20 12:16 , Processed in 0.020826 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部