Crossin的编程教室»论坛 › Python › 爬虫 › 如何分析ajax页面中js数据的生成, 为稍后python抓取做准 ...

查看: 5212|回复: 4

如何分析ajax页面中js数据的生成, 为稍后python抓取做准备?

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

电梯直达

楼主

发表于 2016-7-20 03:22:39 |显示全部楼层 |倒序浏览

本帖最后由 anyone 于 2016-7-20 03:33 编辑

首先感谢crossin一直以来的帮助, 我从连安装python都不会的程度, 到现在已经可以顺利的抓取静态页面的水平, 在这里学到很多.

最近我正在学习如何抓取ajax页面, 一如既往, 遇到了一个瓶颈, 看了很多资料, 到处碰壁, 所以才在这里发帖, 希望crossin能拨冗给我指点一下迷津. 非常感谢.

样例网站:

我想抓取他的图片. 显然, 他使用了异步请求, 并且也有js代码生成, 还有cookies等, 来保护图片信息.

首先, 我排除了python中的浏览器模拟这样的方式, 我觉着这种方式效率太差, 而且也不能从中学到更多. 所以我选择用js分析的方法, 也就是js调试吧?

目前其他的我基本搞定, 也可以通过chrome的inspect工具来获得异步请求地址(

), 由于这个地址是有规律的, 所以我可以在python中生成完整的异步请求地址, 然后获得请求返回的数据, 达到下载的目的.

但是这种方法有很多运气的成分. 所以我想学习一种更加深入/万能的方法: 也就是了解这个页面中的js是如何运行并生成异步请求地址的. 这样我可以在python中模拟这种方式.

我自己尝试了一些方式从页面中调试出来他是如何生成上面这个异步请求地址的, 目前只知道是在chapternew_v2.js(中途还调用了一下jquery-1.4.1.js)中运算了一下, 其中的一个x返回了异步地址的后半部分. 但是js是从哪里获得的数据, 又怎么生成的这个地址, 完全没有头绪. 不知道crossin可否指点一二? 最好有个在chrome中调试的具体步骤, 我实在是chrome调试的白丁, 万分感谢.

帖子中涉及到地址的地方我都用的是图片, 如果看不清点开看大图即可. 这么做也是为了不要有不必要的麻烦.

python, ajax, 如何

收藏0

相关帖子

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

沙发

发表于 2016-7-20 21:10:56 |显示全部楼层

哦, 这么说来, 也许万能一些的做法就是浏览器模拟, 对吗?

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

板凳

发表于 2016-7-21 13:50:54 |显示全部楼层

crossin先生发表于 2016-7-21 09:55
不太清楚你说的浏览器模拟是什么。我觉得你现在用的方法，从开发者工具来找规律，就是一般爬虫采取的方法 ...

浏览器模拟我也没有深入的学习, 比如: Selenium, 似乎是让页面包括js在一个模拟浏览器的环境下运行, 然后这个模拟环境将结果反馈给python. 所以只要页面最终显示什么, python都可以得到, 无论这些内容是xhr还是js生成的.

Selenium 似乎也可以模拟登录过程. 所以我想是不是就可以说是万能的方式? 缺点就是效率低吧?

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

地板

发表于 2016-7-21 14:14:14 |显示全部楼层

karlchen 发表于 2016-7-21 10:54
不是太明白你的意思，这种异步请求不同的网页参数什么的都不太一样，怎么能找到一个万能的方式呢？
或许你 ...

关于这个, 我懂的有限. 目前根据有限的了解:

你说的"不一样的参数", 其实都在页面里, 只是因为有了ajax, 所以不是很明显. 这也是我想找到一个方法去了解页面中js的运算方式的原因. 如果知道了这个, 就可以知道那些发送给服务器的数据, 也就是你说的参数是怎么来的了.

我想这种方法要比只是获取xhr异步通信地址, 然后猜测结果来的"万能"一些. 现在一些视频网站, 为了防范爬取内容, 异步通信地址里面会有一个没有规律的字串.

使用道具举报