设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 5210|回复: 2
打印 上一主题 下一主题

如何分析ajax页面中js数据的生成, 为稍后python抓取做准备?

[复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

楼主
发表于 2016-7-20 12:47:57 |显示全部楼层
你现在用的方法,就是通常采集用的方法,去查看它发出去的请求,寻找规律,然后批量抓取。

你想从页面中的js了解它怎么生成的,这个chrome调试就帮不了你了,你只有去阅读它的js源代码分析。但其实这也并不是一个万能的方法。代码一样有可能更新。
你如果要深入分析,你现在的方式没什么问题,就是找头绪,一点点跟着代码走,找到它的核心代码。只不过这么搞肯定是挺费事的
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2016-7-21 09:55:43 |显示全部楼层
anyone 发表于 2016-7-20 21:10
哦, 这么说来, 也许万能一些的做法就是浏览器模拟, 对吗?

不太清楚你说的浏览器模拟是什么。我觉得你现在用的方法,从开发者工具来找规律,就是一般爬虫采取的方法。
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

板凳
发表于 2016-7-22 10:15:07 |显示全部楼层
anyone 发表于 2016-7-21 13:50
浏览器模拟我也没有深入的学习, 比如: Selenium, 似乎是让页面包括js在一个模拟浏览器的环境下运行, 然后 ...

我没用过selenium,听上去你模拟浏览器的时候不还是需要人工参与吗,它又不能自动帮你分析链接。
你说的对方网站加字符串,或者加权限验证,这个显然没有万能方式吧。最多是,可以有东西帮你方便地提取请求,但这个chrome已经做得很好了。
你想直接看到别人代码里生成请求的东西,那不太可能
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-5-4 14:51 , Processed in 0.025000 second(s), 22 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部