设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 5433|回复: 0
打印 上一主题 下一主题

用selenium爬取网站遇到问题,真是没法子了,求帮助

[复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

楼主
发表于 2018-11-5 11:10:11 |显示全部楼层
requests和selenium都尝试了下,确实不行,应该是网站对数据抓取做了特别的保护
直接访问地址,粗略判断了下,是有个前一次请求返回的 JSESSIONID 加上一个计算出的token来控制,要想伪造需要找到js的相关token计算代码
selenium不清楚是通过什么方式识别出来的,应该也是JS层面做了保护,可以具体去分析模拟发出的请求和正常的请求区别来寻找

这不是个简单的工作,即使学完我们的爬虫课可能也搞不定,包括我自己不花上一定时间去分析它网站的方法也没办法(花了时间也未必保证能成功)
所以,也只能帮到这了
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-5-3 23:22 , Processed in 0.031198 second(s), 22 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部