用selenium爬取网站遇到问题，真是没法子了，求帮助

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

楼主

发表于 2018-11-5 11:10:11 |显示全部楼层

requests和selenium都尝试了下，确实不行，应该是网站对数据抓取做了特别的保护
直接访问地址，粗略判断了下，是有个前一次请求返回的 JSESSIONID 加上一个计算出的token来控制，要想伪造需要找到js的相关token计算代码
selenium不清楚是通过什么方式识别出来的，应该也是JS层面做了保护，可以具体去分析模拟发出的请求和正常的请求区别来寻找

这不是个简单的工作，即使学完我们的爬虫课可能也搞不定，包括我自己不花上一定时间去分析它网站的方法也没办法（花了时间也未必保证能成功）
所以，也只能帮到这了

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

返回列表

|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号 )

GMT+8, 2024-5-3 23:22 , Processed in 0.031198 second(s), 22 queries .

Powered by Discuz! X2.5

		自动登录	找回密码
密码			立即加入