查看: 7124|回复: 4

用selenium爬取网站遇到问题，真是没法子了，求帮助

1 主题	0 好友	13 积分

新手上路

Rank: 1

发消息

电梯直达

楼主

发表于 2018-11-4 18:04:41 |只看该作者 |正序浏览

网站地址：http://app1.sfda.gov.cn/datasear ... 2776432084296368957
爬取药监局的国产药品商品名下各药物的名称、规格、生产地（点击药名即可显示）等。模拟点击失败，没有超链接，js、Ajax没有数据，求帮助！！！

python, 疑问

收藏0

相关帖子

使用道具举报

小小黑

1 主题	0 好友	13 积分

新手上路

Rank: 1

发消息

5^#

发表于 2018-11-6 21:46:18 |只看该作者

臧贵城发表于 2018-11-6 15:58
selenium操作浏览器，会在浏览器状态中留下痕迹，可以参考下面这篇文章：
selenium是如何被发现的
...

谢谢啦很尴尬没看懂。。。

使用道具举报

臧贵城

1 主题	0 好友	23 积分

新手上路

Rank: 1

发消息

地板

发表于 2018-11-6 15:58:58 |只看该作者

selenium操作浏览器，会在浏览器状态中留下痕迹，可以参考下面这篇文章：
selenium是如何被发现的

使用道具举报

小小黑

1 主题	0 好友	13 积分

新手上路

Rank: 1

发消息

板凳

发表于 2018-11-5 20:01:29 |只看该作者

crossin先生发表于 2018-11-5 11:10
requests和selenium都尝试了下，确实不行，应该是网站对数据抓取做了特别的保护
直接访问地址，粗略判断了 ...

谢谢谢谢我自己看了好几天，网上查了好多，试了很多办法也没搞定，

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

沙发

发表于 2018-11-5 11:10:11 |只看该作者

requests和selenium都尝试了下，确实不行，应该是网站对数据抓取做了特别的保护
直接访问地址，粗略判断了下，是有个前一次请求返回的 JSESSIONID 加上一个计算出的token来控制，要想伪造需要找到js的相关token计算代码
selenium不清楚是通过什么方式识别出来的，应该也是JS层面做了保护，可以具体去分析模拟发出的请求和正常的请求区别来寻找

这不是个简单的工作，即使学完我们的爬虫课可能也搞不定，包括我自己不花上一定时间去分析它网站的方法也没办法（花了时间也未必保证能成功）
所以，也只能帮到这了

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

返回列表

		自动登录	找回密码
密码			立即加入