请选择 进入手机版 | 继续访问电脑版
设为首页收藏本站

Crossin的编程教室

微信公众号:
crossincode
 找回密码
 现在加入
查看: 68|回复: 4

用selenium爬取网站遇到问题,真是没法子了,求帮助

[复制链接]

1

主题

0

好友

13

积分

新手上路

Rank: 1

发表于 2018-11-4 18:04:41 |显示全部楼层
网站地址:http://app1.sfda.gov.cn/datasear ... 2776432084296368957
爬取药监局的国产药品商品名下各药物的名称、规格、生产地(点击药名即可显示)等。模拟点击失败,没有超链接,js、Ajax没有数据,求帮助!!!

点击药名后显示详细数据

点击药名后显示详细数据

药品名录

药品名录

回复

使用道具 举报

153

主题

34

好友

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

发表于 2018-11-5 11:10:11 |显示全部楼层
requests和selenium都尝试了下,确实不行,应该是网站对数据抓取做了特别的保护
直接访问地址,粗略判断了下,是有个前一次请求返回的 JSESSIONID 加上一个计算出的token来控制,要想伪造需要找到js的相关token计算代码
selenium不清楚是通过什么方式识别出来的,应该也是JS层面做了保护,可以具体去分析模拟发出的请求和正常的请求区别来寻找

这不是个简单的工作,即使学完我们的爬虫课可能也搞不定,包括我自己不花上一定时间去分析它网站的方法也没办法(花了时间也未必保证能成功)
所以,也只能帮到这了
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

1

主题

0

好友

13

积分

新手上路

Rank: 1

发表于 2018-11-5 20:01:29 |显示全部楼层
crossin先生 发表于 2018-11-5 11:10
requests和selenium都尝试了下,确实不行,应该是网站对数据抓取做了特别的保护
直接访问地址,粗略判断了 ...

谢谢  谢谢   我自己看了好几天,网上查了好多,试了很多办法也没搞定,
回复

使用道具 举报

1

主题

0

好友

23

积分

新手上路

Rank: 1

发表于 2018-11-6 15:58:58 |显示全部楼层
selenium操作浏览器,会在浏览器状态中留下痕迹,可以参考下面这篇文章:
selenium是如何被发现的
回复

使用道具 举报

1

主题

0

好友

13

积分

新手上路

Rank: 1

发表于 2018-11-6 21:46:18 |显示全部楼层
臧贵城 发表于 2018-11-6 15:58
selenium操作浏览器,会在浏览器状态中留下痕迹,可以参考下面这篇文章:
selenium是如何被发现的
...

谢谢啦   很尴尬  没看懂。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 现在加入

QQ|Archiver|手机版|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2018-11-21 02:29 , Processed in 0.163548 second(s), 31 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部