设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 7124|回复: 4
打印 上一主题 下一主题

用selenium爬取网站遇到问题,真是没法子了,求帮助

[复制链接]

1

主题

0

好友

13

积分

新手上路

Rank: 1

跳转到指定楼层
楼主
发表于 2018-11-4 18:04:41 |只看该作者 |正序浏览
网站地址:http://app1.sfda.gov.cn/datasear ... 2776432084296368957
爬取药监局的国产药品商品名下各药物的名称、规格、生产地(点击药名即可显示)等。模拟点击失败,没有超链接,js、Ajax没有数据,求帮助!!!
点击药名后显示详细数据 药品名录
回复

使用道具 举报

1

主题

0

好友

13

积分

新手上路

Rank: 1

5#
发表于 2018-11-6 21:46:18 |只看该作者
臧贵城 发表于 2018-11-6 15:58
selenium操作浏览器,会在浏览器状态中留下痕迹,可以参考下面这篇文章:
selenium是如何被发现的
...

谢谢啦   很尴尬  没看懂。。。
回复

使用道具 举报

1

主题

0

好友

23

积分

新手上路

Rank: 1

地板
发表于 2018-11-6 15:58:58 |只看该作者
selenium操作浏览器,会在浏览器状态中留下痕迹,可以参考下面这篇文章:
selenium是如何被发现的
回复

使用道具 举报

1

主题

0

好友

13

积分

新手上路

Rank: 1

板凳
发表于 2018-11-5 20:01:29 |只看该作者
crossin先生 发表于 2018-11-5 11:10
requests和selenium都尝试了下,确实不行,应该是网站对数据抓取做了特别的保护
直接访问地址,粗略判断了 ...

谢谢  谢谢   我自己看了好几天,网上查了好多,试了很多办法也没搞定,
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2018-11-5 11:10:11 |只看该作者
requests和selenium都尝试了下,确实不行,应该是网站对数据抓取做了特别的保护
直接访问地址,粗略判断了下,是有个前一次请求返回的 JSESSIONID 加上一个计算出的token来控制,要想伪造需要找到js的相关token计算代码
selenium不清楚是通过什么方式识别出来的,应该也是JS层面做了保护,可以具体去分析模拟发出的请求和正常的请求区别来寻找

这不是个简单的工作,即使学完我们的爬虫课可能也搞不定,包括我自己不花上一定时间去分析它网站的方法也没办法(花了时间也未必保证能成功)
所以,也只能帮到这了
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-22 06:05 , Processed in 0.019201 second(s), 30 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部