设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 5085|回复: 6
打印 上一主题 下一主题

爬虫问题,遇到js内容怎么破?

[复制链接]

1

主题

0

好友

21

积分

新手上路

Rank: 1

跳转到指定楼层
楼主
发表于 2018-4-25 19:38:53 来自手机 |只看该作者 |倒序浏览
本帖最后由 yuchang 于 2018-4-25 19:59 编辑

各位大神好,今天想去爬电影网站的资源,但是有下载链接存在的页面里有href=“javascrispt:void(0);”   要怎么才能获取里面的内容呢?
回复

使用道具 举报

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

沙发
发表于 2018-4-25 22:23:10 |只看该作者
开发者工具里  network抓包 获取发送请求的链接
回复

使用道具 举报

1

主题

0

好友

21

积分

新手上路

Rank: 1

板凳
发表于 2018-4-25 23:03:01 来自手机 |只看该作者
人工智能 发表于 2018-4-25 22:23
开发者工具里  network抓包 获取发送请求的链接

原来就是用这个方法的,但是有的网站好像不行。是在被窝电影网里爬,开发者工具里network xhr 刷新后有一个url,但是链接打开整个网页里只有[278,0,2196]这么一个东西。
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2018-4-25 23:16:39 |只看该作者
yuchang 发表于 2018-4-25 23:03
原来就是用这个方法的,但是有的网站好像不行。是在被窝电影网里爬,开发者工具里network xhr 刷新后有一 ...

那是你没找对链接

除了找url,还有个选择就是用 selenium 来做
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

1

主题

0

好友

21

积分

新手上路

Rank: 1

5#
发表于 2018-4-25 23:30:59 来自手机 |只看该作者
本帖最后由 yuchang 于 2018-4-25 23:37 编辑
crossin先生 发表于 2018-4-25 23:16
那是你没找对链接

除了找url,还有个选择就是用 selenium 来做


啊啊,是的!我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)
html=browser.page_source
browser.quit()
print html
这样可以获得那个页面,分析HTML后用正则可以匹配到,但是中间会有打开浏览器的过程,这太慢了,我在找selenium还有没有不用打开浏览器完成这个过程的方法。您能给我点提示吗?
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

6#
发表于 2018-4-26 14:00:55 |只看该作者
yuchang 发表于 2018-4-25 23:30
啊啊,是的!我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)

selenium有个设置可以不加载图片,速度会快很多
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

1

主题

0

好友

21

积分

新手上路

Rank: 1

7#
发表于 2018-4-27 09:55:20 来自手机 |只看该作者
crossin先生 发表于 2018-4-26 14:00
selenium有个设置可以不加载图片,速度会快很多

好的,谢谢您!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-4-19 15:30 , Processed in 0.028567 second(s), 21 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部