查看: 7213|回复: 6

爬虫问题，遇到js内容怎么破？

1 主题	0 好友	21 积分

新手上路

Rank: 1

发消息

电梯直达

楼主

发表于 2018-4-25 19:38:53 来自手机 |只看该作者 |倒序浏览

本帖最后由 yuchang 于 2018-4-25 19:59 编辑

各位大神好，今天想去爬电影网站的资源，但是有下载链接存在的页面里有href=“javascrispt:void(0);” 要怎么才能获取里面的内容呢？

收藏0

使用道具举报

人工智能

22 主题	6 好友	242 积分

中级会员

Rank: 3 Rank: 3

发消息

沙发

发表于 2018-4-25 22:23:10 |只看该作者

开发者工具里 network抓包获取发送请求的链接

使用道具举报

yuchang

1 主题	0 好友	21 积分

新手上路

Rank: 1

发消息

板凳

发表于 2018-4-25 23:03:01 来自手机 |只看该作者

人工智能发表于 2018-4-25 22:23
开发者工具里 network抓包获取发送请求的链接

原来就是用这个方法的，但是有的网站好像不行。是在被窝电影网里爬，开发者工具里network xhr 刷新后有一个url，但是链接打开整个网页里只有[278，0，2196]这么一个东西。

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

地板

发表于 2018-4-25 23:16:39 |只看该作者

yuchang 发表于 2018-4-25 23:03
原来就是用这个方法的，但是有的网站好像不行。是在被窝电影网里爬，开发者工具里network xhr 刷新后有一 ...

那是你没找对链接

除了找url，还有个选择就是用 selenium 来做

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

yuchang

1 主题	0 好友	21 积分

新手上路

Rank: 1

发消息

5^#

发表于 2018-4-25 23:30:59 来自手机 |只看该作者

本帖最后由 yuchang 于 2018-4-25 23:37 编辑

crossin先生发表于 2018-4-25 23:16
那是你没找对链接

除了找url，还有个选择就是用 selenium 来做

啊啊，是的！我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)
html＝browser.page_source
browser.quit()
print html
这样可以获得那个页面，分析HTML后用正则可以匹配到，但是中间会有打开浏览器的过程，这太慢了，我在找selenium还有没有不用打开浏览器完成这个过程的方法。您能给我点提示吗？

使用道具举报