Crossin的编程教室

标题: 爬虫问题，遇到js内容怎么破？ [打印本页]

作者: yuchang 时间: 2018-4-25 19:38
标题: 爬虫问题，遇到js内容怎么破？
本帖最后由 yuchang 于 2018-4-25 19:59 编辑

各位大神好，今天想去爬电影网站的资源，但是有下载链接存在的页面里有href=“javascrispt:void(0);” 要怎么才能获取里面的内容呢？

作者: 人工智能 时间: 2018-4-25 22:23
开发者工具里 network抓包获取发送请求的链接

作者: yuchang 时间: 2018-4-25 23:03

人工智能发表于 2018-4-25 22:23
开发者工具里 network抓包获取发送请求的链接

原来就是用这个方法的，但是有的网站好像不行。是在被窝电影网里爬，开发者工具里network xhr 刷新后有一个url，但是链接打开整个网页里只有[278，0，2196]这么一个东西。

作者: crossin先生 时间: 2018-4-25 23:16

yuchang 发表于 2018-4-25 23:03
原来就是用这个方法的，但是有的网站好像不行。是在被窝电影网里爬，开发者工具里network xhr 刷新后有一 ...

那是你没找对链接

除了找url，还有个选择就是用 selenium 来做

作者: yuchang 时间: 2018-4-25 23:30
本帖最后由 yuchang 于 2018-4-25 23:37 编辑

crossin先生发表于 2018-4-25 23:16
那是你没找对链接

除了找url，还有个选择就是用 selenium 来做

啊啊，是的！我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)
html＝browser.page_source
browser.quit()
print html
这样可以获得那个页面，分析HTML后用正则可以匹配到，但是中间会有打开浏览器的过程，这太慢了，我在找selenium还有没有不用打开浏览器完成这个过程的方法。您能给我点提示吗？

作者: crossin先生 时间: 2018-4-26 14:00

yuchang 发表于 2018-4-25 23:30
啊啊，是的！我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)

selenium有个设置可以不加载图片，速度会快很多

作者: yuchang 时间: 2018-4-27 09:55

crossin先生发表于 2018-4-26 14:00
selenium有个设置可以不加载图片，速度会快很多

好的，谢谢您！

欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)