Crossin的编程教室

标题: 爬虫问题,遇到js内容怎么破? [打印本页]

作者: yuchang    时间: 2018-4-25 19:38
标题: 爬虫问题,遇到js内容怎么破?
本帖最后由 yuchang 于 2018-4-25 19:59 编辑

各位大神好,今天想去爬电影网站的资源,但是有下载链接存在的页面里有href=“javascrispt:void(0);”   要怎么才能获取里面的内容呢?
作者: 人工智能    时间: 2018-4-25 22:23
开发者工具里  network抓包 获取发送请求的链接
作者: yuchang    时间: 2018-4-25 23:03
人工智能 发表于 2018-4-25 22:23
开发者工具里  network抓包 获取发送请求的链接

原来就是用这个方法的,但是有的网站好像不行。是在被窝电影网里爬,开发者工具里network xhr 刷新后有一个url,但是链接打开整个网页里只有[278,0,2196]这么一个东西。
作者: crossin先生    时间: 2018-4-25 23:16
yuchang 发表于 2018-4-25 23:03
原来就是用这个方法的,但是有的网站好像不行。是在被窝电影网里爬,开发者工具里network xhr 刷新后有一 ...

那是你没找对链接

除了找url,还有个选择就是用 selenium 来做
作者: yuchang    时间: 2018-4-25 23:30
本帖最后由 yuchang 于 2018-4-25 23:37 编辑
crossin先生 发表于 2018-4-25 23:16
那是你没找对链接

除了找url,还有个选择就是用 selenium 来做


啊啊,是的!我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)
html=browser.page_source
browser.quit()
print html
这样可以获得那个页面,分析HTML后用正则可以匹配到,但是中间会有打开浏览器的过程,这太慢了,我在找selenium还有没有不用打开浏览器完成这个过程的方法。您能给我点提示吗?
作者: crossin先生    时间: 2018-4-26 14:00
yuchang 发表于 2018-4-25 23:30
啊啊,是的!我用了selenium里的webdriver方法。
browser = webdriver.Chrome()
browser.get(URL)

selenium有个设置可以不加载图片,速度会快很多
作者: yuchang    时间: 2018-4-27 09:55
crossin先生 发表于 2018-4-26 14:00
selenium有个设置可以不加载图片,速度会快很多

好的,谢谢您!




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5