- 帖子
- 59
- 精华
- 0
- 积分
- 244
- 阅读权限
- 30
- 注册时间
- 2015-10-25
- 最后登录
- 2023-10-29
|
本帖最后由 anyone 于 2022-6-11 23:18 编辑
想要下载某个网站中的信息, 其页面中都是js, 所以我尝试使用无头浏览器库: pyppeteer
一切都是初学, 只是照猫画虎得到下面的代码:- import asyncio
- from pyppeteer import launch
- async def main():
- browser = await launch()
- page = await browser.newPage()
- await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36')
- await page.goto('https://www.gousto.co.uk/cookbook/chicken-recipes/nutty-bang-bang-chicken-rice-salad', waitUntil='networkidle0')
- await page.screenshot({'path': 'c:/desktop/1654930971.png'})
- await browser.close()
- asyncio.get_event_loop().run_until_complete(main())
复制代码 得到的是一个空白页面.
但是换成其他的需要js调用的网址, 就能显示其内容, 比如: "https://chemdrawdirect.perkinelmer.cloud/js/sample/index.html"
我猜想gousto这个网站可能做了一些防止无头浏览器的检测.
我尝试更改了user agent,
也更改了载入判断: waitUntil
但是仍然只能得到空白页面.
想请高手帮我看看, 他使用了什么方法检测出我使用无头浏览器查看的?
非常感谢.
|
|