设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 6538|回复: 3
打印 上一主题 下一主题

请教一个简单爬虫问题

[复制链接]

7

主题

2

好友

56

积分

注册会员

Rank: 2

跳转到指定楼层
楼主
发表于 2020-4-14 22:47:02 |只看该作者 |正序浏览
为啥我这个爬虫输出的网络不给力,请稍后重试
  1. import urllib.request
  2. import urllib.parse

  3. # 拼接URL
  4. basedurl = "http://baidu.com/s?"
  5. key = input("请输入要搜索的内容:")

  6. # 进行urlencode()编码
  7. wd = {"wd": key}
  8. key = urllib.parse.urlencode(wd)

  9. url = basedurl + key
  10. headers = {"User-Agent": "Mozilla/5.0"}

  11. # 创建请求对象
  12. req = urllib.request.Request(url, headers=headers)

  13. # 获取响应对象
  14. res = urllib.request.urlopen(req)
  15. html = res.read().decode("utf-8")


  16. # 写入本地文件
  17. with open("搜索.html", "w", encoding="utf-8") as f:
  18.       f.write(html)

复制代码
打开 搜索.html 以后,这样的结果
截屏2020-04-1422.45.08.png


回复

使用道具 举报

7

主题

2

好友

56

积分

注册会员

Rank: 2

地板
发表于 2020-4-15 13:28:30 |只看该作者
crossin先生 发表于 2020-4-15 11:54
你看是“百度安全验证”,应该是被识别出来屏蔽了请求
你可以换用 requests 库来做,并且加上 headers 信息 ...

谢谢,我换成知乎了,可以了。
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

板凳
发表于 2020-4-15 11:55:08 |只看该作者
也可以换几个网站试试
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2020-4-15 11:54:39 |只看该作者
你看是“百度安全验证”,应该是被识别出来屏蔽了请求
你可以换用 requests 库来做,并且加上 headers 信息
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-22 01:32 , Processed in 0.015796 second(s), 26 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部