设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 5313|回复: 2
打印 上一主题 下一主题

什么样规模的爬虫才用scrapy呢

[复制链接]

22

主题

6

好友

242

积分

中级会员

Rank: 3Rank: 3

跳转到指定楼层
楼主
发表于 2018-4-10 17:31:02 |只看该作者 |倒序浏览
我现在要爬取大概300个页面的内容吧  
我现在是找到了网页url规律 循环生成url然后准备循环爬取这些网页大概 300个url吧  我是应该用scrapy呢
还是用 requests+BeautifulSoup呢
我得到这些url是循环爬取了46个url中的内容, 得到了这300个url  我爬取这46个url 用的是requests+bs
现在这300个再用 requests+bs是不是不太合适了   还有我如果用requests+bs的话能限制并行数量吗
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2018-4-11 12:05:36 |只看该作者
不需要用
并行数量可以自己通过多线程里的线程数来控制,或者适当增加请求间隔

当然你如果为了学习和练习 scrapy 那也没问题
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

137

积分

注册会员

Rank: 2

板凳
发表于 2018-4-11 14:56:46 |只看该作者
scrapy用的异步IO,你用它会比你的多线程或者多进程快一些,而且不用考虑锁的问题
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-22 05:24 , Processed in 0.021463 second(s), 20 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部