设为首页收藏本站

开启辅助访问切换到窄版

论坛BBS

Crossin的编程教室»论坛 › Python › 爬虫 › 什么样规模的爬虫才用scrapy呢

发新帖

查看: 5448|回复: 2

上一主题

下一主题

什么样规模的爬虫才用scrapy呢

22 主题	6 好友	242 积分

Rank: 3 Rank: 3

发消息

电梯直达

跳转到指定楼层

楼主

发表于 2018-4-10 17:31:02 |只看该作者 |倒序浏览

我现在要爬取大概300个页面的内容吧
我现在是找到了网页url规律循环生成url然后准备循环爬取这些网页大概 300个url吧  我是应该用scrapy呢
还是用 requests+BeautifulSoup呢
我得到这些url是循环爬取了46个url中的内容，得到了这300个url  我爬取这46个url 用的是requests+bs
现在这300个再用 requests+bs是不是不太合适了还有我如果用requests+bs的话能限制并行数量吗

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

沙发

发表于 2018-4-11 12:05:36 |只看该作者

不需要用
并行数量可以自己通过多线程里的线程数来控制，或者适当增加请求间隔

当然你如果为了学习和练习 scrapy 那也没问题

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

0 主题	0 好友	137 积分

Rank: 2

发消息

板凳

发表于 2018-4-11 14:56:46 |只看该作者

scrapy用的异步IO，你用它会比你的多线程或者多进程快一些，而且不用考虑锁的问题

回复

使用道具举报

发新帖

|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号 )

GMT+8, 2024-12-4 01:42 , Processed in 0.022704 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部