设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
楼主: creek
打印 上一主题 下一主题

抓取美女图片的爬虫小程序

[复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

楼主
发表于 2014-6-28 16:57:06 |显示全部楼层
这个程序有意思
去看一下 thread 模块相关的用法
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2014-7-1 11:50:26 |显示全部楼层
creek 发表于 2014-6-30 23:19
修改了一下,之前的只能抓取首页的图片,下面这个应该能爬取全站的对于Python的多线程,我有好些疑问,搜索 ...

是的。如果cpu只能同时执行一个进程,那么多线程的计算没有什么好处,甚至还耽误了线程切换的时间。
但是多线程可以避免一个线程被阻塞住,导致其他任务无法进行的情况,这在有网络请求或者文件读写的时候很有用。相当于把等待对方服务器响应和下载的时间节省了下来。
另外,我不是很确定,多核cpu是否可以并行多个python线程。
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

板凳
发表于 2015-9-8 19:16:59 |显示全部楼层
小燕smile 发表于 2015-9-7 13:13
@crossin先生  我自己也写了一个抓取图片的脚本,但是在下载图片到电脑的时候发生urllib.error.ContentTooS ...

似乎只是网络不好,没能一次下载成功。
避免发生就是做异常处理,错误的情况下自动重新下载
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2016-3-14 12:30:18 |显示全部楼层
airabout 发表于 2016-3-13 21:45
我是新手 请问这些代码是在哪运行的? 是cmd里的python吗······

先保存在文件里,然后在cmd下用 python xxx.py 这样的命令来执行。或者放在开发工具里执行
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

5#
发表于 2016-4-13 21:13:23 |显示全部楼层
小燕smile 发表于 2016-4-13 16:25
不清楚之前该网站的源代码怎么写的,但是目前该网站很多地方貌似做了改版,没有实际测试lz的代码,估计已经 ...

爬虫程序都是要经常随源站进行调整的
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

6#
发表于 2016-4-13 22:48:24 |显示全部楼层
小燕smile 发表于 2016-4-13 21:46
几点说明:
1.该爬虫只是爬取该网站展示区的几组图片,全站的?自己扩展一下,不想要那么多图片,故 ...

非常赞啊
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

7#
发表于 2016-9-8 19:10:23 |显示全部楼层
pythonnm 发表于 2016-9-8 16:22
看了楼主的帖子,我不禁产生这样的疑问,是程序员都是老司机,还是老司机都是程序员 ...

不想做司机的厨师,不是好程序员
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

8#
发表于 2017-7-4 17:22:53 |显示全部楼层
我叫别这样 发表于 2017-7-4 14:23
这里我获得的temp_link这个List长度是0 是怎么回事?

那就是findall没拿到结果
通过增加输出调试,确认你的 html内容对不对,regex的规则是不是其效果
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-5-3 06:31 , Processed in 0.034988 second(s), 22 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部