查看: 24074|回复: 18

抓取美女图片的爬虫小程序

1 主题	0 好友	50 积分

注册会员

Rank: 2

发消息

电梯直达

楼主

发表于 2014-6-27 18:51:22 |只看该作者 |正序浏览

一个python爬虫小程序，爬的是www.22mm.cc里面的美女图片，该如何把它改成多线程呢？？

#!/usr/bin/env python
#coding:UTF-8
import urllib
import re
import os
import os.path
index=0
#抓取页面的函数
def getPage(url):
page=urllib.urlopen(url).read()
return page
#抓取首页美女分类的链接信息
def getSortLinkInfo(html):
patt='<a href="/[^\s]+?\.html" title="[^\s]+?"'
regex=re.compile(patt)
linkInfo=re.findall(regex,html)
links={}
for i in linkInfo:
#links.append('http://www.22mm.cc'+i.split('"')[1])
links['http://www.22mm.cc'+i.split('"')[1]]=i.split('"')[3]
return links #links是有效链接的列表
#获取特定美女页面中的链接信息
def getBeautyLinkInfo(link):
page=getPage(link)
patt='<a href=\'[^\s]+?-\d+?\.html\'>\d+?</a>'
regex=re.compile(patt)
lastLink=re.findall(regex,page)
if len(lastLink)>0:
lastLink=lastLink[-1].split("'")[1]
return lastLink #lastLink是最后一个美女页面的相对路径
#提取最终美女图片的链接
def getImgLinks(lastLink):
page=getPage(lastLink)
patt='arrayImg\[0\]="(http://[^\s]+?\.jpg)"'
regex=re.compile(patt)
imgLinks=re.findall(regex,page)
return imgLinks #imgLinks是有效的图片链接的列表
#下载并且保存图片
def saveImg(imgLinks,dirname):
global index
path=unicode('D:\\pics\\'+dirname,'utf8')
os.mkdir('%s' %(path))
dirname=dirname.decode('utf8')
for i in imgLinks:
urllib.urlretrieve(i,'D:\\pics\%s\%d.jpg' % (dirname,index))
print '%s has been downloaded and saved successfully.'%(i)
index+=1
indexURL='http://www.22mm.cc'
def start():
homePage=getPage(indexURL)
links=getSortLinkInfo(homePage)
for i in links:
#dirname=unicode('D:\\pics\\'+links[i],'utf8')
#os.mkdir('%s' %(dirname))
dirname=links[i]
relPath=getBeautyLinkInfo(i)
if len(relPath)>0:
lastLink='http://www.22mm.cc/mm/'+i.split("/")[4]+'/'+relPath
tempLinks=getImgLinks(lastLink)
imgLinks=[]
for j in tempLinks:
imgLinks.append(re.sub('big','pic',j))
saveImg(imgLinks,dirname)
start()

复制代码

收藏2

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

19^#

发表于 2017-7-4 17:22:53 |只看该作者

我叫别这样发表于 2017-7-4 14:23
这里我获得的temp_link这个List长度是0 是怎么回事？

那就是findall没拿到结果
通过增加输出调试，确认你的 html内容对不对，regex的规则是不是其效果

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

我叫别这样

0 主题	0 好友	12 积分

新手上路

Rank: 1

发消息

18^#

发表于 2017-7-4 14:23:15 |只看该作者

#获取美女图片的四个分类链接
def get_fen_lei_link(html):
patt='<a href="/mm/[^\s]+?/" >'
regex=re.compile(patt)
fen_lei_link=[]
temp_link=re.findall(regex,html)[0:4]
for link in temp_link:
fen_lei_link.append('http://www.22mm.cc'+link.split('"')[1])
return fen_lei_link

复制代码

这里我获得的temp_link这个List长度是0 是怎么回事？

QQ截图20170704142043.jpg (74.25 KB, 下载次数: 727)

QQ截图20170704142043.jpg

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

17^#

发表于 2016-9-8 19:10:23 |只看该作者

pythonnm 发表于 2016-9-8 16:22
看了楼主的帖子，我不禁产生这样的疑问，是程序员都是老司机，还是老司机都是程序员 ...

不想做司机的厨师，不是好程序员

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

pythonnm

2 主题	0 好友	26 积分

新手上路

Rank: 1

发消息

16^#

发表于 2016-9-8 16:22:09 |只看该作者

看了楼主的帖子，我不禁产生这样的疑问，是程序员都是老司机，还是老司机都是程序员

使用道具举报

dekun

0 主题	0 好友	24 积分

新手上路

Rank: 1

发消息

15^#

发表于 2016-6-11 10:26:59 |只看该作者

小燕smile 发表于 2016-4-13 16:25
不清楚之前该网站的源代码怎么写的，但是目前该网站很多地方貌似做了改版，没有实际测试lz的代码，估计已经 ...

实测还是可以用的现在

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

14^#

发表于 2016-4-13 22:48:24 |只看该作者

小燕smile 发表于 2016-4-13 21:46
几点说明：
1.该爬虫只是爬取该网站展示区的几组图片，全站的？自己扩展一下，不想要那么多图片，故 ...

非常赞啊

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

小燕smile

0 主题	1 好友	38 积分

新手上路

Rank: 1

发消息

13^#

发表于 2016-4-13 21:46:29 |只看该作者

几点说明：
1.该爬虫只是爬取该网站展示区的几组图片，全站的？

自己扩展一下，不想要那么多图片，故一开始就没那些写；
2.D:\\pics，代码没有主动判断D盘是否有pics目录，直接下载的，故需要你提前在D盘创建该目录，否则可能无法运行

比较懒……；
3.基于py3.4 win7 pycharm4.5测试可用，其他未测试；
4.不论使用哪种编辑器运行，注意设置好encoding（包括代码本身和对网页内容的解码），否则对这种中文网站encode可能会报错；
5.这种爬虫具有时效性，万一网页改版（例如使用JavaScript）就会失效，需要再次修正方可使用；
最终效果：
代码如果执行无误，会在你的D盘pics下创建几个目录，并在目录内下载相应的图片……

使用道具举报

小燕smile

0 主题	1 好友	38 积分

新手上路

Rank: 1

发消息

12^#

发表于 2016-4-13 21:37:36 |只看该作者

既然这样，给大家一个最新该网站爬虫：

from bs4 import BeautifulSoup
import urllib.request
from collections import deque,defaultdict
import re
import os
url='http://www.22mm.cc/'
def get_page(url):
headers = {
'Connection': 'Keep-Alive',
'Accept': "image/png,image/*;q=0.8,*/*;q=0.5",
'Accept-Language': "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0",
'Referer':"http://www.22mm.cc/"
}
req = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(req)
responseutf8 = response.read().decode()
responsegbk = responseutf8.encode('gbk', 'ignore')
page = responsegbk.decode('gbk')
return page
def get_first_link(page):
queue=deque()
filename=[]
baseurl='http://22mm.xiuna.com'
soup=BeautifulSoup(page)
pic=soup.find(id = 'recshowBox')
for child in pic.children:
queue.append(baseurl+child['href'])
filename.append(child['title'])
return filename,queue
def get_all_links(filename, queue):
d=defaultdict(set)
n=0
while queue:
link2=[]
linkss=link2[:]
links=link2[:]
link1=link2[:]
baselink=queue.popleft()
pagecode=get_page(baselink)
soup=BeautifulSoup(pagecode)
link=soup.find(class_="pagelist")
for child in link.children:
try:
linkss.append(child['href'])
except:
continue
links=linkss[1:-1]
pattern=re.compile('http.*/')
addurl=re.findall(pattern,baselink)
link1=[addurl[0]+link for link in links]
'''for link in links:
link1.append(addurl[0]+link)
link1.append(baselink)'''
for value in link1:
d[filename[n]].add(value)
n+=1
return d
def download_all_pic(d):
for key in d:
print("正在创建{}的目录".format(key))
path='D:\\pics\\'+key+'\\'
os.mkdir('%s'%path)
print(path)
print("开始下载{}的图集...".format(key))
index=1
for i in d[key]:
global index
page1=get_page(i)
pattern1=re.compile(r'arrayImg\[0\]="(http.*?jpg)')
addurl1=re.findall(pattern1,page1)
down=addurl1[-1].replace('big','pic')
print("正在下载%s的第%d张图片" % (key,index))
urllib.request.urlretrieve(down,'D:\\pics\%s\%d.jpg' % (key,index))
print("下载完成")
index+=1
def start(url):
page=get_page(url)
filename, queue=get_first_link(page)
d=get_all_links(filename,queue)
download_all_pic(d)
start(url)