设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
12
返回列表 发新帖
楼主: vocaliu
打印 上一主题 下一主题

新人求教,两个正则匹配问题,爬网页不会找内容。。

[复制链接]

0

主题

0

好友

18

积分

新手上路

Rank: 1

11#
发表于 2017-8-24 13:45:09 |只看该作者
vocaliu 发表于 2017-8-20 13:54
这个是我的第一个练手程序,每个功能实现都是百度之后抄一两行代码再改的,虽然能用但是小毛病很多。

1 ...

请问楼主,你使用循环来更新网址的时候,for szwz in range(startnum, stopnum): 这句话中的startnum, stopnum这两个参数在哪里指定的??
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

12#
发表于 2017-8-24 17:27:18 |只看该作者
feifeiwuda 发表于 2017-8-24 13:45
请问楼主,你使用循环来更新网址的时候,for szwz in range(startnum, stopnum): 这句话中的startnum, st ...
他通过创建线程来调用的
  1. p.apply_async(imgdownload_num, args=(i*8+1,i*8+9))
复制代码
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

18

积分

新手上路

Rank: 1

13#
发表于 2017-8-24 17:51:48 |只看该作者
本帖最后由 feifeiwuda 于 2017-8-24 18:04 编辑
crossin先生 发表于 2017-8-24 17:27
他通过创建线程来调用的


我把后面多线程的代码删除了,那怎么办?
回复

使用道具 举报

0

主题

0

好友

18

积分

新手上路

Rank: 1

14#
发表于 2017-8-24 18:06:16 |只看该作者
请问要爬取的网站的head如何得到?
回复

使用道具 举报

0

主题

0

好友

154

积分

注册会员

Rank: 2

15#
发表于 2017-8-25 09:31:44 |只看该作者
feifeiwuda 发表于 2017-8-24 18:06
请问要爬取的网站的head如何得到?

请参考这篇文章
https://my.oschina.net/june6502/blog/224062
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

16#
发表于 2017-8-25 09:31:49 |只看该作者
feifeiwuda 发表于 2017-8-24 17:51
我把后面多线程的代码删除了,那怎么办?

那就手动调用  imgdownload_num(i*8+1,i*8+9)
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

17#
发表于 2017-8-25 09:32:13 |只看该作者
feifeiwuda 发表于 2017-8-24 18:06
请问要爬取的网站的head如何得到?

你用 requests 库来请求,拿header很容易
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-6-24 04:01 , Processed in 0.015553 second(s), 20 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部