设为首页收藏本站

开启辅助访问切换到窄版

论坛BBS

Crossin的编程教室»论坛 › Python › 语言基础 › 【Python 第46课】查天气（4）

12 3 4 5 6 7 8 9 10 ... 20 / 20 页下一页

发新帖

查看: 131106|回复: 199

上一主题

下一主题

【Python 第46课】查天气（4）

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

电梯直达

跳转到指定楼层

楼主

发表于 2013-7-27 00:01:01 |只看该作者 |倒序浏览

用 python 查天气系列：
【Python 第43课】查天气（1） http://bbs.crossincode.com/forum.php?mod=viewthread&tid=8
【Python 第44课】查天气（2） http://bbs.crossincode.com/forum.php?mod=viewthread&tid=9
【Python 第45课】查天气（3） http://bbs.crossincode.com/forum.php?mod=viewthread&tid=12
【Python 第46课】查天气（4） http://bbs.crossincode.com/forum.php?mod=viewthread&tid=42

这一课算是“查天气”程序的附加内容。没有这一课，你也查到天气了。但了解一下城市代码的抓取过程，会对网页抓取有更深的理解。

天气网的城市代码信息结构比较复杂，所有代码按层级放在了很多xml为后缀的文件中。而这些所谓的“xml”文件又不符合xml的格式规范，导致在浏览器中无法显示，给我们的抓取又多加了一点难度。

首先，抓取省份的列表：

url1 = 'http://m.weather.com.cn/data3/city.xml'
content1 = urllib2.urlopen(url1).read()
provinces = content1.split(',')

复制代码

输出content1可以查看全部省份代码：

01|北京,02|上海,03|天津,...

复制代码

对于每个省，抓取城市列表：

url = 'http://m.weather.com.cn/data3/city%s.xml'
for p in provinces:
p_code = p.split('|')[0]
url2 = url % p_code
content2 = urllib2.urlopen(url2).read()
cities = content2.split(',')

复制代码

输出content2可以查看此省份下所有城市代码：

1901|南京,1902|无锡,1903|镇江,...

复制代码

再对于每个城市，抓取地区列表：

for c in cities[:3]:
c_code = c.split('|')[0]
url3 = url % c_code
content3 = urllib2.urlopen(url3).read()
districts = content3.split(',')

复制代码

content3是此城市下所有地区代码：

190101|南京,190102|溧水,190103|高淳,...

复制代码

最后，对于每个地区，我们把它的名字记录下来，然后再发送一次请求，得到它的最终代码：

for d in districts:
d_pair = d.split('|')
d_code = d_pair[0]
name = d_pair[1]
url4 = url % d_code
content4 = urllib2.urlopen(url4).read()
code = content4.split('|')[1]

复制代码

name和code就是我们最终要得到的城市代码信息。它们格式化到字符串中，最终保存在文件里：

line = " '%s': '%s',\n" % (name, code)
result += line

复制代码

同时你也可以输出它们，以便在抓取的过程中查看进度：

print name + ':' + code

复制代码

完整代码：

import urllib2
url1 = 'http://m.weather.com.cn/data3/city.xml'
content1 = urllib2.urlopen(url1).read()
provinces = content1.split(',')
result = 'city = {\n'
url = 'http://m.weather.com.cn/data3/city%s.xml'
for p in provinces:
p_code = p.split('|')[0]
url2 = url % p_code
content2 = urllib2.urlopen(url2).read()
cities = content2.split(',')
for c in cities:
c_code = c.split('|')[0]
url3 = url % c_code
content3 = urllib2.urlopen(url3).read()
districts = content3.split(',')
for d in districts:
d_pair = d.split('|')
d_code = d_pair[0]
name = d_pair[1]
url4 = url % d_code
content4 = urllib2.urlopen(url4).read()
code = content4.split('|')[1]
line = " '%s': '%s',\n" % (name, code)
result += line
print name + ':' + code
result += '}'
f = file('/home/crossin/Desktop/city.py', 'w')
f.write(result)
f.close()

复制代码

如果你只是想抓几个测试一下，并不用全部抓下来，在provices后面加上[:3]，抓3个省的试试看就好了。

补充：如果发现输出的是乱码（这种事往往发生在windows下），试着把输出那行改为

print name.decode('utf-8') + ':' + code

复制代码

#==== Crossin的编程教室 ====#
微信ID：crossincode
QQ群：312723402

面向零基础初学者的编程课
每天5分钟，轻松学编程

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

7 主题	1 好友	269 积分

Rank: 3 Rank: 3

发消息

沙发

发表于 2013-7-27 00:58:28 |只看该作者

回帖奖励 +1

沙发一定是我的。

回复

使用道具举报

0 主题	0 好友	8 积分

Rank: 1

发消息

板凳

发表于 2013-7-27 11:49:14 |只看该作者

看了这个帖子，我明白：为什么按照查天气（1）的方法最后部分城市的编码不一致。

查天气（1）中提到‘’‘得到最终的三级编号之后，再加上中国101的前缀，就得到了城市代码，如南京市区就是“101190101” ’‘’，对于直辖市得到三级编码加101是不正确的。

这个帖子最后再查一次才是一致的。

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

地板

发表于 2013-7-27 14:55:02 来自手机 |只看该作者

lpd0933 发表于 2013-7-27 11:49
看了这个帖子，我明白：为什么按照查天气（1）的方法最后部分城市的编码不一致。

查天气（1）中提到‘’‘ ...

是的，我也是后来发现直辖市是有问题的

回复

使用道具举报

0 主题	0 好友	44 积分

Rank: 1

发消息

5^#

发表于 2013-7-27 21:05:36 |只看该作者

提点拙建
1.最好再加上异常处理
2.最好加上超时
3.每次调用urllib2.urlopen(url1).read()的前最好先延时一下

回复

使用道具举报

0 主题	0 好友	19 积分

Rank: 1

发消息

6^#

发表于 2013-7-31 23:29:35 |只看该作者

请问p_code = p.split('|')[0]中的[0]表示什么？

回复

使用道具举报

0 主题	0 好友	170 积分

Rank: 2

发消息

7^#

发表于 2013-8-5 13:12:15 |只看该作者

code = content4.split('|')[1] ??

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

8^#

发表于 2013-8-5 16:20:38 |只看该作者

grdzyz 发表于 2013-7-31 23:29
请问p_code = p.split('|')[0]中的[0]表示什么？

split得出的结果诸如['01', '北京']形式的list，[0]就是取到它的省级别编码

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

9^#

发表于 2013-8-5 16:23:06 |只看该作者

book 发表于 2013-8-5 13:12
code = content4.split('|')[1] ??

split得出的结果诸如['190101', '101190101']形式的list，[1]就是取到它的城市编码

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

0 主题	0 好友	170 积分

Rank: 2

发消息

10^#

发表于 2013-8-6 13:22:25 |只看该作者

crossin先生发表于 2013-8-5 16:23
split得出的结果诸如['190101', '101190101']形式的list，[1]就是取到它的城市编码

您好，这里是[0] 还是[1],我运行了好多次，抓的过程中，总是出错，每次都出在urllib2.urlopen().read(),是网络问题吗？请指点

回复

使用道具举报

12 3 4 5 6 7 8 9 10 ... 20 / 20 页下一页

发新帖

|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号 )

GMT+8, 2024-7-27 10:36 , Processed in 0.019733 second(s), 25 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部