设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 154411|回复: 199
打印 上一主题 下一主题

【Python 第46课】 查天气(4)

  [复制链接]

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
楼主
发表于 2013-7-27 00:01:01 |只看该作者 |倒序浏览
python 查天气系列:
【Python 第43课】 查天气(1) http://bbs.crossincode.com/forum.php?mod=viewthread&tid=8
【Python 第44课】 查天气(2) http://bbs.crossincode.com/forum.php?mod=viewthread&tid=9
【Python 第45课】 查天气(3) http://bbs.crossincode.com/forum.php?mod=viewthread&tid=12
【Python 第46课】 查天气(4) http://bbs.crossincode.com/forum.php?mod=viewthread&tid=42


这一课算是“查天气”程序的附加内容。没有这一课,你也查到天气了。但了解一下城市代码的抓取过程,会对网页抓取有更深的理解。

天气网的城市代码信息结构比较复杂,所有代码按层级放在了很多xml为后缀的文件中。而这些所谓的“xml”文件又不符合xml的格式规范,导致在浏览器中无法显示,给我们的抓取又多加了一点难度。

首先,抓取省份的列表:
  1. url1 = 'http://m.weather.com.cn/data3/city.xml'
  2. content1 = urllib2.urlopen(url1).read()
  3. provinces = content1.split(',')
复制代码
输出content1可以查看全部省份代码:
  1. 01|北京,02|上海,03|天津,...
复制代码
对于每个省,抓取城市列表:
  1. url = 'http://m.weather.com.cn/data3/city%s.xml'
  2. for p in provinces:
  3.     p_code = p.split('|')[0]
  4.     url2 = url % p_code
  5.     content2 = urllib2.urlopen(url2).read()
  6.     cities = content2.split(',')
复制代码
输出content2可以查看此省份下所有城市代码:
  1. 1901|南京,1902|无锡,1903|镇江,...
复制代码
再对于每个城市,抓取地区列表:
  1. for c in cities[:3]:
  2.     c_code = c.split('|')[0]
  3.     url3 = url % c_code
  4.     content3 = urllib2.urlopen(url3).read()
  5.     districts = content3.split(',')
复制代码
content3是此城市下所有地区代码:
  1. 190101|南京,190102|溧水,190103|高淳,...
复制代码
最后,对于每个地区,我们把它的名字记录下来,然后再发送一次请求,得到它的最终代码:
  1. for d in districts:
  2.     d_pair = d.split('|')
  3.     d_code = d_pair[0]
  4.     name = d_pair[1]
  5.     url4 = url % d_code
  6.     content4 = urllib2.urlopen(url4).read()
  7.     code = content4.split('|')[1]
复制代码
name和code就是我们最终要得到的城市代码信息。它们格式化到字符串中,最终保存在文件里:
  1. line = "    '%s': '%s',\n" % (name, code)
  2. result += line
复制代码
同时你也可以输出它们,以便在抓取的过程中查看进度:
  1. print  name + ':' + code
复制代码
完整代码:
  1. import urllib2

  2. url1 = 'http://m.weather.com.cn/data3/city.xml'
  3. content1 = urllib2.urlopen(url1).read()
  4. provinces = content1.split(',')
  5. result = 'city = {\n'
  6. url = 'http://m.weather.com.cn/data3/city%s.xml'
  7. for p in provinces:
  8.     p_code = p.split('|')[0]
  9.     url2 = url % p_code
  10.     content2 = urllib2.urlopen(url2).read()
  11.     cities = content2.split(',')
  12.     for c in cities:
  13.         c_code = c.split('|')[0]
  14.         url3 = url % c_code
  15.         content3 = urllib2.urlopen(url3).read()
  16.         districts = content3.split(',')
  17.         for d in districts:
  18.             d_pair = d.split('|')
  19.             d_code = d_pair[0]
  20.             name = d_pair[1]
  21.             url4 = url % d_code
  22.             content4 = urllib2.urlopen(url4).read()
  23.             code = content4.split('|')[1]
  24.             line = "    '%s': '%s',\n" % (name, code)
  25.             result += line
  26.             print  name + ':' + code
  27. result += '}'
  28. f = file('/home/crossin/Desktop/city.py', 'w')
  29. f.write(result)
  30. f.close()
复制代码
如果你只是想抓几个测试一下,并不用全部抓下来,在provices后面加上[:3],抓3个省的试试看就好了。

补充:如果发现输出的是乱码(这种事往往发生在windows下),试着把输出那行改为
  1. print  name.decode('utf-8') + ':' + code
复制代码


#==== Crossin的编程教室 ====#
微信ID:crossincode
QQ群:312723402

面向零基础初学者的编程课
每天5分钟,轻松学编程


#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

7

主题

1

好友

269

积分

中级会员

Rank: 3Rank: 3

沙发
发表于 2013-7-27 00:58:28 |只看该作者

回帖奖励 +1

沙发一定是我的。
回复

使用道具 举报

0

主题

0

好友

8

积分

新手上路

Rank: 1

板凳
发表于 2013-7-27 11:49:14 |只看该作者
看了这个帖子,我明白:为什么按照查天气(1)的方法最后部分城市的编码不一致。

查天气(1)中提到‘’‘得到最终的三级编号之后,再加上中国101的前缀,就得到了城市代码,如南京市区就是“101190101” ’‘’,对于直辖市得到三级编码加101是不正确的。

这个帖子最后再查一次才是一致的。
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2013-7-27 14:55:02 来自手机 |只看该作者
lpd0933 发表于 2013-7-27 11:49
看了这个帖子,我明白:为什么按照查天气(1)的方法最后部分城市的编码不一致。

查天气(1)中提到‘’‘ ...

是的,我也是后来发现直辖市是有问题的
回复

使用道具 举报

0

主题

0

好友

44

积分

新手上路

Rank: 1

5#
发表于 2013-7-27 21:05:36 |只看该作者
提点拙建
1.最好再加上异常处理
2.最好加上超时
3.每次调用urllib2.urlopen(url1).read()的前最好先延时一下
回复

使用道具 举报

0

主题

0

好友

19

积分

新手上路

Rank: 1

6#
发表于 2013-7-31 23:29:35 |只看该作者
请问p_code = p.split('|')[0]中的[0]表示什么?
回复

使用道具 举报

0

主题

0

好友

170

积分

注册会员

Rank: 2

7#
发表于 2013-8-5 13:12:15 |只看该作者
code = content4.split('|')[1]  ??
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

8#
发表于 2013-8-5 16:20:38 |只看该作者
grdzyz 发表于 2013-7-31 23:29
请问p_code = p.split('|')[0]中的[0]表示什么?

split得出的结果诸如['01', '北京']形式的list,[0]就是取到它的省级别编码
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

9#
发表于 2013-8-5 16:23:06 |只看该作者
book 发表于 2013-8-5 13:12
code = content4.split('|')[1]  ??

split得出的结果诸如['190101', '101190101']形式的list,[1]就是取到它的城市编码
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

0

主题

0

好友

170

积分

注册会员

Rank: 2

10#
发表于 2013-8-6 13:22:25 |只看该作者
crossin先生 发表于 2013-8-5 16:23
split得出的结果诸如['190101', '101190101']形式的list,[1]就是取到它的城市编码

您好,这里是[0] 还是[1],我运行了好多次,抓的过程中,总是出错,每次都出在urllib2.urlopen().read(),是网络问题吗?请指点
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-11-24 07:28 , Processed in 0.016724 second(s), 22 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部