- 帖子
- 59
- 精华
- 0
- 积分
- 244
- 阅读权限
- 30
- 注册时间
- 2015-10-25
- 最后登录
- 2023-10-29
|
本帖最后由 anyone 于 2015-12-15 23:24 编辑
前一段比较忙, 现在我开始继续这个事情. 下面是我自己学习的代码, 目前可以使用re来返回我需要的一些页面内容.- import urllib
- import re
- urls = ["http://www.google.com","http://www.yahoo.com", "http://www.sina.com.cn", "http://www.bbc.co.uk"]
- i=0
- while i<len(urls):
- htmlfile = urllib.urlopen(urls[i])
- htmltext = htmlfile.read()
- regex = "<title>(.*?)</title>"
- pattern = re.compile(regex)
- needle = re.findall(pattern, htmltext)
- # have to use, to add string?
- # how to deal with chinese charactars?
- print urls[i]," title is: ",needle
- i+=1
复制代码 但是问题仍然是,
1, 我如何print出来中文呢?
2, 在print中为什么连接url和string中间使用逗号","?
烦请crossin帮我解答一下, 谢谢. |
|