- 帖子
- 36
- 精华
- 0
- 积分
- 127
- 阅读权限
- 20
- 注册时间
- 2016-10-18
- 最后登录
- 2016-11-23
|
本帖最后由 Tony 于 2016-11-21 17:12 编辑
那这种呢?
代码如下:- import urllib2
- import time
- import re
- class Page:
- def getTotalPageNum(self,url):
- print self.getCurrentTime(),"正在获取目录页面个数,请稍候"
- page = self.getPageByURL(url)
- #匹配所有的页码数,\u4e0b\u4e00\u9875是下一页的UTF8编码
- pattern = re.compile('<span>.*?<a class="more" style>.*?<a href.*?>(.*?)</a>', re.S)
- match = re.search(pattern, page)
- if match:
- print match.group(1)
-
- else:
- print self.getCurrentTime(),"获取总页码失败"
- page_1 = Page()
- page_1.getTotalPageNum(page_url)
- 需要爬取的地址:http://iask.sina.com.cn/c/83-all-1-new.html
复制代码 我写的正则不对,没有找出来,看了半天。都不知道是哪里出了问题。
谢谢! |
|