设为首页收藏本站

开启辅助访问切换到窄版

论坛BBS

Crossin的编程教室»论坛 › Python › 语言基础 › 匹配中文字符

发新帖

查看: 12274|回复: 8

上一主题

下一主题

匹配中文字符

7 主题	0 好友	127 积分

Rank: 2

发消息

电梯直达

跳转到指定楼层

楼主

发表于 2016-11-19 18:00:35 |只看该作者 |倒序浏览

我在网上看到爬取百度贴吧的内容，自己写了一个：
其中：我想匹配：见附件一
我只能匹配出数字，不能匹配出汉子字符，搜索了半天，还是不行。
一下是匹配出数字的正则表达式：

def getReply(self):
reply = self.getPage(1)
pattern = re.compile('<li class="l_reply_num".*?<span.*?>(.*?)</span>.*?>(.*?)</span>',re.S)
result = re.search(pattern, reply)
if result:
print result.group(1)

复制代码

这是我要爬取的网页地址：http://tieba.baidu.com/p/4558066833
对应的代码：见附件二

请问，我需要怎样做，才能匹配出：***回复贴，共**页这种样式？
谢谢！

附件一.png (3.35 KB, 下载次数: 386)

附件一.png

附件二.png (16.99 KB, 下载次数: 398)

附件二.png

相关帖子

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

沙发

发表于 2016-11-19 23:39:44 |只看该作者

'<li class="l_reply_num".*?<span.*?>(.*?)</span>(.*?)<span.*?>(.*?)</span>'

复制代码

或者你直接手动加上这几个文字，反正都是固定值

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

9 主题	0 好友	133 积分

Rank: 2

发消息

板凳

发表于 2016-11-21 08:50:05 |只看该作者

本帖最后由 hymyg 于 2016-11-21 08:52 编辑

r'\b+回复贴，共\b+页'

复制代码

\b　　匹配0-9的数字

+　　匹配一个或多个字符

\b+　　匹配一个或多个数字

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

地板

发表于 2016-11-21 14:49:14 |只看该作者

hymyg 发表于 2016-11-21 08:50
\b　　匹配0-9的数字

+　　匹配一个或多个字符

数字是 \d

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

7 主题	0 好友	127 积分

Rank: 2

发消息

5^#

发表于 2016-11-21 17:04:46 |只看该作者

crossin先生发表于 2016-11-21 14:49
数字是 \d

直接加上，简单粗暴。6666！

回复

使用道具举报

7 主题	0 好友	127 积分

Rank: 2

发消息

6^#

发表于 2016-11-21 17:11:12 |只看该作者

本帖最后由 Tony 于 2016-11-21 17:12 编辑

那这种呢？

代码如下：

import urllib2
import time
import re
class Page:
def getTotalPageNum(self,url):
print self.getCurrentTime(),"正在获取目录页面个数,请稍候"
page = self.getPageByURL(url)
#匹配所有的页码数,\u4e0b\u4e00\u9875是下一页的UTF8编码
pattern = re.compile('<span>.*?<a class="more" style>.*?<a href.*?>(.*?)</a>', re.S)
match = re.search(pattern, page)
if match:
print match.group(1)
else:
print self.getCurrentTime(),"获取总页码失败"
page_1 = Page()
page_1.getTotalPageNum(page_url)
需要爬取的地址：http://iask.sina.com.cn/c/83-all-1-new.html

复制代码

我写的正则不对，没有找出来，看了半天。都不知道是哪里出了问题。
谢谢！

爬新浪知识.png (35.51 KB, 下载次数: 354)

爬新浪知识.png

爬新浪知识_2.png (2.33 KB, 下载次数: 376)

爬新浪知识_2.png

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

7^#

发表于 2016-11-22 14:39:39 |只看该作者

Tony 发表于 2016-11-21 17:11
那这种呢？

你去看网页源代码，不要看 elements 里面的代码，这里面是浏览器优化过的
所以导致你写的匹配规则不对。我看到的是 style=""

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

9 主题	0 好友	133 积分

Rank: 2

发消息

8^#

发表于 2016-11-23 08:55:08 |只看该作者

crossin先生发表于 2016-11-21 14:49
数字是 \d

不好意思，笔误

回复

使用道具举报

7 主题	0 好友	127 积分

Rank: 2

发消息

9^#

发表于 2016-11-23 13:33:52 |只看该作者

hymyg 发表于 2016-11-23 08:55
不好意思，笔误

对了，成功了，谢谢！

回复

使用道具举报

发新帖

|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号 )

GMT+8, 2024-11-22 09:12 , Processed in 0.018892 second(s), 25 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部