设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 7395|回复: 4
打印 上一主题 下一主题

用scrapy爬虫抓翻页标签出现问题

[复制链接]

4

主题

0

好友

44

积分

新手上路

Rank: 1

跳转到指定楼层
楼主
发表于 2017-3-7 14:55:03 |只看该作者 |倒序浏览
本帖最后由 电子菜鸟008 于 2017-3-7 15:05 编辑

翻页代码:
new_url = sel.xpath('//span[@class="nomp"]/a[2][@href]').extract_first()
print 'new_url:\r\n', new_url
print '\r\n'
if new_url:
    yield Request(new_url, callback=self.parse_item)

打印输出:
new_url:
<a title="键盘 → 看下一张" class="blue" href="p33868-3.html">下一张</a>

网页标签内容

如上所示,请问我的xpath语句有什么问题吗?为什么死活抓不下翻页href的属性?每次都会把整个a标签的内容抓下来
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

沙发
发表于 2017-3-8 17:28:29 |只看该作者
[]表示满足某个条件,具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

4

主题

0

好友

44

积分

新手上路

Rank: 1

板凳
发表于 2017-3-8 19:51:50 |只看该作者
crossin先生 发表于 2017-3-8 17:28
[]表示满足某个条件,具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp ...

new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后,抓出来打印的是None
回复

使用道具 举报

174

主题

45

好友

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

地板
发表于 2017-3-9 15:15:09 |只看该作者
电子菜鸟008 发表于 2017-3-8 19:51
new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后,抓出来打印的是Non ...

/@href

你先对着文档写点简单的例子,把每个语法试一试。
不然你这一行代码里面牵涉各种语法,都没法调试。
即使调试,也是要一步步去找哪一步出问题,不是没方向的改
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

4

主题

0

好友

44

积分

新手上路

Rank: 1

5#
发表于 2017-3-10 10:02:25 |只看该作者
crossin先生 发表于 2017-3-9 15:15
/@href

你先对着文档写点简单的例子,把每个语法试一试。

老师,确实是用/@href,现在抓翻页标签没问题了,谢谢解惑
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-12-4 16:15 , Processed in 0.017030 second(s), 27 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部