请选择 进入手机版 | 继续访问电脑版
设为首页收藏本站

Crossin的编程教室

 找回密码
 立即加入
查看: 5023|回复: 4

用scrapy爬虫抓翻页标签出现问题

[复制链接]

4

主题

0

好友

44

积分

新手上路

Rank: 1

发表于 2017-3-7 14:55:03 |显示全部楼层
本帖最后由 电子菜鸟008 于 2017-3-7 15:05 编辑

翻页代码:
new_url = sel.xpath('//span[@class="nomp"]/a[2][@href]').extract_first()
print 'new_url:\r\n', new_url
print '\r\n'
if new_url:
    yield Request(new_url, callback=self.parse_item)

打印输出:
new_url:
<a title="键盘 → 看下一张" class="blue" href="p33868-3.html">下一张</a>

网页标签内容

网页标签内容


如上所示,请问我的xpath语句有什么问题吗?为什么死活抓不下翻页href的属性?每次都会把整个a标签的内容抓下来
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

发表于 2017-3-8 17:28:29 |显示全部楼层
[]表示满足某个条件,具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

4

主题

0

好友

44

积分

新手上路

Rank: 1

发表于 2017-3-8 19:51:50 |显示全部楼层
crossin先生 发表于 2017-3-8 17:28
[]表示满足某个条件,具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp ...

new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后,抓出来打印的是None
回复

使用道具 举报

174

主题

45

好友

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

发表于 2017-3-9 15:15:09 |显示全部楼层
电子菜鸟008 发表于 2017-3-8 19:51
new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后,抓出来打印的是Non ...

/@href

你先对着文档写点简单的例子,把每个语法试一试。
不然你这一行代码里面牵涉各种语法,都没法调试。
即使调试,也是要一步步去找哪一步出问题,不是没方向的改
#==== Crossin的编程教室 ====#
微信ID:crossincode
网站:http://crossincode.com
回复

使用道具 举报

4

主题

0

好友

44

积分

新手上路

Rank: 1

发表于 2017-3-10 10:02:25 |显示全部楼层
crossin先生 发表于 2017-3-9 15:15
/@href

你先对着文档写点简单的例子,把每个语法试一试。

老师,确实是用/@href,现在抓翻页标签没问题了,谢谢解惑
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即加入

QQ|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号  

GMT+8, 2024-3-29 07:40 , Processed in 0.026290 second(s), 29 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部