Crossin的编程教室

标题: 用scrapy爬虫抓翻页标签出现问题 [打印本页]

作者: 电子菜鸟008    时间: 2017-3-7 14:55
标题: 用scrapy爬虫抓翻页标签出现问题
本帖最后由 电子菜鸟008 于 2017-3-7 15:05 编辑

翻页代码:
new_url = sel.xpath('//span[@class="nomp"]/a[2][@href]').extract_first()
print 'new_url:\r\n', new_url
print '\r\n'
if new_url:
    yield Request(new_url, callback=self.parse_item)

打印输出:
new_url:
<a title="键盘 → 看下一张" class="blue" href="p33868-3.html">下一张</a>

网页标签内容

如上所示,请问我的xpath语句有什么问题吗?为什么死活抓不下翻页href的属性?每次都会把整个a标签的内容抓下来

作者: crossin先生    时间: 2017-3-8 17:28
[]表示满足某个条件,具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp
作者: 电子菜鸟008    时间: 2017-3-8 19:51
crossin先生 发表于 2017-3-8 17:28
[]表示满足某个条件,具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp ...

new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后,抓出来打印的是None
作者: crossin先生    时间: 2017-3-9 15:15
电子菜鸟008 发表于 2017-3-8 19:51
new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后,抓出来打印的是Non ...

/@href

你先对着文档写点简单的例子,把每个语法试一试。
不然你这一行代码里面牵涉各种语法,都没法调试。
即使调试,也是要一步步去找哪一步出问题,不是没方向的改
作者: 电子菜鸟008    时间: 2017-3-10 10:02
crossin先生 发表于 2017-3-9 15:15
/@href

你先对着文档写点简单的例子,把每个语法试一试。

老师,确实是用/@href,现在抓翻页标签没问题了,谢谢解惑




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5