设为首页收藏本站

开启辅助访问切换到窄版

论坛BBS

Crossin的编程教室»论坛 › Python › 爬虫 › 用scrapy爬虫抓翻页标签出现问题

发新帖

查看: 7134|回复: 4

上一主题

下一主题

用scrapy爬虫抓翻页标签出现问题

电子菜鸟008

4 主题	0 好友	44 积分

Rank: 1

发消息

电梯直达

跳转到指定楼层

楼主

发表于 2017-3-7 14:55:03 |只看该作者 |倒序浏览

本帖最后由电子菜鸟008 于 2017-3-7 15:05 编辑

翻页代码：
new_url = sel.xpath('//span[@class="nomp"]/a[2][@href]').extract_first()
print 'new_url:\r\n', new_url
print '\r\n'
if new_url:
yield Request(new_url, callback=self.parse_item)

打印输出：
new_url:
<a title="键盘 → 看下一张" class="blue" href="p33868-3.html">下一张</a>

网页标签内容

如上所示，请问我的xpath语句有什么问题吗？为什么死活抓不下翻页href的属性？每次都会把整个a标签的内容抓下来

相关帖子

• 「一道大数据习题」豆瓣评论最多的三千部电影

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

沙发

发表于 2017-3-8 17:28:29 |只看该作者

[]表示满足某个条件，具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

电子菜鸟008

4 主题	0 好友	44 积分

Rank: 1

发消息

板凳

发表于 2017-3-8 19:51:50 |只看该作者

crossin先生发表于 2017-3-8 17:28
[]表示满足某个条件，具体元素应该是 /href 吧

http://www.w3school.com.cn/xpath/xpath_syntax.asp ...

new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后，抓出来打印的是None

回复

使用道具举报

174 主题	45 好友	11万积分

Rank: 9 Rank: 9 Rank: 9

发消息

地板

发表于 2017-3-9 15:15:09 |只看该作者

电子菜鸟008 发表于 2017-3-8 19:51
new_url = sel.xpath('//span[@class="nomp"]/a[2]/href').extract_first() 改了之后，抓出来打印的是Non ...

/@href

你先对着文档写点简单的例子，把每个语法试一试。
不然你这一行代码里面牵涉各种语法，都没法调试。
即使调试，也是要一步步去找哪一步出问题，不是没方向的改

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

回复

使用道具举报

电子菜鸟008

4 主题	0 好友	44 积分

Rank: 1

发消息

5^#

发表于 2017-3-10 10:02:25 |只看该作者

crossin先生发表于 2017-3-9 15:15
/@href

你先对着文档写点简单的例子，把每个语法试一试。

老师，确实是用/@href，现在抓翻页标签没问题了，谢谢解惑

回复

使用道具举报

发新帖

|手机版|Archiver|Crossin的编程教室 ( 苏ICP备15063769号 )

GMT+8, 2024-11-22 05:18 , Processed in 0.028527 second(s), 28 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部