python爬虫解析之XPath

5 主题	0 好友	145 积分

注册会员

Rank: 2

发消息

电梯直达

楼主

发表于 2020-5-14 17:29:23 |只看该作者 |倒序浏览

数据采集的最终的目的就是过滤选取网络信息，因此最重要的部分就是解析了，数据解析的优劣决定了网络爬虫的速度和效率，对于 HTML 类型的页面来说，常用的解析方法其实无非那么几种，正则、XPath、CSS Selector，另外对于某些接口，常见的可能就是 JSON、XML 类型，使用对应的库进行处理即可。这里重点讲述的是XPath。

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。

数据解析之前需要先将html代码转换成相应的对象，方法如下

In [7]: from lxml import etree

In [8]: text = etree.HTML(html)

示例1