xpath笔记

当我们使用爬虫对网页进行爬取的时候,重要的一步就是对我们爬取的网页中所需要的数据进行提取,那么问题来了,怎么匹配出那些我们需要的数据呢?这就要提到正则表达式了,我们可以使用正则来搜索我们需要的信息,但是正则功能强大,弊端在于容易出错且繁琐复杂,而xpath本就是为解析html和xml而做的,使用它来匹配就非常方便了。让我们一起来学学吧。

xpath是一门在xml文档中查找信息的语言。xpath可以用来在xml文档中对元素和属性进行遍历。

选取节点:

xpath使用路径表达式来选取xml文档中的节点或节点集。节点是通过沿着路径或者步来选取的。

下面列出了一些常用的路径表达式:

img

谓语:

谓语用来查找某个特定的节点或包含某个指定的值的节点。

谓语被嵌在方括号中。

img

选取未知节点:

xpath通配符可用来选取未知的xml元素。

img

选取若干路径:

通过在路径表达式中使用“ ”运算符,您可以选取若干个路径。

img

位置路径表达式

绝对路径起始于正斜杠( / ),而相对路径不会这样。在两种情况中,位置路径均包括一个或多个步,每个步均被斜杠分割:

绝对位置路径:

	/step/step/...

相对位置路径:

	step/step/...

下面列出了可用在 XPath 表达式中的运算符:

img

选取价格高于 35 的所有 title 节点:

	/bookstore/book[price>35]/title