xpath笔记 - 蒲荣龙的博客

xpath笔记

当我们使用爬虫对网页进行爬取的时候，重要的一步就是对我们爬取的网页中所需要的数据进行提取，那么问题来了，怎么匹配出那些我们需要的数据呢？这就要提到正则表达式了，我们可以使用正则来搜索我们需要的信息，但是正则功能强大，弊端在于容易出错且繁琐复杂，而xpath本就是为解析html和xml而做的，使用它来匹配就非常方便了。让我们一起来学学吧。

xpath是一门在xml文档中查找信息的语言。xpath可以用来在xml文档中对元素和属性进行遍历。

选取节点：

xpath使用路径表达式来选取xml文档中的节点或节点集。节点是通过沿着路径或者步来选取的。

下面列出了一些常用的路径表达式：

谓语：

谓语用来查找某个特定的节点或包含某个指定的值的节点。

谓语被嵌在方括号中。

选取未知节点：

xpath通配符可用来选取未知的xml元素。

选取若干路径：

通过在路径表达式中使用“

”运算符，您可以选取若干个路径。

位置路径表达式

绝对路径起始于正斜杠( / )，而相对路径不会这样。在两种情况中，位置路径均包括一个或多个步，每个步均被斜杠分割：

绝对位置路径：

	/step/step/...

相对位置路径：

	step/step/...

下面列出了可用在 XPath 表达式中的运算符：

选取价格高于 35 的所有 title 节点：

	/bookstore/book[price>35]/title