文章目录

Selector 的使用
- 1.直接使用
- 2. Scrapy Shell
- 3.XPath 选择器
- 4.CSS选择器
- 5.正则匹配

Selector 的使用

我们之前介绍了利用Beautiful Soup、pyquery 以及正则表达式来提取网页数据的方法，确实非常方便。不过Scrapy提供了自己的数据提取方法，即内置的Selector。

Scrapy 中的Selector 是就是基于 parsel库来构建的、而同时parsel又依赖于lxml，Selector 对parsel进行了封装，使其能更好地与Scrapy结合使用。Selector 支持XPath选择器、CSS选择器以及正则表达式，功能全面，解析速度和准确度非常高。

本节我们就来详细介绍一下 Selector 的用法。

1.直接使用

Selector 其实并不一定非要在Scrapy 中使用，它也是一个可以独立使用的模块。我们可以直接利用Selector这个类来构建一个选择器对象，然后调用它的相关方法（如xpath、css等）来提取数据。例如，针对一段HTML代码，我们可以用如下方式构建Selector对象来提取数据：

from scrapy import Selector

body = '<html><head><title>Hello World</title></head><body></body></html>'
selector = Selector(text=body)
title = selector.xpath('//title/text()').extract_first()
print(title)

运行结果如下：
Hello World
这里没有在 Scrapy 框架中运行，而是把 Scrapy中的Selector 单独拿出来使用了，构建的时候传入text 参数，就生成了一个Selector选择器对象，然后就可以像Scrapy中的解析方式一样，调用xpath、css等方法来提取数据了。

在这里我们查找的是源代码中title内的文本，在XPath 选择器最后加text方法就可以实现文本的提取了。

以上内容就是 Selector 的直接使用方式。同 Beautiful Soup 等库类似，Selector 也是强大的网页解析库。如果方便的话，我们也可以在其他项目中直接使用 Selector 来提取数据。

接下来，我们用实例来详细讲解 Selector 的用法。

2. Scrapy Shell

由于Selector 主要是与Scrapy结合使用，如 Scrapy的回调函数中的参数response 直接调用 xpath或者 css 方法来提取数据，所以在这里我们借助 Scrapy shell 来模拟Scrapy 请求的过程，讲解相关的提取方法。

我们用官方文档的一个样例页面来做演示：https://doc.scrapy.org/en/latest/_static/selectors-sample1.html

开启 Scrapy shell，在命令行输入如下命令：

scrapy shell  https://doc.scrapy.org/en/latest/_static/selectors-sample1.html

我们就进入 Scrapy shell模式了。这个过程其实是Scrapy发起了一次请求，请求的URL就是刚才命令行下输入的URL，把一些可操作的变量传递给我们，如request、response等，如图15-7所示。

Scrapy shell 模式我们可以在命令行模式下输入命令，调用对象的一些操作方法，按下回车之后实时显示结果。这与Python 的命令行交互模式类似。接下来演示的实例都将页面的源码作为分析目标，页面源码如下所示:

<html>
  <head>
    <base href='http://example.com/' />
    <title>Example website</title>
  </head>
  <body>
    <div id='images'>
      <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' alt='image1'/></a>
      <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' alt='image2'/></a>
      <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' alt='image3'/></a>
      <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' alt='image4'/></a>
      <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' alt='image5'/></a>
    </div>
  </body>
</html>

3.XPath 选择器

进入Scrapy Shell 后，我们主要通过操作response 变量进行解析。因为我们解析的是HTML代码，Seector 将自动使用 HTML语法来分析。response 有一个属性selector，我们调用response.selector返回的内容就相当于用response的text构造了一个Selector对象。通过这个Selector对象，我们可以调用如xpath、css等解析方法，向方法传人XPath或CSS选择器参数就可以实现信息的提取。

我们用一个实例感受一下，代码如下所示：

打印的结果的形式是Selector组成的列表，其实它是SelectorList类型，SelectorList和Selector都可以继续调用xpath和css等方法来进一步提取数据。

在上面的例子中，我们提取了a节点。接下来，我们尝试继续调用Xpath来提取a节点内包含的img节点，代码如下所示：

我们获得了a节点里面的所有img节点，结果为5。

值得注意的是，选择器的最前方加.（一个点）代表提取元素内部的数据，如果没有加点，则代表从根节点开始提取。此处我么用./img的提取方式，代表从a节点里进行提取。如果我们此处用//img，则还是从html节点里进行提取。

我们刚才使用 response.selector.xpath 方法对数据进行了提取。Scrapy 提供了两个实用的快捷方法，response.xpath 和 response.css，二者的功能完全等同于 response. selector.xpath 和response.selector.css。

方便起见，后面我们统一直接调用response的xpath 和css方法进行选择。

现在我们得到的是 SelectorList 类型的变量，该变量是由 Selector 对象组成的列表。可以用索引单独取出其中某个Selector元素，代码如下所示：

我们可以像操作列表一样操作这个Selectorlist。

但是现在获取的内容是 Selector 或者 SelectorList类型，并不是真正的文本内容。具体的内容怎么提取呢？

比如我们现在想提取a 节点元素，就可以利用extract方法，代码如下所示：

这里使用了extract方法，我们可以把真实需要的内容获取下来。

我们还可以改写XPath 表达式，来选取节点的内部文本和属性，代码如下所示：

我们只需要再加一层/text(）就可以获取节点的内部文本，或者加一层/@href 就可以获取节点的href 属性。其中，@符号后面内容就是要获取的属性名称。

现在，我们可以用一个规则获取所有符合要求的节点，返回的类型是列表类型。

但是这里有一个问题：如果符合要求的节点只有一个，那么返回的结果会是什么呢？我们再用一个实例来感受一下，代码如下所示：

我们用属性限制了匹配的范围，使XPath只可以匹配到一个元素。然后用extract方法提取结果，其结果还是一个列表形式，文本是列表的第一个元素。但很多情况下，我们想要的数据其实就是第个元素内容，这里我们通过加一个索引来获取，代码如下所示：

但是，这个写法很明显是有风险的。一旦 XPath 有问题，extract后的结果可能是一个空列表。如果我们再用索引来获取，就可能导致数组越界。所以，另外一个方法可以专门提取单个元素，它叫作extract_first。我们可以改写上面的例子，相关代码如下:

这样，我们直接利用extract_first 方法将匹配的第一个结果提取出来，同时也不用担心数组越界的问题了。

另外，我们也可以为extract_first 方法设置一个默认值，这样当XPath 规则提取不到内容时，就会直接使用默认值。例如将XPath 改成一个不存在的规则，重新执行代码，代码如下所示：

这里，如果XPath 匹配不到任何元素，调用extract_first 会返回空，也不会报错。

在第二行代码中，我们还传递了一个参数当作默认值，如 Default Image。这样，如果 XPath 匹配不到结果，返回值会使用这个参数来代替，可以看到输出正是如此。

到现在为止，我们了解了Scrapy中的XPath的相关用法，包括嵌套查询、提取内容、提取单个内获取文本和属性等。

4.CSS选择器

接下来，我们看看CSS选择器的用法。

Scrapy的选择器同时还对接了CSS选择器，使用response.css方法就可以使用CSS选择器来选对应的元素了。

例如在上文我们选取了所有的a节点，那么CSS选择器同样可以做到，相关代码如下：

同样，调用extract方法就可以提取节点，代码如下所示：

In [2]: response.css('a').extract()
Out[2]: 
['<a href="image1.html">Name: My image 1 <br><img src="image1_thumb.jpg" alt="image1"></a>','<a href="image2.html">Name: My image 2 <br><img src="image2_thumb.jpg" alt="image2"></a>','<a href="image3.html">Name: My image 3 <br><img src="image3_thumb.jpg" alt="image3"></a>','<a href="image4.html">Name: My image 4 <br><img src="image4_thumb.jpg" alt="image4"></a>','<a href="image5.html">Name: My image 5 <br><img src="image5_thumb.jpg" alt="image5"></a>']

可以看到，用法和Xpath选择是完全一样。

另外，我们也可以进行属性选择和嵌套选择，代码如下所示：

In [3]: response.css('a[href="image1.html"]').extract()
Out[3]: ['<a href="image1.html">Name: My image 1 <br><img src="image1_thumb.jpg" alt="image1"></a>']
In [4]: response.css('a[href="image1.html"] img').extract()
Out[4]: ['<img src="image1_thumb.jpg">']

这里用[href=“image.html”]限定了href属性，可以看到匹配结果就只有一个了。另外如果想查找a节点内的img节点，只需要再加一个空格和img。选择器的写法和标准CSS选择器写法如出一辙。

我们也可以使用extract_first方法提取列表的第一个元素，比如：

In [5]: response.css('a[href="image1.html"] img').extract_first()
Out[5]: '<img src="image1_thumb.jpg">'

接下来的两个用法不太一样。节点的内部文本和属性的获取是这样实现的：

In [6]: response.css('a[href="image1.html"]::text').extract_first()
Out[6]: 'Name: My image 1 '

In [7]: response.css('a[href="image1.html"] img::attr(src)').extract_first()
Out[7]: 'image1_thumb.jpg'

获取文本和属性需要用::text和::attr的写法，而其他库如 Beautiful Soup或 pyquery 都有单独的方法。

另外，CSS选择器和XPath选择器一样，能够嵌套选择。我们可以先用XPath选择器选中所有a节点，再利用CSS 选择器选中 img 节点，然后用 XPath 选择器获取属性。我们用一个实例来感受一下，代码如下所示：