scrapy 使用FilesPipeline和ImagesPipeline

news2025/8/3 7:18:49

除了爬取文本,我们可能还需要下载文件、视频、图片、压缩包等,这也是一些常见的需求。scrapy提供了FilesPipeline和ImagesPipeline,专门用于下载普通文件及图片。两者的使用方法也十分简单,首先看下FilesPipeline的使用方式。

FilesPipeline

FilesPipeline的工作流如下:

  1. spider中爬取要下载的文件链接,将其放置于item中的file_urls
  2. spider将其返回并传送至pipeline链;
  3. FilesPipeline处理时,它会检测是否有file_urls字段,如果有的话,会将url传送给scarpy调度器和下载器;
  4. 下载完成之后,会将结果写入item的另一字段filesfiles包含了文件现在的本地路径(相对于配置FILE_STORE的路径)、文件校验和checksum、文件的url

从上面的过程可以看出使用FilesPipeline的几个必须项:

  1. Item要包含file_urlsfiles两个字段;
  2. 打开FilesPipeline配置;
  3. 配置文件下载目录FILE_STORE

下面以下载https://twistedmatrix.com/documents/current/core/examples/页面下的python代码为例:

# items.py
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class ExamplesItem(scrapy.Item):
    file_urls = scrapy.Field()  # 指定文件下载的连接
    files = scrapy.Field()      #文件下载完成后会往里面写相关的信息

#example.py
# -*- coding: utf-8 -*-
import scrapy
from ..items import ExamplesItem

class ExamplesSpider(scrapy.Spider):
    name = 'examples'
    allowed_domains = ['twistedmatrix.com']
    start_urls = ['https://twistedmatrix.com/documents/current/core/examples/']

    def parse(self, response):
        urls  = response.css('a.reference.download.internal::attr(href)').extract()
        for url in urls:
            yield ExamplesItem(file_urls = [response.urljoin(url)])

#setting.py
#...
FILES_STORE = '/root/TwistedExamples/file_store'
#...

运行scrapy crawl examples,然后在FILES_STORE/full目录下,可以看到已经下载了文件,此时用url的SHA1 hash来作为文件的名称,后面会讲到如何自定义自己想要的名称。先来看看ImagesPipeline

ImagesPipeline

IMagesPipeline的过程与FilePipeline差不多,参数名称和配置不一样;如下:

FilesPipelinImagesPipeline
Packagescrapy.pipelines.files.FilesPipelinescrapy.pipelines.images.ImagesPipeline
Itemfile_urls
files
image_urls
images
存储路径配置参数FILES_STROEIMAGES_STORE

除此之外,ImagesPipeline还支持以下特别功能:

  1. 生成缩略图,通过配置IMAGES_THUMBS = {'size_name': (width_size,heigh_size),}
  2. 过滤过小图片,通过配置IMAGES_MIN_HEIGHTIMAGES_MIN_WIDTH来过滤过小的图片。

下面我们以爬取美女_360图片下美女的图片为例,看下ImagePipeline是如何生效的。
通过抓取该网站地址的请求,可以发现图片地址是通过接口http://image.so.com/zj?ch=beauty&sn=0&listtype=new&temp=1来获取图片地址的,其中sn=0表示图片数据的偏移量,默认每次返回30个图片信息,其返回包是一个json字符串,如下:


    "end": false,
    "count": 30,
    "lastid": 30,
    "list": [{
        "id": "b0cd2c3beced890b801b845a7d2de081",
        "imageid": "f90d2737a6d14cbcb2f1f2d5192356dc",
        "group_title": "清纯美女户外迷人写真笑颜迷人",
        "tag": "萌女",
        "grpseq": 1,
        "cover_imgurl": "http:\/\/i1.umei.cc\/uploads\/tu\/201608\/80\/0dexb2tjurx.jpg",
        "cover_height": 960,
        "cover_width": 640,
        "total_count": 8,
        "index": 1,
        "qhimg_url": "http:\/\/p0.so.qhmsg.com\/t017d478b5ab2f639ff.jpg",
        "qhimg_thumb_url": "http:\/\/p0.so.qhmsg.com\/sdr\/238__\/t017d478b5ab2f639ff.jpg",
        "qhimg_width": 238,
        "qhimg_height": 357,
        "dsptime": ""
    },
    ......省略
    , {
        "id": "37f6474ea039f34b5936eb70d77c057c",
        "imageid": "3125c84c138f1d31096f620c29b94512",
        "group_title": "美女萝莉铁路制服写真清纯动人",
        "tag": "萌女",
        "grpseq": 1,
        "cover_imgurl": "http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/kuojthsyf1j.jpg",
        "cover_height": 587,
        "cover_width": 880,
        "total_count": 8,
        "index": 30,
        "qhimg_url": "http:\/\/p2.so.qhimgs1.com\/t0108dc82794264fe32.jpg",
        "qhimg_thumb_url": "http:\/\/p2.so.qhimgs1.com\/sdr\/238__\/t0108dc82794264fe32.jpg",
        "qhimg_width": 238,
        "qhimg_height": 159,
        "dsptime": ""
    }]
}

我们可以通过返回包的qhimg_url获取图片的链接,具体代码如下:

#items.py
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BeautyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    image_urls = scrapy.Field()
    images = scrapy.Field()

#beauty.py
# -*- coding: utf-8 -*-
import scrapy
import json
from ..items import BeautyItem

class BeautypicSpider(scrapy.Spider):
    name = 'beautypic'
    allowed_domains = ['image.so.com']
    url_pattern = 'http://image.so.com/zj?ch=beauty&sn={offset}&listtype=new&temp=1'
#    start_urls = ['http://image.so.com/']
    def start_requests(self):
        step = 30
        for page in range(0,3):
            url = self.url_pattern.format(offset = page*step)
            yield scrapy.Request(url, callback = self.parse)

    def parse(self, response):
        ret = json.loads(response.body)
        for row in ret['list']:
            yield BeautyItem(image_urls=[row['qhimg_url']], name = row['group_title'])

#settings.py
# Obey robots.txt rules
ROBOTSTXT_OBEY =False

ITEM_PIPELINES = {
     'scrapy.pipelines.images.ImagesPipeline':5,
}
IMAGES_STORE = '/root/beauty/store_file'

下载下来的图片文件如下:

修改文件默认名

从FilePipeline和ImagePipeline中可以看到下载的文件名都比较怪异,不太直观,这些文件名使用的是url地址的sha1散列值,主要用于防止重名的文件相互覆盖,但有时我们想文件按照我们的期望来命名。比如对于下载文件,通过查看FilesPipeline的源码,可以发现文件名主要由FilesPipeline.file_path来决定的,部分代码如下:

class FilesPipeline(MediaPipeline):
   ...
   def file_path(self, request, response=None, info=None):
        ## start of deprecation warning block (can be removed in the future)
        def _warn():
            from scrapy.exceptions import ScrapyDeprecationWarning
            import warnings
            warnings.warn('FilesPipeline.file_key(url) method is deprecated, please use '
                          'file_path(request, response=None, info=None) instead',
                          category=ScrapyDeprecationWarning, stacklevel=1)

        # check if called from file_key with url as first argument
        if not isinstance(request, Request):
            _warn()
            url = request
        else:
            url = request.url

        # detect if file_key() method has been overridden
        if not hasattr(self.file_key, '_base'):
            _warn()
            return self.file_key(url)
        ## end of deprecation warning block

        media_guid = hashlib.sha1(to_bytes(url)).hexdigest()  # change to request.url after deprecation
        media_ext = os.path.splitext(url)[1]  # change to request.url after deprecation
        return 'full/%s%s' % (media_guid, media_ext)
    ...

因此我们可以通过继承FilesPipeline重写file_path()方法来重定义文件名,新的自定义SelfDefineFilePipline如下:

#pipelines.py
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.pipelines.files import FilesPipeline
from urllib.parse import urlparse
import os
class MatplotlibExamplesPipeline(object):
    def process_item(self, item, spider):
        return item


class SelfDefineFilePipline(FilesPipeline):
    """
    继承FilesPipeline,更改其存储文件的方式
    """
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def file_path(self, request, response=None, info=None):
        parse_result = urlparse(request.url)
        path = parse_result.path
        basename = os.path.basename(path)
        return basename

在配置文件settings.py中打开SelfDefineFilePipline并运行爬虫,以下为下载结果。

这里讲的只是其中一种方法,主要是为了提供一种思路,更改文件名的方法有很多,要看具体场景,比如下载图片那一节,url并没有带图片的名称,那么通过只更改file_path()方法来命名应该不可能,因为item['name']并没有传进来,通过查找源码,发现在get_media_requests()方法中是通过Request来下载图片的,这个方法里面也有带item信息,可以将item['name']在Request的meta参数传递,在file_path()方法就能获取到外部传进来的名字。所以看源码其实也是学习框架的一种方式。

总结

本篇讲了如何使用scrapy自带的FilesPipeline和ImagesPipeline来下载文件和图片,然后讲了如何通过继承并重写上述类的方法来重定义文件名的命名方法。下一篇主要学习下LineExtractor快速提前链接和Exporter导出结果到文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Netty的高性能RPC框架(分布式缓存、雪花算法、幂等性)

文章目录前言介绍1. 服务提供2. 安全策略3. 设计模式亮点1. 信息摘要算法的应用2. 心跳机制3. SPI 机制4. IO 异步非阻塞5. RNF 协议快速开始1.依赖1.1 直接引入1.2 maven引入2. 启动 Nacos3. 提供接口4. 启动服务5. 启动客户端5. 额外配置5.1 配置文件5.2 日志配置6. 场景应用…

AxGlyph矢量绘图软件 | 绘图软件

文章目录AxGlyph矢量绘图软件安装教程所见即所得滚动式符号面板,多底色、面板符号定制和分页顺序调整格式化图形,通过节点控制可获取丰富的变形支持自由矢量画笔、混合矢量路径和矢量漫水填充整合精简版的AxMath*,可方便的在图形中嵌入数学公…

Python的PyQt框架的使用-构建环境篇

Python的PyQt框架的使用-构建环境篇一、前言二、安装PyQt三、使用第三方开发工具一、前言 个人主页: ζ小菜鸡大家好我是ζ小菜鸡,小伙伴们,让我们一起来学习Python的PyQt框架的使用。如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连) Python起初是一…

SpringBoot-Eureka-xstream-rce漏洞复现

SpringBoot-Eureka-xstream-rce actuator 是 springboot 提供的用来对应用系统进行自省和监控的功能模块。其提供的执行器端点分为两类:原生端点和用户自定义扩展端点,原生端点主要有: 漏洞利用 1.利用trace,获取认证信息&#…

虚拟内存初探CSAPP

VM as a tool for caching CMU213-CSAPP-Virtual-Memory-Concepts | GreenHatHGのBlog 理解这个概念,就是说,VM是看作是独立与CPU和主存之外的disk,然后主存看成是这个虚拟地址数列的cache (DRAM就是物理的主存) 重新用自己的…

大规模异构图召回在美团到店推荐广告的应用

总第530篇2022年 第047篇美团到店推荐广告团队在图神经网络的长期落地实践中,思考分析了场景的特点与挑战,针对性地进行了模型设计,并通过大规模训练工具及线上部署优化多次成功落地,带来了线上收入提升。本文主要介绍了大规模图召…

nginx--源码分析 array(实现动态数组)

1.基本数据结构 typedef struct {void *elts;ngx_uint_t nelts;size_t size;ngx_uint_t nalloc;ngx_pool_t *pool; } ngx_array_t;结构成员定义 1.void* elts :数组的内存位置, 即数组首地址 采用void* 近似使用模板技术,可以通过类…

npm配置taobao镜像及nrm快速换源工具介绍

文章目录npm配置淘宝镜像1 为什么默认源下载很慢?2 淘宝npm镜像服务器3 切换npm的下包镜像源4 nrmnpm配置淘宝镜像 1 为什么默认源下载很慢? 在使用npm下包的时候,默认从国外的https://registry.npmjs.orgl服务器进行下载,此时&…

linux的重定向与xshell原理

文章目录一、重定向1.输出重定向&#xff1a;>1.写入指定文件2. 覆盖写2.追加重定向 &#xff1a;>>3.输出重定向&#xff1a;<1.键盘显示2.文件显示4.重定向的一些认知误区1. test.c只显示错误的2. msg.c只显示正确的3.分析4.显示出正确的二 、xshell命令及原理1.…

【Python】环境搭建详细过程

前言 要想能够进行 Python 开发, 就需要搭建好 Python 的环境。 需要安装的环境主要是两个部分: 运行环境: Python开发环境: PyCharm 安装Python 1、找到官方网站 2、找到下载页面 点击后开始下载&#xff0c;下载完成后会出现exe的安装程序 3、双击安装包 注意&#xff1a…

scala语法(一)(有java基础速学)

在拥有java基础上学习scala&#xff0c;注意以下几点 1. 变量声明 var | val 变量名 [: 变量类型] 变量值 val name: String "nico" 声明变量时&#xff0c;类型可以省略&#xff08;就是叫 类型推断&#xff09; val name "nico"类型确定后&#xff…

下载MySQL驱动包,并导进idea

操作MySQL就需要下载Mysq 驱动包 Mysql驱动包可以去“中央仓库”下载&#xff1b; 打开“中央仓库”&#xff0c;可能会等待验证是否为人机&#xff1a; 进行搜索&#xff0c;找到【MySQL Connector Java】 进行下载 往下话&#xff0c;找到跟自己MySQL对应的版本号&#xf…

Linux基本指令(二)

这章我们将继续介绍一些Linux常见的指令. 目录 more指令 less指令&#xff08;重要&#xff09; head指令 tail指令 时间相关的指令 cal指令 find指令 &#xff08;很重要&#xff09; which指令 alias指令 grep指令 xargs指令 zip/unzip指令 tar指令&#xff08;重要&#xff…

使用json、yaml、toml作为配置文件,你知道他们的区别吗

前言 配置文件&#xff0c;不言而喻&#xff0c;主要是我们进行项目和工程配置的文件。 如果是站在前端角度说的话&#xff0c;我们最常接触的就是 json以及 js类型的文件&#xff0c;这种形式的配置写法对前端非常友好&#xff0c;因为都是我们熟悉的 JS 对象结构&#xff0…

计算机专业毕业设计项目,如何去做?一位大龄过期“初级”程序员来讲讲

首先自我介绍一下&#xff0c;作为一名超过35岁以上初级程序员&#xff0c;请看仔细&#xff0c;初级程序员。从业5年&#xff0c;涉及的领域web站全栈&#xff0c;后端使用语言Java。 一、主题和程序语言的选择 我记得上个小伙伴跟我说过&#xff0c;他们的大学是每年的4月份…

pytest -- Allure报告

执行和生成报告&#xff1a; 1&#xff09;在main文件中加入如下代码&#xff1a; 1&#xff09;在main文件中加入如下代码&#xff1a; if __name__ __main__:# 指定临时json文件生成位置 pytest.main(["./case/test_visit_url_screenshot.py", …

好用的电容笔有哪些?2022年电容笔十大品牌排行榜

每一件产品都有其独特的含义、存在和作用。现在ipad的热度和ipad的影响力都在逐渐提升&#xff0c;使得ipad的用户也在不断增长&#xff0c;那么想要提升ipad的性能&#xff0c;就必须要有一款适合ipad的电容笔。所以&#xff0c;应该选用什么牌子的电容笔&#xff1f;我会给大…

完美支持--WIN11--Crack--LightningChart-10.3.2.2

实例探究--LightningChart,Crack完美支持Windows11 破解版了解LightningChart的客户如何在他们的应用程序中实施 LightningChart &#xff0c;成为现实生活中的成功案例。---内容摘自官网&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; Lightnin…

一文让你了解数据采集

随着云计算、大数据、人工智能的发展&#xff0c;数据采集作为数据的重要手段&#xff0c;成为广大企业的迫切需求。 所谓“得数据者&#xff0c;得人工智能”&#xff0c;如今人工智能早已在我们的生活中屡见不鲜。如“人脸识别”、“语音唤醒音响”等都属于人工智能的范畴。…

网站劫持常见方法

前言 本文主要是对常见的网站劫持方法进行总结学习&#xff0c;通过提前学习了解&#xff0c;不至于在遇到实际项目时手足无措。 网站劫持是黑帽SEO中的一种方式&#xff0c;可以通过入侵服务器获得权限后&#xff0c;对前端JS、后端脚本文件以及中间件进行设置&#xff0c;从…