Scrapy基本概念——Item Pipeline

news2025/7/20 13:09:07

一、Item Pipeline介绍

蜘蛛抓取的每一个Item都会被发送到Item Pipeline。根据ITEM_PIPELINES的优先级设置,不同的Item Pipeline依次处理每一个Item,最后可删除该Item不做处理,也可将该Item发送到下一个Item Pipeline。Item Pipeline的主要用途有:

1、清洗数据

2、验证数据(检查Item某些字段是否为空)

3、数据查重

4、存储数据

二、Item Pipeline的方法

1、process_item

语法:process_item(self, item, spider)
参数:
item (item object) -- Item实例
spider (Spider object) -- spider实例
用法:每个Item Pipeline都需要调用此方法,这个方法必须返回一个 Item (或任何继承类)对象, 或是抛出DropItem异常,被丢弃的Item将不会被之后的Item Pipeline所处理。

2、open_spider

语法:open_spider(self, spider)
参数:spider (Spider object) -- spider实例
用法:当spider打开时调用此方法。

3、close_spider

语法:close_spider(self, spider)
参数:spider (Spider object) -- spider实例
用法:当spider关闭时调用此方法。

4、from_crawler

语法:from_crawler(cls, crawler)
参数:crawler (Crawler object) -- 使用此管道的爬虫程序
用法:调用此方法从爬虫程序Crawler生成实例。返回实例对象括号里面的参数,是会进入初始化方法__init__的

三、Item Pipeline的示例

1、验证数据——价格数据验证(删除Item中price字段为空的Item)

from itemadapter import ItemAdapter
from scrapy.exceptions import DropItem
class PricePipeline:
    vat_factor = 1.15
    def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        if adapter.get('price'):
            if adapter.get('price_excludes_vat'):
                adapter['price'] = adapter['price'] * self.vat_factor
            return item
        else:
            raise DropItem(f"Missing price in {item}")

2、存储数据——将项目写入JSON文件

import json
from itemadapter import ItemAdapter
class JsonWriterPipeline:
    def open_spider(self, spider):
        self.file = open('items.jl', 'w')
    def close_spider(self, spider):
        self.file.close()
    def process_item(self, item, spider):
        line = json.dumps(ItemAdapter(item).asdict()) + "\n"
        self.file.write(line)
        return item

3、存储数据——将项目写入MongoDB

import pymongo
from itemadapter import ItemAdapter
class MongoPipeline:
    collection_name = 'scrapy_items'
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),                #从settings读取配置
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')    #从settings读取配置
        )
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def close_spider(self, spider):
        self.client.close()
    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(ItemAdapter(item).asdict())
        return item

4、存储数据——项目截图

此Item Pipeline生成一个请求,向本地运行的Splash实例(一个javascript渲染服务器)发出,以渲染Item中URL的屏幕截图。Item Pipeline使用协同程序将请求响应下载后,将屏幕截图保存到文件中,并将文件名添加到Item中。

import hashlib
from urllib.parse import quote
import scrapy
from itemadapter import ItemAdapter
from scrapy.utils.defer import maybe_deferred_to_future
class ScreenshotPipeline:

    SPLASH_URL = "http://localhost:8050/render.png?url={}"
    async def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        encoded_item_url = quote(adapter["url"])
        screenshot_url = self.SPLASH_URL.format(encoded_item_url)
        request = scrapy.Request(screenshot_url)
        response = await maybe_deferred_to_future(spider.crawler.engine.download(request, spider))
        if response.status != 200:
            # Error happened, return item.
            return item
        # Save screenshot to file, filename will be hash of url.
        url = adapter["url"]
        url_hash = hashlib.md5(url.encode("utf8")).hexdigest()
        filename = f"{url_hash}.png"
        with open(filename, "wb") as f:
            f.write(response.body)
        # Store filename in item.
        adapter["screenshot_filename"] = filename
        return item

5、数据查重——重复筛选器

from itemadapter import ItemAdapter
from scrapy.exceptions import DropItem
class DuplicatesPipeline:
    def __init__(self):
        self.ids_seen = set()
    def process_item(self, item, spider):
        adapter = ItemAdapter(item)
        if adapter['id'] in self.ids_seen:
            raise DropItem(f"Duplicate item found: {item!r}")
        else:
            self.ids_seen.add(adapter['id'])
            return item

四、Item Pipeline的激活

将Item Pipeline的类添加到ITEM_PIPELINES设置,在此设置中分配给类的整数值决定了运行顺序,由低到高。如下:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/35871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于8086的压力检测器设计(Proteus8仿真)

一、实验名称 基于 proteus 设计压力检测计 二、实验目的  深刻理解并掌握基于 8086 处理器的系统工程的工作原理和流程;  深刻理解并掌握 8086 处理器的工作原理、引脚功能;  深刻理解并掌握压力传感器件 MPX4115 的工作原理、引脚功能&#x…

C++:函数指针进阶:看完还不用std::function来捶我

1:函数指针的背景 我们先简单聊一下函数指针的背景,具体使用请参考我的这篇博客 C :函数: 函数指针_hongwen_yul的博客-CSDN博客 假设现在有这样一段代码:C/C中可以使用指针指向一段代码,这个指针就叫函…

【季报分析】百度2022年Q3:逆势而上

11月22日,百度(09888.HK)发布了2022年第三季度的业绩报告,尽管面对疫情不断侵扰、外部环境压力带来的诸多挑战,百度在Q3依然取得了相当不错的财务数据,尤其是在自动驾驶、智能硬件方面的表现尤为突出&#…

【Linux】缓冲区

目录🌈前言🌷1、缓冲区🍡1.1、缓冲区的理解🍢1.2、缓冲区在哪里?🍣1.3、缓冲区的刷新策略🍣1.4、模拟实现C库函数🌸2、标准输出流与错误流的区别🍤2.1、概念&#x1f365…

微客云升级会员制度

会员制度 会员制度是一种人与人或组织与组织之间进行沟通的媒介,它是由某个组织发起并在该组织的管理运作下,吸引客户自愿加入,目的是定期与会员联系,为他们提供具有较高感知价值的利益包。 Part 1 会员制度 建立长期稳定的客…

Python测试框架之Pytest基础入门

Pytest简介 Pytest is a mature full-featured Python testing tool that helps you write better programs.The pytest framework makes it easy to write small tests, yet scales to support complex functional testing for applications and libraries. 通过官方网站介绍…

Vue子组件传自定义事件给父组件

我们知道组件之间是不能够进行通信的,都是相互独立的,你用不了我的状态和方法,我也用不了你的,那如何实现通信呢,可以间接实现; 实现父组件和子组件的通信: 子组件想用父组件的状态需要父组件…

Apache ShardingSphere(二) 基本使用

文章目录二 ShardingSphere JDBC 基本使用2.1 ShardingSphere JDBC 水平分表2.1.1 案例入门2.1.2 解读配置文件2.1.3 其他测试2.1.4 延伸问题2.2 ShardingSphere JDBC 水平分库2.2.1 案例入门2.2.2 解读配置文件2.1.3 其他测试2.3 ShardingSphere JDBC 广播表2.3.1 基本案例入门…

矩阵链相乘(动态规划)

【问题描述】给定n个矩阵M1,M2...MnM_1,M_2...M_nM1​,M2​...Mn​,他们的维数分别是r1∗c1,r2∗c2...rn∗cnr_1*c_1,r_2*c_2...r_n*c_nr1​∗c1​,r2​∗c2​...rn​∗cn​,要求使用【动态规划】的策略求解矩阵连乘的最优计算代价(总乘法次数最少)。题目…

Docker 学习视频集 bilibili

1.什么是Docker_哔哩哔哩_bilibili 2.Docker的安装_哔哩哔哩_bilibili 3.镜像、容器和仓库_哔哩哔哩_bilibili 4.在容器中部署一个应用_哔哩哔哩_bilibili 5.将容器保存成镜像成片_哔哩哔哩_bilibili 6.使用Dockerfile构建镜像1_哔哩哔哩_bilibili 7.导入导出镜像_哔哩哔…

vscode配合gitee同步云设置

更换开发设备后,新安装的vscode软件,是没有原先的配置的,诸如快捷键,快捷代码段生成、安装的各个插件,插件的配置等都木大了,开发起来会很别扭,网上最多的就是去安装一个叫做Settings Sync的插件…

springcloud五大核心部件

springcloud五大核心部件 一、springcloud介绍 springcloud是微服务的集大成者,将一系列的组件进行了整合。基于springboot构建 ,可以快速配置常用模块并构建庞大的分布式系统。 二、具体业务分析 我们举一个例子来进行业务场景分析 假设现在开发一…

Websocket学习

参考:http://www.mydlq.club/article/86/ 这里写目录标题一、WebSocket 简介二、WebSocket 特点三、为什么需要 WebSocket四、WebSocket 连接流程五、WebSocket 使用场景六、使用案例1.提醒客户端有新订单2.客户端交互一、WebSocket 简介 WebSocket 是一种基于 TCP…

为什么越来越多的企业在会议室使用无线流媒体网关?

1,用户已有华为,MAXHUB等投屏功能设备,不需要这个设备了。但是市面上大部分投屏设备的使用存在以下问题: 操作麻烦,我们发射器是直接触摸投屏,安全性低,需要驱动软件。 2,市场上有很…

实现矩阵连乘积(动态规划)

目录 实现矩阵连乘积 题目 问题分析 算法分析 时间复杂度 代码实现 执行结果 动态规划 基本思想 举例 个人主页:天寒雨落的博客_CSDN博客-初学者入门C语言,python,数据库领域博主 💬 热门专栏:初学者入门C语言_天寒雨落的博客-CSDN…

【SVM分类】基于鸽群算法优化支持向量机SVM实现分类附matlab的代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

arduino 复习题

名词解释 中断 计算机运行过程中,出现某些意外情况需主机干预时,机器能自动停止正在运行的程序并转入处理新情况的程序,处理完毕后又返回原被暂停的程序继续运行 中断服务程序 用于 CPU 处理中断的程序 中断源 引起中断的原因,或…

【JVS低代码平台】如何实现与外部系统/内部代码直接对接?

JVS是开放性的低代码开发平台,为开发团队预留了多种对接的方式。我这里列举集中对接的模式。 用户对接(统一登录/单点跳转) 在日常的企业需求中,常常有这种情况。企业内部考勤打开都是通过钉钉或者企微的,那么希望我们…

Grasp Detection论文、代码汇总

文章目录2022End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB2019Antipodal Robotic Grasping using Generative Residual Convolutional Neural Network2022 End-to-end Trainable Deep Neural Network for Robot…

现代PCB生产工艺——加成法、减成法与半加成法

继续为朋友们分享关于PCB生产工艺的知识。 现代PCB生产工艺,目前主要分为:加成法、减成法与半加成法。 其具体定义如下: 加成法: 通过网印或曝光形成图形,经钻孔、沉铜、转移层压等工艺加工,直接将导电图形…