Python爬虫(10)Python数据存储实战:基于pymongo的MongoDB开发深度指南

news2025/5/24 20:36:34

目录

      • 一、为什么需要文档型数据库?
        • 1.1 数据存储的范式变革
        • 1.2 pymongo的核心优势
      • 二、pymongo核心操作全解析
        • 2.1 环境准备
        • 2.2 数据库连接与CRUD操作
        • 2.3 聚合管道实战
        • 2.4 分批次插入百万级数据(进阶)
        • 2.5 分批次插入百万级数据(进阶)
      • 三、生产环境进阶配置
        • 3.1 性能优化关键措施
        • 3.2 高可用架构配置
        • 3.3 安全加固方案
      • 四、总结与最佳实践
        • 4.1 技术选型对比‌:
        • 4.2 性能优化原则‌:
        • 4‌.3 避坑指南‌:
        • Python爬虫相关文章(推荐)

一、为什么需要文档型数据库?

1.1 数据存储的范式变革

在移动互联网与物联网时代,‌非结构化数据占比超过80%‌(IDC报告)。传统关系型数据库(如MySQL)的固定表结构难以应对以下场景:

  • ‌动态字段需求‌:用户画像标签频繁增减
  • ‌海量数据写入‌:物联网设备每秒万级数据写入
  • ‌复杂嵌套结构‌:一篇电商商品信息包含多级评论、规格参数

‌MongoDB作为文档型数据库的代表‌,采用BSON(Binary JSON)格式存储数据,支持动态模式、水平扩展和地理空间查询,成为大数据场景的核心基础设施。

1.2 pymongo的核心优势

作为MongoDB官方Python驱动,pymongo提供:

  • ‌原生BSON支持‌:无缝处理Python字典与BSON的转换
  • ‌连接池管理‌:自动管理TCP连接复用
  • ‌聚合管道封装‌:支持复杂数据分析操作
  • ‌完善的API‌:覆盖索引管理、副本集操作等高级功能

二、pymongo核心操作全解析

2.1 环境准备
# 安装MongoDB社区版(以Ubuntu为例)
wget -qO - https://www.mongodb.org/static/pgp/server-6.0.asc | sudo apt-key add -
echo "deb [ arch=amd64,arm64 ] https://repo.mongodb.org/apt/ubuntu focal/mongodb-org/6.0 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-6.0.list
sudo apt-get update
sudo apt-get install -y mongodb-org

# 安装pymongo
pip install pymongo

2.2 数据库连接与CRUD操作
from pymongo import MongoClient
from pymongo.errors import ConnectionFailure

# 建立连接(默认连接池大小100)
client = MongoClient(
    host="localhost",
    port=27017,
    username="admin",  # 启用身份验证时必填
    password="securepassword",
    authSource="admin"
)

try:
    # 心跳检测
    client.admin.command('ping')
    print("Successfully connected to MongoDB!")
except ConnectionFailure:
    print("Server not available")

# 选择数据库与集合(自动懒创建)
db = client["ecommerce"]
products_col = db["products"]

# 插入文档(自动生成_id)
product_data = {
    "name": "Wireless Mouse",
    "price": 49.99,
    "tags": ["electronics", "computer"],
    "stock": {"warehouse_A": 100, "warehouse_B": 50},
    "last_modified": datetime.now()
}
insert_result = products_col.insert_one(product_data)
print(f"Inserted ID: {insert_result.inserted_id}")

# 查询文档(支持嵌套查询)
query = {"price": {"$lt": 60}, "tags": "electronics"}
projection = {"name": 1, "price": 1}  # 类似SQL SELECT
cursor = products_col.find(query, projection).limit(5)
for doc in cursor:
    print(doc)

# 更新文档(原子操作)
update_filter = {"name": "Wireless Mouse"}
update_data = {"$inc": {"stock.warehouse_A": -10}, "$set": {"last_modified": datetime.now()}}
update_result = products_col.update_one(update_filter, update_data)
print(f"Modified count: {update_result.modified_count}")

# 删除文档
delete_result = products_col.delete_many({"price": {"$gt": 200}})
print(f"Deleted count: {delete_result.deleted_count}")

2.3 聚合管道实战
# 统计各仓库库存总量
pipeline = [
    {"$unwind": "$stock"},  # 展开嵌套文档
    {"$group": {
        "_id": "$stock.warehouse",
        "total_stock": {"$sum": "$stock.quantity"}
    }},
    {"$sort": {"total_stock": -1}}
]
results = products_col.aggregate(pipeline)
for res in results:
    print(f"Warehouse {res['_id']}: {res['total_stock']} units")

2.4 分批次插入百万级数据(进阶)
from pymongo import MongoClient
from faker import Faker
import time

client = MongoClient('mongodb://localhost:27017/')
db = client['bigdata']
collection = db['user_profiles']

fake = Faker()
batch_size = 5000  # 分批次插入减少内存压力

def generate_batch(batch_size):
    return [{
        "name": fake.name(),
        "email": fake.email(),
        "last_login": fake.date_time_this_year()
    } for _ in range(batch_size)]

start_time = time.time()
for _ in range(200):  # 总数据量100万
    batch_data = generate_batch(batch_size)
    collection.insert_many(batch_data, ordered=False)  # 无序插入提升速度
    print(f"已插入 {(i+1)*batch_size} 条数据")

print(f"总耗时: {time.time()-start_time:.2f}秒") 

2.5 分批次插入百万级数据(进阶)
# 分析电商订单数据(含嵌套结构)
pipeline = [
    {"$unwind": "$items"},  # 展开订单中的商品数组
    {"$match": {"status": "completed"}},  # 筛选已完成订单
    {"$group": {
        "_id": "$items.category",
        "total_sales": {"$sum": "$items.price"},
        "avg_quantity": {"$avg": "$items.quantity"},
        "top_product": {"$max": "$items.name"}
    }},
    {"$sort": {"total_sales": -1}},
    {"$limit": 10}
]

orders_col = db["orders"]
results = orders_col.aggregate(pipeline)

for res in results:
    print(f"品类 {res['_id']}: 销售额{res['total_sales']}元")

三、生产环境进阶配置

3.1 性能优化关键措施
# 创建索引(提升查询速度)
products_col.create_index([("name", pymongo.ASCENDING)], unique=True)
products_col.create_index([("price", pymongo.ASCENDING), ("tags", pymongo.ASCENDING)])

# 批量写入提升吞吐量
bulk_ops = [
    pymongo.InsertOne({"name": "Keyboard", "price": 89.99}),
    pymongo.UpdateOne({"name": "Mouse"}, {"$set": {"price": 59.99}}),
    pymongo.DeleteOne({"name": "Earphones"})
]
results = products_col.bulk_write(bulk_ops)

3.2 高可用架构配置
# MongoDB副本集配置(3节点)
replication:
  replSetName: "rs0"
  members:
    - _id: 0, host: "mongo1:27017"
    - _id: 1, host: "mongo2:27017"
    - _id: 2, host: "mongo3:27017", arbiterOnly: true

3.3 安全加固方案
# 启用身份验证
use admin
db.createUser({
  user: "admin",
  pwd: "securepassword",
  roles: [ { role: "userAdminAnyDatabase", db: "admin" } ]
})

# 配置网络加密
net:
  tls:
    mode: requireTLS
    certificateKeyFile: /etc/ssl/mongo.pem

四、总结与最佳实践

4.1 技术选型对比‌:
特性MongoDBMySQL
数据模型动态文档固定表结构
扩展方式水平分片垂直扩展
事务支持4.0+版本支持原生完善支持
适用场景日志/用户行为数据金融交易系统
4.2 性能优化原则‌:
  1. ‌Working Set‌原则:确保常用数据能放入内存
  2. ‌索引覆盖‌:通过组合索引避免回表查询
  3. ‌分片键设计‌:选择高基数、易分散的字段
4‌.3 避坑指南‌:
  • 避免文档无限制增长(推荐设置capped collection)
  • 慎用$where操作符(导致全表扫描)
  • 生产环境必须配置副本集与定期备份
Python爬虫相关文章(推荐)
Python爬虫介绍Python爬虫(1)Python爬虫:从原理到实战,一文掌握数据采集核心技术
HTTP协议解析Python爬虫(2)Python爬虫入门:从HTTP协议解析到豆瓣电影数据抓取实战
HTML核心技巧Python爬虫(3)HTML核心技巧:从零掌握class与id选择器,精准定位网页元素
CSS核心机制Python爬虫(4)CSS核心机制:全面解析选择器分类、用法与实战应用
静态页面抓取实战Python爬虫(5)静态页面抓取实战:requests库请求头配置与反反爬策略详解
静态页面解析实战Python爬虫(6)静态页面解析实战:BeautifulSoup与lxml(XPath)高效提取数据指南
Python数据存储实战 CSV文件Python爬虫(7)Python数据存储实战:CSV文件读写与复杂数据处理指南
Python数据存储实战 JSON文件Python爬虫(8)Python数据存储实战:JSON文件读写与复杂结构化数据处理指南
Python数据存储实战 MySQL数据库Python爬虫(9)Python数据存储实战:基于pymysql的MySQL数据库操作详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2384858.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型「瘦身」指南:从LLaMA到MobileBERT的轻量化部署实战

大模型「瘦身」指南:从LLaMA到MobileBERT的轻量化部署实战 系统化学习人工智能网站(收藏):https://www.captainbed.cn/flu 文章目录 大模型「瘦身」指南:从LLaMA到MobileBERT的轻量化部署实战摘要引言一、轻量化技术…

从逻辑视角学习信息论:概念框架与实践指南

文章目录 一、信息论的逻辑基础与哲学内涵1.1 信息的逻辑本质:区分与差异1.2 逆范围原理与信息内容 二、信息论与逻辑学的概念交汇2.1 熵作为逻辑不确定性的度量2.2 互信息与逻辑依赖2.3 信道容量的逻辑极限 三、信息论的核心原理与逻辑基础3.1 最大熵原理的逻辑正当…

TDengine 运维—容量规划

概述 若计划使用 TDengine 搭建一个时序数据平台,须提前对计算资源、存储资源和网络资源进行详细规划,以确保满足业务场景的需求。通常 TDengine 会运行多个进程,包括 taosd、taosadapter、taoskeeper、taos-explorer 和 taosx。 在这些进程…

PPP 拨号失败:ATD*99***1# ... failed

从日志来看,主要有两类问题: 一、led_indicator_stop 报 invalid p_handle E (5750) led_indicator: …/led_indicator.c:461 (led_indicator_stop):invalid p_handle原因分析 led_indicator_stop() 的参数 p_handle (即之前 led_indicator…

【计网】五六章习题测试

目录 1. (单选题, 3 分)某个网络所分配到的地址块为172.16.0.0/29,能接收目的地址为172.16.0.7的IP分组的最大主机数是( )。 2. (单选题, 3 分)若将某个“/19”的CIDR地址块划分为7个子块,则可能的最小子块中的可分配IP地址数量…

汇川EasyPLC MODBUS-RTU通信配置和编程实现

累积流量计算(MODBUS RTU通信数据处理)数据处理相关内容。 累积流量计算(MODBUS RTU通信数据处理)_流量积算仪modbus rtu通讯-CSDN博客文章浏览阅读219次。1、常用通信数据处理MODBUS通信系列之数据处理_modbus模拟的数据变化后会在原来的基础上累加是为什么-CSDN博客MODBUS通…

从 CANopen到 PROFINET:网关助力物流中心实现复杂的自动化升级

使用 CANopen PLC 扩展改造物流中心的传送带 倍讯科技profinet转CANopen网关BX-601-EIP将新的 PROFINET PLC 系统与旧的基于 CANopen 的传送带连接起来,简化了物流中心的自动化升级。 新建还是升级?这些问题通常出现在复杂的内部物流设施中,…

基于Yolov8+PyQT的老人摔倒识别系统源码

概述 ​​基于Yolov8PyQT的老人摔倒识别系统​​,该系统通过深度学习算法实时检测人体姿态,精准识别站立、摔倒中等3种状态,为家庭或养老机构提供及时预警功能。 主要内容 ​​完整可运行代码​​ 项目采用Yolov8目标检测框架结合PyQT5开发…

wsl2 不能联网

wsl2 安装后用 wifi 共享是能联网,问题出在公司网络限制 wsl2 IP 访问网络,但是主机可以上网。 解决办法,在主机用 nginx 设置代理,可能需要开端口权限 server {listen 9000;server_name localhost;location /ubuntu/ {#…

Java[IDEA]里的debug

目录 前言 Debug 使用Debug 总结 前言 这里我说一下就是 java IDEA 工具里的debug工具 里的一个小问题 就是 当我们使用debug去查看内部文档 查看不到 是为什么 Debug 所谓 debug 工具 他就是用来调试程序的 当我们写代码 报错 出错时 我们就可以使用这个工具 因此这个工具…

DAO模式

1. 持久化 简单来说,就是把代码的处理结果转换成需要的格式进行储存。 2. JDBC的封装 3. DAO模式 4. Properties类与Properties配置文件 添加 读取 5. 使用实体类传递数据 6. 总结 附录: BaseDao指南 BaseDao指南-CSDN博客

ECharts图表工厂,完整代码+思路逻辑

Echart工厂支持柱状图(bar)折线图(line)散点图(scatter)饼图(pie)雷达图(radar)极坐标柱状图(polarBar)和极坐标折线图(po…

CSS:margin的塌陷与合并问题

文章目录 一、margin塌陷问题二、margin合并问题 一、margin塌陷问题 二、margin合并问题

探索服务网格(Service Mesh):云原生时代的网络新范式

文章目录 一、引言二、什么是服务网格基本定义形象比喻 三、服务网格解决了哪些问题微服务通信复杂性可观察性安全性 四、常见的服务网格实现IstioLinkerdConsul Connect 五、服务网格的应用场景大型微服务架构混合云环境 六、服务网格的未来发展与其他技术的融合标准化和行业规…

SQL SERVER中实现类似LEAST函数的功能,返回多列数据中的最小值

使用 LEAST()函数可以简洁地在一行SQL语句中找出多个值中的最小值,但在SQLServer数据库中,没有内置的LEAST函数。 我们可以使用values子句创建临时的数据集的办法,返回多列数据中的最小值。 创建表 CREATE TABLE stu…

SymPy | 获取表达式自由变量方法与因式分解

SymPy 是 Python 中强大的符号计算库,广泛应用于数学建模、公式推导和科学计算。本文将从两个核心功能展开:表达式中自由变量的获取与因式分解的实现,通过完整代码示例和深入分析,帮助读者掌握其使用方法。 第一部分:获…

深度剖析并发I/O模型select、poll、epoll与IOCP核心机制

核心概要:select、poll、epoll 和 IOCP 是四种用于提升服务器并发处理能力的I/O模型或机制。前三者主要属于I/O多路复用范畴,允许单个进程或线程监视多个I/O流的状态;而 IOCP 则是一种更为彻底的异步I/O模型。 一、引言:为何需要这…

数据结构 -- 交换排序(冒泡排序和快速排序)

冒泡排序 基于“交换”的排序&#xff1a;根据序列中两个元素关键字的比较结果来对换这两个记录在序列中的位置 //交换 void swap(int &a,int &b){int temp a;a b;b temp; }//冒泡排序 void BubbleSort(int A[],int n){for(int i0;i<n-1;i){bool flag false; …

【算法】: 前缀和算法(利用o(1)的时间复杂度快速求区间和)

前缀和算法&#xff1a;高效处理区间求和的利器 目录 引言什么是前缀和前缀和的基本实现前缀和的作用前缀和的典型应用场景前缀和的优缺点分析实战例题解析 引言 区间求和问题的普遍性暴力解法的时间复杂度问题前缀和算法的核心思想 什么是前缀和 前缀和的数学定义 通俗来…

macOS 安装 PostgreSQL

文章目录 安装安装信息 验证GUI 工具下载 安装 最简单的方式是通过 brew 安装 brew install postgresql17该版本在 brew 上的详情页&#xff1a;https://formulae.brew.sh/formula/postgresql17 你也可以根据需要&#xff0c;搜索 安装更新版本 如果你没有安装 brew&#xf…