python爬取豆瓣电影Top250数据

news2025/7/19 13:04:03

本次爬虫案例使用Python语言编写,使用了requests库进行网页请求,使用了BeautifulSoup库进行网页解析,使用了openpyxl库进行数据的保存。

案例中的爬虫目标是豆瓣电影Top250,通过循环访问不同页面进行数据的爬取。在每个页面上,使用requests库发送GET请求,并设置合适的请求头,以避免被网站屏蔽。然后使用BeautifulSoup库解析返回的HTML响应,提取出需要的电影信息。

电影信息包括电影名称、排名和简介。通过解析HTML结构,使用find方法获取到对应的元素,然后提取出文本内容。提取到的信息存储在一个列表中,然后通过openpyxl库将信息逐行写入Excel文件的工作表中。

最后,使用workbook.save方法将数据保存到名为"douban_movie_top250.xlsx"的Excel文件中。

需要注意的是,在实际爬取数据时,应该遵循网站的robots.txt规范,并避免对网站造成过大的负担。另外,豆瓣电影Top250是一个公开的网页,但对于其他网站,可能需要进行登陆或者处理反爬机制。

以下是一个简单的Python爬虫案例,用于爬取豆瓣电影Top250的数据,并保存到Excel文件中。 

import requests
from bs4 import BeautifulSoup
import openpyxl

# 创建工作簿和工作表
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Top250'

# 爬取数据
url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

for i in range(10):
    params = {
        'start': i * 25
    }

    response = requests.get(url, headers=headers, params=params)
    soup = BeautifulSoup(response.text, 'html.parser')

    # 解析数据
    movies = soup.find_all('div', class_='info')

    print(movies)

    for movie in movies:
        title = movie.find('span', class_='title').text
        rank = movie.find('a')["href"]
        info = movie.find('div', class_='bd').p.text.strip().split('\n')[0]
        sheet.append([title, rank, info])

# 保存数据到Excel文件
workbook.save('douban_movie_top250.xlsx')
workbook.close()

excle数据预览:

关注公众号「码农园区」,获取多个项目源码及各大厂学习面试资源
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1157759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新生儿积食:原因、科普和注意事项

引言: 新生儿积食,也被称为新生儿喂养问题,是新父母常常面临的挑战之一。尽管它通常是一种暂时的问题,但它可能会引起婴儿的不适,导致家长感到担忧。本文将科普新生儿积食的原因,提供相关信息,…

TypeScript之泛型

一、是什么 泛型程序设计(generic programming)是程序设计语言的一种风格或范式 泛型允许我们在强类型程序设计语言中编写代码时使用一些以后才指定的类型,在实例化时作为参数指明这些类型 在typescript中,定义函数,…

数据库的关系运算集合运算

目录 传统的关系运算: 0.相容性: 1.并: 2.差: 3.交: 4.笛卡尔积: 图例: 专门的关系运算: 选择: 投影: 连接: 自然连接: …

nodejs国内镜像及切换版本工具nvm

淘宝 NPM 镜像站(http://npm.taobao.org)已更换域名,新域名: Web 站点:https://npmmirror.com Registry Endpoint:https://registry.npmmirror.com 详见: 【望周知】淘宝 NPM 镜像换域名了&…

公司老项目springmvc jsp 自定义多数据源 转到springboot 整理

真实完整步骤,踩坑整理 有同样的坑,欢迎补充整理 网上的案例老是少了很多配置,本案例涉及到 spring-mvc,自定义多数据源,统一前缀,事务,mybatis,jsp访问异常,静态文件。…

高等数学啃书汇总重难点(九)多元函数微分法及其应用

下册最重要也是个人认为偏恶心的一节(主要东西是真不少....)重点在于会计算偏导、能理解全微分及隐函数求导3个核心内容,至于后面的关于几何层面的应用,建议掌握计算方法即可,学有余力再死磕推导过程等内容~ 1.平面点集…

Vue ElementUI el-tooltip 全局样式修改

el-tooltip 要点 此处是全局配置;如果想设置指定的 tooltip 可设置属性 popper-class,为 tooltip 的 popper 添加类名;代码 6 - 8 行,隐藏小三角; .el-tooltip__popper {border-radius: 4px !important;color: #9E9…

基于黑猩猩算法的无人机航迹规划-附代码

基于黑猩猩算法的无人机航迹规划 文章目录 基于黑猩猩算法的无人机航迹规划1.黑猩猩搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用黑猩猩算法来优化无人机航迹规划。 1.黑猩猩…

社交善行:TikTok如何引领慈善浪潮

在当今数字时代,社交媒体平台已成为人们互动、分享和传播信息的主要渠道。然而,这些平台不仅仅是用来社交和娱乐的工具,它们还可以成为慈善事业的有力支持者。 其中,TikTok以其独特的社交性质和广泛的用户群体,成为引…

东初版 java代码混淆 java加密class Java混淆实际方案

作为资深的开发专家,我很高兴与您分享有关Java混淆的实际方案和案例。Java混淆是一种重要的安全措施,用于保护您的代码免受恶意分析和反编译的威胁。在本文中,我将介绍Java混淆的基本原理、常用工具,以及一个简单的案例来演示如何…

Java如何使用KEPserver 实现S71500 OPC通信

一.PLC和OPC 使用的PLC:西门子PLC S7-1500 使用的OPC server软件: KEPServer V6 二.连接测试 OPC是工业控制和生产自动化领域中使用的硬件和软件的接口标准,以便有效地在应用和过程控制设备之间读写数据。O代表OLE(对象链接和嵌入)&am…

编译时库的顺序影响编译的结果:动态库libxxxx.so:undefined reference to `Json::Value::operator[](c

文章目录 问题产生分析解决 问题产生 问题的起因是,我在使用自己打包的动态库的时候,编译时提示动态库里指向的另一个库找不到… 分析 当编译器进行链接时,它按照从左到右的顺序解析源文件和库文件。如果在链接过程中遇到未解析的符号&…

2023年【R1快开门式压力容器操作】报名考试及R1快开门式压力容器操作实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 R1快开门式压力容器操作报名考试是安全生产模拟考试一点通总题库中生成的一套R1快开门式压力容器操作实操考试视频,安全生产模拟考试一点通上R1快开门式压力容器操作作业手机同步练习。2023年【R1快开门式…

2.4G合封芯片 XL2422,集成M0核MCU,高性能 低功耗

XL2422芯片是一款高性能低功耗的SOC集成无线收发芯片,集成M0核MCU,工作在2.400~2.483GHz世界通用ISM频段。该芯片集成了射频接收器、射频发射器、频率综合器、GFSK调制器、GFSK解调器等功能模块,并且支持一对多线网和带ACK的通信模式。发射输…

C# Onnx Ultra-Fast-Lane-Detection-v2 车道线检测

效果 项目 代码 using Microsoft.ML.OnnxRuntime; using Microsoft.ML.OnnxRuntime.Tensors; using OpenCvSharp; using System; using System.Collections.Generic; using System.Drawing; using System.Linq; using System.Runtime.InteropServices; using System.Text; usi…

最新ai系统ChatGPT程序源码+详细搭建教程+以图生图+Dall-E2绘画+支持GPT4+Midjourney绘画

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

高频SQL50题(基础版)-1

文章目录 主要内容一.SQL练习题1.1757-可回收且抵制的产品代码如下(示例): 2.584-寻找用户推荐人代码如下(示例): 3.595-大的国家代码如下(示例): 4.1148-文章浏览代码如下(示例): 5…

「2023·最新盘点」十大热门WebStorm主题

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。被广大中国JS开发者誉为"Web前端开发神器""最强大的HTML5编辑器""最智能的JavaSscript IDE"等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。 WebStorm v20…

前聚美优品运维负责人谈CMDB

导读CMDB大家并不陌生,在运维的工作中几乎都会用到CMDB,在聚美内部我们也称它为资产系统,管理整个服务器的资产,当然也包括一些配置上的变更。 讲师介绍 张川,前聚美优品运维负责人。任职聚美优品四年间,负…

Brox光流法公式推导

第1章 数学基础 Brox光流法使用变分方法求解,得到使总能量最小的流场。涉及到的数学概念及工具包含:微分,变分,泛函,Euler-Lagrange equation。 1.1. 函数及微分 微分是微积分的一个基本概念,它用于描述函数在某一点附近的变化率。在物理学和工程学中,微分常被用来描…