Python操作PDF书签详解 - 添加、修改、提取和删除

news2025/5/23 23:40:15

目录

简介

使用工具

Python 向 PDF 添加书签

添加书签

添加嵌套书签

Python 修改 PDF 书签

Python 展开或折叠 PDF 书签

Python 提取 PDF 书签

Python 删除 PDF 书签


简介

PDF 书签是 PDF 文件中的导航工具,通常包含一个标题和一个跳转位置(如指定的页面或位置)。它们可以像目录一样分层显示,用户可以展开或折叠这些书签,在文档中快速找到需要的内容。从技术上看,书签是 PDF 文件结构中的大纲对象,不会改变文档内容,只是帮助用户更方便地导航。

本教程将详细介绍如何使用 Python对 PDF 文件中的书签进行操作,包括添加、更新、提取和删除等。

Python 添加、修改、提取和删除PDF书签

    使用工具

    要在 Python 中操作 PDF 书签,需要一个合适的PDF处理库。本文所使用的库是Spire.PDF for Python,该库支持对 PDF 书签执行多种操作,包括:

    • 添加书签:为文档创建单层或嵌套书签,构建层次化导航。
    • 修改书签:更新书签的标题、目标页面、位置及显示样式。
    • 删除书签:清除不再需要的书签,保持文档整洁。
    • 提取书签:读取并输出文档中现有书签的信息。

    安装 Spire.PDF

    在开始操作 PDF 书签之前,请确保您的 Python 环境中已安装 Spire.PDF。可以通过以下pip命令进行安装:

    pip install spire.pdf

    安装完成后,即可在Python项目中导入并调用该库的相关API。

    Python 向 PDF 添加书签

    添加书签

    Spire.PDF提供了PdfDocument.Bookmarks.Add() 方法,用于为PDF文档添加书签。添加时,你可以自定义书签的跳转位置以及颜色和样式等属性。

    添加书签的主要步骤

    1. 加载 PDF 文档
      使用 PdfDocument 类打开已有的 PDF 文件。
    2. 添加书签
      调用 PdfDocument.Bookmarks.Add() 方法,将书签添加到文档的书签集合中。
    3. 设置书签跳转位置
      为书签设置目标跳转位置,例如目标页码、具体坐标位置以及缩放比例。
    4. 自定义书签(可选)
      通过设置书签的属性,如颜色(Color)和显示样式(DisplayStyle),来调整书签文字的颜色和字体样式。
    5. 保存修改后的 PDF 文档
      使用 PdfDocument.SaveToFile() 方法,将修改后的文档保存到文件。

    实现代码

    from spire.pdf import *
    
    # 打开 PDF 文件
    pdf = PdfDocument("测试.pdf")
    
    # 添加书签
    bookmark = pdf.Bookmarks.Add("第一章")
    
    # 设置书签的跳转位置为第一页左上角
    bookmark.Destination = PdfDestination(pdf.Pages[0], PointF(0.0, 0.0))
    
    # 自定义书签外观:设置颜色和样式
    bookmark.Color = PdfRGBColor(Color.get_Blue())
    bookmark.DisplayStyle = PdfTextStyle.Regular
    
    # 保存 PDF 文件
    pdf.SaveToFile("添加书签.pdf")
    pdf.Close()

    添加嵌套书签

    在 PDF 中,嵌套书签是一种具有层次结构的书签,允许用户以树状结构导航文档内容。它们类似于目录,其中某些书签可以包含子书签,这些子书签可以进一步包含子级,形成层次关系。

    嵌套书签的特点

    • 层次结构:父书签可以包含一个或多个子书签,子书签也可以有自己的子书签。
    • 内容导航:点击嵌套书签可以快速跳转到文档中相应的页面或特定位置。
    • 灵活性:嵌套书签可以指向 PDF 文档中的任何页面或位置。

    添加嵌套书签的主要步骤

    1. 加载 PDF 文档
      使用 PdfDocument 类打开 PDF 文件。
    2. 添加父书签
      调用 PdfDocument.Bookmarks.Add() 方法,将父书签添加到 PDF 文档的书签集合中。
    3. 设置父书签的跳转位置
      为父书签指定目标调整位置,例如目标页码、具体坐标和缩放比例。
    4.  自定义父书签(可选)
      通过属性(如 Color 和 DisplayStyle),自定义书签的外观,包括文本颜色和字体样式。
    5. 添加子书签
      调用 PdfBookmark.ConvertToBookmarkCollection().Add() 方法,在父书签下添加一个子书签。
    6. 设置子书签的跳转位置
      为子书签指定目标位置,例如目标页码、具体坐标和缩放比例。
    7. 自定义子书签(可选)
      使用 Color 和 DisplayStyle 属性,自定义嵌套书签的文本颜色和字体样式。
    8. 保存修改后的 PDF 文档
      调用 PdfDocument.SaveToFile() 方法,将修改后的 PDF 文档保存到文件中。

    实现代码

    from spire.pdf import *
    
    # 加载 PDF 文件
    pdf = PdfDocument("测试.pdf")
    
    # 添加父书签
    parent_bookmark = pdf.Bookmarks.Add("第一章")
    parent_bookmark.Destination = PdfDestination(pdf.Pages[0], PointF(0.0, 0.0))
    
    # 添加子书签
    child_bookmark = parent_bookmark.ConvertToBookmarkCollection().Add("1.1 简介")
    child_bookmark.Destination = PdfDestination(pdf.Pages[0], PointF(0.0, 20.0))
    
    # 保存 PDF 文件
    pdf.SaveToFile("添加嵌套书签.pdf")
    pdf.Close()
    

    Python 修改 PDF 书签

    当 PDF 文档内容发生变化时(如页面顺序更改或章节名称更新),书签也需要相应调整。

    修改 PDF 书签的主要步骤

    1. 加载 PDF 文档
      使用 PdfDocument 类打开包含书签的现有 PDF 文件。
    2. 访问目标书签
      通过索引定位要更新的书签,例如 PdfDocument.Bookmarks[0] 表示第一个书签。

    3. 修改书签属性
      使用书签的 Title 属性更改书签标题,并通过属性(如 Color)调整其外观。

    4. 保存修改后的 PDF 文档
      调用 PdfDocument.SaveToFile() 方法,保存更新后的 PDF 文件。

    实现代码

    from spire.pdf import *
    
    # 打开 PDF 文件
    pdf = PdfDocument("添加书签.pdf")
    
    # 获取第一个书签并更新标题和颜色
    bookmark = pdf.Bookmarks[0]
    bookmark.Title = "新书签"
    bookmark.Color = PdfRGBColor(Color.get_Red())
    
    # 保存 PDF 文件
    pdf.SaveToFile("修改书签.pdf")
    pdf.Close()
    

    Python 展开或折叠 PDF 书签

    在 PDF 文档中,书签可以设置为展开或折叠状态。这种方式可以控制嵌套书签在文档打开时的显示效果。

    展开或折叠书签的步骤

    实现代码

    1. 加载 PDF 文档
      使用 PdfDocument 类打开一个包含书签的现有 PDF 文件。

    2. 访问目标书签
      通过索引定位要更新的书签,例如 PdfDocument.Bookmarks[0] 表示第一个书签。

    3. 设置书签的展开或折叠状态
      使用书签的 ExpandBookmark 属性控制其显示状态:
      设置为 True 表示书签在打开 PDF 时自动展开。
      设置为 False 表示书签在打开 PDF 时保持折叠。

    4. 保存修改后的 PDF 文档
      调用 PdfDocument.SaveToFile() 方法,将更新后的 PDF 文档保存到指定位置。

    from spire.pdf import *
    
    # 打开 PDF 文件
    pdf = PdfDocument("添加嵌套书签.pdf")
    
    # 获取第一个书签并设置为折叠
    bookmark = pdf.Bookmarks[0]
    bookmark.ExpandBookmark = False
    
    # 保存 PDF 文件
    pdf.SaveToFile("折叠书签.pdf")
    pdf.Close()
    

    Python 提取 PDF 书签

    从 PDF 文件中提取书签可以帮助您审核文档结构、生成目录或将书签迁移到其他文档中。借助 Spire.PDF,您可以获取所有书签,包括父书签和子书签。

    提取 PDF 书签的主要步骤

    1. 定义递归函数遍历书签
      自定义一个函数,用于遍历 PdfBookmarkCollection 中的书签,打印每个书签的标题和页码,并递归处理嵌套书签。

    2. 加载 PDF 文档
      使用 PdfDocument 类打开包含书签的现有 PDF 文件。

    3. 调用函数以提取书签
      将 PDF 文档的书签集合传递给该函数,从文档中提取所有书签信息。

    实现代码

    from spire.pdf import *
    
    # 打开 PDF 文件
    pdf = PdfDocument("添加嵌套书签.pdf")
    
    # 递归函数:提取书签
    def extract_bookmarks(bookmarks, level=0):
        for i in range(bookmarks.Count):
            bookmark = bookmarks[i]
            print("  " * level + f"标题: {bookmark.Title}, 页码: {bookmark.Destination.PageNumber + 1}")
            if bookmark.ConvertToBookmarkCollection():
                extract_bookmarks(bookmark.ConvertToBookmarkCollection(), level + 1)
    
    extract_bookmarks(pdf.Bookmarks)
    pdf.Close()
    

    Python 删除 PDF 书签

    当你不再需要书签导航时,可以从PDF文档中删除书签。Spire.PDF 支持批量删除所有书签,也可以针对性地删除指定书签。

    删除 PDF 书签的步骤

    1. 加载 PDF 文档
      使用 PdfDocument 类打开一个包含书签的现有 PDF 文件。

    2. 删除特定书签
      使用 PdfDocument.Bookmarks.RemoveAt(index) 方法删除指定的书签。

    3. 删除所有书签(可选)
      如果希望一次性删除文档中的所有书签,可以使用 PdfDocument.Bookmarks.Clear() 方法.

    4. 保存更新后的 PDF 文档
      使用 PdfDocument.SaveToFile() 方法保存修改后的文档。

    实现代码

    from spire.pdf import *
    
    # 打开现有的 PDF 文档
    pdf = PdfDocument("添加嵌套书签.pdf")
    
    # 检查是否存在书签,如果存在,删除第一个书签(其子书签会被一并删除)
    if pdf.Bookmarks.Count > 0:
        pdf.Bookmarks.RemoveAt(0)
    
    # 可选:删除所有书签
    # pdf.Bookmarks.Clear()
    
    # 保存更新后的 PDF
    pdf.SaveToFile("删除书签.pdf")
    pdf.Close()
    

    以上就是使用Python添加、修改、提取和删除PDF书签的全部内容。感谢阅读!

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2384221.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    集星獭 | 重塑集成体验:新版编排重构仿真电商订单数据入库

    概要介绍 新版服务编排以可视化模式驱动电商订单入库流程升级,实现订单、客户、库存、发票、发货等环节的自动化处理。流程中通过循环节点、判断逻辑与数据查询的编排,完成了低代码构建业务逻辑,极大提升订单处理效率与业务响应速度。 背景…

    多模态大语言模型arxiv论文略读(八十八)

    MammothModa: Multi-Modal Large Language Model ➡️ 论文标题:MammothModa: Multi-Modal Large Language Model ➡️ 论文作者:Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang ➡️ 研究机构: ByteDance, Beijing, China ➡️ 问题背景…

    WebSocket 从入门到进阶实战

    好记忆不如烂笔头,能记下点东西,就记下点,有时间拿出来看看,也会发觉不一样的感受. 聊天系统是WebSocket的最佳实践,以下是使用WebSocket技术实现的一个聊天系统的关键代码,可以通过这些关键代码&#xff…

    CSS:vertical-align用法以及布局小案例(较难)

    文章目录 一、vertical-align说明二、布局案例 一、vertical-align说明 上面的文字介绍,估计大家也看不懂 二、布局案例

    Java转Go日记(五十四):gin路由

    1. 基本路由 gin 框架中采用的路由库是基于httprouter做的 地址为:https://github.com/julienschmidt/httprouter package mainimport ("net/http""github.com/gin-gonic/gin" )func main() {r : gin.Default()r.GET("/", func(c …

    【解决】自己的域名任何端口都访问不到,公网地址正常访问,服务器报错500。

    一、问题描述 后端项目部署在服务器上,通过域名访问接口服务器报错500,通过浏览器访问域名的任何端口都是无法访问此网站。 但是通过公网地址访问是可以正常访问到的,感觉是域名出现了问题 二、解决过程 先说结论:问题原因是…

    制作 MacOS系统 の Heic动态壁纸

    了解动态桌面壁纸 当macOS 10.14发布后,会发现系统带有动态桌面壁纸,设置后,我们的桌面背景将随着一天从早上、到下午、再到晚上的推移而发生微妙的变化。 虽然有些软件也有类似的动态变化效果,但是在新系统中默认的HEIC格式的动…

    大数据 笔记

    kafka kafka作为消息队列为什么发送和消费消息这么快? 消息分区:不受单台服务器的限制,可以不受限的处理更多的数据顺序读写:磁盘顺序读写,提升读写效率页缓存:把磁盘中的数据缓存到内存中,把…

    【数据库】-1 mysql 的安装

    文章目录 1、mysql数据库1.1 mysql数据库的简要介绍 2、mysql数据库的安装2.1 centos安装2.2 ubuntu安装 1、mysql数据库 1.1 mysql数据库的简要介绍 MySQL是一种开源的关系型数据库管理系统(RDBMS),由瑞典MySQL AB公司开发,目前…

    物流项目第五期(运费计算实现、责任链设计模式运用)

    前四期: 物流项目第一期(登录业务)-CSDN博客 物流项目第二期(用户端登录与双token三验证)-CSDN博客 物流项目第三期(统一网关、工厂模式运用)-CSDN博客 物流项目第四期(运费模板列…

    X 下载器 2.1.42 | 国外媒体下载工具 网页视频嗅探下载

    X 下载器让你能够轻松地从社交应用如Facebook、Instagram、TikTok等下载视频和图片。通过内置浏览器访问网站,它能自动检测视频和图片,只需点击下载按钮即可完成下载。去除广告,解锁本地会员,享受无广告打扰的下载体验。 大小&am…

    STM32 CAN CANAerospace

    STM32的CAN模块对接CANAerospace 刚开始报错如下. 设备开机后整个CAN消息就不发了. USB_CAN调试器报错如下. index time Name ID Type Format Len Data00000001 000.000.000 Event 总线错误 DATA STANDARD 8 接收过程错误-格…

    完整改进RIME算法,基于修正多项式微分学习算子Rime-ice增长优化器,完整MATLAB代码获取

    1 简介 为了有效地利用雾状冰生长的物理现象,最近开发了一种优化算法——雾状优化算法(RIME)。它模拟硬雾状和软雾状过程,构建硬雾状穿刺和软雾状搜索机制。在本研究中,引入了一种增强版本,称为修改的RIME…

    服务器安装xfce桌面环境并通过浏览器操控

    最近需要运行某个浏览器的脚本,但是服务器没有桌面环境,无法使用,遂找到了KasmVNC,并配合xfce实现低占用的桌面环境,可以直接使用浏览器进行操作 本文基于雨云——新一代云服务提供商的Debian11服务器操作,…

    Oracle 创建外部表

    找别人要一下数据,但是他发来一个 xxx.csv 文件,怎么办? 1、使用视图化工具导入 使用导入工具导入,如 DBeaver,右击要导入的表,选择导入数据。 选择对应的 csv 文件,下一步就行了(如…

    大语言模型 17 - MCP Model Context Protocol 介绍对比分析 基本环境配置

    MCP 基本介绍 官方地址: https://modelcontextprotocol.io/introduction “MCP 是一种开放协议,旨在标准化应用程序向大型语言模型(LLM)提供上下文的方式。可以把 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 提供了一种…

    【软考向】Chapter 9 数据库技术基础

    基本概念数据库的三级模式结构 数据模型E-R 模型关系模型各种键完整性约束 关系代数5 种基本的关系代数运算:并、差、笛卡儿积、投影和选择扩展的关系代数运算:交(Intersection)、连接(Join)、除(Division)、广义投影(Generalized Projection)、外连接(O…

    实战:Dify智能体+Java=自动化运营工具!

    我们在运营某个圈子的时候,可能每天都要将这个圈子的“热门新闻”发送到朋友圈或聊天群里,但依靠传统的实现手段非常耗时耗力,我们通常要先收集热门新闻,再组装要新闻内容,再根据内容设计海报等。 那怎么才能简化并高…

    STM32单片机GUI系统1 GUI基本内容

    目录 一、GUI简介 1、emWin 2、LVGL (Light and Versatile Graphics Library) 3、TouchGFX 4、Qt for Embedded 5、特性对比总结 二、LVGL移植要求 三、优化LVGL运行效果方法 四、LVGL系统文件 一、GUI简介 在嵌入式系统中,emWin、LVGL、TouchGFX 和 Qt 是…

    应届本科生简历制作指南

    一、找一个专业的简历模板 首先,你需要访问 Overleaf 的官方网站,也就是Overleaf, Online LaTeX Editor,进入页面后,点击注册按钮,按照提示填写相关信息来创建一个属于自己的账号,通常需要填写用户名、邮箱…