Java 使用 PDFBox 提取 PDF 文本并统计关键词出现次数(附Demo)

news2025/5/17 6:23:56

目录

  • 前言
  • 1. 基本知识
  • 2. 在线URL
    • 2.1 英文
    • 2.2 混合
  • 3. 实战

前言

爬虫神器,无代码爬取,就来:bright.cn

Java基本知识:

  1. java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)
  2. 【Java项目】实战CRUD的功能整理(持续更新)

需要爬虫相关的PDF,并统计对应PDF里头的词频,其中某个功能需要如下知识点

1. 基本知识

Apache PDFBox 是一个开源的 Java PDF 操作库,支持:

  • 读取 PDF 文件内容(包括文字、图片、元数据)

  • 创建和修改 PDF 文档

  • 提取文本内容用于搜索、分析等操作

Maven相关的依赖:

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version>
</dependency>

需下载 在进行统计:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFWordCounter {

    public static void main(String[] args) {
        String pdfPath = "sample.pdf";  // 替换为你的 PDF 文件路径
        String keyword = "Java";        // 要统计的词语

        try {
            // 加载 PDF 文档
            PDDocument document = PDDocument.load(new File(pdfPath));

            // 使用 PDFTextStripper 提取文本
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            document.close(); // 记得关闭文档资源

            // 转小写处理,方便忽略大小写
            String lowerText = text.toLowerCase();
            String lowerKeyword = keyword.toLowerCase();

            // 调用词频统计函数
            int count = countOccurrences(lowerText, lowerKeyword);

            System.out.println("词语 \"" + keyword + "\" 出现次数: " + count);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 使用 indexOf 遍历匹配词语出现次数
    private static int countOccurrences(String text, String word) {
        int count = 0;
        int index = 0;
        while ((index = text.indexOf(word, index)) != -1) {
            count++;
            index += word.length();
        }
        return count;
    }
}

上述的Demo详细分析下核心知识:

  1. PDDocument.load(File)
    用于加载 PDF 文件到内存中
    PDFBox 使用 PDDocument 表示整个 PDF 对象,使用完后必须调用 close() 释放资源

  2. PDFTextStripper
    PDFBox 中用于提取文字的核心类,会尽可能“以阅读顺序”提取文本,适用于纯文字 PDF 文件。对于图像型扫描件则无效(需 OCR)

  3. 大小写不敏感统计
    实际应用中搜索关键词通常需要忽略大小写,因此我们先统一将文本和关键词转换为小写

  4. indexOf 实现词频统计
    这是最基础也最直观的统计方法,效率较高,但不够精确
    如果需要更精确(只统计完整单词),可以使用正则:

Pattern pattern = Pattern.compile("\\b" + Pattern.quote(word) + "\\b", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(text);
int count = 0;
while (matcher.find()) {
    count++;
}

2. 在线URL

2.1 英文

此处的Demo需要注意一个点:

注意点说明
PDF 文件是否公开访问不能访问受密码或登录保护的 PDF
文件大小不建议下载和分析过大文件,可能导致内存问题
中文 PDF若是扫描图片形式的中文 PDF,则 PDFBox 无法直接提取文本(需 OCR)
编码问题若中文显示为乱码,可能是 PDF 没有内嵌字体

🔧 思路:

  1. 通过 URL.openStream() 获取在线 PDF 的输入流

  2. 使用 PDFBox 的 PDDocument.load(InputStream) 读取 PDF

  3. 用 PDFTextStripper 提取文本

  4. 用字符串方法或正则统计关键词频率

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.InputStream;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class OnlinePDFKeywordCounter {

    public static void main(String[] args) {
        String pdfUrl = "https://www.example.com/sample.pdf"; // 你的在线 PDF 链接
        String keyword = "Java";  // 需要统计的关键词

        try (InputStream inputStream = new URL(pdfUrl).openStream();
             PDDocument document = PDDocument.load(inputStream)) {

            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // 使用正则匹配单词边界(忽略大小写)
            Pattern pattern = Pattern.compile("\\b" + Pattern.quote(keyword) + "\\b", Pattern.CASE_INSENSITIVE);
            Matcher matcher = pattern.matcher(text);

            int count = 0;
            while (matcher.find()) {
                count++;
            }

            System.out.println("词语 \"" + keyword + "\" 出现在在线 PDF 中的次数为: " + count);

        } catch (Exception e) {
            System.err.println("处理 PDF 时出错: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

2.2 混合

方法适用场景是否支持中文
indexOf中英文都适用
Pattern + \\b仅限英文单词匹配❌ 中文不支持

正则表达式 \\b...\\b(表示“单词边界”)并不适用于中文

统计在想的URL PDF的词频:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.InputStream;
import java.net.URL;

public class OnlinePDFKeywordCounter {

    public static void main(String[] args) {
        String pdfUrl = "https://www.xxxx.pdf";
        String keyword = "管理层";  // 要统计的中文关键词

        try (InputStream inputStream = new URL(pdfUrl).openStream();
             PDDocument document = PDDocument.load(inputStream)) {

            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // 直接用 indexOf 不区分大小写(对于中文没必要转小写)
            int count = countOccurrences(text, keyword);
            System.out.println("词语 \"" + keyword + "\" 出现次数为: " + count);

        } catch (Exception e) {
            System.err.println("处理 PDF 时出错: " + e.getMessage());
            e.printStackTrace();
        }
    }

    // 简单统计子串出现次数(适用于中文)
    private static int countOccurrences(String text, String keyword) {
        int count = 0;
        int index = 0;
        while ((index = text.indexOf(keyword, index)) != -1) {
            count++;
            index += keyword.length();
        }
        return count;
    }
}

截图如下:

在这里插入图片描述

3. 实战

如果词频比较多,可以使用List

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.InputStream;
import java.net.URL;
import java.util.Arrays;
import java.util.List;

public class OnlinePDFChinaKeywordCounter {
    public static void main(String[] args) {
        String pdfUrl = "https://www.pdf";

        // 多个中文关键词
        List<String> keywords = Arrays.asList("营业收入", "净利润", "资产总额", "负债");

        try (InputStream inputStream = new URL(pdfUrl).openStream();
             PDDocument document = PDDocument.load(inputStream)) {

            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // 统计 PDF 中的总文字长度(不含空格和换行)
            int totalCharacters = text.replaceAll("\\s+", "").length();
            System.out.println("PDF 中文本总字数(不含空格换行): " + totalCharacters);

            for (String keyword : keywords) {
                int count = countOccurrences(text, keyword);
                System.out.println("词语 \"" + keyword + "\" 出现次数为: " + count);
            }

        } catch (Exception e) {
            System.err.println("处理 PDF 时出错: " + e.getMessage());
            e.printStackTrace();
        }
    }

    // 统计某个关键词出现次数
    private static int countOccurrences(String text, String keyword) {
        int count = 0;
        int index = 0;
        while ((index = text.indexOf(keyword, index)) != -1) {
            count++;
            index += keyword.length();
        }
        return count;
    }
}

截图如下:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

将 Element UI 表格元素导出为 Excel 文件(处理了多级表头和固定列导出的问题)

import { saveAs } from file-saver import XLSX from xlsx /*** 将 Element UI 表格元素导出为 Excel 文件* param {HTMLElement} el - 要导出的 Element UI 表格的 DOM 元素* param {string} filename - 导出的 Excel 文件的文件名&#xff08;不包含扩展名&#xff09;*/ ex…

【Linux网络】 HTTP cookie与session

HTTP cookie与session 引入HTTP Cookie 定义 HTTP Cookie&#xff08;也称为Web Cookie、浏览器Cookie或简称Cookie&#xff09;是服务器发送到用户浏览器并保存在浏览器上的一小块数据&#xff0c;它会在浏览器之后向同一服务器再次发起请求时被携带并发送到服务器上。通常&…

OrangePi Zero 3学习笔记(Android篇)11 - IR遥控器

目录 1. 查询IR信息 1.1.1 sunxi-ir-uinput 1.1.2 sunxi-ir 2. 调试键值 3. 匹配遥控器 4. Power键的特殊处理 5. 验证 ir的接口在13pin接口上&#xff0c;需要使用到扩展板。 1. 查询IR信息 在shell的界面输入命令&#xff1a; dumpsys input 分析返回信息&#xf…

【蓝桥杯省赛真题49】python偶数 第十五届蓝桥杯青少组Python编程省赛真题解析

python偶数 第十五届蓝桥杯青少组python比赛省赛真题详细解析 博主推荐 所有考级比赛学习相关资料合集【推荐收藏】1、Python比赛 信息素养大赛Python编程挑战赛 蓝桥杯python选拔赛真题详解

突发,苹果发布下一代 CarPlay Ultra

汽车的平均换代周期一般都超过5年&#xff0c;对于老旧燃油车而言&#xff0c;苹果的 Carplay 是黑暗中的明灯&#xff0c;是延续使用寿命的利器。 因为你可能不需要冰箱彩电大沙发&#xff0c;但一定需要大屏车载导航、倒车影像、车载听歌。如果原车不具备这个功能&#xff0…

Axure设计的“广东省网络信息化大数据平台”数据可视化大屏

在数据驱动决策的时代&#xff0c;数据可视化大屏成为了展示数据、洞察趋势的重要工具。今天&#xff0c;让我们一同深入了解由Axure设计的“广东省网络信息化大数据平台”数据可视化大屏&#xff0c;看看它如何通过精心的布局和丰富的图表类型&#xff0c;将复杂的数据以直观易…

2025认证杯数学建模第二阶段C题完整论文(代码齐全)化工厂生产流程的预测和控制

2025认证杯数学建模第二阶段C题完整论文&#xff08;代码齐全&#xff09;化工厂生产流程的预测和控制&#xff0c;详细信息见文末名片 第二阶段问题 1 分析 在第二阶段问题 1 中&#xff0c;由于在真实反应流程中输入反应物的量改变后&#xff0c;输出产物会有一定延时&#…

Redis——底层数据结构

SDS&#xff08;simple dynamic string&#xff09;&#xff1a; 优点&#xff1a; O1时间获取长度&#xff08;char *需要ON&#xff09;快速计算剩余空间&#xff08;alloc-len&#xff09;&#xff0c;拼接时根据所需空间自动扩容&#xff0c;避免缓存区溢出&#xff08;ch…

ChatGPT 能“记住上文”的原因

原因如下 你把对话历史传给了它 每次调用 OpenAI 接口时&#xff0c;都会把之前的对话作为参数传入&#xff08;messages 列表&#xff09;&#xff0c;模型“看见”了之前你说了什么。 它没有长期记忆 它不会自动记住你是谁或你说过什么&#xff0c;除非你手动保存历史并再次…

大疆无人机自主飞行解决方案局限性及增强解决方案-AIBOX:特色行业无人机巡检解决方案

大疆无人机自主飞行解决方案局限性及增强解决方案-AIBOX&#xff1a;特色行业无人机巡检解决方案 大疆无人机是低空行业无人机最具性价比的产品&#xff0c;尤其是大疆机场3的推出&#xff0c;以及持续自身产品升级迭代&#xff0c;包括司空2、大疆智图以及大疆智运等专业软件和…

医学影像系统性能优化与调试技术:深度剖析与实践指南

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家、CSDN平台优质创作者&#xff0c;高级开发工程师&#xff0c;数学专业&#xff0c;10年以上C/C, C#, Java等多种编程语言开发经验&#xff0c;拥有高级工程师证书&#xff1b;擅长C/C、C#等开发语言&#xff0c;熟悉Java常用开…

day 25

*被遗忘的一集 程序&#xff1a;二进制文件&#xff0c;文件存储在磁盘中&#xff0c;例如/usr/bin/目录下 进程&#xff1a;进程是已启动的可执行程序的运行实例。 *进程和程序并不是一一对应的关系&#xff0c;相同的程序运行在不同的数据集上就是不同的进程 *进程还具有并…

吉客云数据集成到金蝶云星空的最佳实践

吉客云数据集成到金蝶云星空的技术案例分享 在本次技术案例中&#xff0c;我们将探讨如何通过仓库方案-I0132&#xff0c;将吉客云的数据高效集成到金蝶云星空。此方案旨在解决企业在数据对接过程中遇到的多种技术挑战&#xff0c;包括数据吞吐量、实时监控、异常处理和数据格…

使用Mathematica制作Lorenz吸引子的轨道追踪视频

Lorenz奇异吸引子是混沌理论中最早被发现和研究的吸引子之一&#xff0c;它由Edward Lorenz在1963年研究确定性非周期流时提出。Lorenz吸引子以其独特的"蝴蝶"形状而闻名&#xff0c;是混沌系统和非线性动力学的经典例子。 L NDSolveValue[{x[t] -3 (x[t] - y[t]),…

简单图像自适应亮度对比度调整

一、背景介绍 继续在刷对比度调整相关算法&#xff0c;偶然间发现了这个简单的亮度/对比度自适应调整算法&#xff0c;做个简单笔记记录。也许后面用得到。 二、自适应亮度调整 1、基本原理 方法来自论文:Adaptive Local Tone Mapping Based on Retinex for High Dynamic Ran…

深入理解二叉树:遍历、存储与算法实现

在之前的博客系列中&#xff0c;我们系统地探讨了多种线性表数据结构&#xff0c;包括顺序表、栈和队列等经典结构&#xff0c;并通过代码实现了它们的核心功能。从今天开始&#xff0c;我们将开启一个全新的数据结构篇章——树结构。与之前讨论的线性结构不同&#xff0c;树形…

【Win32 API】 lstrcmpA()

作用 比较两个字符字符串&#xff08;比较区分大小写&#xff09;。 lstrcmp 函数通过从第一个字符开始检查&#xff0c;若相等&#xff0c;则检查下一个&#xff0c;直到找到不相等或到达字符串的末尾。 函数 int lstrcmpA(LPCSTR lpString1, LPCSTR lpString2); 参数 lpStr…

(C语言)超市管理系统 (正式版)(指针)(数据结构)(清屏操作)(文件读写)

目录 前言&#xff1a; 源代码&#xff1a; product.h product.c fileio.h fileio.c main.c 代码解析&#xff1a; 一、程序结构概述 二、product.c 函数详解 1. 初始化商品列表 Init_products 2. 添加商品 add_product 3. 显示商品 display_products 4. 修改商品 mo…

NAT转换和ICMP

NAT nat原理示意 nat实现 ICMP ICMP支持主机或路由器&#xff1a; 差错或异常报告网络探寻 2类icmp报文&#xff1a; 差错报告报文&#xff08;5种&#xff09; 目的不可达源抑制--拥塞控制超时&超期--TTL超时参数问题--问题报文丢弃重定向--不应该由这个路由器转发&a…

【专利信息服务平台-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…