Python统计pdf中英文单词的个数

Python统计pdf中英文单词的个数

news2026/4/17 2:21:17

之前的文章提供了批量识别pdf中英文的方法，详见【python爬虫】批量识别pdf中的英文，自动翻译成中文上。以及自动pdf英文转中文文档，详见【python爬虫】批量识别pdf中的英文，自动翻译成中文下。

本文实现python统计pdf中英文字符的个数。

文章目录

- 一、要统计字符的pdf文档
- 二、识别pdf中的字符
- 三、定义统计单页pdf中字符个数的函数
- 四、统计pdf中字符的个数

一、要统计字符的pdf文档

首先看下要统计字符的pdf长什么样。

在这里插入图片描述

为了简单、清晰，本文以统计两页英文pdf字符为例进行阐述，代码直接可以应用到任意页数的英文pdf中。

二、识别pdf中的字符

接着应用pdfplumber库识别pdf中的字符，具体代码如下：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1016663.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JDK14特性——GC的改进和优化

JDK14特性——GC的改进和优化

文章目录 G1的NUMA内存分配优化NUMA介绍目标弃用SerialCMS,ParNewSerial Old理由删除CMSCMS弊端其他垃圾收集器 ZGC on macOS and Windows G1的NUMA内存分配优化 NUMA介绍 NUMA就是非统一内存访问架构（英语：non-uniform memory access，简…

阅读更多...

【Flask】会话保持-API授权-注册登录

【Flask】会话保持-API授权-注册登录

http - 无状态-无法记录是否已经登陆过 #会话保持 – session cookie session – 保存一些在服务端 cookie – 保存一些数据在客户端 session在单独服务器D上保存，前面数个服务器A,B,C上去取就好了，业务解耦。—》》现在都是基于token的验证。以上是基…

阅读更多...

SpringMVC自定义注解和使用

SpringMVC自定义注解和使用

一.引言 1.简介： 在Spring MVC中，我们可以使用自定义注解来扩展和定制化我们的应用程序。自定义注解是一种通过Java的注解机制定义的特殊注解，可以应用于控制器类、方法或者方法参数上，以实现不同的功能和行为。（注解…

阅读更多...

[uni-app] iOS/Android端禁止单个页面侧滑返回的处理记录

[uni-app] iOS/Android端禁止单个页面侧滑返回的处理记录

需要禁止部分页面侧滑返回 iOS端 popGesture 但是实测后, 其实设置popGesture:none 是无效的真正可以用的是这个 disableSwipeBack android端别的方案没有逐一尝试, 这边可以在需要禁止的页面的 onBackPress onBackPress() {// 禁止侧滑(但注意也会禁止导航返回,导航返…

阅读更多...

如何在外网访问公司项目?快解析实现内网ip让公网连接

如何在外网访问公司项目?快解析实现内网ip让公网连接

随着互联网技术的不断发展，越来越多的企业和个人选择使用服务器进行网站或应用程序的部署。公司内部项目需要提供外网访问是个常见的网络场景，需要怎么操作设置也是网络或项目人员需要关注的。企业使用服务器搭建公司业务系统一般会使用云服务器或者使…

阅读更多...

最新AI创作系统ChatGPT源码/支持国内AI模型/支持GPT4.0/支持AI绘画

最新AI创作系统ChatGPT源码/支持国内AI模型/支持GPT4.0/支持AI绘画

一、AI创作系统 SparkAi系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美，可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT系统？小编这里写一个详细图文教程吧&am…

阅读更多...

WebGPU学习（10）---如何利用 WebGPU 实现高性能

WebGPU学习（10）---如何利用 WebGPU 实现高性能

虽然是WebGPU，但是速度很慢！？ 我们将解释如何充分利用 WebGPU 性能。这次我们以绘制大量物体为例，根据“使用纹理”中的代码进行一些更改并绘制 900 个立方体。要均匀分布立方体，可以按如下方式更新 worldMatrix&am…

阅读更多...

微信小程序解决当套在scroll-view中后 wx.pageScrollTo 函数失效问题解决

微信小程序解决当套在scroll-view中后 wx.pageScrollTo 函数失效问题解决

pageScrollTo 只是页面的API 他对 scroll-view 的滚动是无法控制的但是 scroll-view 也提供了一个scroll-into-view属性我们编写一个小案例 wxml 参考代码如下 <view><scroll-view scroll-y"{{ true }}" style"height: 100vh;" scroll-into-v…

阅读更多...

笑笑云航服悦《乡村振兴战略下传统村落文化旅游设计》许少辉博士新著

笑笑云航服悦《乡村振兴战略下传统村落文化旅游设计》许少辉博士新著

笑笑云航服悦《乡村振兴战略下传统村落文化旅游设计》许少辉博士新著

阅读更多...

Android高级开发-APK极致优化

Android高级开发-APK极致优化

九道工序 1. SVG(Scalable Vector Graphics)可缩放矢量图使用矢量图代替位图可以减小 APK 的尺寸，因为可以针对不同屏幕密度调整同一文件的大小，而不会降低图像质量。矢量图首次加载时可能消耗更多的 CPU 资源。之后，二者的内存使用率和…

阅读更多...

Spring 篇

Spring 篇

1、什么是 Spring？ Spring是一个轻量级的IOC和AOP容器框架。是为Java应用程序提供基础性服务的一套框架，目的是用于简化企业应用程序的开发，它使得开发者只需要关心业务需求。常见的配置方式有三种：基于XML的配置、基于注解的配置…

阅读更多...

06JVM_类加载器

06JVM_类加载器

一、类加载器以JDK8为例： ①启动类加载器 ②扩展类加载器 ③应用程序类加载器 ④自定义类加载器 ①类加载器具有层级关系，当加载一个类的时候，要看所有的上级有没有加载此类。【双亲委派模式】 ②类加载器负责在运行时将Java类动态加载…

阅读更多...

4.开放-封闭原则

4.开放-封闭原则

这个原则其实是有两个特征，一个是说‘对于扩展是开放的(Open for extension)，另一个是说‘对于更改是封闭的(Closed for modification)[ASD]。

阅读更多...

走近Callable

走近Callable

1.特点可以有返回值可以抛出异常方法不同， run() / call(); Callable 接口类似于Runnable ，因为它们都是为其实例可能有另一个线程执行的类设计的， 然而，Runnable不返回结果，也不能抛出被检查的异常。 2.代码测试…

阅读更多...

互联网数字化管理升级，制造企业一站式智能管理，可定制-亿发

互联网数字化管理升级，制造企业一站式智能管理，可定制-亿发

在互联网时代，传统机械制造企业面临着未有的挑战和机遇。信息化管理水平成为企业竞争力的关键因素。然而，许多制造企业在信息化管理中常常陷入以下三大问题： 1、盲目随潮流，缺乏总体规划互联网时代，科技发展日新月异…

阅读更多...

python基础复习-基本数据类型

python基础复习-基本数据类型

目录数字进制转换小数精度科学计算库字符串转义符正向/反向索引正向/反向切片成员运算字符编码字符串处理布尔类型指示条件作为掩码类型转换数字进制转换 a10 bbin(a) coct(a) dhex(a) print(a,b,c,d) print(type(a)) print(type(b)) print(type(c)) print(type(d))10 …

阅读更多...

Spring Cloud超越微服务：服务网格的崭露头角

Spring Cloud超越微服务：服务网格的崭露头角

文章目录 1. 微服务的挑战2. 什么是服务网格？3. Spring Cloud和服务网格服务发现负载均衡安全性服务网格扩展 4. 服务网格的优势4.1. 解耦通信逻辑4.2. 提高可观察性4.3. 灰度发布和流量控制4.4. 安全性 5. 未来展望6. 结论 🎉欢迎来到架构设计专栏~Spri…

阅读更多...

【办公自动化】用Python在Excel中查找并替换数据（文末送书）

【办公自动化】用Python在Excel中查找并替换数据（文末送书）

🤵‍♂️ 个人主页：艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话， 欢迎评论 💬点赞&#x1f4…

阅读更多...

Python 潮流周刊#20：三种基准测试的方法、为什么代码在函数中运行得更快？

Python 潮流周刊#20：三种基准测试的方法、为什么代码在函数中运行得更快？

△点击上方“Python猫”关注 ，回复“1”领取电子书你好，我是猫哥。这里每周分享优质的 Python、AI 及通用技术内容，大部分为英文。标题取自其中两则分享，不代表全部内容都是该主题，特此声明。本周刊由 Python猫出品…

阅读更多...

【Qt】Qt中关联容器QMap，QMultiMap，QHash，QMultiHash 的理解

【Qt】Qt中关联容器QMap，QMultiMap，QHash，QMultiHash 的理解

在Qt中，有几种关联容器可供选择： QMap：QMap是一个关联容器，存储键-值对，并根据键自动进行排序。它提供了快速的查找和插入操作，适用于需要根据键进行排序和搜索的场景。 QMultiMap：QMultiMap是…

阅读更多...

推荐文章

最新文章