今天接到一个需求,就是读取doc文件,
注意是doc! doc! doc,
不是docx! 不是docx! 不是docx!
以下的博客都是挂羊头,卖狗肉
但是好多博客都是读取docx,以次来博取流量与眼球,还有好多我都用不了,为此我写了这篇文章,我觉得最靠谱的方法是:
1、将doc—转换为:docx
2、再利用库【docx】来读取!
先看我目录结构
文件夹:【数据源】—这里存放doc文件
文件夹:【转换结果】—这里存放doc文件
直接上代码(我的电脑是WPS)
import os
import docx
from docx import Document
from win32com. client import Dispatch
def doc_to_docx ( ) :
wd = Dispatch( "kwps.Application" )
wd. Visible = 0
wd. DisplayAlerts = 0
doc = wd. Documents. Open( r"E:\工具开发\2023\2月\催款函\数据源\南京嵩旭科技有限公司逾期催款函.doc" )
doc. SaveAs( r"E:\工具开发\2023\2月\催款函\转换结果\南京嵩旭科技有限公司逾期催款函.docx" , 12 )
doc. Close( )
wd. Quit( )
doc_to_docx( )
def read_docx ( ) :
docStr = Document( "./转换结果/" + os. listdir( "./转换结果/" ) [ 0 ] )
for paragraph in docStr. paragraphs:
parStr = paragraph. text
print ( parStr)
read_docx( )
成功读取!!
这里感谢这位老哥,帮我解决了,点我看原博
pywintypes.com_error: (-2147221005, ‘无效的类字符串’, None, None)
希望对大家有帮助
致力于办公自动化的小小程序员一枚
致力于写出清楚的博客
都看到这了,关注+点赞+收藏=不迷路!!