一、给PDF加书签的两种情况
1.1 文字版PDF添加书签的理想情形
假设我们弄到了一本PDF,这个PDF如果是由Word或WPS转化而来,其中的标题也就代表了目录,我们可以用acrobat PDF中的AutuBookmark插件实现自动识别标题为目录的方法来添加书签。
这是完美的一种情况,因为即使PDF最初确实是从Word或WPS转化而来,也有可能识别不出来。因为你得到的这个版本的PDF,可能已经经过了很多次的压缩、格式转换、特殊处理,导致某些标题/目录层级信息丢失。
另一个方面,网上很多PDF都是扫描版本的,特别是中文图书;并且并不是所有人都喜欢用acrobat PDF软件(有些人喜欢用WPS PDF、福昕PDF、万兴PDF等等)。
1.2 本文适用的条件——扫描版PDF图书
如果你的PDF中没有目录,或者不属于图书的范畴,那么就不属于本文适用的范围。
二、情形的划分
- 最理想的情况A:在网购平台、数字图书售卖网站或者类似“豆瓣”这种图书推荐网站上,找得到图书的目录+页码信息,就可以直接利用相关目录文字进行后续处理;这种应该是最为常见的情况。
- 不那么理想的情况B:在图书中有已识别成文字的目录,由于该图书已经太过古老或冷门,在网上找不到相关网页对该图书的目录进行介绍;可以直接在PDF中复制目录文字,有些地方可能识别不准需要修改,但总算少去了自己OCR的这一步。
- 特不理想的情况C:PDF是扫描得到的,并且目录那几页也没有经过OCR技术扫描成“可搜索PDF”;这时候就需要自己OCR了,对于小白来说不太友好。
- 最不理想的情况D:PDF中没有目录那几页,或者目录那几页不能直接复制、特别模糊、水印特别重,导致你OCR获取文本的选项也不那么顺利。
- 特殊情况E:在超星图书数据库中的PDF,都有相应的SS号,如果你知道如何查询图书的SS号,利用【书签获取小工具_用SS号获取书签2015.05.05_晴天软件】你可以直接用SS号搜索到图书的书签文本。
三、对情况A的处理
3.1 获取书签文本信息
如上所述:
在网购平台、数字图书售卖网站或者类似“豆瓣”这种图书推荐网站上,找得到图书的目录+页码信息,就可以直接利用相关目录文字进行后续处理;这种应该是最为常见的情况。
但是后来,我实际去做的时候,发现有些网站中只提供目录不提供页码,比如豆瓣、京东。
相比之下,淘宝就比较良心,大部分的目录都有页码。这样有一个好处就是你知道这一小节究竟写了多少页,避免有些作者草草了事花一两页写完明明很复杂的一个专题,你还不知道的情况。
于是我们借助淘宝获得了图书的书签信息。
3.2 将书签文本粘贴进PdgCntEditor进行处理
将上述文本粘贴进PdgCntEditor软件,我们可以发现页码前基本都是空格。
而PdgCntEditor软件的格式要求是页码前是一个缩进才能识别成功,因此我们需要将空格转化成缩进。
这时候我们就需要用到正则表达式的功能。
在正则表达式中我们输入【 ([0-9]+)$】,注意最前面有一个手动空格(因为PdgCntEditor不支持诸如/s、/t、/p等通配符);其中()表示部分替换分组,[0-9]表示任意数字,+表示一个或多个数字,$表示匹配句尾。
在替换为输入框中是【 $1】,注意最前面有一个手动缩进;其中$1表示部分替换第1个分组的内容保留。
为了避免出错,我们可以点击如上图所示的「测试」按钮,先对正则表达式进行验证。
单击「替换」,空格即变成了缩进,此时此刻你已经可以将书签文本应用到PDF中去了,只是没有分级而已。
如果你想要继续分级,那么你接着往下看!
首先对二级目录的前面加一个缩进。
在正则表达式中我们输入【(^[0-9]+.[0-9]+) 】,注意最后面有一个手动空格,这是匹配二级目录;其中()表示部分替换分组,[0-9]表示任意数字,+表示一个或多个数字,^表示匹配句首。
在替换为输入框中是【 $1】,注意最前面有一个手动缩进;其中$1表示部分替换第1个分组的内容保留。
而后,在三级目录的前面加两个缩进。
在正则表达式中我们输入【(^[0-9]+.[0-9]+.[0-9]+) 】,注意最后面有一个手动空格,这是匹配三级目录。
在替换为输入框中是【 $1】,注意最前面有两个手动缩进;其中$1表示部分替换第1个分组的内容保留。
由于这个PDF最多只有三级目录,因此处理到这一步就结束了。小伙伴们如果看到更多级目录,按照二级到三级的转换思路进行递归即可。
第三部分的思路,来自这篇记一次正则表达式实战,给pdf加目录,虽然这篇文章是一篇爬虫文,源头也已经消失在互联网大海中,但是也给我带来了莫大的精神灵感。
而这篇对正则表达式部分替换的介绍也给我知识上的补充,谢谢上述两篇文章的作者!!
四、对情况A的Vim编辑器命令处理分析
其实,最初我是看了pdf生成目录-如何给没有目录的pdf手动添加目录中的通过Vim编辑器中的命令来快速编辑书签文本使其符合PdgCntEditor的格式要求。
- 三级目录添加两个tab。命令
%s/\v^\ze(\d+\.\d+\.)/\t\t/
- 给二级目录添加一个缩进,命令
%s/\v^\ze(\d+\.\d+)/\t/
- 将目录名和页码中间的字符串替换为 Tab,命令
%s/\v(\s\.)+\s/\t/
- 页码重定位,加上一个偏移量,命令
%s/\d\+$/\=submatch(0)+22/
- 保存,或使用命令:wq保存并退出
但是,我发现(其实作者也提到了)第3步操作失败,由于我对Vim命令还很陌生,所以就没再继续探究了。
不得不说这是一个很棒的方法,因为你只需要依次执行几条命令就可以;相比我上面在第三节介绍的方法,可以节省一半的步骤(只要你对Vim熟悉)。
后面我有时间,会补充和完善一下上面大牛提出的方法。