需求
- 实现文件导入es,支持格式TXT、DOC、PPT、XLS、PDF、图片
- ik分词器远程热更新自定义扩展字典和停用字典
- Kibana配置词云,并显示对应文档详情和字典频次,且自定义显示字典
技术点
- 文件导入:es插件ingest-attachment
- 图片文字识别:百度OCR(其实可以自己部署一套PaddleHub, 更推荐,为啥这次不用呢,问就是赶时间!)
参考文章
- springboot+Elasticsearch实现word,pdf,txt内容抽取并高亮分词全文检索
- elasticsearch分词器词库热更新三种方案
- IK分词器新增词库使历史数据生效
- 百度OCR文档
- PaddleHub一键OCR中文识别
- Kibana 8.X 如何做出靠谱的词云图?
Kibana操作

一. 生成词云
- 首先创建对应的索引模式

- 创建词云


- 选择开始建好的索引模式

- 基础使用,生成词云

- 高级用法1,设置只显示字典,可以看到上面设置的大小为10,但是还是只显示了自定义的3个字典。

- 高级用法2,设置过滤字典,可以看到左侧生成的词云已经没有过滤的字典了。

二. 生成对应的频次和内容详情













![[C++] 万字 - C++异常处理分析介绍: 异常概念、异常抛出与捕获匹配原则、重新抛出、异常安全、异常体系...](https://img-blog.csdnimg.cn/img_convert/d4987f9daa571c9cdbb2716cce51c015.gif)








