需求
- 实现文件导入es,支持格式TXT、DOC、PPT、XLS、PDF、图片
 - ik分词器远程热更新自定义扩展字典和停用字典
 - Kibana配置词云,并显示对应文档详情和字典频次,且自定义显示字典
 
技术点
- 文件导入:es插件ingest-attachment
 - 图片文字识别:百度OCR(其实可以自己部署一套PaddleHub, 更推荐,为啥这次不用呢,问就是赶时间!)
 
参考文章
- springboot+Elasticsearch实现word,pdf,txt内容抽取并高亮分词全文检索
 - elasticsearch分词器词库热更新三种方案
 - IK分词器新增词库使历史数据生效
 - 百度OCR文档
 - PaddleHub一键OCR中文识别
 - Kibana 8.X 如何做出靠谱的词云图?
 
Kibana操作

一. 生成词云
- 首先创建对应的索引模式

 - 创建词云


 - 选择开始建好的索引模式

 - 基础使用,生成词云

 - 高级用法1,设置只显示字典,可以看到上面设置的大小为10,但是还是只显示了自定义的3个字典。

 - 高级用法2,设置过滤字典,可以看到左侧生成的词云已经没有过滤的字典了。

 
二. 生成对应的频次和内容详情

 



![[桌面运维] 显示器 色准,色域,色深,分辨率,带宽,刷新率的基本概念,图像呈现的基本原理](https://img-blog.csdnimg.cn/24b696d76d374a9992017e1625389592.gif)
















