概述
RagflowPlus
v0.4.0 在发布后,收到了积极的反馈,同时也包含一些问题。
本次进行一轮小版本更新,发布 v0.4.1 版本,对已知问题进行修复,并对部分功能进行进一步优化。
开源地址:https://github.com/zstar1003/ragflow-plus
更新方法
下载仓库最新代码:
git clone https://github.com/zstar1003/ragflow-plus.git
使用docker启动:
# cpu模式
docker compose -f docker/docker-compose.yml up -d
# gpu模式
docker compose -f docker/docker-compose_gpu.yml up -d
首次启动会自动拉取最新版本镜像。
问题修复
1.修复解析excel文件时,依赖缺失的问题(issue#149)
2.修复解析pdf文件时,遇到空内容表格,出现异常的问题。
功能优化
1. 图像显示路径优化
之前的版本中,将图像的存储路径硬编码为es属性中,导致在局域网环境下访问时,容易出现图片不显示的情况。
在本版本中,对每张图片的协议、ip地址和在minio中的相对路径进行解耦。
在es中,只存储图片的相对路径地址,具体的访问ip地址可通过docker/.env
中的MINIO_VISIT_HOST
变量进行控制。
通过这样的修改,可使问答时,图像稳定显示。
2. 容器连接通路优化
由于对minio的访问地址进行解耦,在后台管理中进一步修改连接配置database.py
文件:
if is_running_in_docker():
MYSQL_HOST = "mysql"
MYSQL_PORT = 3306
MINIO_HOST = "minio"
MINIO_PORT = 9000
ES_HOST = "es01"
ES_PORT = 9200
REDIS_HOST = "redis"
REDIS_PORT = 6379
在docker环境中,直接通过服务名进行访问,而不再像之前的版本那样通过宿主机再间接访问。
这样修改,有效避免了用户在上传文件时,容易出现超时未响应的情况,连接速度更快更稳定。
3. 图片插入位置优化
在之前的版本中,所有相关图像会在问答末尾一并输出。
本次对图像输出进行了改良,现在图像会出现在第一个相关块的引用位置,可在问答中间输出。
4. 增加文档撰写模式的缓存
在文档撰写模块中,新增了当前编辑文档内容的自动保存功能。
通过浏览器自带的Local storage
,实现对每间隔1s对内容进行无感保存。
切换标签或刷新页面后,之前编辑的内容依然存在,不会消失。
5. word导出支持自动图片下载插入
在文档撰写模块中,导出word文件时,会自动下载编辑区的图像块连接,实现图片的自动下载插入。
6. Top N上限增加
在聊天配置中,有一个Top N
的选项,用来控制大模型能实际看到的前N个解析块数量。
原始默认的Top N
上限为30,因为在每个块内容较多的情况下,如果塞入大模型的参考内容过多,会超过模型的最大输入上限。
考虑到部分用户应用的内容查询业务,每个块的内容很少,查询数量很多,因此增加Top N的上限为100,默认保持8不变。
问题反馈须知
当前的每轮版本更新都修改文件解析的逻辑,因此,读者在试用反馈问题时,建议新建知识库进行解析。
通过知识库隔离,可防止不同版本的解析文件混杂在相同知识库中,造成异常情况。
总结
此次更新后,在局域网服务器中进行了一轮测试,目前已基本能满足个人应用场景的使用需求。
后续会将精力投入到大模型相关的基建拓展研究中,比如,embedding模型的效果如何评估,如何微调大模型。
之前定下的Ragflow-Plus的更新计划将会暂缓推进,如果有开发经验的读者想继续对此项目进行贡献,欢迎提交PR。