概述
RagflowPlus v0.4.0 在发布后,收到了积极的反馈,同时也包含一些问题。
本次进行一轮小版本更新,发布 v0.4.1 版本,对已知问题进行修复,并对部分功能进行进一步优化。
开源地址:https://github.com/zstar1003/ragflow-plus
更新方法
下载仓库最新代码:
git clone https://github.com/zstar1003/ragflow-plus.git
使用docker启动:
# cpu模式
docker compose -f docker/docker-compose.yml up -d
# gpu模式
docker compose -f docker/docker-compose_gpu.yml up -d
首次启动会自动拉取最新版本镜像。
问题修复
1.修复解析excel文件时,依赖缺失的问题(issue#149)
2.修复解析pdf文件时,遇到空内容表格,出现异常的问题。
功能优化
1. 图像显示路径优化
之前的版本中,将图像的存储路径硬编码为es属性中,导致在局域网环境下访问时,容易出现图片不显示的情况。

在本版本中,对每张图片的协议、ip地址和在minio中的相对路径进行解耦。
在es中,只存储图片的相对路径地址,具体的访问ip地址可通过docker/.env中的MINIO_VISIT_HOST变量进行控制。

通过这样的修改,可使问答时,图像稳定显示。

2. 容器连接通路优化
由于对minio的访问地址进行解耦,在后台管理中进一步修改连接配置database.py文件:
if is_running_in_docker():
MYSQL_HOST = "mysql"
MYSQL_PORT = 3306
MINIO_HOST = "minio"
MINIO_PORT = 9000
ES_HOST = "es01"
ES_PORT = 9200
REDIS_HOST = "redis"
REDIS_PORT = 6379
在docker环境中,直接通过服务名进行访问,而不再像之前的版本那样通过宿主机再间接访问。

这样修改,有效避免了用户在上传文件时,容易出现超时未响应的情况,连接速度更快更稳定。
3. 图片插入位置优化
在之前的版本中,所有相关图像会在问答末尾一并输出。
本次对图像输出进行了改良,现在图像会出现在第一个相关块的引用位置,可在问答中间输出。

4. 增加文档撰写模式的缓存
在文档撰写模块中,新增了当前编辑文档内容的自动保存功能。
通过浏览器自带的Local storage,实现对每间隔1s对内容进行无感保存。
切换标签或刷新页面后,之前编辑的内容依然存在,不会消失。

5. word导出支持自动图片下载插入
在文档撰写模块中,导出word文件时,会自动下载编辑区的图像块连接,实现图片的自动下载插入。

6. Top N上限增加
在聊天配置中,有一个Top N的选项,用来控制大模型能实际看到的前N个解析块数量。
原始默认的Top N上限为30,因为在每个块内容较多的情况下,如果塞入大模型的参考内容过多,会超过模型的最大输入上限。
考虑到部分用户应用的内容查询业务,每个块的内容很少,查询数量很多,因此增加Top N的上限为100,默认保持8不变。

问题反馈须知
当前的每轮版本更新都修改文件解析的逻辑,因此,读者在试用反馈问题时,建议新建知识库进行解析。

通过知识库隔离,可防止不同版本的解析文件混杂在相同知识库中,造成异常情况。
总结
此次更新后,在局域网服务器中进行了一轮测试,目前已基本能满足个人应用场景的使用需求。
后续会将精力投入到大模型相关的基建拓展研究中,比如,embedding模型的效果如何评估,如何微调大模型。
之前定下的Ragflow-Plus的更新计划将会暂缓推进,如果有开发经验的读者想继续对此项目进行贡献,欢迎提交PR。



















