spring Ai---向量知识库(一)

news2026/4/17 2:42:45

在一些垂直领域以及公司内部信息相关或者实时性相关的大模型应用，就无法直接使用chatGPT。
这个时候，向量知识库就进入了。
通过坐标向量最接近的即为匹配相关答案。
向量模型定义：将文档向量化，保证内容越相似的文本，在向量空间中距离越近；
第一步：引入依赖

    <dependency>
            <groupId>org.springframework.ai</groupId>
            <artifactId>spring-ai-starter-model-openai</artifactId>
        </dependency>

测试输入一段文本，被存储在里面的坐标

 float[] textFlot = openAiEmbeddingModel.embed("我是中国人");
        System.out.println("输出"+ Arrays.toString(textFlot));

第二步，配置：

      embedding:
        options:
          model: text-embedding-v3
          dimensions: 1024

存储文档的可以用redis, es等；
对于API调用层，都是如下的调用方法
在这里插入图片描述
本次案例使用自带的SimpleVectorStore

    @Bean
    public VectorStore vectorStore(OpenAiEmbeddingModel embeddingModel) {
        return SimpleVectorStore.builder(embeddingModel).build();
    }

第三步：实现测试
我们需要先将文档转为Document，存入向量库

        // 1.创建PDF的读取器
        PagePdfDocumentReader reader = new PagePdfDocumentReader(
                resource, // 文件源
                PdfDocumentReaderConfig.builder()
                        .withPageExtractedTextFormatter(ExtractedTextFormatter.defaults())
                        .withPagesPerDocument(1) // 每1页PDF作为一个Document
                        .build()
        );
        // 2.读取PDF文档，拆分为Document
        List<Document> documents = reader.read();
        // 3.写入向量库
        vectorStore.add(documents);

然后进行组装搜索

    
        SearchRequest request = SearchRequest.builder()
                .query("论语中教育的目的是什么")
                .topK(1)
                .similarityThreshold(0.6)
                .filterExpression("file_name == '知识笔记.pdf'")
                .build();

最后通过调用接口搜索

 List<Document> docs = vectorStore.similaritySearch(request);

以上就实现了一个简单的自带存储PDF，然后进行向量接口搜索的demo

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2338714.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

spring Ai---向量知识库(一)

相关文章

jmeter利用csv进行参数化和自动断言

数据结构实验7.2：二叉树的基本运算

Go-zero框架修改模版进行handler统一响应封装

AI专题（一）----NLP2SQL探索以及解决方案

深入理解 React Hooks：简化状态管理与副作用处理

Java 动态代理实现

人脸扫描黑科技：多相机人脸扫描设备，打造你的专属数字分身

基于Python的中国象棋小游戏的设计与实现

简单好用的在线工具

外卖市场规模巨大，是宽广赛道？京东CEO发言

Flutter PIP 插件 ---- iOS Video Call 自定义PIP WINDOW渲染内容

xml+html 概述

Java从入门到“放弃”（精通）之旅——数组的定义与使用⑥

如何对docker镜像存在的gosu安全漏洞进行修复——筑梦之路

基于springboot的老年医疗保健系统

使用Ollama本地运行deepseek模型

网络编程 - 3

5G 毫米波滤波器的最优选择是什么？

【HDFS入门】HDFS性能调优实战：压缩与编码技术深度解析

如何在 IntelliJ IDEA 中安装通义灵码 - AI编程助手提升开发效率