基于Langchain+向量数据库+ChatGPT构建企业级知识库

news2025/7/28 15:04:53

▼最近直播超级多,预约保你有收获

近期直播:基于 LLM 大模型的向量数据库企业级应用实践

 1

LangChain 是什么?

众所周知 OpenAI 的 API 无法联网的,所以如果只使用自己的功能实现联网搜索并给出回答、总结 PDF 文档、基于某个 Youtube 视频进行问答等等的功能肯定是无法实现的。

数据感知:将 LLM 模型链接到不同的数据源,比如:ChatGPT 访问 PDF 等;

代理:允许与 LLM 模型进行交互。

第一、支持 LLM 调用

    • 支持多种模型接口调用:OpenAI、Hugging Face、AzureOpenAI ...

    • 支持多种方式实现缓存记录:In-Mem(内存)、SQLite、Redis、SQL ...

    • 支持流模式(类型打字机的效果)

第二、支持 Prompt 管理

    • 支持多种自定义模板

第三、支持索引

    • 支持文档切割

    • 支持 token 向量化

    • 支持向量数据库

第四、支持 Chain(链)

    • 链允许我们将多个组件组合在一起,以创建一个单一的、连贯的应用程序。比如:我们可以创建一个链,该链接受用户输入,使用提示模板对其进行格式化,然后将格式化的响应传递给 LLM。

第五、文档加载器(Document Loader)

     顾名思义,这个就是从指定源进行加载数据的, 比如:

    • 文件夹 DirectoryLoader

    • Azure 存储 AzureBlobStorageContainerLoader

    • CSV文件 CSVLoader

    • 印象笔记 EverNoteLoader

    • Google网盘 GoogleDriveLoader

    • 任意的网页 UnstructuredHTMLLoader

    • PDF PyPDFLoader

    • S3 S3DirectoryLoader/S3FileLoader

    • Youtube YoutubeLoader 等官方文档地址:https://python.langchain.com/en/latest/modules/indexes/document_loaders.html

    • 代码实践如下:

d0110a79a9d130eb408ab3bfadae8c35.png

 2 

文本切割(Text Splitters)

当您想要处理长文本时,有必要将该文本拆分为块。听起来很简单,但这里有很多潜在的复杂性。在理想情况下,我们希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。文本切割器的工作方式:

    • 将文本拆分为语义有意义的小块(通常是句子)

    • 开始将这些小块组合成一个较大的块,直到达到一定的大小(由某个函数测量)

    • 达到一定大小后,将该块设置为自己的文本段,然后开始创建一个具有一些重叠的新文本块(以保持块之间的上下文)

默认推荐的文本拆分器是 RecursiveCharacterTextSplitter。此文本拆分器采用字符列表。它尝试基于第一个字符的拆分来创建块,但如果任何块太大,它就会移动到下一个字符,依此类推。默认情况下,它尝试拆分的字符为 ["\n\n", "\n", " ", ""]。

文本切割代码如下:

be7dc4be16c3b7f97efe4fc7f5fb10e6.png

3 

向量化(向量数据库)

第一、为什么 LLM 需要将文本内容向量化

计算机最擅长处理的就是数字,因此我们需要将文本(如单词或者句子)转化为数字,或者更具体地说,转化为向量。向量是一种数学对象,可以看作是一个有序的数字列表。这种将文本转化为向量的过程就叫做向量化。

第二、什么是欧式距离

把它想象成在多维空间中两点之间的直线距离。比如在二维空间(也就是平面)上,两点之间的欧氏距离就是我们平时说的直线距离。在三维空间中,也就是我们生活的物理世界中,两点之间的欧氏距离就是我们通常意义上的空间直线距离。这个概念可以扩展到更高的维度。

第三、欧式距离在文本分析中的作用

在文本分析中,欧氏距离常常被用来衡量两段文本(或者说,两个向量)的相似度。如果两个向量之间的欧氏距离小,那么这两段文本就被认为是相似的;反之,如果欧氏距离大,那么这两段文本就被认为是不相似的。

第四、向量数据库

顾名思义,专门设计用于高效存储和检索向量数据,向量数据库检索主要基于向量之间的距离或相似度。常用向量数据库有:

    • Chroma(开源本地文件向量数据库)

    • Milvus(开源分布式高性能数据库)

    • Pinecone(商业化分布式高性能数据库)

代码实践如下:

a0c437317185a5366410860a72c3a570.png

 4 

链(Chain)

可以把 Chain 理解为任务。一个 Chain 就是一个任务,当然也可以像链条一样,一个一个的执行多个链,常用 Chain 如下:

    • LLMChain(适用于各种 LLM 链)

    • load_qa_chain( QA 问答)

    • ConversationalRetrievalChain(使用聊天记录在文档上进行聊天)

 5

免费超干货 LLM 大模型直播

为了帮助同学们掌握好 LLM 大模型的向量数据库企业级应用实战,明晚8点,我和陈东老师会开一场直播和同学们深度聊聊大模型的向量化、向量数据库的应用实战请同学点击下方按钮预约直播,咱们明晚8点不见不散哦~~

近期直播:基于 LLM 大模型的向量数据库企业级应用实践

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1156438.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习】二、决策树

目录 一、决策树定义: 二、决策树特征选择 2.1 特征选择问题 2.2 信息增益 2.2.1 熵 2.2.2 信息增益 三、决策树的生成 3.1 ID3算法 3.1.1理论推导 3.1.2代码实现 3.2 C4.5 算法 3.2.1理论推导 ​ 3.2.2代码实现 四、决策树的剪枝 4.1 原理 4.2 算法思路&#xff1a…

VMware虚拟网络连接的三种方式

桥接模式(Bridged) 什么是桥接模式?桥接模式就是将主机网卡与虑拟机虑拟的网卡利用虑拟网桥进行通信。在桥接的作用下,类似于把物理主机虑拟为一个交换机,所有桥接设置的虚拟机连接到这个交换机的一个接口上,物理主机也同样插在这个交换机当…

cocos creator,vscode打开脚本报错,找不到cc模块问题

cocosCreator,用VSCODE打开写脚本代码的时候,会误报飘红,但实际上能正常运行。 我的版本是当前最新版本的3.8.1 解决方案: 在CocosCreator 的安装目录下 C:\ProgramData\cocos\editors\Creator\3.8.1\resources\resources\3d\engine\bin.dec…

Python---排序算法

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 Python中的排序算法用于对数据进行排序。排序算法可以使数据按照一定的规则进行排列,以便于数据的查找、统计、比较等操作。在数据分析、机器学习、图形计算等领域&#xff0c…

企业中很多老师傅都说没前途,该不该放弃嵌入式单片机行业?

今日话题,很多老师傅都说没前途,该不该放弃嵌入式单片机行业?许多新手在探讨嵌入式和单片机行业时,往往过于强调技术技能,而忽略了 行业的广度和深度。事实上,行业内有各种不同的产品领域,而你的…

IBM引入模块化设计助力波音与摩根大通快速实现量子计算服务

​(图片来源:网络) 经典计算机具有局限性,无法完成某些特定任务,例如准确预测金融市场或开发药物来对抗新兴疾病,而量子计算能打破“僵局”。部署IBM Quantum量子系统的负责人Chris Lirakis 说&#xff1a…

#stm32整理(一)flash读写

以这篇未开始我将进行stm32学习整理为期一个月左右完成stm32知识学习整理内容顺序没有一定之规写到哪想到哪想到哪写到哪,主要是扫除自己知识上的盲区完成一些基本外设操作。 以stm32f07为例子进行flash读写操作 stm32flash简介 参考资料正点原子和野火开发手册 …

国际权威媒体聚焦:孙宇晨和波场TRON在迪拜荣获加密行业重磅奖项

近日,在迪拜举行的区块链生态大会(Blockchain Life Conference)上,波场TRON创始人、火币HTX全球顾问委员会委员孙宇晨斩获“年度加密企业家”称号,波场TRON荣膺“年度最佳 Layer 1”大奖。这一消息迅速得到彭博社、雅虎财经、美联社和法国最大媒体之一Le Figaro等国际权威媒体的…

决赛入围名单公示!“山东工行杯”山东省第五届数据应用创新创业大赛

“山东工行杯”山东省第五届数据应用创新创业大赛8月30日启动以来,共计吸引2651人、1235支团队报名,累计收到作品1451件。 10月18日—24日,大赛组委会本着“公平、公正、公开”的原则,邀请到来自省内外各高校、企事业单位的、在数…

Python 应用 之 转换音频格式

目录 一、python音频转换 1、pydub 音频包安装 2、 ffmpeg安装 1)、解压后,添加到环境变量中 2)、可以直接放在python安装目录下 3、python程序 1)、引入相关包 2)、重命名 3)、to Mp3 4&#xf…

基于差分进化算法的无人机航迹规划-附代码

基于差分进化算法的无人机航迹规划 文章目录 基于差分进化算法的无人机航迹规划1.差分进化搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用差分进化算法来优化无人机航迹规划。 …

化肥厂的污水处理设备需要哪些

化肥厂的污水处理设备需要包括多级反渗透系统、生物处理系统、滤网、沉淀池、活性炭吸附器、曝气池和膜分离器等。 这些设备的主要作用是处理化肥厂产生的大量污水,包括对污水进行物理、化学和生物处理,以去除其中的污染物质和有害成分,达到…

Vue过渡动画详解及使用场景

文章目录 Vue过渡和动画的主要概念1. `<transition>` 组件2. `<transition-group>` 组件3. CSS 过渡类4. 过渡钩子函数Vue过渡和动画应用场景1. 页面切换动画2. 表单验证反馈3. 列表排序和过滤4. 模态框和对话框✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的…

C语言实现贪吃蛇小游戏

#include <stdio.h> #include <easyx.h> #include <iostream> #include <math.h> #include <stdlib.h> #include <conio.h> #include <time.h> #define PI 3.14 #define NODE_WIDTH 40 //绘制蛇的节点 typedef struct {int x;int y;…

【Java 进阶篇】Java Response 重定向详解

在Java Web开发中&#xff0c;重定向&#xff08;Redirect&#xff09;是一种常见的技术&#xff0c;用于将用户从一个URL地址自动重定向到另一个URL地址。这在很多情况下都非常有用&#xff0c;例如在用户登录后将其重定向到其个人资料页面&#xff0c;或者在进行某些操作后将…

自己动手实现一个深度学习算法——二、神经网络的实现

文章目录 1. 神经网络概述1&#xff09;表示2&#xff09;激活函数3&#xff09;sigmoid函数4&#xff09;阶跃函数的实现5&#xff09;sigmoid函数的实现6)sigmoid函数和阶跃函数的比较7&#xff09;非线性函数8&#xff09;ReLU函数 2.三层神经网络的实现1&#xff09;结构2&…

现代的简洁,诠释轻奢的精致!福州中宅装饰,福州装修

轻奢风是一种生活新时尚 优雅、低调、舒适、简单&#xff0c;不断地推陈出新 站在时尚的前沿&#xff0c;引领潮流 中宅装饰集团轻奢风格产品 追求高品质生活细节 以设计精致的空间构造营造出 一种优雅、时尚生活氛围 将低调奢华之美注入现代家居设计中 客厅|The Sitt…

JVM 分代垃圾回收过程

堆空间划分了代&#xff1a; 年轻代&#xff08;Young Generation&#xff09;分为 eden 和 Survivor 两个区&#xff0c;Survivor 又分为2个均等的区&#xff0c;S0 和 S1。 首先&#xff0c;新对象都分配到年轻代的 eden 空间&#xff0c;Survivor 刚开始是空的。 当 eden …

CentOS、linux安装squid搭建正向代理,window11配置正向代理

1.CentOS安装配置squid 1.1.安装 yum install -y squid1.2.修改配置文件 在配置文件添加以下2行代码 acl localnet src 0.0.0.0/0.0.0.0 # add by lishuoboy http_access allow all # add by lishuoboy1.3.启动squid systemctl restart squid2.win11…

微服务架构——笔记(1)

微服务架构——笔记&#xff08;1&#xff09; 文章来源B站视频 尚硅谷SpringCloud框架开发教程(SpringCloudAlibaba微服务分布式架构丨Spring Cloud)教程 own process 独立部署 &#xff08;1.微服务架构零基础理论&#xff09; 叙述 马丁福勒 架构模式&#xff0c;倡导将单…