一起学Spring AI：核心概念

人工智能概念

本节描述了 Spring AI 使用的核心概念。我们建议您仔细阅读，以理解 Spring AI 实现背后的思想。

模型（Models）

人工智能模型是设计用来处理和生成信息的算法，通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察力，这些模型可以做出预测，生成文本、图像或其他输出，增强各行各业的各种应用。

有许多不同类型的人工智能模型，每种都适合特定的用例。虽然 ChatGPT 及其生成性人工智能能力通过文本输入和输出吸引了用户，但许多模型和公司提供了多样化的输入和输出。在 ChatGPT 之前，许多人对文本到图像生成模型如 Midjourney 和 Stable Diffusion 感到着迷。

下表根据它们的输入和输出类型对几种模型进行分类：

模型类型

Spring AI 目前支持处理语言、图像和音频输入和输出的模型。上表中最后一行，接受文本作为输入并输出数字，更常见的称为嵌入文本，代表了人工智能模型内部使用的数据结构。Spring AI 支持嵌入，以实现更高级的用例。

像 GPT 这样的模型之所以与众不同，是因为它们的预训练特性，如 GPT 中的 "P" 所示——聊天生成预训练变换器。这种预训练功能将人工智能转变为一个通用的开发工具，不需要广泛的机器学习或模型训练背景。

提示（Prompts）

提示作为基于语言的输入的基础，指导人工智能模型产生特定的输出。对于熟悉 ChatGPT 的人来说，提示可能看起来只是输入到对话框中并发送到 API 的文本。然而，它包含的内容远不止于此。在许多人工智能模型中，提示的文本不仅仅是一个简单的字符串。

ChatGPT 的 API 在提示中有多个文本输入，每个文本输入都被分配一个角色。例如，有系统角色，它告诉模型如何表现并为交互设置上下文。还有用户角色，通常是用户的输入。

制作有效的提示既是一门艺术，也是一门科学。ChatGPT 旨在用于人类对话。这与使用 SQL 来“提问”大相径庭。人们必须像与另一个人交谈一样与人工智能模型交流。

这种交互方式的重要性如此之大，以至于“提示工程”这个术语已经作为一个独立的学科出现。有一系列日益增长的技术可以提高提示的有效性。投入时间制作提示可以极大地改善结果输出。

分享提示已经成为一种共同的做法，并且正在进行积极的学术研究。作为一个有效创建提示的反直觉例子（例如，与 SQL 对比），最近的一篇研究论文发现，你可以使用最有效的提示之一以“深呼吸，一步一步解决这个问题”这句话开始。这应该让你明白为什么语言如此重要。我们还没有完全理解如何最有效地利用这项技术的先前迭代，如 ChatGPT 3.5，更不用说正在开发的新版本了。

提示模板（Prompt Templates）

创建有效的提示涉及建立请求的上下文，并用特定于用户输入的值替换请求的部分。

这个过程使用传统的基于文本的模板引擎来创建和管理提示。Spring AI 使用 OSS 库 StringTemplate 来实现这一目的。

例如，考虑一个简单的提示模板：

告诉我一个关于 {content} 的 {adjective} 笑话。

在 Spring AI 中，提示模板可以类比为 Spring MVC 架构中的“视图”。模型对象，通常是 java.util.Map，提供给模板以填充模板中的占位符。“渲染”后的字符串成为提供给人工智能模型的提示内容。

发送到模型的提示的具体数据格式有很大的变化。最初是简单的字符串，提示已经演变成包括多条消息，其中每条消息中的每个字符串代表模型的不同角色。

嵌入（Embeddings）

嵌入是文本、图像或视频的数值表示，捕捉输入之间的关系。

嵌入通过将文本、图像和视频转换为浮点数数组，称为向量。这些向量旨在捕捉文本、图像和视频的含义。嵌入数组的长度称为向量的维度。

通过计算两个文本的向量表示之间的数值距离，应用程序可以确定用于生成嵌入向量的对象之间的相似性。

嵌入

作为探索人工智能的 Java 开发者，不需要理解这些向量表示背后的复杂数学理论或具体实现。对他们在人工智能系统中的作用和功能有一个基本的了解就足够了，特别是当你将人工智能功能集成到你的应用程序中时。

嵌入在实际应用中特别相关，如检索增强生成（RAG）模式。它们使数据表示为语义空间中的点，类似于欧几里得几何的二维空间，但在更高维度。这意味着就像欧几里得几何平面上的点可以根据它们的坐标靠近或远离一样，在语义空间中，点的接近程度反映了含义的相似性。关于相似主题的句子在这个多维空间中的位置更接近，就像在图表上彼此靠近的点一样。这种接近性有助于文本分类、语义搜索甚至产品推荐等任务，因为它允许人工智能根据它们在这个扩展的语义景观中的“位置”来识别和组合相关概念。

你可以将这个语义空间想象成一个向量。

标记（Tokens）

标记作为人工智能模型工作的基石。在输入时，模型将单词转换为标记。在输出时，它们将标记转换回单词。

在英语中，一个标记大致对应于一个单词的 75%。作为参考，莎士比亚的全部作品，总计约 900,000 个单词，翻译成大约 120 万个标记。

标记

也许更重要的是，标记 = 金钱。在托管的人工智能模型的背景下，你的费用由使用的标记数量决定。输入和输出都有助于总体标记计数。

此外，模型受到标记限制，这限制了单次 API 调用中处理的文本量。这个阈值通常被称为“上下文窗口”。模型不处理任何超出此限制的文本。

例如，ChatGPT3 的标记限制为 4K，而 GPT4 提供不同的选项，如 8K、16K 和 32K。Anthropic 的 Claude AI 模型具有 100K 标记限制，Meta 的最近研究产生了一个 1M 标记限制模型。

要使用 GPT4 总结莎士比亚的作品集，你需要制定软件工程策略，将数据分割并在模型的上下文窗口限制内呈现数据。Spring AI 项目可以帮助你完成这项任务。

结构化输出（Structured Output）

人工智能模型的输出传统上以 java.lang.String 的形式到达，即使你要求以 JSON 格式回复。它可能是正确的 JSON，但它不是 JSON 数据结构。它只是一个字符串。此外，作为提示的一部分要求“JSON”并不完全准确。

这种复杂性导致了专门领域的发展，涉及创建提示以产生预期的输出，然后将结果的简单字符串转换为应用程序集成的可用数据结构。

结构化输出转换架构

结构化输出转换采用精心制作的提示，通常需要多次与模型交互以实现所需的格式。

将您的数据和 API 带给人工智能模型（Bringing Your Data & APIs to the AI Model）

你如何为人工智能模型提供它未经训练的信息？

请注意，GPT 3.5/4.0 的数据集仅扩展到 2021 年 9 月。因此，模型表示它不知道需要超出该日期的知识的问题的答案。一个有趣的小知识是，这个数据集大约是 650GB。

有三种技术可以自定义人工智能模型以整合你的数据：

微调：这种传统的机器学习技术涉及定制模型并改变其内部权重。然而，对于机器学习专家来说，这是一个具有挑战性的过程，对于像 GPT 这样的模型来说，由于其大小，资源密集型。此外，一些模型可能不提供此选项。
提示填充：一个更实用的替代方案涉及在提供给模型的提示中嵌入你的数据。鉴于模型的标记限制，需要技术在模型的上下文窗口内呈现相关数据。这种方法俗称为“填充提示”。Spring AI 库帮助你实现基于“填充提示”技术的解决方案，也称为检索增强生成（RAG）。

提示填充