11-Oracle 23ai Vector Embbeding和ONNX

news2025/10/25 20:25:32

Embedding （模型嵌入）是 AI 领域的一个核心概念

一、Embedding（嵌入）的含义

Embedding 是一种将 非结构化数据（如文本、图像、音频、视频）转换为 数值向量的技术。

其核心是通过 嵌入模型（Embedding Model）将数据的语义信息转化为高维空间中的点，使得：

语义相似的物体在向量空间中距离相近（如"狗"和"犬"，猫和老虎这样的向量接近）。
语义不同的物体在向量空间中距离较远（如"汽车"和"苹果"的向量远离）。

关键点：

向量化表示：原始数据（如一段文字） → 固定长度的数值数组（现在已经支持1024维向量）。
保留语义：转换后的向量能反映数据的内在含义（如近义词、相似主题的文本向量相似）。
非直接搜索：解决传统关键词搜索无法捕捉语义的问题（例如搜索"自动驾驶车辆"也能匹配到"无人驾驶汽车"）。

例如Qwen3-Embedding 系列模型（Embedding 及 Reranker），专为文本表征、检索与排序任务设计，基于 Qwen3 基础模型进行训练。

二、Oracle AI Vector Search Embedding 的使用途径

在 Oracle AI Vector Search 中，Embedding 主要服务于以下场景：

1. 相似性搜索（Similarity Search）

原理：将用户查询（如自然语言问题）通过嵌入模型转换为向量，并在数据库中搜索与之最接近的向量。
应用场景：
- 文档语义搜索（输入问题 → 匹配相关文档）
- 图像/视频内容检索（输入描述 → 匹配相似媒体）
- 推荐系统（根据用户行为向量推荐相似商品）
- 欺诈检测（识别异常模式向量）

2. 检索增强生成（RAG, Retrieval-Augmented Generation）

工作流程：
- 生成Embedding：将用户提问（如"公司Q3财报亮点？"）转换为向量。
- 相似性搜索：在私有业务数据中查找相关向量（如存储的财报文档向量）。
- 增强LLM提示：将匹配结果作为上下文输入给大语言模型（如GPT）。
- 生成精准回答：LLM基于业务数据生成准确回复，减少"幻觉"。

价值：
- 无需重新训练LLM即可利用私有数据（比如企业内部的作业指导书、企业合同、客服、质量追溯记录）。
- 提升聊天ROBOT、智能问答系统的准确性，Agent回答的准确度。

3. 多模态数据融合

支持将文本、图像、JSON等异构数据统一转换为向量，在单一数据库中执行跨模态搜索（如用文字搜索图片）。

三、Oracle AI Vector Search 中 Embedding 的实现方式

向量生成：

使用开源或商业嵌入模型（如BERT、CLIP）生成向量。支持第三方
支持通过 ONNX 框架导入自定义模型。
可在数据库内生成向量，或直接导入外部生成的向量。

向量存储：

使用新增的 VECTOR 数据类型在 Oracle Database 23ai 中存储向量。
向量与业务数据共存储，确保数据变更时向量同步更新。

向量索引与查询：
高效索引：使用内存图索引（如HNSW）或分区索引加速搜索。
SQL 扩展：通过 VECTOR_DISTANCE() 等函数直接执行相似性查询。
精度控制：允许指定目标搜索精度（如召回率95%），而非手动调参。
GPU 加速：利用 GPU 加速向量生成和索引构建（如处理大规模图像/视频嵌入）。

四、Oracle Embedding 的核心特性

1. 原生向量存储与处理

VECTOR 数据类型：Oracle Database 23ai 新增原生数据类型，直接存储高维向量（如1024维）。
优势：无需额外数据库或中间件，与企业业务数据（关系表、JSON、空间数据）统一存储。
支持动态更新：业务数据变更时，关联向量自动同步（如文档内容修改后重新生成向量）。
维度灵活性：支持不同维数的向量（如文本向量512维、图像向量2048维），适应多模态场。

2. 向量生成自由度高

双路径支持：

库内生成：在数据库中直接调用嵌入模型生成向量（需导入ONNX模型）。
外部导入：允许从第三方工具（如Python训练脚本）生成向量后导入。
模型无关性：支持任意嵌入模型（开源如BERT、CLIP或商业私有模型），无和厂商绑定。

3. 企业级性能优化

GPU 加速：利用 GPU 加速向量生成（如大规模文本/图像嵌入）和索引构建。
用例：处理百万级参数的医疗影像PACS数据的嵌入生成时间从小时级降至分钟级。
Exadata 专属优化：Exadata 24ai 的软硬件协同优化向量搜索，索引创建速度提升10倍+，高净值用户独享。

4. 精准控制与易用性

目标精度导向：创建索引时直接指定目标召回率（如 ACCURACY 95%），而非手动调整HNSW参数。
价值：开发者无需理解底层索引算法，降低使用门槛。
SQL 原生扩展：通过新增SQL函数（如 VECTOR_DISTANCE()）执行相似性搜索，与业务查询无缝融合。
示例：
```
SELECT doc_id, content 
FROM documents 
ORDER BY VECTOR_DISTANCE(embedding, :query_vector) 
FETCH FIRST 10 ROWS ONLY; 
-- 返回最相似的10个文档
```
五、Oracle ONNX基本概念

4.1 ONNX(Open Neural Network Exchange)
- ONNX是Open Neural Network Exchange的缩写，即开放神经网络交换。
- ONNX是一种用于存储和交换机器学习模型的开放标准格式，旨在实现不同深度学习框架（如PyTorch、TensorFlow、MXNet等）之间的互操作性。
- ONNX的主要功能和用途是使得AI模型可以在不同的框架和环境下交互使用，同时硬件和软件厂商可以基于ONNX标准优化模型性能，让所有兼容ONNX标准的框架受益。
- ONNX就像是不同深度学习框架之间的”翻译官”，让模型可以在不同框架间自由转换。
- 例如用PyTorch训练了的模型（model.pt），可以转换成ONNX格式的模型（model.onnx），然后部署运行。
4.2 ONNX Runtime 在Oracle数据库中的集成
- Oracle Database 23ai集成了AI Vector Search等功能，支持VECTOR 数据类型，可以直接在 Oracle Database 23ai 中存储向量。如果想使用AI Vector Search等功能，首先将文本等信息转换成vector，这就需要embedding模型。作为最为全能和强大的数据库，Oracle提供了各种支持，当其他数据库还需要各种插件支持的时候，
- Oracle 23ai数据库对ONNX Runtime 进行了集成，允许导入包括embedding模型等ONNX格式的AI模型到数据库中使用。提供了Python实用程序包帮助用户把其他预训练模型转换为ONNX格式的模型。

六、ONNX 框架在 Oracle Embedding 中的关键作用

1. 统一模型部署接口

ONNX支持跨框架模型互操作（如PyTorch → TensorFlow → ONNX）。
Oracle 集成：
- 将训练好的嵌入模型（如PyTorch训练的文本编码器）导出为ONNX格式。
- 直接导入ONNX模型至Oracle数据库，注册为可调用函数。

2. 嵌入模型的生命周期管理

模型库管理：

BEGIN
  DBMS_VECTOR.IMPORT_MODEL(
    model_name => 'my_embedding_model',
    format     => 'ONNX',
    location   => 'DIR_MODELS',
    file_name  => 'bert_text_encoder.onnx'
  );
END;

调用生成向量：使用SQL函数调用模型，实时生成嵌入：

UPDATE documents 
SET embedding = VECTOR_EMBED(
   model => 'my_embedding_model', 
   text  => content -- 对content字段生成向量
);

3. 关键优势

避免跨系统调用：传统方案需部署独立模型服务（如Python API），Oracle通过ONNX在数据库内完成推理，减少网络延迟与运维成本。
企业级安全：模型与数据均在数据库内运行，满足隐私合规要求（如GDPR、HIPAA）。
动态更新模型：替换ONNX模型文件即可升级嵌入算法，无需停服。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2403707.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

11-Oracle 23ai Vector Embbeding和ONNX

Embedding （模型嵌入）是 AI 领域的一个核心概念

一、Embedding（嵌入）的含义

二、Oracle AI Vector Search Embedding 的使用途径​

​1. 相似性搜索（Similarity Search）​​

​2. 检索增强生成（RAG, Retrieval-Augmented Generation）​​

​3. 多模态数据融合​

三、Oracle AI Vector Search 中 Embedding 的实现方式​

四、Oracle Embedding 的核心特性​

1. ​原生向量存储与处理​

2. ​向量生成自由度高

​双路径支持​：

3. ​企业级性能优化​

4. ​精准控制与易用性​

五、Oracle ONNX基本概念

4.1 ONNX(Open Neural Network Exchange)

4.2 ONNX Runtime 在Oracle数据库中的集成

六、ONNX 框架在 Oracle Embedding 中的关键作用​

1. ​统一模型部署接口​

2. ​嵌入模型的生命周期管理​

3. ​关键优势​

相关文章