9-Oracle 23 ai Vector Search 特性 知识准备

news2025/7/26 13:56:33
很多小伙伴是不是参加了 免费认证课程(限时至2025/5/15)
Oracle AI Vector Search 1Z0-184-25考试,都顺利拿到certified了没。
各行各业的AI 大模型的到来,传统的数据库中的SQL还能不能打,结构化和非结构的话数据如何和AI交互,是否有一套SQL既可以兼容传统sql同时集成vector。
如何将企业中使用的数据保存成向量、是否有集成嵌入模型的引擎,同时给于RAG提供原料时,可以做到数据不离场、不离安全域,符合数据安全要求么。
在开始AI之前,先了解下基础概念,包括初高中几何、物理中的函数知识。

基本概念:

  1. 向量(Vector)​​:一种数据类型,用于表示嵌入(embedding)。在Oracle 23ai中,使用VECTOR数据类型存储。
  2. 向量嵌入(Vector Embedding)​​:将非结构化数据(如文本、图像)转换为向量表示的过程。
  3. 相似性搜索(Similarity Search)​​:通过计算向量之间的距离来查找相似的数据。支持精确搜索(Exact)和近似搜索(Approximate)。
  4. 向量索引(Vector Index)​​:加速相似性搜索的索引类型。包括:
  • In-Memory Neighbor Graph (HNSW)​​:基于图的索引,适用于高精度搜索。
  • Neighbor Partition (IVF)​​:基于分区的索引,适用于大规模数据。
  1. 混合向量索引(Hybrid Vector Index)​​:结合全文搜索(Oracle Text)和向量搜索的索引。
  2. 距离度量(Distance Metrics)​​:用于计算向量之间距离的函数,包括:
  • 欧几里得距离(Euclidean)
  • 余弦相似度(Cosine)
  • 点积(Dot Product)
  • 曼哈顿距离(Manhattan)
  • 汉明距离(Hamming) - 用于二进制向量
  • Jaccard距离 - 用于二进制向量

    L1_DISTANCE(曼哈顿距离)

    别名:城市街区距离、Taxicab距离
    定义:两点在标准坐标系上各维度绝对差之和,模拟网格路径(如城市街道)的行走距离。
    公式:d(x,y)=∑i=1n∣xi−yi∣
    特点:对异常值敏感,计算高效(无平方运算)。
    应用:棋盘游戏路径规划、稀疏高维数据(如文本分类)。

    L2_DISTANCE(欧几里得距离)

    别名:直线距离、欧氏距离定义:n维空间中两点间的直线最短距离,勾股定理的多维推广。
    公式:d(x,y)=∑i=1n(xi−yi)2
    几何意义:绿色线段为两点间最短路径。
    特点:对数据分布均匀性要求高,方向信息敏感。
    应用:物理空间测量、聚类分析(如K-Means)、图像相似性。

    COSINE_DISTANCE(余弦距离)

    别名:余弦相似度的补(1 - 余弦相似度)
    定义:两向量夹角余弦值的反度量,关注方向差异而非长度。
    公式:\text{cos_dist} = 1 - \frac{\mathbf{x} \cdot \mathbf{y}}{|\mathbf{x}| \cdot |\mathbf{y}|} = 1 - \cos \theta
    几何意义:夹角θ越小,余弦相似度越大,距离越小。
    特点:对幅度不敏感,适合文本、图像等高维稀疏数据。
    应用:文档相似度检索、推荐系统(如用户兴趣方向匹配)。

    INNER_PRODUCT(点积)

    别名:数量积、标量积
    定义:两向量对应分量乘积之和,结果为一标量。
    公式:x⋅y=∑i=1nxiyi几何意义:x⋅y=∥x∥∥y∥cosθ,即模长积与夹角余弦的乘积。
    物理意义:力F在位移s方向做的功 W=F⋅s。
    应用:机器学习特征组合(如神经网络权重计算)、投影分析。

    HAMMING_DISTANCE(汉明距离)

    定义:等长字符串/二进制串中,对应位置字符不同的数量。
    公式:dham(s1,s2)=∑i=1nI(s1[i]\=s2[i])比如:二进制串 10110 与 11010 的汉明距离 = 第2、4位不同 → 2。DNA序列 GAGC 与 GATC 的汉明距离 = 第3位不同 → 1。
    特点:仅适用于等长序列,计算高效(位运算)。
    应用:错误检测编码(如CRC)、密码学、基因序列比对。

    JACCARD_DISTANCE(Jaccard距离)

    别名:Jaccard相异度定义:1减去Jaccard相似系数,衡量集合差异度。
    公式:djaccard(A,B)=1−∣A∪B∣∣A∩B∣
    特点:忽略元素频次,仅关注存在性(适合布尔特征)。
    应用:集合相似性(如文档去重)、购物车分析(剁手党的商品交集)。

    关键函数:

    1. 向量构造函数​:

    • TO_VECTOR:将字符串或数值数组转换为向量。
    • VECTOR:是TO_VECTOR的别名。

    2. ​距离函数​:

    • VECTOR_DISTANCE(vector1, vector2, metric):计算两个向量之间的距离,支持多种度量标准。
    • 简写函数:L1_DISTANCE(曼哈顿距离),L2_DISTANCE(欧几里得距离),COSINE_DISTANCE(余弦距离),INNER_PRODUCT(点积),HAMMING_DISTANCE(汉明距离),JACCARD_DISTANCE(Jaccard距离)。

    3. ​向量生成函数​:

    • VECTOR_EMBEDDING(model_name USING data AS data):使用指定的嵌入模型将数据转换为向量。

    4. ​分块函数​:

    • VECTOR_CHUNKS:将文本分块。

    5. ​向量属性函数​:

    • VECTOR_NORM(vector):计算向量的范数(模长)。
    • VECTOR_DIMENSION_COUNT(vector):返回向量的维度数。
    • VECTOR_DIMS(vector):同上。
    • VECTOR_DIMENSION_FORMAT(vector):返回向量维度的格式(如FLOAT32, BINARY等)。

    6. 聚合函数​:

    • AVG:计算向量的平均值(仅适用于浮点向量)。
    • SUM:计算向量的和(仅适用于浮点向量)。

    7. 混合搜索函数​:

    • DBMS_HYBRID_VECTOR.SEARCH:执行混合搜索。

    是不是分分钟回到了初高中几何时代,浮现“数学最美公式”之一的欧拉公式。

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2406988.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    mac:大模型系列测试

    0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何,是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试,是可以跑通文章里面的代码。训练速度也是很快的。 注意…

    DBLP数据库是什么?

    DBLP(Digital Bibliography & Library Project)Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高,数据库文献更新速度很快,很好地反映了国际计算机科学学术研…

    Xela矩阵三轴触觉传感器的工作原理解析与应用场景

    Xela矩阵三轴触觉传感器通过先进技术模拟人类触觉感知,帮助设备实现精确的力测量与位移监测。其核心功能基于磁性三维力测量与空间位移测量,能够捕捉多维触觉信息。该传感器的设计不仅提升了触觉感知的精度,还为机器人、医疗设备和制造业的智…

    DeepSeek源码深度解析 × 华为仓颉语言编程精粹——从MoE架构到全场景开发生态

    前言 在人工智能技术飞速发展的今天,深度学习与大模型技术已成为推动行业变革的核心驱动力,而高效、灵活的开发工具与编程语言则为技术创新提供了重要支撑。本书以两大前沿技术领域为核心,系统性地呈现了两部深度技术著作的精华:…

    stm32wle5 lpuart DMA数据不接收

    配置波特率9600时,需要使用外部低速晶振

    Unity中的transform.up

    2025年6月8日,周日下午 在Unity中,transform.up是Transform组件的一个属性,表示游戏对象在世界空间中的“上”方向(Y轴正方向),且会随对象旋转动态变化。以下是关键点解析: 基本定义 transfor…

    Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合

    作者:来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布,Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明,Elastic 作为 …

    MySQL的pymysql操作

    本章是MySQL的最后一章,MySQL到此完结,下一站Hadoop!!! 这章很简单,完整代码在最后,详细讲解之前python课程里面也有,感兴趣的可以往前找一下 一、查询操作 我们需要打开pycharm …

    渗透实战PortSwigger靶场:lab13存储型DOM XSS详解

    进来是需要留言的&#xff0c;先用做简单的 html 标签测试 发现面的</h1>不见了 数据包中找到了一个loadCommentsWithVulnerableEscapeHtml.js 他是把用户输入的<>进行 html 编码&#xff0c;输入的<>当成字符串处理回显到页面中&#xff0c;看来只是把用户输…

    [论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

    TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码&#xff1a;HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…

    水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关

    在水泥厂的生产流程中&#xff0c;工业自动化网关起着至关重要的作用&#xff0c;尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关&#xff0c;为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多&#xff0c;其中不少设备采用Devicenet协议。Devicen…

    Linux中《基础IO》详细介绍

    目录 理解"文件"狭义理解广义理解文件操作的归类认知系统角度文件类别 回顾C文件接口打开文件写文件读文件稍作修改&#xff0c;实现简单cat命令 输出信息到显示器&#xff0c;你有哪些方法stdin & stdout & stderr打开文件的方式 系统⽂件I/O⼀种传递标志位…

    【Veristand】Veristand环境安装教程-Linux RT / Windows

    首先声明&#xff0c;此教程是针对Simulink编译模型并导入Veristand中编写的&#xff0c;同时需要注意的是老用户编译可能用的是Veristand Model Framework&#xff0c;那个是历史版本&#xff0c;且NI不会再维护&#xff0c;新版本编译支持为VeriStand Model Generation Suppo…

    Ubuntu系统多网卡多相机IP设置方法

    目录 1、硬件情况 2、如何设置网卡和相机IP 2.1 万兆网卡连接交换机&#xff0c;交换机再连相机 2.1.1 网卡设置 2.1.2 相机设置 2.3 万兆网卡直连相机 1、硬件情况 2个网卡n个相机 电脑系统信息&#xff0c;系统版本&#xff1a;Ubuntu22.04.5 LTS&#xff1b;内核版本…

    《Docker》架构

    文章目录 架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器&#xff0c;docker&#xff0c;镜像&#xff0c;k8s 架构模式 单机架构 单机架构其实就是应用服务器和单机服务器都部署在同一…

    ubuntu22.04有线网络无法连接,图标也没了

    今天突然无法有线网络无法连接任何设备&#xff0c;并且图标都没了 错误案例 往上一顿搜索&#xff0c;试了很多博客都不行&#xff0c;比如 Ubuntu22.04右上角网络图标消失 最后解决的办法 下载网卡驱动&#xff0c;重新安装 操作步骤 查看自己网卡的型号 lspci | gre…

    【堆垛策略】设计方法

    堆垛策略的设计是积木堆叠系统的核心&#xff0c;直接影响堆叠的稳定性、效率和容错能力。以下是分层次的堆垛策略设计方法&#xff0c;涵盖基础规则、优化算法和容错机制&#xff1a; 1. 基础堆垛规则 (1) 物理稳定性优先 重心原则&#xff1a; 大尺寸/重量积木在下&#xf…

    消息队列系统设计与实践全解析

    文章目录 &#x1f680; 消息队列系统设计与实践全解析&#x1f50d; 一、消息队列选型1.1 业务场景匹配矩阵1.2 吞吐量/延迟/可靠性权衡&#x1f4a1; 权衡决策框架 1.3 运维复杂度评估&#x1f527; 运维成本降低策略 &#x1f3d7;️ 二、典型架构设计2.1 分布式事务最终一致…

    ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]

    报错信息&#xff1a;libc.so.6: cannot open shared object file: No such file or directory&#xff1a; #ls, ln, sudo...命令都不能用 error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory重启后报错信息&…

    数据结构:递归的种类(Types of Recursion)

    目录 尾递归&#xff08;Tail Recursion&#xff09; 什么是 Loop&#xff08;循环&#xff09;&#xff1f; 复杂度分析 头递归&#xff08;Head Recursion&#xff09; 树形递归&#xff08;Tree Recursion&#xff09; 线性递归&#xff08;Linear Recursion&#xff09;…