ai向量数据化中的余弦相似度计算
这个问题问得特别到位很多人一开始都会懵明明数学里余弦是邻边比斜边x/r怎么放到文本相似度里就“越大越相近”了我用最简单、不绕弯的方式给你讲明白保证你一下就通。1. 先记住一句话向量的余弦相似度比较的不是长度而是方向。2. 几何上的直观理解两个向量在空间里方向完全一样→ 夹角 0°方向垂直→ 夹角 90°方向完全相反→ 夹角 180°而余弦值是cos(0°) 1cos(90°) 0cos(180°) -1所以夹角越小 → 余弦值越大 → 两个向量方向越接近3. 放到文本向量里是什么意思每一句话 → 一个 1024 维的向量向量的方向 这句话的语义两句话语义一样 → 方向几乎重合 → 夹角接近 0°cos值 ≈1两句话完全没关系 → 方向乱飘 → 夹角大cos值 ≈ 0.1、0.2所以余弦相似度越大 方向越接近 语义越相近4. 为什么不用距离要用余弦因为欧式距离受向量长度影响余弦相似度只看方向不看长短比如“我喜欢苹果”“我真的超级超级喜欢苹果苹果苹果”向量长度会差很多但语义方向几乎一样余弦相似度 ≈ 0.99欧式距离会很大。所以RAG检索、语义匹配都用余弦相似度。5. 超简总结夹角越小 → 语义越像夹角越小 → cos(θ) 越大所以余弦相似度越大两句话越相近
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2443510.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!