大模型如何选型?嵌入模型如何选型?

news2025/6/9 6:54:03

欢迎来到啾啾的博客🐱。
记录学习点滴。分享工作思考和实用技巧,偶尔也分享一些杂谈💬。
有很多很多不足的地方,欢迎评论交流,感谢您的阅读和评论😄。

目录

  • 引言
  • 模型优劣认知与模型选择
    • 大模型(LLMs)
      • LLM评估维度
      • 主流LLM深度对比与选型策略
        • 闭源模型
        • 开源模型
    • Embedding模型
      • Embedding模型评估维度
      • Embedding模型选型

引言

在之前的LangChain快速筑基系列中,我们有了解到LangChain总的来说是对于大模型应用控制的各方面操作的抽象总结或封装,如LLM接口、提示管理、记忆、数据连接、链、代理、数据处理等),是统一处理框架。

不同模型(如GPT系列、Claude、Llama等)的特定、API参数含义和影响不同。
不同Embedding模型的优劣和使用场景也不相同。

我们应该如何选择呢?

模型优劣认知与模型选择

模型选型是一个多维度、与应用场景紧密耦合的系统工程。
选型模型的第一步,就是对模型的优劣有所认知。

大模型(LLMs)

LLM评估维度

大模型的优劣评估有以下几个维度:

维度 (Dimension)核心问题关键考量点
1. 效果 (Performance/Quality)模型能把任务完成到什么程度?准确性:回答的精准度、事实性。
推理能力:逻辑、数学、代码生成能力。
创造性:文案、故事、创意的质量。
遵循指令:能否精准理解并执行复杂的指令。
2. 成本 (Cost)使用这个模型的总拥有成本是多少?API调用成本:$/token,输入和输出价格可能不同。
计算/托管成本:对于开源模型,需要考虑GPU服务器的购买/租赁、运维人力成本。
开发成本:模型API的易用性、文档、社区支持。
3. 速度 (Latency/Speed)模型响应需要多长时间?首字延迟 (Time to First Token):对于流式输出,用户多久能看到第一个字?决定了“感觉快不快”。
总生成时间 (Total Generation Time):生成完整答案需要多久?
4. 上下文窗口 (Context Window)模型一次能处理多少信息?长度:4K, 8K, 32K, 128K, 甚至1M+。
长文本处理能力:窗口长不代表效果好,还需要看它在长文本中的信息提取和推理能力(“大海捞针”测试)。
5. 安全与隐私 (Security & Privacy)我的数据安全吗?模型可控吗?数据策略:API提供商是否会用你的数据进行再训练?
部署方式:云端API vs. 私有化部署/VPC部署。
可控性:能否对模型的输出进行内容审查和干预?
6. 生态与工具 (Ecosystem & Tools)模型是否易于集成和扩展?Function Calling/Tool Use:模型调用外部API和工具的能力是否强大、稳定。
多模态能力:是否支持图像、音频输入/输出。
社区支持:相关的开源项目、教程、解决方案多不多。
7. 定制化能力 (Customization)我能否让模型更适应我的特定业务?微调 (Fine-tuning):是否支持微调?微调的成本和难度如何?
提示工程的敏感度:是否需要非常复杂的Prompt才能获得好效果?

核心思想:模型选型本质上是在这七个维度之间做权衡(Trade-off)。没有“最好”的模型,只有“最适合”你当前业务场景资源限制的模型。

主流LLM深度对比与选型策略

闭源模型

这类模型的特点是:效果顶尖、开箱即用、按量付费、但数据隐私和成本是主要考量。

开源模型

这类模型的特点是:数据隐私和安全有绝对保障、可深度定制、长期成本可能更低,但技术门槛和运维成本高。

自己做全面测试评估在当前模型变更极快的当下不可行。建议参考以下网站。

  • 综合能力与用户体感排行榜 https://lmarena.ai/leaderboard
    ![[大模型如何选型?嵌入模型如何选型?-2.png]]

  • 开源模型技术基准排行榜 https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
    ![[大模型如何选型?嵌入模型如何选型?-1.png]]

模型定价与性能综合对比工具

  • https://openrouter.ai/models
    ![[大模型如何选型?嵌入模型如何选型?-3.png]]

  • https://artificialanalysis.ai/
    ![[大模型如何选型?嵌入模型如何选型?-4.png]]

Embedding模型

Embedding模型评估维度

Embedding模型是RAG(检索增强生成)应用的基石,它的好坏直接决定了你能否“找对”信息。

维度 (Dimension)关键考量点
1. 性能 (Performance)主要看它在 MTEB (Massive Text Embedding Benchmark) 排行榜上的得分。这是业界公认的黄金标准。
2. 维度 (Dimensions)向量维度越高,通常包含信息越多,但存储和计算成本也越高。
3. 上下文长度 (Context Length)能处理多长的文本片段。
4. 成本与速度对于API模型,是$/token;对于开源模型,是推理速度和资源占用。
5.多语言能力是否支持你的业务所需语言。

Embedding模型选型

MTEB网站(Embedding模型权威排行榜):https://huggingface.co/spaces/mteb/leaderboard

![[大模型如何选型?嵌入模型如何选型?.png]]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源大模型网关:One API实现主流AI模型API的统一管理与分发

以下是对One API的简单介绍: One API是一个使用go语言开发的大语言模型 API 管理与分发系统支持Docker一键快速部署,且资源占用小,高性能开箱支持多平台大模型快速接入,包括OpenAI、Gemini、xAI、Grop、Anthropic Claude、Ollama…

智慧充电:新能源汽车智慧充电桩的发展前景受哪些因素影响?

全球能源结构转型与碳中和目标的推进,新能源汽车产业迎来爆发式增长,而智慧充电桩作为其核心基础设施,发展前景备受关注。智慧充电不仅关乎用户充电体验的优化,更是电网平衡、能源效率提升的关键环节。 然而,其发展并…

【网站建设】不同类型网站如何选择服务器?建站项目实战总结

做了几个建站项目后,深刻体会到一件事:不同类型的网站,所采用的服务器策略是完全不同的。 如果选错了服务器方案,可能带来过高的成本、过低的性能,甚至上线失败。 这篇文章分享一下我在实战中的经验,供正在做建站项目的朋友参考。 🚩 1️⃣ 纯展示型网站 —— 静态服务…

iptables实验

实验一:搭建web服务,设置任何人能够通过80端口访问。 1.下载并启用httpd服务器 dnf -y install httpd 开启httpd服务器 systemctl start httpd 查看是否启用 下载并启用iptables,并关闭firewalld yum install iptable…

前后端分离开发 和 前端工程化

来源:黑马程序员JavaWeb开发教程,实现javaweb企业开发全流程(涵盖SpringMyBatisSpringMVCSpringBoot等)_哔哩哔哩_bilibili 前后端混合开发: 需要使用前端的技术栈开发前端的功能,又需要使用Java的技术栈…

web端rtmp推拉流测试、抽帧识别计数,一键式生成巡检报告

本文旨在实现无人机城市交通智慧巡检中的一个模块——无人机视频实时推拉流以及识别流并在前端展示,同时,统计目标数量以及违停数量,生成结果评估,一并发送到前端展示。对于本文任何技术上的空缺,可在博主主页前面博客…

Excel 表格内批量添加前缀与后缀的实用方法

我们经常需要为 Excel 表格中的内容统一添加前缀或后缀,例如给编号加“NO.”、给姓名加“会员_”等。手动操作效率低,本文将介绍几种实用的方法,帮助你快速完成批量添加前缀和后缀的操作。 使用“&”运算符添加前缀或后缀(推…

2024 CKA题库+详尽解析| 15、备份还原Etcd

目录 免费获取题库配套 CKA_v1.31_模拟系统 15、 备份还原Etcd 题目: 开始操作: 1)、切换集群 2)、登录master并提权 3)、备份Etcd现有数据 4)、验证备份数据快照 5)、查看节点和Pod状态 6&am…

西门子 S7-1200 PLC 海外远程运维技术方案

西门子 S7-1200 PLC 海外远程运维技术方案 一、面向海外场景的核心优势 针对跨国企业、海外项目及远程技术支持需求,本方案基于巨控GRM552Y-CHE模块提供无缝的全球化远程PLC运维能力,突破地域及时差限制,显著提升国际项目响应效率。 二、海…

嵌入式学习--江协stm32day5

USART 1. 引脚与接口层 异步引脚: TX:发送数据输出;RX:接收数据输入;SW_RX:单线半双工模式的接收引脚(替代 RX)。 同步引脚:SCLK:同步模式下的时钟输出&…

(LeetCode 动态规划(基础版))96. 不同的二叉搜索树 (递推 || 递归)

题目:96. 不同的二叉搜索树 思路:二叉树长度为n时,枚举每个点u作为根节点root,那么root左边的数构成左子树种数left,root右边的数构成右子树种数right,那么当前u为根节点下,二叉树的种数为left*…

vue项目使用svg图标

下面是在 Vue 3 项目中完整引入和使用 vite-plugin-svg-icons 的步骤 1、安装插件 npm install vite-plugin-svg-icons -D # 或 yarn add vite-plugin-svg-icons -D # 或 pnpm add vite-plugin-svg-icons -D 2、配置 Vite 在 vite.config.ts 或 vite.config.js 中配置&…

智能网卡之hinic3 WQE(Work Queue Element)结构梳理

hinic3 WQE(Work Queue Element)结构详解 本文基于 hinic3 驱动源码,对 WQE(Work Queue Element)做详细讲解。如需查阅完整源码和结构体定义可参考hinic3_nic_qp.h等文件。 1. WQE 的作用 WQE(Work Queue…

力扣HOT100之二分查找:4. 寻找两个正序数组的中位数

这道题如果没有时间复杂度的限制的话,相当好做,但是这道题要求时间复杂度为O(log(m n)),思路很难想,我看了一圈题解,发现华南溜达虎的视频讲得还不错,我是参考他的思路写出来的,这里把他的思路…

PyTorch——损失函数与反向传播(8)

Loss Functions 越小越好 L1loss MSELoss 损失函数 CrossEntyopyLoss 损失函数 import torch from torch.nn import L1Loss from torch import nn# 创建输入和目标张量,用于后续的损失计算 inputs torch.tensor([1,2,3],dtypetorch.float32) targets torch.tenso…

macOS 升级 bash 到最新版本

macOS 的默认「终端」,千年不变的版本。 》〉bash --version GNU bash, version 3.2.57(1)-release (arm64-apple-darwin24) Copyright (C) 2007 Free Software Foundation, Inc. 官方 bash.git - bash 已经将 bash 升级到了 5.2的大版本。 macOS 最新版系统的 ba…

力扣面试150题--课程表

Day 63 题目描述 做法 初次思路:本质就是将所有前置课程和后置课程作为一个有向图(前者指向后者),判断这个图是否是一个有向无环图(即是否存在拓扑排序)(本质做法是dfs) 做法&…

用通俗的话解释下MCP是个啥?

在AI领域,模型的开发、部署和迭代速度日益加快,但随之而来的挑战也愈发显著:如何高效管理不同版本的模型?如何在复杂环境中确保模型的可追溯性和可复用性?如何实现跨团队、跨平台的模型协作? 在计算机领域…

LeetCode 高频 SQL 50 题(基础版)之 【子查询】· 上

题目&#xff1a;1978. 上级经理已离职的公司员工 题解&#xff1a; select employee_id from Employees where salary<30000 and manager_id is not null and manager_id not in (select distinct employee_id from Employees ) order by employee_id题目&#xff1a;626.…

Spark流水线+Gravitino+Marquez数据血缘采集

1.Openlinage和Marquez简介 1.1 OpenLineage 概述 OpenLineage 是一个开放标准和框架&#xff0c;用于跨工具、平台和系统捕获数据血缘信息。它定义了通用的数据血缘模型和API&#xff0c;允许不同的数据处理工具&#xff08;如ETL、调度器、数据仓库&#xff09;以标准化格…