[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析

news2025/6/8 5:39:30

【论文解读】Search Arena:搜索增强LLMs的用户偏好与性能分析

论文信息

作者: Mihran Miroyan, Tsung-Han Wu, Logan King等  
标题: Search Arena: Analyzing Search-Augmented LLMs  
来源: arXiv preprint arXiv:2506.05334v1, 2025  

一、研究背景:当LLMs需要“上网查资料”时,我们如何评估它?

想象你在问AI“2025年最新的隐私法规有哪些”,传统的大型语言模型(LLMs)只能依赖训练时的静态数据,可能给出2023年的信息,而搜索增强LLMs(如联网的ChatGPT)则能实时检索网页,给出最新政策。但这类“会搜索的AI”面临两大难题:

  1. 缺乏真实场景的评估数据:现有数据集(如SimpleQA)多是单轮、英文、事实类问题(如“巴黎人口多少”),但现实中用户会问“分析新能源汽车政策对股市的影响”这类需要多轮推理、跨领域综合的问题。
  2. 用户偏好不明确:当AI回答时引用10个来源,其中3个相关、7个无关,用户会觉得更可信吗?不同来源(如维基百科vs.科技博客)对信任度的影响如何?

类比:传统LLMs像“闭卷考试的学生”,搜索增强LLMs像“开卷考试的学生”,但我们缺少“多样化的考试题”(数据集)和“评分标准”(用户偏好分析)。

二、创新点:用2.4万次真实对话,揭开搜索增强AI的“用户偏好密码”

1. 首个大规模多轮对话数据集:Search Arena

  • 数据规模:收集24,069次多轮对话,覆盖136个国家、70种语言(英语58.3%、俄语11.8%、中文7.0%),包含12,652次用户偏好投票。
  • 场景多样性:用户意图分为9类,如事实查询(19.3%)、信息综合(18.6%)、分析建议(10.9%)等,而非单一事实检查。例如:
    • 事实查询:“Switch 2的价格是多少?”
    • 分析建议:“推荐适合初学者的平价跑鞋”。

2. 发现用户偏好的“表面现象”与“深层矛盾”

  • 引用数量的陷阱:用户更偏好引用多的回答,即使部分引用与内容无关(相关系数β=0.273)。例如,回答“曼彻斯特联最新转会新闻”时,引用5个体育新闻网站的回答比引用3个维基百科的更受欢迎,尽管维基内容可能更权威但过时。
  • 来源类型的偏见:社区平台(如Reddit、Substack)和科技博客(如Stack Overflow)比维基百科更受青睐(β=0.061 vs. β=-0.071),可能因前者内容更实时、贴近用户需求。

3. 跨场景实验:搜索增强是否“万能”?

  • 实验设计
    • 将非搜索LLMs(如传统GPT-4)放入“搜索密集场景”(如实时数据查询),发现其表现显著低于搜索增强模型(p=0.009)。
    • 将搜索增强模型放入“非搜索场景”(如创意写作),其表现与传统LLMs相当,甚至在事实类问题中更优(p=0.012)。
  • 结论:搜索增强不会拖累非搜索任务,反而能提升事实类表现;但纯依赖模型内部知识,在搜索密集场景中会“露怯”。

三、研究方法:如何从2.4万次对话中“挖宝”?

1. 数据收集:众包平台+双模型对比

  • 搭建Search Arena平台(嵌入Chatbot Arena),用户每次提问后,匿名展示两个模型的回答,用户投票选择更优者。
  • 模型覆盖13个主流搜索增强LLMs(如Gemini、Perplexity Sonar),支持多轮对话和实时引用。

2. 数据分析:从“投票”到“影响因素”的层层拆解

  • 用户意图分类:用GPT-4.1标注9类意图,人工验证一致性(Cohen’s kappa=0.812),例如“如何用uBlock Origin屏蔽域名但允许子分支”属于“指导”类。
  • 偏好建模:使用Bradley-Terry模型分析影响投票的因素,如回答长度(β=0.334,用户偏好更长回答)、搜索上下文窗口大小(窗口大的模型胜率高63.9% vs. 57.6%)。
  • 引用归因分析:用LLM解析20,000+网页内容,发现用户对“支持性引用”和“无关引用”的偏好无显著差异(β=0.29 vs. β=0.27),暴露“重数量轻质量”的问题。

四、主要贡献:给搜索增强LLMs研究的“三件套”

  1. 数据集开源:释放24k对话+12k投票数据,包含模型响应、引用来源、用户意图等元数据,支持多语言和多轮场景研究。
  2. 用户偏好指南:揭示“引用数量≠可信度”“社区内容>百科全书”等现象,为模型设计提供方向(如优先引用实时社区资源,优化引用过滤机制)。
  3. 跨场景性能图谱:证明搜索增强在事实类任务中的必要性,建议模型根据场景动态切换“搜索模式”与“内部推理模式”。

五、总结:当AI学会“查资料”,我们需要更聪明的“判卷标准”

Search Arena通过大规模真实对话,揭开了搜索增强LLMs的用户偏好“黑箱”:用户既依赖引用的“数量安全感”,又隐含对实时性和社区内容的偏好。这提示研究者:

  • 未来方向:开发“智能引用系统”,自动过滤无关来源,增强归因准确性;
  • 挑战:如何平衡回答长度与信息密度,避免“冗长但空洞”的响应。

论文为评估“会搜索的AI”提供了新基准,但正如作者所言:“用户对引用的盲目信任,仍是可信AI路上的一颗暗雷。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2403774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中电金信:从智能应用到全栈AI,大模型如何重构金融业务价值链?

导语 当前,AI大模型技术正加速重构金融行业的智能化图景。为助力金融机构精准把握这一变革机遇,中电金信与IDC联合发布《中国金融大模型发展白皮书》。《白皮书》在梳理了AI大模型整体发展现状的基础上,结合金融行业用户的需求调研深入分析了…

巴西医疗巨头尤迈Kafka数据泄露事件的全过程分析与AI安防策略分析

一、事件背景与主体信息 涉事主体:Unimed,全球最大医疗合作社,巴西医疗行业龙头企业,拥有约1500万客户。技术背景:泄露源于其未保护的Kafka实例(开源实时数据传输平台),用于客户与聊天机器人“Sara”及医生的实时通信。二、时间线梳理 时间节点关键事件描述2025年3月24…

快速上手 Metabase:从安装到高级功能实战

文章目录 1. 引言:Metabase——轻量级的数据分析工具🎯 学完本教程你能掌握: 2. 安装 Metabase:本地部署实操2.1 环境准备2.2 使用 Docker 安装 Metabase2.3 初始化设置2.4 连接外部数据库 3. 第一个数据探索:5分钟创建…

Linux基础命令which 和 find 简明指南

🎯 Linux which 和 find 命令简明指南:从入门到实用 📅 更新时间:2025年6月7日 🏷️ 标签:Linux | which | find | 命令行 | 文件查找 文章目录 前言🌟 一、Linux 命令的本质与 which、find 的作…

思尔芯携手Andes晶心科技,加速先进RISC-V 芯片开发

在RISC-V生态快速发展和应用场景不断拓展的背景下,芯片设计正面临前所未有的复杂度挑战。近日,RISC-V处理器核领先厂商Andes晶心科技与思尔芯(S2C)达成重要合作,其双核单集群AX45MPV处理器已在思尔芯最新一代原型验证系…

kafka消息积压排查

kafka监控搭建:https://insights.blog.csdn.net/article/details/139129552?spm1001.2101.3001.6650.1&utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7Ebaidujs_baidulandingword%7EPaidSort-1-139129552-blog-132216491.235%5Ev43%5Econtrol…

drawio 开源免费的流程图绘制

开源地址 docker-compose 一键启动 #This compose file adds draw.io to your stack version: 3.5 services:drawio:image: jgraph/drawiocontainer_name: drawiorestart: unless-stoppedports:- 8081:8080- 8443:8443environment:PUBLIC_DNS: domainORGANISATION_UNIT: unitOR…

YOLOv8 升级之路:主干网络嵌入 SCINet,优化黑暗环境目标检测

文章目录 引言1. 低照度图像检测的挑战1.1 低照度环境对目标检测的影响1.2 传统解决方案的局限性 2. SCINet网络原理2.1 SCINet核心思想2.2 网络架构 3. YOLOv8与SCINet的集成方案3.1 总体架构设计3.2 关键集成代码3.3 训练策略 4. 实验结果与分析4.1 实验设置4.2 性能对比4.3 …

传输层:udp与tcp协议

目录 再谈端口号 端口号范围划分 认识知名端口号(Well-Know Port Number) 两个问题 netstat pidof 如何学习下三层协议 UDP协议 UDP协议端格式 UDP的特点 面向数据报 UDP的缓冲区 UDP使用注意事项 基于UDP的应用层协议 TCP协议 TCP协议段格式 1.源端口号…

centos7.9源码安装zabbix7.12,求赞

centos7.9源码安装zabbix7.12-全网独有 3.CentOS7_Zabbix7.0LTS3.1.安装环境3.2.换成阿里源3.3.安装相关依赖包3.3.1.直接安装依赖3.3.2.编译安装-遇到问题01-net-snmp3.3.3.编译安装-遇到问题02-libevent3.3.4.编译安装-遇到问题03-安装openssl 3.4.创建用户和组3.5.下载上传源…

亚远景科技助力东风日产通过ASPICE CL2评估

热烈祝贺东风日产通过ASPICE CL2评估 近日,东风日产PK1B VCM热管理项目成功通过ASPICE CL2级能力评估,标志着东风日产在汽车电子软件研发管理体系及技术创新能力上已达到国际领先水平,为其全球化布局注入强劲动能。 ASPICE:国际竞…

基于JWT+SpringSecurity整合一个单点认证授权机制

基于 JWT Spring Security 的授权认证机制,在整体架构设计上体现了高度的安全性与灵活性。其在整合框架中的应用,充分展示了模块化、可扩展性和高效鉴权的设计理念,为开发者提供了一种值得借鉴的安全架构模式。 1.SpringSecurity概念理解 …

IDEA 打开文件乱码

问题:文件乱码 底部编码无法切换 解决方案: 第一步 使用Nodepad 查询文件编码 本项目设置为 转为 UTF-8 无 BOM 第二步:在 IntelliJ IDEA 中:右键点击文件 → File Encoding → 选择目标编码(如 UTF-8) 最…

第2章:Neo4j安装与配置

在了解了Neo4j的基本概念和优势之后,下一步就是将其安装并配置好,以便开始实际操作。本章将详细介绍Neo4j的各种部署方式,涵盖不同操作系统的安装步骤,深入探讨关键配置项,并介绍常用的管理工具,为读者顺利…

Shell 命令及运行原理 + 权限的概念(7)

文章目录 Shell 命令以及运行原理(4-1.22.08)Linux权限的概念1. 什么是权限2. 认识人(普通用户,root用户)以及两种用户的切换认识普通用户和root用户两种用户之间的切换指令提权 3. 文件的属性解析 权限属性指令ll显示…

抽奖系统核心——抽奖管理

目录 前端逻辑: 核心全局变量: reloadConf函数: nextStep函数: 后端实现: 抽奖接口: Controller层: Service层: MqReceiver: drawPrizeService: statusConvert()方法: activityStatu…

机器学习:集成学习概念和分类、随机森林、Adaboost、GBDT

本文目录: 一、集成学习概念**核心思想:** 二、集成学习分类(一)Bagging集成(二)Boosting集成(三)两种集成方法对比 三、随机森林(一)构造过程(二…

基于J2EE架构的在线考试系统设计与实现【源码+文档】

目录 摘要: Abstract: 1 引言 2 在线考试系统构架 2.1 在线考试系统一般需求分析 2.2 当前在线考试系统现状分析 2.3 基于J2EE的在线考试系统架构介绍及拥有的优势 2.3.1 结构总体介绍 2.3.2 客户层组件 2.3.2.1 Applets 2.3.2.2 应用程序客户端 2.3.3 …

联想拯救者R9000P 网卡 Realtek 8852CE Ubuntu/Mint linux 系统睡眠后,无线网卡失效

联想拯救者R9000P 网卡型号 Realtek PCle GbE Family Controller Realtek 8852CE WiFi 6E PCI-E NIC 系统版本 Ubuntu 24.04 / mint 22.1 问题现象 rtw89_8852ce,Link is Down,xtal si not ready,mac init fail,xtal si not …

Python训练营打卡 Day46

道注意力(SE注意力) 知识点回顾: 不同CNN层的特征图:不同通道的特征图什么是注意力:注意力家族,类似于动物园,都是不同的模块,好不好试了才知道。通道注意力:模型的定义和插入的位置通道注意力后…