反馈驱动、上下文学习、多语言检索增强等 | Big Model Weekly 第55期

news2025/5/11 12:49:24

点击蓝字

00365d0a6c8f57d689b127a7ad85fc3e.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution

传统方法严重依赖手动特征,无法捕捉长距离相关性,限制了其有效性。最近的研究利用预训练语言模型的文本嵌入,但需要在标记数据上进行大量微调,这带来了数据依赖和可解释性有限的挑战。大型语言模型(LLMs)凭借其深度推理能力和保持长距离文本关联的能力,提供了一种有前景的替代方案。本研究探索了预训练LLMs在单次作者归属中的潜力,特别是利用贝叶斯方法和LLMs的概率输出。该方法计算文本蕴含作者以往作品的概率,反映了对作者身份更细致的理解。仅使用预训练模型如Llama-3-70B,本研究在IMDb和博客数据集上的结果显示,在十位作者的单次作者分类中达到了85%的准确率。这些发现为使用LLMs进行单次作者分析设定了新的基准,并扩大了这些模型在法医语言学中的应用范围。本研究还包括广泛的消融研究来验证该方法。

d6a190016a191f16e06a57fde7dfb887.png

d95c35c1dc37fba2e0f02af79ffb7b28.png

f71c8f67424e6d8c52ba94d998dd01a9.png

b5de97eaa1e6a4085adc32068bee76a5.png

856021beffa25c416fb55a8e8284ef54.png

文章链接:

https://arxiv.org/pdf/2410.21716

02

FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system

最近,大型语言模型(LLMs)在自动化代码生成方面取得了显著进展。尽管这些模型具有强大的指令遵循能力,但在编码场景中常常难以与用户意图保持一致。特别是由于数据集缺乏多样性,未能涵盖专业任务或边缘情况,导致模型在生成精准且符合人类意图的代码时遇到困难。此外,监督式微调(SFT)和基于人类反馈的强化学习(RLHF)中的挑战,也使得生成的代码无法精准对齐人类意图。为应对这些挑战并提升自动化编程系统的代码生成性能,本文提出了反馈驱动的自适应长短时记忆强化编码优化方法(即FALCON)。FALCON分为两个层级结构,从全局层面来看,长期记忆通过保留和应用已学知识来提升代码质量;从局部层面来看,短期记忆则允许将编译器和人工智能系统的即时反馈纳入其中。此外,本文引入了带有反馈奖励的元强化学习来解决全局 - 局部双层优化问题,增强模型在多样化代码生成任务中的适应性。本研究进行了大量实验,结果表明该技术达到了最先进的性能,在MBPP基准测试中比其他强化学习方法高出4.5个百分点,在Humaneval基准测试中高出6.1个百分点。

231bfb5d7e99f997b838451637a648d4.png

cf40d2375af23e591198c12c065b9f5b.png

37b172a53ed3dc0c696b98d8d67966ae.png

3addbeb047a7ba84a1ca63d1be825b3c.png

ea993b294e7f2d629835c11dead61298.png

文章链接:

https://arxiv.org/pdf/2410.21349

03

Improving In-Context Learning with Small Language Model Ensembles

大型语言模型(LLMs)在各种任务中都展现出了令人印象深刻的性能,但在特定领域的任务上表现仍然有限。虽然检索增强生成和微调等方法可以帮助解决这一问题,但它们需要大量资源。在上下文学习(ICL)是一种廉价且高效的选择,但无法与先进方法的准确性相匹敌。本文提出了Ensemble SuperICL,这是一种新颖的方法,通过利用多个经过微调的小型语言模型(SLMs)的专业知识来增强ICL。Ensemble SuperICL在几个自然语言理解基准测试中取得了最先进的(SoTA)结果。此外,作者还在一个医学领域的标注任务上对其进行了测试,并通过使用在一般语言任务上微调的现成SLMs,展示了其实用性,在大规模数据标注中比所有基线方法都取得了更高的准确性。最后,作者进行了消融研究和敏感性分析,以阐明Ensemble SuperICL的潜在机制。本研究为LLMs中日益增长的高效领域专业化方法的需求做出了贡献,为从业者提供了一种廉价且有效的方法。

ee890cded49880721e4ddfae1f2dadf0.png

a0426ef046f26a9af30346202bfa04fa.png

5df4d1cb95da50e04944ca100443df50.png

35aee154d95003b54d42dd4f570b3f42.png

文章链接:

https://arxiv.org/pdf/2410.21868

04

ProMoE: Fast MoE-based LLM Serving using Proactive Caching

大型语言模型的有前景的应用常常受到边缘设备上有限的GPU内存容量的限制。混合专家(MoE)模型通过在计算过程中仅激活模型参数的一个子集来缓解这一问题,允许未使用的参数被卸载到主机内存中,从而降低整体GPU内存需求。然而,现有的基于缓存的卸载解决方案是被动处理缓存未命中,并且显著影响系统性能。本文提出了PRoMoE,这是一种新颖的主动缓存系统,它利用中间模型结果来预测后续参数的使用情况。通过提前主动获取专家,PRoMoE将加载时间从关键路径中移除,并减少了卸载的性能开销。评估结果表明,与现有卸载解决方案相比,PRoMoE在预填充阶段和解码阶段分别实现了平均2.13倍和2.84倍的速度提升。

3e0977f4230ad1ead909e40b2c2158fc.png

999667f53ceaedebc6eeb033a0a281b4.png

53ac2d5baf65fdf85955ad942f18c8d4.png

012201db9fb16742ed4f1301f79bc7d3.png

3e4350096b7b0481b9a1f0a487225768.png

330f98c166843d95221037b87f2b6100.png

文章链接:

https://arxiv.org/pdf/2410.22134

05

Not All Languages are Equal: Insights into Multilingual Retrieval-Augmented Generation

检索增强语言模型(RALMs)通过整合外部文本资源来拓展其知识范围。然而,全球知识的多语言特性要求RALMs能够处理多种语言,这一主题目前研究较少。本研究提出了Futurepedia,这是一个精心设计的基准测试,包含八种代表性语言的平行文本。作者使用该基准测试评估了六种多语言RALMs,以探索多语言RALMs面临的挑战。实验结果揭示了语言不平等现象:1)高资源语言在单语知识提取方面表现突出;2)印欧语系语言促使RALMs直接从文档中提供答案,缓解了跨语言表达答案的挑战;3)英语受益于RALMs的选择偏差,在多语言知识选择中更具影响力。基于这些发现,作者为改进多语言检索增强生成提供了建议。对于单语知识提取,必须谨慎关注将低资源语言翻译成高资源语言时的级联错误。在跨语言知识传递中,鼓励RALMs在不同语言的文档中提供答案可以提高传递性能。对于多语言知识选择,纳入更多非英语文档并重新定位英语文档有助于减轻RALMs的选择偏差。通过全面的实验,本研究强调了多语言RALMs所固有的复杂性,并为未来研究提供了有价值的见解。

16ce567f53838c6d85a5895242e21e6d.png

05759377f15fc5f61953776fa49eb719.png

79a28dc0fa7e1eeccf19b73cda8bbe60.png

d877f0c96779f6764238bad70b988433.png

fc3d5768e22baabee2a0f430768368fe.png

文章链接:

https://arxiv.org/pdf/2410.21970

06

On Memorization of Large Language Models in Logical Reasoning

大型语言模型(LLMs)在具有挑战性的推理基准测试中表现出色,但也可能会犯一些基本的推理错误。这种矛盾的行为在理解LLMs推理能力背后的机制时令人困惑。一种假设是,LLMs在常见推理基准测试中日益提高且几乎饱和的性能可能是由于对类似问题的记忆。本文通过使用基于“骑士与无赖”(Knights and Knaves,简称K&K)谜题的动态生成逻辑推理基准测试,对这一假设进行了系统的定量记忆测量研究。研究发现,经过微调后,LLMs能够内插训练谜题(几乎达到完美准确率),但当这些谜题稍作扰动时,模型就会失败,这表明模型在解决这些训练谜题时严重依赖记忆。另一方面,研究表明,尽管微调导致了大量记忆,但也始终提高了泛化性能。通过扰动测试、跨难度级别的可转移性分析、探测模型内部结构以及使用错误答案进行微调等深入分析表明,尽管存在训练数据记忆,LLMs仍然学会了对K&K谜题进行推理。这一现象表明,LLMs在记忆和真正的推理能力之间表现出复杂的相互作用。最后,基于每个样本的记忆分数的分析揭示了LLMs在解决逻辑谜题时如何在推理和记忆之间切换。

07bcc7ba0e28deffdf2cba90f0ad6e88.png

801ad7e6b005fe199a043332d3161944.png

f0885ad0af591243a25c7d2178e3a065.png

f64f2bff4074bc1ee205cb837f82a2e7.png

文章链接:

https://arxiv.org/pdf/2410.23123

07

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Transformer已成为基础模型中的主导架构,因其在各个领域的出色表现。然而,扩展这些模型的巨大成本仍然是一个重大问题。这一问题主要源于其对线性投影中固定参数数量的依赖。当引入架构修改(例如,通道维度)时,通常需要从头开始重新训练整个模型。随着模型规模的持续增长,这种策略导致计算成本越来越高,变得不可持续。为了解决这一问题,本文介绍了Tokenformer,这是一种原生可扩展的架构,它不仅利用注意力机制进行输入标记之间的计算,还用于标记与模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数视为标记,本文用token-parameter注意力层替换了Transformer中的所有线性投影,其中输入标记作为查询,模型参数作为键和值。这种重新表述允许逐步且高效地扩展,而无需从头开始重新训练。该模型通过逐步添加新的键值参数对,从1.24亿参数扩展到14亿参数,实现了与从头开始训练的Transformer相当的性能,同时大大降低了训练成本。

b5c41822755114742fe1cc948b08f77e.png

2f9d01ff393468212b2ae1b1ddc18fbc.png

12b571216dcbd6df432e3d55fd5a6920.png

b2374453e314eba530bf74f90773320c.png

2bc0901324f8aa2276848e57f03e0564.png

文章链接:

https://arxiv.org/pdf/2410.23168

本期文章由陈研整理

往期精彩文章推荐

b8ebf89214067f3c05490ea7fe062b5f.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 0ec4cf927d73ab4013326a0d58f0b5d8.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

3f1304e0158bf2541a2f27ff17f8969d.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2284271.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git reset (取消暂存,保留工作区修改)

出现这种情况的背景:我不小心把node_modules文件添加到暂存区了,由于文件过大,导致不能提交,所以我想恢复之前的状态,但又不想把修改的代码恢复为之前的状态,所以使用这个命令可以只恢复暂存区的状态&#…

Coze插件开发之基于已有服务创建并上架到扣子商店

Coze插件开发之基于已有服务创建并上架到扣子商店 在应用开发中,需要调用各种插件,以快速进行开发。但有时需要调用的插件在扣子商店里没有,那怎么办呢? 今天就来带大家快速基于已有服务创建一个新的插件 简单来讲,就是…

Oracle 创建用户和表空间

Oracle 创建用户和表空间 使用sys 账户登录 建立临时表空间 --建立临时表空间 CREATE TEMPORARY TABLESPACE TEMP_POS --创建名为TEMP_POS的临时表空间 TEMPFILE /oracle/oradata/POS/TEMP_POS.DBF -- 临时文件 SIZE 50M -- 其初始大小为50M AUTOEXTEND ON -- 支持…

企业微信开发009_使用WxJava企业微信开发框架_封装第三方应用企业微信开发002_并且实现多企业授权访问---企业微信开发011

继续接上一节来贴代码: 接下来看 config部分的代码,这部分代码,系统启动的时候,就会执行,从而把配置的一些,配置读取出来,创建,针对每个企业微信的,操作service. 首先看yml配置文件中配置部分: 可以先看一下demo中: 提供了一个配置的示例,当然这个是针对 企业内部自建应用 …

机器学习 - 初学者需要弄懂的一些线性代数的概念

一、单位矩阵 在数学中,单位矩阵是一个方阵,其主对角线上的元素全为1,其余元素全为0。单位矩阵在矩阵乘法中起到类似于数字1在数值乘法中的作用,即任何矩阵与单位矩阵相乘,结果仍为原矩阵本身。 单位矩阵的定义&…

【学术会议-第五届机械设计与仿真国际学术会议(MDS 2025) 】前端开发:技术与艺术的完美融合

重要信息 大会官网:www.icmds.net 大会时间:2025年02月28日-03月02日 大会地点:中国-大连 会议简介 2025年第五届机械设计与仿真国际学术会议(MDS 2025) 将于2025年02月28-3月02日在中国大连召开。MDS 2025将围绕“机械设计”…

RabbitMQ 分布式高可用

文章目录 前言一、持久化与内存管理1、持久化机制2、内存控制1、命令行2、配置文件 3、内存换页4、磁盘控制 二、集群1、Erlang的分布式特性2、RabbitMQ的节点类型2.1、磁盘节点 (Disk Node)2.2、内存节点 (RAM Node) 3、构建集群3.1 普通集群3.2 镜像队列3.3、高可用实现方案3…

海康工业相机 SDK对接 Hikvision

有C#基础的,可以参考下,直接上代码 BaseResult 来自于Nuget包,搜Rotion可以搜出来 LS.Standard.Data 海康的接口操作,要先引用相应的dll using MvCamCtrl.NET; using PCZD.Commons.Data.CameraModel; using PCZD.Data; using Sys…

MySQL 二进制安装(正式篇)

Author:Arsen Date:2025/01/24 官方参考文档:点击链接跳转 目录 规划下载安装管理FAQ 规划 OSMySQL Server Version备注CentOS 7.9 or Linux - Generic8.0.33(GNU libc) 2.17 下载 二进制包下载地址:https://downloads.mysql.…

K8S部署DevOps自动化运维平台

持续集成(CI) 持续集成强调开发人员提交了新代码之后,立刻自动的进行构建、(单元)测试。根据测试结果,我 们可以确定新代码和原有代码能否正确地集成在一起。持续集成过程中很重视自动化测试验证结果&#…

工业相机 SDK 二次开发-Sherlock插件

本文介绍了 sherlock 连接相机时的插件使用。通过本套插件可连接海康的工业相机。 一.环境配置 1. 拷贝动态库 在用户安装 MVS 目录下按照如下路径 Development\ThirdPartyPlatformAdapter 找到目 录为 DalsaSherlock 的文件夹,根据 Sherlock 版本找到…

分布式版本控制系统:Git

1 Git概述 Git官网:https://git-scm.com/ Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目Git易于学习,占地面积小,性能极快。它具有廉价的本地库、方便的暂存区域和多个工作流分支等特性…

C语言编程笔记:文件处理的艺术

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一、为什么要用文件二、文件的分…

如何编写一个MyBatis插件?

大家好,我是锋哥。今天分享关于【Redis为什么这么快?】面试题。希望对大家有帮助; 如何编写一个MyBatis插件? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 编写 MyBatis 插件需要使用 MyBatis 提供的插件接口,MyBa…

C语言初阶牛客网刷题—— HJ34 图片整理【难度:中等】

1. 题目描述 牛客网在线OJ链接 Lily上课时使用字母数字图片教小朋友们学习英语单词,每次都需要把这些图片按照大小(ASCII码值从小到大)排列收好。请大家给Lily帮忙,通过C语言解决。 输入描述:Lily使用的图片包括 “A…

Golang Gin系列-7:认证和授权

在本章中,我们将探讨Gin框架中身份验证和授权的基本方面。这包括实现基本的和基于令牌的身份验证,使用基于角色的访问控制,应用中间件进行授权,以及使用HTTPS和漏洞防护保护应用程序。 实现身份认证 Basic 认证 Basic 认证是内置…

CVE-2025-0411 7-zip 漏洞复现

文章目录 免责申明漏洞描述影响版本漏洞poc漏洞复现修复建议 免责申明 本文章仅供学习与交流,请勿用于非法用途,均由使用者本人负责,文章作者不为此承担任何责任 漏洞描述 此漏洞 (CVSS SCORE 7.0) 允许远程攻击者绕…

学习数据结构(1)时间复杂度

1.数据结构和算法 (1)数据结构是计算机存储、组织数据的方式,指相互之间存在⼀种或多种特定关系的数据元素的集合 (2)算法就是定义良好的计算过程,取一个或一组的值为输入,并产生出一个或一组…

算法每日双题精讲 —— 二分查找(寻找旋转排序数组中的最小值,点名)

🌟快来参与讨论💬,点赞👍、收藏⭐、分享📤,共创活力社区。 🌟 别再犹豫了!快来订阅我们的算法每日双题精讲专栏,一起踏上算法学习的精彩之旅吧💪 在算法的…

STM32-时钟树

STM32-时钟树 时钟 时钟