[论文阅读] 人工智能+软件工程 | MemFL:给大模型装上“项目记忆”,让软件故障定位又快又准

news2025/6/9 20:31:28

【论文解读】MemFL:给大模型装上“项目记忆”,让软件故障定位又快又准

论文信息

arXiv:2506.03585
Improving LLM-Based Fault Localization with External Memory and Project Context Inseok Yeo, Duksan Ryu, Jongmoon Baik
Subjects: Software Engineering (cs.SE)

一、研究背景:当通用工具遇到复杂项目

想象你是一名修理工,面对一辆自行车故障和一辆汽车故障,所需的知识和工具肯定不同。软件故障定位也是如此:

  • 传统方法的困境
    早期的“频谱法”(SBFL)像通过统计零件使用频率找问题,“变异法”(MBFL)像逐个修改零件看影响,都需要大量测试数据,修复杂项目就像用扳手修手表,效率低下。
    后来的“机器学习法”(LBFL)虽然聪明,但需要大量标注好的“故障数据集”,就像学修车必须先看遍所有车型故障手册,现实中很难做到。

  • 大模型的新挑战
    近年大火的大语言模型(LLM),比如GPT,不用大量数据就能分析代码找故障,看似万能。但问题来了:

    • 它缺乏“项目专属知识”:比如某个项目特有的调试模式、类功能描述,就像修理工没看过某款车的说明书,修起来全靠通用经验。
    • 复杂项目直接抓瞎:比如在Defects4J基准测试中,传统LLM方法在复杂项目Closure上准确率暴跌,而人类开发者却能通过项目背景快速定位。

核心问题:如何让LLM快速“理解”具体项目的独特逻辑,避免每次都从头分析?

二、主要贡献:给LLM一个“项目记忆小本本”

这篇论文的核心成果,是让LLM拥有了“定制化记忆”,专治“项目知识不足”的痛点:

  1. 准确率提升:在Defects4J基准测试中,MemFL用GPT-4o-mini模型比传统LLM方法多找到12.7%的故障方法,复杂项目Closure上更是多定位27.6%。
  2. 效率翻倍:执行时间仅为传统方法的21%-24%,成本低至3.9%-33%,相当于用更少的“算力电费”办更多的事。
  3. 通用适配:不依赖特定模型,用最新的GPT-4.1-mini模型时,准确率比所有基线方法高24.4%,证明这招对不同LLM都有效。

三、创新点:像学生复习一样分阶段记忆

MemFL的独特之处,在于给LLM设计了“双轨记忆系统”,灵感类似学生复习:

  • 静态内存(课本知识)
    提前整理好项目的“基础资料”,包括项目整体目标、每个类的功能简介。就像考试前背熟的公式定理,让LLM一开始就知道“这个项目是做什么的,各个模块负责什么”。
  • 动态内存(错题本)
    在调试过程中,LLM会把每次成功或失败的经验记录下来,比如“某个错误信息通常和哪些类相关”。就像错题本里总结的“这类题型要注意XX点”,越用越聪明。
  • 三步极简流程
    把复杂的调试拆成“看报告→缩范围→定故障”三步骤,避免传统方法的多代理复杂协作,就像医生看病先看检查报告,再缩小科室范围,最后精准诊断。

四、核心方法:三步定位法+双内存系统

(一)外部内存怎么建?

  1. 静态内存:项目说明书

    • 用LLM自动生成项目摘要(如“这个项目是做图表生成的,核心类包括ChartRenderer、DataParser”)和类功能表(如“ChartRenderer负责渲染图表,参数是数据和样式”)。
    • 就像提前为每个项目准备一本“快速指南”,LLM不用从头读代码就能抓住重点。
  2. 动态内存:调试经验库

    • 第一次调试时,先用静态内存分析,然后对比结果和实际故障,总结出“调试指南”(如“当错误信息包含‘AST比较失败’时,优先检查Parser类”)。
    • 后续调试中不断迭代优化这些指南,就像游戏里的“攻略升级”,越打越顺手。

(二)MemFL三步流程详解

  1. 第一步:故障报告解读(Bug Review Generation)

    • 给LLM输入错误信息、测试代码和静态内存,让它生成“故障诊断报告”,比如“测试失败是因为数据解析时格式错误,可能和DataParser类有关”。
    • 类比:医生看CT报告,先判断“问题可能出在消化系统”。
  2. 第二步:代码范围缩小(Code Condensation)

    • 分阶段过滤无关代码:
      • 先根据类覆盖率排除无关类(比如“只有20%的测试用例用到的类暂时不看”)。
      • 再用动态内存里的经验,比如“之前类似故障出现在Parser类,优先检查这个类的方法”。
    • 类比:护士根据医生判断,先排除“骨科”,重点查“消化科”相关设备。
  3. 第三步:精准定位故障(Fault Confirmation)

    • 对剩下的可疑方法,结合动态内存中的调试策略(如“检查该方法的参数校验逻辑”),生成按可疑度排序的列表。
    • 类比:医生用精密仪器对重点器官做详细检查,确定病灶位置。

五、总结:让LLM从“通用维修工”变“项目专家”

这篇论文的核心思路,是通过“外部内存”让LLM快速获取项目专属知识,把“通用型选手”变成“项目专家”。就像给外卖骑手一本“小区地图手册”+“客户偏好笔记”,既能少走弯路,又能精准送达。
实验数据显示,MemFL在保持低成本的同时,显著提升了复杂项目的故障定位能力,为AI辅助软件开发(尤其是调试环节)提供了新方向。未来或许可以扩展到代码修复、漏洞检测等领域,让大模型更懂“项目的语言”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405806.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

银行卡二三四要素实名接口如何用PHP实现调用?

一、什么是银行卡二三四要素实名接口 输入银行卡卡号、姓名、身份证号码、手机号,验证此二三四要素是否一致。 二、核心价值 1. 提升风控效率 通过实时拦截冒用身份开户,银行卡二三四要素实名接口显著降低了人工审核成本,效率提升50%以上…

itvbox绿豆影视tvbox手机版影视APP源码分享搭建教程

我们先来看看今天的主题,tvbox手机版,然后再看看如何搭建: 很多爱好者都希望搭建自己的影视平台,那该如何搭建呢? 后端开发环境: 1.易如意后台管理优化版源码; 2.宝塔面板; 3.ph…

网页抓取混淆与嵌套数据处理流程

当我们在网页抓取中,遇到混淆和多层嵌套的情况是比较常见的挑战。混淆大部分都是为了防止爬虫而设计的,例如使用JavaScript动态加载、数据加密、字符替换、CSS偏移等。多层嵌套则可能是指HTML结构复杂,数据隐藏在多层标签或者多个iframe中。 …

高性能MYSQL:复制同步的问题和解决方案

一、复制的问题和解决方案 中断MySQL的复制并不是件难事。因为实现简单,配置相当容易,但也意味着有很多方式会导致复制停止,陷入混乱并中断。 (一)数据损坏或丢失的错误 由于各种各样的原因,MySQL 的复制…

大话软工笔记—架构模型

1. 架构模型1—拓扑图 (1)拓扑图概念 拓扑图,将多个软件系统用网络图连接起来的表达方式。 (2)拓扑图分类 总线型结构 比较普遍采用的方式,将所有的系统接到一条总线上。 星状结构 各个系统通过点到…

javaweb -html -CSS

HTML是一种超文本标记语言 超文本&#xff1a;超过了文本的限制&#xff0c;比普通文本更强大&#xff0c;除了文字信息&#xff0c;还可以定义图片、音频、视频等内容。 标记语言&#xff1a;由标签"<标签名>"构成的语言。 CSS:层叠样式表&#xff0c;用于…

spring task定时任务快速入门

spring task它基于注解和配置&#xff0c;可以轻松实现任务的周期性调度、延迟执行或固定频率触发。按照我们约定的时间自动执行某段代码。例如闹钟 使用场景 每月还款提醒&#xff0c;未支付的订单自动过期&#xff0c;收到快递后自动收货&#xff0c;系统自动祝你生日快乐等…

搭建nginx的负载均衡

1、编写一个configMap的配置文件 events {worker_connections 1024; # 定义每个worker进程的最大连接数 }http {# 定义通用代理参数&#xff08;替代proxy_params文件&#xff09;proxy_set_header Host $host;proxy_set_header X-Real-IP $remote_addr;proxy_set_header X-F…

Appium+python自动化(八)- 认识Appium- 下章

1、界面认识 在之前安装appium的时候说过我们有两种方法安装&#xff0c;也就有两种结果&#xff0c;一种是有界面的&#xff08;客户端安装&#xff09;&#xff0c;一种是没有界面的&#xff08;终端安装&#xff09;&#xff0c;首先我们先讲一下有界面的&#xff0c;以及界…

LabVIEW的MathScript Node 绘图功能

该VI 借助 LabVIEW 的 MathScript Node&#xff0c;结合事件监听机制&#xff0c;实现基于 MathScript 的绘图功能&#xff0c;并支持通过交互控件自定义绘图属性。利用 MathScript 编写脚本完成图形初始化&#xff0c;再通过LabVIEW 事件结构响应用户操作&#xff0c;动态修改…

每日Prompt:治愈动漫插画

提示词 现代都市治愈动漫插画风格&#xff0c;现代女子&#xff0c;漂亮&#xff0c;长直发&#xff0c;20岁&#xff0c;豆沙唇&#xff0c;白皙&#xff0c;气质&#xff0c;清纯现代都市背景下&#xff0c;夕阳西下&#xff0c;一位穿着白色露脐短袖&#xff0c;粉色工装裤…

6.8 note

paxos算法_初步感知 Paxos算法保证一致性主要通过以下几个关键步骤和机制&#xff1a; 准备阶段 - 提议者向所有接受者发送准备请求&#xff0c;请求中包含一个唯一的编号。 - 接受者收到请求后&#xff0c;会检查编号&#xff0c;如果编号比它之前见过的都大&#xff0c;就会承…

面试心得 --- 车载诊断测试常见的一些面试问题

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

跟进一下目前最新的大数据技术

搭建最新平台 40C64G服务器&#xff0c;搭建3节点kvm&#xff0c;8C12G。 apache-hive-4.0.1-bin apache-tez-0.10.4-bin flink-1.20.1 hadoop-3.4.1 hbase-2.6.2 jdk-11.0.276 jdk8u452-b09 jdk8终于可以不用了 spark-3.5.5-bin-hadoop3 zookeeper-3.9.3 trino…

系统模块与功能设计框架

系统模块与功能设计框架&#xff0c;严格遵循专业架构设计原则&#xff0c;基于行业标准&#xff08;如微服务架构、DDD领域驱动设计&#xff09;构建。设计采用分层解耦模式&#xff0c;确保可扩展性和可维护性&#xff0c;适用于电商、企业服务、数字平台等中大型系统。 系统…

我爱学算法之—— 前缀和(中)

一、724. 寻找数组的中心下标 题目解析 这道题&#xff0c;给定数组nums&#xff0c;要求我们找出这个数组的中心下标。 **中心下标&#xff1a;**指左侧所有元素的和等于右侧所有元素的和。 如果存在多个中心数组下标&#xff0c;就返回最左侧的中心数组下标。 算法思路 暴…

Elasticsearch从安装到实战、kibana安装以及自定义IK分词器/集成整合SpringBoot详细的教程ES(三)

DSL官方地址&#xff1a; DSL查询分类 Elasticsearch提供了基于JSON的DSL&#xff08;https://www.elastic.co/docs/explore-analyze/query-filter/languages/querydsl&#xff09;来定义查询。常见的查询类型包括&#xff1a; 查询所有&#xff1a;查询出所有数据&#xff0…

React Hooks 指南:何时使用 useEffect ?

在 React 的函数组件中&#xff0c;useEffect Hook 是一个强大且不可或缺的工具。它允许我们处理副作用 (side effects)——那些在组件渲染之外发生的操作。但是&#xff0c;什么时候才是使用 useEffect 的正确时机呢&#xff1f;让我们深入探讨一下&#xff01; 什么是副作用…

API标准的本质与演进:从 REST 架构到 AI 服务集成

在当今数字化浪潮中&#xff0c;API 已成为系统之间沟通与协作的“语言”&#xff0c;REST&#xff08;Representational State Transfer&#xff0c;表述性状态转移&#xff09;是一种基于 HTTP 协议的 Web 架构风格。它不仅改变了 Web 应用开发的方式&#xff0c;也成为构建现…

html - <mark>标签

<mark> 标签在HTML中用于高亮显示文本&#xff0c;通常用于突出显示某些重要的部分。它的默认样式通常是背景色为黄色&#xff0c;但你可以通过CSS自定义其外观。 1. 基本用法 <mark> 标签用于标记文本的高亮显示。它常用于搜索结果中&#xff0c;突出显示匹配的…