【大模型】LogRAG:基于检索增强生成的半监督日志异常检测

news2025/6/9 15:45:21

文章目录

      • A 论文出处
      • B 背景
        • B.1 背景介绍
        • B.2 问题提出
        • B.3 创新点
      • C 模型结构
      • D 实验设计
        • D.1 数据集/评估指标
        • D.2 SOTA
        • D.3 实验结果
      • E 个人总结
        • E.1 优点
        • E.2 不足

A 论文出处

  • 论文题目:LogRAG: Semi-Supervised Log-based Anomaly Detection with Retrieval-Augmented Generation
  • 发表情况:2024-ICWS(CCF-B)
  • 作者单位:清华大学-网络科学与网络空间研究所、华为

B 背景

B.1 背景介绍

随着微服务架构的复杂性增加,故障和异常的发生频率也随之上升,这对用户体验和系统稳定性构成了威胁。传统的日志分析方法依赖于人工,但在系统日益复杂的情况下,这种方法的效率和有效性都在下降。因此,自动化的日志分析成为了异常检测和故障预测的关键手段。

B.2 问题提出

(1)高度依赖于日志解析器,解析错误可能会显著影响异常检测任务;

(2)现有方法通常需要对日志序列进行建模,但系统更新和演变过程中的不稳定序列使得模型需要频繁重训;

(3)随着系统的发展,会出现许多在训练时未见过的日志,现有方法很难适应这些新日志,导致误报率较高。

B.3 创新点

结合RAG技术,通过两个阶段的检测来减轻日志解析错误的影响,并使用单类分类器来模拟系统的正常行为,同时利用LLM通过RAG对检测到的异常日志进行重新评估。

C 模型结构

(1)Log Processing

原始日志进行标准化处理,首先去除非字符符号(如数字、标点),统一转为小写以消除大小写差异;其次识别动态参数(如IP地址、ID)并替换为占位符,提取静态模板(如 Connecting to *);最后对模板中的混合词汇应用驼峰规则拆分(如 errorCodeerror code)。此步骤将异构日志转化为结构化模板+参数形式,为后续语义分析奠定基础,显著提升数据一致性。

(2)Log Representation

采用双阶段语义学习,通过联合训练,模型同时捕捉具体参数细节与抽象模板逻辑,生成高质量日志向量表示,具体如下:

  • 预训练LM:学习日志参数**的上下文语义(如 user123 与认证失败的关联);

  • 微调LLM:学习模板**的全局语义(如 login failed for user [param] 表示认证异常)。

(3)Log Anomaly Detection

基于DeepSVDD单分类模型,在训练阶段,模型将所有正常日志的向量表示压缩到超球面中心;检测时,计算新日志向量的球心距离。若距离超过阈值(论文中通过量化损失动态优化),则判为异常。例如,正常日志向量聚集在球心附近,而罕见的错误日志因偏离球心被检测。该方法仅需正常样本训练,适配日志的常态分布特性。

(4)Post-processing Using RAG

为解决误报/漏报,引入RAG机制,此步骤融合检索知识与LLM推理,显著提升决策可解释性与准确性,具体如下:

  • 检索当前日志模板的Top-5相似历史模板(基于向量余弦相似度);

  • 构建提示(Prompt)注入上下文:当前日志:[X],相似案例:[Y1,Y2...] 均属[正常/异常]

  • LLM基于提示推理:综合历史案例语义,输出最终异常判定及解释。

D 实验设计

D.1 数据集/评估指标
  • 数据集:BGL、Split
  • 评估指标:Precision、Recall、F1-Score
D.2 SOTA

D.3 实验结果

E 个人总结

E.1 优点

(1)在实验部分将数据集分成若干组,每次都是训练前一组,然后在下一组上做测试。

(2)有二次判断的过程,对初步异常检测的结果进行再判断,避免分类错误。

E.2 不足

(1)抛弃参数,同时对日志的token部分进行组合,会损失部分语义。

(2)只对正常行为进行建模,模型训练的过程缺少负样本,也会损失部分语义。

(3)在召回阶段采用的是模板向量,模板向量是由之前的语言模型编码得到的,并没有体现出来日志之间的关联性,所以召回的结果并不能代表与目标日志的关联程度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot实现的大创管理系统设计与实现【源码+文档】

基于SpringBootVue实现的大创管理系统采用前后端分离架构方式,系统设计了管理员、学生、指导老师、院系管理员两种角色,系统实现了用户登录与注册、个人中心、学生管理、指导老师管理、院系管理员管理、优秀项目管理、项目类型管理、项目信息管理、项目申…

国产高云FPGA实现视频采集转UDP以太网输出,FPGA网络摄像头方案,提供2套Gowin工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目国产高云FPGA基础教程国产高云FPGA相关方案推荐我这里已有的以太网方案 3、设计思路框架工程设计原理框图输入Sensor之-->OV7725摄像头输入Sensor之-->OV5640摄…

Webpack依赖

Webpack到底怎么对我们的项目进行打包捏? 在webpack处理应用程序时,会根据命令或者配置文件找到入口文件 从入口开始,会生成一个依赖关系图,这个依赖关系图会包含应用程序中所需的所有模块(.js、css文件、图片、字体…

自动驾驶科普(百度Apollo)学习笔记

1. 写在前面 在过去的几年里,自动驾驶技术取得飞速发展,人类社会正逐渐走向一个新时代,这个时代中,汽车不仅仅是一个交通工具,更是一个智能的、能够感知环境、做出决策并自主导航的机器伙伴。现在正好也从事这块的工作…

leetcode_66.加一

题目链接 这道题归类在力扣的数学类中,应该算是一道思维的简单题吧 题是这样的,根据题目我们不难理解,这个题就是在最后一位加 1 然后返回,正如示例所说的那样,当然这很符合我们人的思维,写这种算法题最重要…

iview-admin静态资源js按需加载配置

iview-admin2.0版本默认加载所有组件的JS,实际情况下,用户访问后台并不会每个页面都浏览。这样就会造成流量及带宽的浪费。可通过修改配置文件vue.config.js来实现按需加载,具体配置如图 image © 著作权归作者所有,转载或内容合作请联系…

抖去推--短视频矩阵系统源码开发

一、开发短视频矩阵系统的源码需要以下步骤: 确定系统需求: 根据客户的具体业务目标,明确系统需实现的核心功能模块,例如用户注册登录、视频内容上传与管理、多维度视频浏览与推荐、用户互动(评论、点赞、分享&#xf…

Vue部署到Nginx上及问题解决

一、Vue打包 dist文件即打包文件 二、下载Nginx,将dist内容全部复制到Nginx的html下 三、修改Nginx的nginx.conf配置文件,添加try_files $uri $uri/ /index.html; try_files $uri $uri/ /index.html; 是 Nginx 配置中的一个重要指令,用于处理…

项目-- Json-Rpc框架

目录 项目简介环境搭建Ubuntu-22.04 第三方库使用JsonCppMuduo基础类EventLoop类TcpConnection类Buffer类TcpClient类TcpServer类 服务端基本搭建客户端基本搭建 future 项目设计通用模块设计Rpc功能模块设计发现者设计提供者设计服务注册中心设计 Topic功夫模块设计主题管理中…

因泰立科技H1X激光雷达:因泰立科技为智慧工业注入新动力

在当今工业领域,精准测量与高效作业是推动产业升级的关键因素。因泰立科技推出的H1X三维轮廓扫描激光雷达,凭借其卓越的性能和广泛的应用场景,正成为智慧工业中不可或缺的高科技装备。 产品简介 H1X三维轮廓扫描激光雷达是因泰立科技基于二维…

python:Tkinter 开发邮件客户端,能编写邮件,发送邮件带附件

Python Tkinter 邮件客户端 下面是一个使用 Python Tkinter 开发的简单邮件客户端,支持编写邮件和发送邮件功能: 功能说明 这个邮件客户端包含以下功能: 邮件编写功能: 收件人地址输入抄送地址输入邮件主题输入邮件正文编辑区&…

深入解析Java21核心新特性(虚拟线程,分代 ZGC,记录模式模式匹配增强)

文章目录 前言一、虚拟线程 (Virtual Threads - JEP 444) - 并发的革命1.1 解决的核心问题🎯1.2 工作原理与核心机制⚙️1.3 使用详解与最佳实践🛠️1.4 注意事项⚠️1.5 总结 📚 二、分代 ZGC (Generational ZGC - JEP 439) - 低延迟新高度2…

免费批量去水印工具 - 针对文心一言生成图片

免费批量去水印工具 - 针对文心一言生成图片 工具介绍 这是一款免费的批量去水印工具,专门针对文心一言生成的图片进行处理。通过简单的操作,您可以快速去除图片中的水印。 下载链接 您可以通过以下网盘链接下载工具: 链接: https://pa…

在WPS中如何启用宏VBA wps.vba.exe下载和安装

首先我们点击导航栏中的【工具】,点击左侧 运行宏,根据提示 点击 立即加载。加载卡在50%时间比较长,耐心等待。 关闭wps重新打开后, word和xls表格都可以使用了。 如果电脑无法联网,需要提前下载 WPS VBA插件 WPS VB…

Hardware-Efficient Attention for Fast Decoding

TL;DR 2025 年普林斯顿大学提出的硬件友好 attention 设计,在 MQA/GQA 与 deepseek 提出的 MLA 基础之上继续优化,提出 Grouped-Tied Attention (GTA) 和 Grouped Latent Attention (GLA),实现更高推理效率的同时也能保持较好的模型效果。 …

LLMs 系列科普文(13)

十三、AlphaGO 提到强化学习的历史,不得不提到 alphago,如果你不记得这是什么了,那你是否还曾记得,早些年 AI 已经可以在围棋中击败人类选手了。 AlphaGO 系统又 DeepMind 公司开发,你可以在网络上找到当初人机大战的…

element-plus 单选组件 el-radio,选不上,又没报错,直接复制官网也不行解决方案

在使用 Vue 框架开发项目时,Element UI 是常用的组件库。最近在开发中遇到了 Element 单选框组件el-radio的双向绑定问题,直接复制element官网上的的案例下来也是不得,经过调试和探索,终于找到了解决方案,特此记录分享…

idea 启动jar程序并调试

添加一个JAR 应用程序,填写以下内容: JAR路径:填写你要启动的jar程序的绝对路径 虚拟机选项:-Xmx1G -Xms1G -agentlib:jdwptransportdt_socket,servery,suspendn,address*:5005 程序实参(可选,minecraft专用…

CSS 轮廓(Outline)与边框(Border)的深度解析

在 CSS 中,轮廓(outline)和边框(border)是两个用于装饰元素的重要属性,但它们在功能、渲染机制和应用场景上存在显著差异。下面从多个维度进行详细对比: 一、基础定义与语法差异 边框&#xf…

Docker 部署 Python 的 Flask项目

文章目录 一、构建运行 Docker 容器1. 查找合适镜像2.本地docker 拉取镜像3.项目配置1. python项目下生成 requirements.txt 依赖文件2. 生成Dockerfile文件3.忽略不必要文件4. 构建镜像 4. 运行容器5.测试 二、常见问题与解决方案 一、构建运行 Docker 容器 1. 查找合适镜像 …