新鲜出炉|基于深度学习的运维日志领域新进展

news2025/8/3 15:30:20

作者:云智慧算法工程师 Hugo Guo

运维日志领域研究方向主要包含异常日志检测、日志模式解析、日志内容分类、日志告警等。本篇文章介绍了热门异常检测模型 DeepLog、A2Log 等模型,以及云智慧自研模型 Translog 等。与此同时,在文章最后介绍了未来基于深度学习的运维日志领域主要研究方向。

日志研究概述

日志任务与数据

日志是运维领域中的必不可少的一种半结构化数据类型,基于此开展的研究任务也多种多样。

在这里插入图片描述

日志数据实时处理主要包含以下几方面:

  • Log Compression:在运行时压缩软件日志。

  • Log Parsing:从软件日志中自动提取事件模板和关键参数。

  • Log Mining:提高系统的可靠性,主要关注异常检测。

在这里插入图片描述

日志模式解析

海量日志数据之间语义相似性较高,实际需求需要将日志表示化。因此学者期望对日志提取出固定的模版以求代表整个日志数据库。

下方为四个经典的日志模式解析算法:

  • Drain(基于树结构相似度)

  • Spell(最长公共子序列)

  • AEL (常数和变量的发生频率)

  • IPLoM(迭代分区策略,根据消息长度、令牌位置和映射关系等)

下图为日志模版提取过程,从上到下依次是原始日志,解析后的日志模版。

在这里插入图片描述

学术前沿工作分享

  • DeepLog

DeepLog 是日志深度学习开山之作,采用LSTM编码提取好模板的日志并为给定序列中的下一个模板提供了一个具有概率的排序输出,以此进行异常检测。

在这里插入图片描述

  • A2Log

A2Log 采用无监督的方式去寻找正常和异常之间的boundary,基于Attention机制和最新的Transformer框架,对正常的日志输出得分根据阈值去判别boundry。

在这里插入图片描述

  • LogRobust

LogRobust 双向LSTM+Attention进行编码分类,对原始日志的模版进行word vector的向量化送入模型进行分类。

在这里插入图片描述

  • HitAnomaly

HitAnomaly 是对于日志模版和参数分别采用Transformer进行编码。

在这里插入图片描述

  • Logsy

Logsy 测试数据来源于新的系统,同时最后将异常分数加入考虑。

在这里插入图片描述

自研模型分享

  • Translog

Translog 首次考虑多来源、资源不对齐的日志源异常检测。是基于 Transfer learning 和 Transformer 的全新框架 Pretraining 和 Tuning 的学习范式,通过 Translog 消耗可降低为原来的5%,但是效果达到 SOTA。

在这里插入图片描述

  • Adapter

Adapter 的结构十分简单,像一个适配器为大模型的知识流动进行贯通。

下图右所示的是不同的日志源有着相同的异常问题,为迁移学习提供可能性。

在这里插入图片描述

云智慧将 Adapter 在三个公开数据集上进行测试,最终 Adapter 算法都获得了SOTA。同时 Adapter 的参数量减少了将近百分之95%

在这里插入图片描述

下图左方的试验说明预训练的方式会比直接从头开始训练更快收敛,同时会在较少的step下得到更高的F1分数。下图右方试验说明不同数据源的预训练的模型会产生不同的效果,发现BGL的预训练模型效果更好。

在这里插入图片描述

下图试验说明 Translog 在 low-resource 会表现出比正常的更好的结果。说明对于其他分布不均衡的日志源我们的模型也会有一定较好的效果。

在这里插入图片描述

  • Log L G

LogLG 是日志 parsing 和 detection 一体的 end-to-end 框架,以弱监督的方式提取日志 raw 语料中的关键词。与此同时,LogLG 是一种全新的日志模版数据结构,提出了模版图的概念。

在这里插入图片描述

  • Motivation

日志中有些关键词之间的联系模型往往忽略,例如warning这个关键词,既存在正常日志中,也存在异常日志。需要建立细粒度的关键词联系。日志的标签获取较难,弱监督或者无监督的方式会更易于用在实际中。以往的日志异常检测对于解析和检测分开,或者没有解析,这都会造成日志信息的冗余或者消失。

在这里插入图片描述

  • Multimodality for AIOps

Multimodality for AIOps 是日志(logs)、调用链(traces)、指标(metres)三者相辅相成构成运维领域的多模态问题。任务设计方面输入为多种模态数据,预测下一个template(Next Template Prediction)。模型采用Transformer架构,embedding方式采用bert,最大程度的保存原始多模态信息。

在这里插入图片描述

未来研究方向

因日志和运维数据本身的结构特点,预测接下来该领域深度学习研究的痛点和可能发展方向主要为以下三方面:

  • 日志本身的标签获取较难,无监督或者弱监督的深度方法将大量涌现,帮助该领域人员在无标签的数据情况下更好的从事实际研究和落地发展。

  • 日志领域多模态领域的发展,扩充日志本身的原始信息,因此会出现很多的基于自监督的方法和多种模态数据相结合的方向,朝着运维一体化更好的发展。

  • 大规模预训练日志模型被需求,一个学习各种运维知识和日志模式的大模型将在未来充当AIOps的研究典范。更好服务下游各种任务。

开源项目推荐

云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。

如果喜欢我们的项目,请不要忘记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,我们需要您的鼓励与支持。此外,即刻参与 FlyFish 项目贡献成为 FlyFish Contributor 的同时更有万元现金等你来拿。

GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: https://gitee.com/CloudWise/fly-fish

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34800.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot自定义starter实践

创建一个spring项目 仿照spring的规范,artifact命名为xxx-spring-boot-starter 按需添加必要的依赖 这里只作为测试,就按最低的需求来只勾选如下三个 lombok、spring-boot-configuration-processor、spring-boot-autoconfigure 默认生成的项目结构如下…

使用HuggingFace实现 DiffEdit论文的掩码引导语义图像编辑

在本文中,我们将实现Meta AI和Sorbonne Universite的研究人员最近发表的一篇名为DIFFEDIT的论文。对于那些熟悉稳定扩散过程或者想了解DiffEdit是如何工作的人来说,这篇文章将对你有所帮助。 什么是DiffEdit? 简单地说,可以将DiffEdit方法…

【论文解读】Self-Explaining Structures Improve NLP Models

🍥关键词:性能提升、文本分类、信息推理 🍥发表期刊:arXiv 2020 🍥原始论文:https://arxiv.org/pdf/2012.01786.pdf 🍥代码链接https://github.com/ShannonAI/Self_Explaining_Structures_Impro…

Java内部类

Java当中内部类主要有4种,分别是静态内部类、实例内部类/非静态内部类、局部内部类(几乎不用)、匿名内部类。静态内部类:被static修饰的内部成员类 ①在静态内部类只能访问外部类中的静态成员 ②创建静态内部类对象时,…

PB 2019 R3 MSOLEDBSQL SQL Server not available in Database Profiles

pb2019 pb2021,安装SQL OLEDB驱动时的注意事项: I installed PB 2019 R3, but when I go to the Database Profiles Window, MSOLEDBSQL SQL Server is not listed. Please go to the registry to check and see the key MSOLEDBSQL exists under HKEY_LOCAL_MACHI…

Python之tkinter图形界面设计学习二

图形用户界面(简称GUI),是指采用图形方式显示的计算机操作用户界面。与计算机的命令行界面相比,图形界面对于用户的操作显得更加直观和简便。 一、tkinter模块 tkinter是Python的内置GUI模块。使用tkinter可以快速地创建GUI应用…

Vue脚手架Ⅲ(浏览器本地存储,Vue中的自定义事件,全局事件总线,消息订阅与发布(pubsub),nextTick,Vue封装的过度与动画)

文章目录脚手架3.10 浏览器本地存储3.11 Vue中的自定义事件3.12 全局事件总线3.13 消息订阅与发布(pubsub)3.14 nextTick3.15 Vue封装的过度与动画3.15.1 动画效果3.15.2 过度效果3.15.3 多个元素过度3.15.4 集成第三方动画3.15.5 总结过度和动画脚手架 …

达梦数据库安装与初始化超详细教程

陈老老老板🦸👨‍💻本文专栏:国产数据库-达梦数据库(主要讲一些达梦数据库相关的内容)👨‍💻本文简述:本文讲一下达梦数据库的下载与安装教程(Windows版&…

一文解读 NFT 零版税

当我们听到“版税”这两个字时,脑海中首先浮现的是什么? 是对创作者作品权属的保护,还是项目方、平台额外的收益? 长期以来,版税作为一种收益机制,让买家“为知识和内容付费”,又让卖家“享受…

m在ISE平台下使用verilog开发基于FPGA的GMSK调制器

目录 1.算法描述 2.仿真效果预览 3.MATLAB部分代码预览 4.完整MATLAB程序 1.算法描述 高斯最小频移键控(Gaussian Filtered Minimum Shift Keying),这是GSM系统采用的调制方式。数字调制解调技术是数字蜂窝移动通信系统空中接口的重要组成…

决策树-相关作业

1. 请使用泰勒展开推导gini不纯度公式; 2. 请说明树的剪枝怎么实现; ●预剪枝(pre-pruning)通过替换决策树生成算法中的停止准则。(例如,最大树深度或信息增益大于某一阈值)来实现树的简化。预…

Flutter高仿微信-第39篇-单聊-删除单条信息

Flutter高仿微信系列共59篇&#xff0c;从Flutter客户端、Kotlin客户端、Web服务器、数据库表结构、Xmpp即时通讯服务器、视频通话服务器、腾讯云服务器全面讲解。 详情请查看 效果图&#xff1a; 实现代码&#xff1a; //删除对话框 Future<void> _showDeleteDialog(Ch…

要把项目问题管理好,项目经理需要这8个步骤!

项目问题时有发生&#xff0c;想让项目获得成功&#xff0c;项目经理需要有一个计划来快速有效地应对任何出现的问题。这是最佳实践问题管理过程的一部分&#xff0c;更是良好项目管理的核心本质。 项目问题的四种类型 任何事情都可能成为项目过程中影响项目计划的问题。项目…

ZYNQ之FPGA学习----FIFO IP核使用实验

1 FIFO IP核介绍 FIFO 的英文全称是 First In First Out&#xff0c; 即先进先出。与 FPGA 内部的 RAM 和 ROM 的区别是没有外部读写地址线&#xff0c; 采取顺序写入数据&#xff0c; 顺序读出数据的方式&#xff0c;使用起来简单方便&#xff0c;缺点就是不能像 RAM 和 ROM …

共创可持续出行未来 奔驰牵手《阿凡达:水之道》

11月20日&#xff0c;梅赛德斯-奔驰与20世纪影业及其出品电影《阿凡达&#xff1a;水之道》的品牌战略合作迈入崭新篇章&#xff01;电影《阿凡达&#xff1a;水之道》已定档于12月16日在全球多地公映&#xff0c;并于即日起开启主题为——“地球&#xff0c;我们的潘多拉”的联…

医疗设备远程监控 5G千兆工业网关智慧医疗

医疗设备远程监控 5G千兆工业网关智慧医疗 5G千兆工业网关的医疗设备远程监控应用&#xff0c;实现各医疗智能终端连接入网&#xff0c;医疗数据、监控视频、设备状态数据等&#xff0c;实时采集&#xff0c;边缘节点分析处理&#xff0c;低延时高速传输&#xff0c;工作人员远…

外汇天眼:外汇投资入门知识炒汇者的心理误区有哪些?

今天这篇文章我们了解一下关于外汇炒汇者的心理误区有哪些&#xff0c;希望对大家进行外汇投资有所帮助。 盲目跟风--心理误区之一 股市被动受诸多复杂因素的影响&#xff0c;其中股友的跟风心理对股市影响甚大。有这种心理的投资人&#xff0c;看见他人纷纷购进股票时&#…

代码随想录训练营第31天|LeetCode 455.分发饼干、 376. 摆动序列、53. 最大子序和

参考 代码随想录 什么是贪心算法 贪心算法&#xff08;又称贪婪算法&#xff09;是指&#xff0c;在对问题求解时&#xff0c;总是做出在当前看来是最好的选择。也就是说&#xff0c;不从整体最优上加以考虑&#xff0c;算法得到的是在某种意义上的局部最优解 。 贪心算法不…

hive表加载csv格式数据或者json格式数据

先说简单的使用 CREATE TABLE cc_test_serde( id string COMMENT from deserializer, name string COMMENT from deserializer) ROW FORMAT SERDE org.apache.hadoop.hive.serde2.JsonSerDe STORED AS INPUTFORMAT org.apache.hadoop.mapred.TextInputFormat OUTPUTFO…

Qt第二十三章:设置窗口、控件背景颜色

修改样式表&#xff1a;设置后发现影响所有控件内的背景色事件触发样式&#xff1a;鼠标划过触发样式设置背景图背景图打包。 py代码中引用 将resources.qrc文件进行转化成py文件 在我们将xxx.ui文件转换成py文件的时候会自动引用resources.qrc 实际使用中发现&#xff1a;back…