网络防御基准:安全运营中LLM的智能体威胁狩猎评估
大家读完觉得有帮助记得关注和点赞摘要。我们提出了网络防御基准Cyber Defense Benchmark这是一个衡量大语言模型LLM智能体在执行安全运营中心SOC分析师核心任务——威胁狩猎——方面表现的基准给定一个包含原始Windows事件日志的数据库没有任何引导性问题或提示识别恶意事件的确切时间戳。该基准将来自OTRF Security-Datasets语料库的106个真实攻击步骤涵盖13种战术中的93种MITRE ATTCK子技术封装到一个Gymnasium强化学习环境中。每个回合向智能体提供一个内存中的SQLite数据库包含75,000-135,000条日志记录这些记录由确定性战役模拟器生成该模拟器对原始录音进行时间偏移和实体混淆。智能体必须迭代地提交SQL查询以发现恶意事件时间戳并显式标记它们。智能体性能通过单一覆盖率分数Coverage Score取值[0,1]进行总结——智能体检测到的攻击轨迹片段中正确提交日志时间戳的比例在每次运行的各实例上等权平均。对前沿模型专有模型Claude Opus 4.7、GPT-5、Gemini 3.1 Pro以及开源权重模型Kimi K2.6、Qwen3.6 Plus、DeepSeek V3.2、MiniMax M2.7在覆盖105/106个步骤的26个战役上的评估发现所有模型均表现惨淡即使最佳模型Claude Opus 4.6也是如此没有任何模型在任何一次运行中找到所有威胁。我们将及格分数定义为在每个ATTCK战术上召回率≥50%——这是无人监督SOC部署的最低标准。表现最佳的Claude Opus 4.6在13个战术中有6个未达到此阈值。这一结果表明尽管当前LLM在精心设计的问答型安全基准上表现强劲但它们并不适合开放式的、证据驱动的威胁狩猎任务。1. 引言安全运营中心SOC分析师面临一个根本性挑战 adversaries 在数百万条日志事件中留下分散的痕迹使用能够绕过静态规则的技术分析师必须跨大型异构遥测数据进行推理以重建攻击链。这项任务——威胁狩猎——需要生成假设、迭代查询、证据综合以及对恶意活动的精确定位。大语言模型在安全知识测试和针对预分段的日志片段的自然语言问答上表现出了强劲的性能但它们在原始遥测数据上进行开放式、智能体驱动的威胁狩猎的能力尚未得到严格衡量。现有的安全基准分为两类。知识基准CTI-Bench [4]、SecBench [2]、CyberMetric [3]测试事实回忆和文本推理。引导式日志分析基准例如微软研究院2025年的基准[15]包含44天的数据和基于8个模拟真实世界攻击的问答将分析师任务分解为可回答的子问题从而限制了对于真实威胁狩猎至关重要的假设形成过程。两者都没有捕捉到开放式调查的难度。我们提出的网络防御基准在三个维度上与先前工作不同无引导性问题。智能体仅收到一份简短的威胁情报简报和原始日志所有假设必须由智能体自身产生。基于真实攻击遥测的可扩展规模。日志来自在Windows主机上记录的实际 adversary 技术执行而非合成生成。广泛的MITRE覆盖和攻击变异性。涵盖13种战术中93种ATTCK子技术的106个步骤通过一个强制杀伤链依赖关系和顺序实体混淆的模拟器组合成多阶段战役这防止了记忆化并允许测试LLM在端到端威胁狩猎中的推理能力。2. 相关工作2.1 LLM安全基准越来越多的研究在网络安全任务上评估LLM。SecBench [2]和CyberMetric [3]通过多项选择题评估事实性和程序性安全知识。CTI-Bench [4]测试网络威胁情报推理能力。CAI-Bench [13]将安全构建为竞赛风格的问答。这些基准衡量知识但不衡量在证据收集环境中的操作技能。CyberAIBench引入了CTF挑战在精神上更接近我们的工作但其侧重于利用而非防御。2.2 日志分析与威胁检测先前的工作要求LLM对单条日志条目进行分类或在预先选择的日志窗口上回答问题。微软研究院安全副驾驶评估[15]使用44天的合成组织日志包含8个预定义的攻击场景并评估结构化问答这分解了分析师任务并移除了假设形成步骤。我们的基准向智能体呈现完整的、未分段的日志数据库并且没有攻击场景框架。2.3 智能体安全评估InterCode-CTF [6]和NYU CTF Bench [7]评估智能体在进攻性CTF挑战上的表现。PentestBench [8]评估针对易受攻击机器的端到端渗透测试。网络防御基准是第一个针对防御性对应任务的基准来自防御者遥测的智能体威胁狩猎需要主动发现证据而非预先呈现的攻击产物。2.4 数据集来源网络防御基准建立在OTRF Security-Datasets (Mordor) [1]之上这是一个公共语料库包含在受控实验室环境中执行的106个攻击者步骤的记录Windows事件日志。先前的工作使用Mordor日志进行Sigma规则开发我们是第一个将其转换为具有确定性战役模拟的、计分式的、回合制基准的人。2.5 与现有基准的定位Simbian先前的工作——AI SOC LLM Leaderboard [17]——是第一个衡量端到端智能体告警调查的基准覆盖整个SOC工作流——从告警摄入到分类、调查和处理——跨越100个完整杀伤链场景这些场景源自知名APT组织APT32、APT38、APT43、Cobalt Group、Lapsus$等的行为。网络防御基准是互补的前者衡量告警驱动的调查用告警种子启动狩猎而我们的基准衡量从原始遥测数据出发、无种子告警的假设驱动的威胁狩猎。表1将两者置于更广泛的LLM网络安全基准图景中。表1LLM网络安全基准图景基准聚焦领域格式规模真实遥测智能体防记忆化成本跟踪CTI-BenchCTI知识多项选择题/简答固定————CyberSOCEval [18]SOC推理多答案选择题固定————AI SOC LLM Leaderboard告警调查端到端智能体固定✓✓——ExCyTIn-Bench威胁调查基于任务的问答固定✓✓——SIR-Bench事件响应词法发现可扩展人工✓✓✓—网络防御本文威胁狩猎攻击日志狩猎可扩展代码✓✓✓✓3. 任务形式化3.1 问题陈述一个威胁狩猎回合是一个部分可观测的序列决策问题。状态 s 是数据库中的完整日志记录集包括哪些记录对应恶意事件。智能体的信念状态是其对话历史。在每个回合智能体可以a执行SQL查询并观察最多10行结果或b提交其认为是恶意的时间戳列表。当智能体提交所有正确时间戳、耗尽50次查询预算或明确放弃时回合终止。该任务比表面看起来更难一个典型的战役数据库包含75,000-135,000条日志记录其中1,539-6,713条是恶意的大约1-5%。每次查询最多显示10行。在50次查询预算内找到所有恶意事件需要覆盖一个大的搜索空间——这是一个无法通过广度优先扫描单独解决的信息检索问题。3.2 评分真实情况是一组恶意事件时间戳标记flags来源于Sigma规则检测和LLM丰富的后果事件第6节。时间戳在规范化UTC后缀后以微秒精度匹配。覆盖率分数主要报告指标。原始标记数量不是一个良好的跨战役信号因为不同战役的标记密度差异巨大每次运行从几十到几千个。我们改为在叙事步骤层面聚合智能体性能。每个步骤将其恶意活动分解为一个有序的叙事步骤链初始访问 → 执行 → 持久化…每个真实标记都被标记其所属的步骤。一个重放由攻击链攻击步骤id标识——这允许跟踪智能体进展的连续性和完整性。对于每个实例 i我们定义c_i(t) | 到第t轮为止提交的标记所覆盖的步骤数 | / | 实例 i 中可覆盖的步骤数 |其中如果一个步骤至少有一个映射到它的筛选内标记默认为高严重性、高相关性的sigma/程序标记则该步骤是可覆盖的。在第t轮时的每运行覆盖率分数 C(t) 是实例加权平均值 C(t) mean_i c_i(t)每个LLM的 headline 分数是各运行中 C(T_final) 的平均值。覆盖率分数取值 [0,1]是在Pareto y轴、每轮差值图以及雷达图总体上报告的量。在底层数据框中它对应列 ratio_step_procedure_host_user_in_submitted。我们额外跟踪两个原始计数作为诊断指标n_flags_in_submitted正确提交的时间戳传统提交率的分子和 n_flags_in_query在任何查询结果中出现过的标记是智能体可观测性的上界。两者之间的差距量化了智能体的归因失败——看到了证据但未明确标记。4. 环境设计4.1 Gymnasium 接口HolodeckHuntEnv 实现了 Gymnasium Env API [12]。动作空间是 spaces.Text(max_length2000)——一个自由形式的SQL字符串。观测空间是 spaces.Text(max_length50000)——一个结构化字符串包含当前简报、最近的查询以及查询结果或错误消息。回合限制max_queries50截断在75个智能体轮次处设有1.5倍安全上限。该环境有意保持最小化没有工具使用API、没有向量存储、没有检索增强——唯一的信息收集机制是SQL。4.2 SQLite 日志数据库日志存储在一个内存中的SQLite数据库中有一个单一扁平表 logs。模式包含505个文本列对应整个106步骤语料库中观察到的所有Windows和Sysmon EventData字段外加一个包含完整原始事件的 raw_json 列。在热门字段上构建了四个索引EventID、Computer、Hostname 和 User。查询结果截断为10行始终报告总行数以便智能体规划分页查询。扁平模式设计迫使智能体推理哪些字段对哪些事件类型携带信号——这是一项模拟真实世界SIEM查询编写的技能。4.3 噪声注入当 include_noiseTrue默认时500条合成良性Sysmon EventID-1记录被混洗到攻击日志中模拟跨8个常见二进制文件explorer.exe, chrome.exe, svchost.exe等、3个用户和50个工作站的背景进程创建活动。噪声记录不关联任何标记防止智能体将所有进程创建事件视为自动可疑。4.4 智能体接口UniversalHunter 智能体收到一个系统提示包含i任务声明ii完整的505列模式iii查询分页指令以及iv三种可用动作。在每个回合智能体必须返回一个结构化的 HunterAction通过提供商原生的JSON-schema约束解码强制执行pythonHunterAction { reasoning: str # 必填非空的内部独白 tool: Enum # run_sql | submit_flags | give_up sql_query: str | None # 当且仅当 tool run_sql 时需提供 submitted_timestamps: list | None # 当且仅当 tool submit_flags 时需提供 }三种工具可用run_sql执行SQL消耗一个查询回合submit_flags提交候选时间戳免费——不消耗回合以及 give_up提前终止。通过LiteLLM [14]访问模型支持Anthropic、OpenAI、Google Vertex AI为Gemini启用高思考模式、AWS Bedrock、Fireworks AI以及自定义OpenAI兼容端点。5. 数据集5.1 来源OTRF Security-Datasets该基准使用了来自开放威胁研究联盟OTRFSecurity-Datasets项目[1]的106个步骤记录这是一个通过在被控实验室环境中执行特定攻击者技术生成的Windows事件日志公共语料库。每个步骤由人类 adversary 模拟操作员执行并通过Windows事件转发WEF、Sysmon或HELK堆栈收集管道捕获。这些步骤涵盖MITRE ATTCK中定义的凭证转储、横向移动、权限提升、持久化、防御规避和其他行为。5.2 规范化原始记录跨越9个基础设施环境和5种日志格式HELK/Elasticsearch JSON、WEF导出、raw_event、Winlogbeat和ADFS-schema。一个自定义规范化器强制执行通用模式每条记录都有一个ISO-8601格式的 TimeCreated 字段timestamp 字段被丢弃字段别名例如 IpAddress/Ipaddress, ProcessID/ProcessId被解决。106个步骤中的774,218条原始记录全部解析成功零错误。表2核心数据集统计统计项数值总步骤数106总原始日志记录数774,218每步骤平均记录数7,304记录范围最小-最大68-9,896唯一Channel, EventID对303唯一模式字段键507MITRE ATTCK子技术数93覆盖的MITRE战术数12父技术覆盖率38%87/231恶意事件标记总数23,268每步骤平均标记数219.5标记范围每步骤最小-最大11-3,0685.3 MITRE ATTCK 覆盖106个步骤覆盖了ATTCK企业矩阵中12种战术的93个独特MITRE ATTCK子技术初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、渗透、影响。这相当于覆盖战术中所有父技术的38%87/231。第9节中的战术级分析将资源开发添加为第13个类别以作补充。基准的贪婪种子选择算法第7.3节确保26个战役实例覆盖105/106个步骤——剩余的步骤在默认蓝图的操作标签约束下无法达到。6. 标记提取管道6.1 Sigma规则检测对于每个步骤的规范化日志我们针对SigmaHQ规则仓库[9]运行 WithSecureLabs Chainsaw [10]。Chainsaw 在 (EventID, Channel, record-index) 级别产生匹配。每个 Chainsaw 命中产生一个或多个 sigma 标记标记有匹配规则的标识符和严重性严重、高、中、低。需要对规则进行修补将 yaml.safe_load 改为 yaml.safe_load_all因为 SigmaHQ 使用了带有 action: global 的多文档YAML。6.2 LLM后果丰富化Sigma规则针对特定事件模式会错过恶意活动的因果邻域。我们使用一个LLM丰富步骤对于每个Sigma匹配的事件识别后果事件紧接在检测之前或之后、因果上可归因于攻击者动作的日志记录例如加载到WMIC进程中的DLL从cmd.exe派生的子进程。这些被标记为 consequent_sigma 或 consequent_procedure。另一个丰富步骤根据Sigma YAML元数据分配严重性、相关性分数1 攻击核心2 支撑性3 附带以及叙事步骤映射。6.3 标记分类法该基准定义了5个组中的29个 FlagType 值攻击者基础设施IP、域名、URL、端口、受害者身份主机、用户、SID等、其他实体主机、用户、进程、DLL、服务、恶意工件进程路径、命令、哈希、注册表项、互斥锁等以及恶意事件时间戳。对于威胁狩猎任务所有真实标记都是 malicious_event_timestamp 类型在规范化UTC后缀后以微秒精度匹配。在26个基准战役中每个战役的标记数量范围从1,539到6,713平均值 ≈ 2,765。表3标记来源标签分布单个标记可能携带多个标签来源标签描述总数26个战役sigma_code事件代码级Sigma规则匹配30,772consequent_sigmaLLM识别的Sigma事件因果邻居25,799sigma规则级Sigma匹配8,495consequent_procedure从步骤派生的后果事件7,612procedure原始步骤标记1,057总计73,7357. 战役模拟7.1 动机原始Mordor记录不适合作为可泛化的基准它们在各个步骤中共享相同的IP地址、主机名和用户账户因此模型可以学习识别特定字符串而不是检测真正的恶意模式。我们的战役模拟器通过将多个步骤组合成一个多阶段杀伤链并应用确定性实体混淆来解决这个问题。7.2 杀伤链模板步骤被标记有16个语义动作标签DELIVERY、EXECUTION、DISCOVERY、CREDENTIAL_HARVESTING、PRIVILEGE_ESCALATION、LATERAL_MOVEMENT、PERSISTENCE、C2、QUIET等。三个链模板定义了杀伤链结构SHORT4步Delivery → Execution → Quiet → Persistence。MEDIUM6步Delivery → Execution → Discovery → Credential Harvesting → Weakening → Quiet。LONG9步Delivery → Execution → Weakening → Discovery → Privilege Escalation → Credential Harvesting → Quiet → Lateral Movement → Persistence。默认的 DIVERSE_INTRUSION 蓝图每个战役运行一条 SHORT 一条 MEDIUM 一条 LONG 链共19步模拟一个跨越多个主机和凭证上下文的真实多阶段入侵。7.3 步骤采样与种子选择每个杀伤链槽位通过对合格步骤进行softmax采样来填充并使用温度驱动对已使用步骤的抑制。合格性由 requires/adds 依赖语法控制一个需要 domain_admin 权限的 DCSync 步骤只有在之前步骤已提升到域管理员级别时才能被选中。为了最大化MITRE覆盖率我们扫描种子0-999并计算每个种子的战役调用了哪些步骤。贪婪集合覆盖选择了26个种子它们共同覆盖了106个步骤中的105个。7.4 确定性日志变异ReplayProjector 为每个战役转换原始步骤日志时间偏移。所有12个时间戳字段都按一个以2026-01-14T00:00:00Z为锚点的、从种子导出的增量进行偏移。多条链以30分钟间隔交错排列并带有40%的每步抖动模拟真实的驻留时间。实体替换。IP、主机名、用户名、域名和SID根据从种子导出的替换映射进行重写。每个替换都记录在战役包中包含的审计变更日志中。GUID重新匿名化。八个GUID形状的字段ProcessGuid、ParentProcessGuid、LogonGuid等被替换为新的UUID防止通过字符串记忆进行跨战役指纹识别。标记协同偏移。真实标记时间戳按相同增量偏移以保持与变异后日志的一致性。实体混淆和GUID重新匿名化的组合确保模型无法利用从公共Mordor数据集中记忆的字面字符串来解决基准回合。使用相同的seed, blueprint, timestamp三元组运行会产生字节相同的战役输出从而实现精确的可复现性。8. 评估协议8.1 评估的模型模型提供商上下文窗口运行次数Claude Opus 4.6Anthropic1M tokens26Claude Sonnet 4.6Anthropic1M tokens26Claude Opus 4.7Anthropic1M tokens26Gemini 3.1 Pro PreviewGoogle1M tokens260GPT-5OpenAI400K tokens52Kimi K2.6开源权重256K tokens78Qwen3.6 Plus开源权重1M tokens12Gemini 3 Flash PreviewGoogle1M tokens260MiniMax M2.7开源权重200K tokens13Kimi K2.5开源权重256K tokens78DeepSeek V3.2开源权重128K tokens28表4网络防御基准 v1 中评估的模型8.2 实验设置每个模型对每个战役种子进行一次 rollout预算为50次SQL查询max_queries50。在75个智能体轮次处设有1.5倍安全上限以防止失控循环。所有运行在所有模型上使用相同的系统提示任务声明、完整的505列模式、分页指令和动作描述。不提供任何攻击提示、时间窗口或受害者主机列表。通过每个提供商的线程池控制提供商级并行性以遵守API速率限制。所有859次狩猎运行的总实验成本约1,672美元。8.3 指标覆盖率分数主要每次运行中检测到的可覆盖叙事步骤的实例加权比例在各次运行上平均第3.2节。在Pareto y轴、每轮差值图以及雷达图总体上报告。取值 [0,1]对应数据框列 ratio_step_procedure_host_user_in_submitted。n_flags_in_submitted正确提交的恶意事件时间戳原始计数支持传统提交率视图。n_flags_in_query在任何查询结果中出现过的标记可观测性天花板。total_flags战役的真实标记数量召回率分母。total_costLLM API调用的美元成本。total_tokens消耗的总token数输入输出。9. 结果9.1 排行榜模型覆盖率分数 (mean±σ)成本 (mean±σ)Tokens (均值)轮次 (mean±σ)发现标记比例 (% mean±σ)Claude Opus 4.60.55±0.0517.98±17.98±4.123,541,39551.7±5.74.48%±1.40%Claude Sonnet 4.60.44±0.0812.99±12.99±4.634,258,92555.8±2.93.43%±1.12%Claude Opus 4.70.36±0.133.66±3.66±4.28704,45318.8±15.10.91%±1.59%Gemini 3.1 Pro Preview0.22±0.131.85±1.85±1.221,970,30237.3±14.82.01%±1.70%GPT-50.21±0.081.07±1.07±0.341,941,64833.5±11.32.24%±1.13%Kimi K2.60.20±0.140.52±0.52±0.172,420,33052.1±3.71.15%±1.06%Qwen3.6 Plus0.19±0.110.41±0.41±0.171,783,60436.4±13.92.24%±2.59%Gemini 3 Flash Preview0.18±0.080.19±0.19±0.13675,70620.6±10.81.44%±0.83%MiniMax M2.70.15±0.100.10±0.10±0.03958,64033.2±7.10.98%±0.64%Kimi K2.50.11±0.131.44±1.44±0.682,343,43450.5±9.60.86%±1.09%DeepSeek V3.20.10±0.070.94±0.94±0.461,519,28429.2±15.50.82%±0.79%表5主要结果按覆盖率分数降序排列。覆盖率分数是每次运行检测到的可覆盖叙事步骤的实例加权比例在每个模型的所有运行上平均。成本美元、token数和轮次是每运行均值。发现标记比例是狩猎最后一步中正确提交的恶意事件时间戳的比例n_flags_in_submitted / total_flags以百分比表示。σ 是该模型运行的样本标准差。图1成本-性能帕累托前沿。每个点显示均值 ± σ 覆盖率分数每个步骤、主机、用户攻击实例中由正确提交标记覆盖的叙事步骤比例在实例上平均与每运行平均API成本。Claude Opus 4.6 在覆盖率上占主导但成本比 GPT-5 高一个数量级。9.2 零及格分数我们将及格分数定义为在基准中代表的每个 MITRE ATTCK 战术上召回率 ≥50%。这一阈值源于操作现实低于50%模型在该战术中漏掉的恶意事件多于检测到的这使其无法用于无人监督的SOC部署。共覆盖13种战术在Mordor语料库中观察到的12种杀伤链战术加上资源开发。没有任何模型通过。Claude Opus 4.6 在13个战术中的7个上超过了50%的及格线。GPT-5 额外有两个完全盲点的战术在那里它几乎从未在任何运行中提交正确的标记。其他模型的平均召回率在10%到44%之间——远低于全面通过阈值。9.3 所有模型均未能完成狩猎最惊人的发现是没有任何模型在任何一次运行中找到了所有标记。即使是领先者 Claude Opus 4.6平均每次运行也留有超过45%的可覆盖叙事步骤未被触及原始标记数量也说明了同样的问题在标记密度最高的战役5,713-6,713个真实标记中Claude Opus 4.6 最多提交约150个标记——大约5%的召回率。n_flags_in_query 和 n_flags_in_submitted 之间的差距揭示了一致的模式智能体观察到的恶意事件多于它们明确报告的。Claude Opus 4.6 平均观察到159个标记但只提交了113个表明智能体遇到了正确的证据但未能一致地将其归因。图2每轮覆盖率分数按LLM分组样本rollout。Claude Opus 4.6 在提交前探索更深GPT-5 更早提交。没有任何模型在任何战役中接近完整程序覆盖。9.4 战术级召回率MITRE 战术Claude Opus 4.6Claude Sonnet 4.6Claude Opus 4.7Gemini 3.1 ProGPT-5Kimi K2.6Qwen3.6 PlusGemini 3 FlashMiniMax M2.7Kimi K2.5DeepSeek V3.2防御规避0.590.490.380.250.250.230.200.210.180.130.11执行0.560.450.360.230.210.200.190.190.150.110.10持久化0.560.430.340.250.270.190.210.190.160.130.14资源开发0.560.440.340.260.200.200.170.210.120.140.14命令与控制0.550.450.410.230.230.210.220.200.160.120.11发现0.540.370.370.200.240.180.180.160.150.110.10权限提升0.520.410.310.220.260.200.140.180.150.110.12初始访问0.370.240.190.130.020.100.120.120.040.060.04影响0.330.280.240.100.220.130.150.100.110.060.07凭证访问0.270.200.140.090.070.120.030.060.050.060.04横向移动0.250.180.160.080.040.090.090.060.030.050.04收集0.240.160.040.090.050.070.170.060.020.040.03渗透0.240.170.150.050.020.020.050.040.000.020.01表6每个MITRE战术的归一化召回率仅高严重性标记。1.0 任何模型在该战术上找到的最大标记数。图3所有五个模型的归一化战术召回率雷达图。仅高严重性严重/高、高相关性1-2的标记。Claude Opus 4.6 在所有13个战术上领先所有模型在凭证访问和初始访问上显示接近零的覆盖率。Claude Opus 4.6 在防御规避0.59和持久化0.56上实现了最高的归一化召回率在这些战术中常见启发式方法——PowerShell编码检测、注册表运行键写入、签名二进制代理执行——可以通过简单的关键词查询检测到。所有模型在凭证访问上显示接近零的召回率在初始访问上显示接近零或零召回率在这些战术中攻击留下的痕迹更微妙LSASS DRSUAPI调用、Kerberoasting服务票证模式需要特定的领域查询知识这些知识并非自发产生的。9.5 狩猎策略分析在所有模型中主导策略是广度优先的关键词扫描范围发现事件计数、时间戳范围、通道分布然后按常见恶意事件ID进行过滤EventID 1 进程创建、EventID 4104 PowerShell脚本块日志记录、EventID 4624 登录事件。Claude Opus 4.6 的一个典型前五轮序列T1:SELECT COUNT(*), MIN(TimeCreated), MAX(TimeCreated) FROM logs→ 134,867条记录2026-01-14T00:00:00Z 到 T01:51:35ZT2:SELECT EventID, Channel, COUNT(*) AS cnt FROM logs GROUP BY EventID, Channel ORDER BY cnt DESCT5:SELECT TimeCreated, EventID, Image, CommandLine FROM logs WHERE EventID1 AND (CommandLine LIKE %encoded% OR CommandLine LIKE %bypass% OR CommandLine LIKE %invoke%)→ 发现16个新标记GPT-5 更早提交平均第34轮而Claude Opus 4.6为第52轮表明存在不同的探索-利用权衡。Gemini 3 Flash 达到了与GPT-5相当的标记提交数但成本低6倍0.19vs.0.19vs.1.07这表明推理质量——而非token吞吐量或上下文长度——是此任务的主要瓶颈。10. 讨论10.1 模型为何失败三个因素可能导致低召回率搜索空间的难解性。针对75K-135K条记录的10行结果限制迫使智能体面临一个信息收集问题无法在50次查询内通过广度优先扫描解决。有效的威胁狩猎需要语义压缩制定能够检索高密度恶意证据的查询。归因差距。n_flags_in_query 和 n_flags_in_submitted 之间的一致差距表明智能体观察到恶意证据但未能归因。这可能反映了在部分信息下的信心不足、对提交错误时间戳的厌恶或者在长对话历史中跟踪证据的能力限制。战术盲点。GPT-5 在初始访问和横向移动上记录零召回率所有模型在凭证访问上显示接近零的召回率。某些ATTCK战术需要非常特定的查询模式——安全日志中的Kerberoasting指标、Sysmon中的DRSUAPI调用模式——当前模型在没有明确的检测工程训练的情况下无法自发产生。10.2 基准有效性考虑基于Sigma规则的真实情况是全面的但并不完美规则可能在良性的相似事件上触发而LLM后果丰富化将评估者自己的模型引入到标注管道中。500条记录的噪声注入是对生产日志量的保守模拟真实的企业环境每天包含数百万条事件进一步放大了搜索挑战。微秒精度的时间戳匹配是严格设计的粗粒度的提交例如提交一分钟窗口内的所有事件不应获得部分分数因为任务要求精确的取证归因。11. 可复现性给定seed, blueprint, timestamp三元组所有26个战役种子、步骤标签、链模板、模拟器代码、标记提取管道和评估工具都是完全确定性的。26种子选择过程在 research/chain_analysis/seed_simulation.py 中实现。所有859次狩猎结果JSON都包含在发布中包含完整的对话轨迹、每轮SQL查询和结果、标记发现事件、token计数和成本。基准图表可以通过以下命令重新生成python tools/generate_benchmark_page.py \ --output output/benchmark.html \ --artifacts release/artifacts/LLM API结果在温度 0 时是非确定性的对于多个模型报告了单次 rollout 结果。建议未来比较使用多次 rollout 平均≥3次 rollout。战役生成器管道是 Simbian AI 的专有部分基准种子的预构建战役JSON随发布一起分发以便在不需要生成器的情况下进行独立评估。12. 局限性与未来工作单次 rollout 评估。高方差表明需要多次 rollout 平均以获得统计可靠性。仅限Windows遥测。所有106个步骤都使用Windows事件日志。Linux auditd、AWS CloudTrail 和网络流量数据代表了真实SOC工作负载的很大一部分但未被覆盖。告警增强设置。一个互补的评估可以预先提供一个Sigma规则告警并衡量智能体从已知入侵指标进行 pivot 的能力从而将调查深度与发现广度分开测试。强化学习智能体。所有评估的智能体都使用零样本提示。优化覆盖率分数的RL训练智能体可能会产生显著更高的召回率。每链归因。当前的标记集合并了所有恶意事件无论子链来源如何。未来版本将按杀伤链成员关系标记标记从而实现每链和每阶段召回率指标。13. 结论网络防御基准是第一个评估LLM智能体在真实攻击遥测数据上进行开放式、证据驱动的威胁狩猎的基准。我们对五个前沿模型在26个多步骤战役覆盖数据集中106个MITRE ATTCK步骤中的105个的859次运行上的评估显示召回率普遍较低最佳模型Claude Opus 4.6平均达到0.55 ± 0.05的覆盖率分数每次运行中它发现的、实例加权后的可覆盖叙事步骤比例没有任何模型能完成一次狩猎。根据我们的及格标准每个ATTCK战术召回率≥50%领先者在13个战术中的7个上达标其他四个模型在零个上达标——没有任何模型通过。这些结果并不反映模型在安全知识任务上的质量这些模型在那些任务上得分很高相反它们暴露了在大规模、开放式、智能体驱动的证据收集方面的一个特定缺陷。我们发布基准环境、战役数据和所有狩猎轨迹以使社区能够衡量和提高LLM在网络防御中的能力。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2569319.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!