Step3.5 Flash 大模型技术深度解析:稀疏 MoE、混合注意力与 MTP 的高效推理革命

news2026/5/7 9:31:06
摘要在通用人工智能Agent技术快速演进的当下大模型的推理效率、长上下文处理能力、复杂逻辑推理性能成为落地核心痛点。阶跃星辰StepFun推出的 Step3.5 Flash作为面向 Agent 场景的开源稀疏 MoE 大模型以196.81B 总参数、仅 11B 激活参数的极致稀疏架构搭配 3:1 混合注意力、MTP-3 多 token 预测、EP 分组均衡路由等核心技术实现 100-300 tok/s 常规推理速度、350 tok/s 代码任务峰值速度同时支持 256K 超长上下文在数学、代码、工具调用等基准测试中达到前沿闭源模型水平。本文从模型架构设计、稀疏 MoE 机制、混合注意力优化、MTP 推理加速、训练技术体系、性能评测与技术对比、部署优化七大维度全面拆解 Step3.5 Flash 的核心技术细节无营销导向聚焦底层原理与工程实现为 AI 研发人员提供深度技术参考。一、引言1.1 大模型发展的核心痛点当前大模型技术呈现 “参数规模竞赛” 与 “落地效率瓶颈” 的两极分化一方面GPT-5、Gemini 3.0 Pro 等闭源前沿模型通过万亿级参数堆叠在复杂推理、工具调用、多轮交互等 Agent 核心能力上持续突破另一方面开源模型如 Llama 3、DeepSeek V3虽快速追赶性能但面临三大致命短板推理成本过高稠密模型参数规模超千亿后单 token 推理需激活全部参数GPU 显存占用超 80GB单轮对话成本超 0.1 元无法规模化部署长上下文效率低下传统全注意力机制复杂度为 O (n²)处理 128K 上下文时计算量爆炸延迟超 10 秒无法满足 Agent 实时交互需求复杂推理能力不足开源模型在数学证明、代码生成、多步骤工具调用等需要深度逻辑链的任务上与闭源模型差距超 20%难以支撑工业级 Agent 场景。1.2 Step3.5 Flash 的设计定位与核心目标Step3.5 Flash 由阶跃星辰StepFun团队于 2026 年 2 月推出核心定位是 **“前沿级智能 极致推理效率” 的 Agent 专属开源大模型 **设计目标明确聚焦三大核心高推理效率通过稀疏化架构实现 “千亿级模型能力百亿级模型速度”常规推理速度 100-300 tok/s代码任务峰值 350 tok/s强长上下文能力原生支持 256K 上下文窗口处理长文档、多轮 Agent 交互时无明显性能衰减顶尖推理性能在数学、代码、工具调用等 Agent 核心任务上性能对标 GPT-5.2 xHigh、Gemini 3.0 Pro 等闭源前沿模型同时保持开源可商用特性Apache 2.0 协议。1.3 技术核心亮点总览Step3.5 Flash 的技术突破并非单一创新而是架构、注意力、推理、训练四大维度的系统性优化核心亮点可概括为稀疏 MoE 架构196.81B 总参数196B 骨干 0.81B 输出头每层 288 个路由专家 1 个共享专家Top-8 专家选择机制单 token 仅激活 11B 参数3:1 混合注意力S3F13 层滑动窗口注意力SWA1 层全注意力窗口大小 512KV 头 8 个GQA-8SWA 查询头 96 个全注意力查询头 64 个计算开销降低 60% 以上MTP-3 多 token 预测3 个轻量级 MTP 头单次前向传播同时预测 4 个 token推理速度提升 3-5 倍EP 分组均衡路由专家并行分组负载均衡解决 MoE 专家崩溃、路由失衡问题分布式部署吞吐量提升 40%稳定训练体系17.2T 高质量训练数据改进版 Muon 优化器MIS-PO 强化学习框架支持长时序推理稳定训练。二、Step3.5 Flash 整体架构设计2.1 架构设计哲学模型 - 系统协同优化Step3.5 Flash 的架构设计打破传统 “先堆参数、后优化效率” 的模式采用 **“推理延迟优先、效率与性能平衡” 的模型 - 系统协同设计理念核心围绕 Agent 工作负载特征大量上下文预填充 长时多轮交互解码从注意力机制、稀疏 MoE、多 token 预测 ** 三大维度协同优化确保在固定时间预算内推理延迟最小化、智能最大化。2.2 整体架构总览Step3.5 Flash 采用45 层稀疏 MoE Transformer 骨干3 层稠密 FFN 层 42 层 MoE 层搭配混合注意力层布局、3 个 MTP 预测头、头门控注意力、RoPE 旋转位置编码整体架构如图 1 所示2.2.1 基础配置参数表 1 Step3.5 Flash 核心架构参数组件参数值说明骨干网络45 层 Transformer3 层稠密 FFN42 层 MoE 层隐藏层维度4096标准 Transformer 隐藏维度上下文窗口256K原生支持无上下文扩展微调词汇表大小128,896多语言优化词汇表总参数196.81B196B 骨干 0.81B 输出头含 MTP单 token 激活参数~11BMoE 稀疏激活不含嵌入 / 输出矩阵注意力布局3:1SWA: 全注意力S3F1 混合注意力块SWA 窗口大小512局部注意力窗口平衡效率与局部依赖KV 头数GQA8适配 8-GPU 服务器张量并行查询头数全 / SWA64/96SWA 头数提升补偿混合注意力性能损失RoPE 基数10,000旋转位置编码支持超长上下文MTP 头数量3MTP-1、MTP-2、MTP-3轻量级设计2.2.2 模块划分整体架构可分为四大核心模块输入嵌入层词嵌入 RoPE 位置编码将 token 序列映射为 4096 维向量混合注意力 MoE 骨干层45 层 Transformer每层包含混合注意力子层 MoE 前馈网络子层实现特征提取与知识存储MTP 预测头层3 个独立 MTP 头基于骨干隐藏状态分别预测 t2、t3、t4 token加速推理输出层LM 头 概率归一化输出最终 token 预测结果。三、稀疏 MoE 核心机制千亿参数的稀疏激活3.1 MoE 技术背景与痛点混合专家模型MoE是解决 “大模型能力与效率矛盾” 的核心技术核心思想是 **“分而治之”**将模型前馈网络FFN拆分为多个独立 “专家”Expert每个专家专注处理特定类型数据推理时仅激活与输入匹配的少量专家大幅降低计算量。传统 MoE 存在三大致命痛点专家崩溃Expert Collapse少数专家被频繁激活大部分专家闲置模型性能下降路由失衡不同 token 分配到专家的数量差异大分布式部署时 GPU 负载不均吞吐量降低专家通信开销大专家并行EP部署时专家间数据传输延迟高抵消稀疏化效率优势。3.2 Step3.5 Flash 稀疏 MoE 架构设计3.2.1 专家配置Step3.5 Flash 采用细粒度 MoE 设计45 层骨干中前 3 层为稠密 FFN 层提取基础特征后 42 层为 MoE 层存储高阶知识每层 MoE 配置路由专家Routed Experts288 个 / 层独立 FFN 结构参数共享共享专家Shared Expert1 个 / 层始终激活处理通用特征避免专家闲置专家维度每个专家隐藏维度 4096与骨干一致。3.2.2 Top-8 路由机制路由机制决定输入 token 分配给哪些专家Step3.5 Flash 采用Top-8 无感知路由输入 token 经注意力子层输出后通过路由层线性层 Softmax计算每个专家的匹配概率选择概率最高的8 个路由专家1 个共享专家共 9 个专家参与计算将 9 个专家的输出加权求和作为 MoE 子层最终输出。核心优势每层 288 个专家Top-8 选择使单 token 仅激活 8/288≈2.78% 的专家配合共享专家单 token 激活参数约 11B仅为总参数的 5.6%实现极致稀疏化。3.2.3 EP 分组均衡路由解决路由失衡为解决传统 MoE 专家并行EP部署时的路由失衡、GPU 负载不均问题Step3.5 Flash 提出EP 分组均衡路由策略专家分组将 288 个路由专家平均分为 G 组G8适配 8-GPU 服务器每组 36 个专家分配到不同 GPU负载均衡损失设计 EP 级均衡损失函数在训练时强制每组专家被激活的概率均匀公式如下LEP​G∑g1G​fg​pg​其中fg​为 g 组专家被激活的频率pg​为 g 组专家的路由概率最小化该损失可确保各组负载均衡动态路由调整推理时实时监控各组专家负载动态调整路由概率避免某组过载。3.3 稀疏 MoE 性能收益推理速度稠密 196B 模型推理速度约 10-20 tok/sStep3.5 Flash 稀疏 MoE 可达 100-300 tok/s提升 10-15 倍显存占用稠密 196B 模型需 8×80GB GPU 显存Step3.5 Flash 仅需 8×40GB降低 50%模型能力288 个专家分工明确每个专家专注特定领域数学、代码、对话等知识存储密度更高复杂推理性能优于同参数稠密模型。四、3:1 混合注意力S3F1长上下文效率革命4.1 全注意力的长上下文瓶颈传统 Transformer 采用全注意力Full Attention计算每个 token 与所有历史 token 的关联复杂度为 O (n²)当上下文长度达 256K 时计算量达 (256K)²6.55×10¹⁰次单轮注意力计算延迟超 5 秒无法满足 Agent 实时交互需求。4.2 混合注意力S3F1架构设计Step3.5 Flash 提出3:1 滑动窗口注意力SWA与全注意力混合布局S3F1核心思想是 **“局部依赖用 SWA 加速全局依赖用全注意力保证”**。4.2.1 注意力块结构45 层骨干中每 4 层为一个混合块结构为3 层 SWA 层 1 层全注意力层重复 11 次44 层第 45 层为全注意力层确保全局信息融合。4.2.2 滑动窗口注意力SWA窗口大小512每个 token 仅与前后 256 个 token 计算注意力复杂度降为 O (n×512)256K 上下文时计算量仅为全注意力的 512/256K0.2%查询头优化传统 SWA 查询头为 64 个Step3.5 Flash 提升至96 个增强局部特征提取能力补偿 SWA 全局信息缺失导致的性能损失KV 头共享GQA-88 个 KV 头所有查询头共享 KV 缓存大幅降低显存占用256K 上下文 KV 缓存仅需 16GB同时提升推理速度。4.2.3 全注意力层数量每 4 层 1 个共 12 个确保模型能捕捉长距离依赖如文档首尾关联、多轮对话上下文关联查询头64 个与传统 Transformer 一致平衡全局特征提取能力与计算开销。4.2.4 头门控注意力Head-wise Gated Attention为进一步提升混合注意力性能Step3.5 Flash 引入头门控注意力机制每个注意力头添加一个轻量级输入依赖门控sigmoid 激活动态控制每个头的信息流动公式如下gi​σ(wgate⊤​xi​),oigate​gi​yi​其中gi​为门控权重yi​为注意力头输出oigate​为门控后输出。该机制可视为输入依赖的 Sink Token在无有效信息时自动抑制注意力头输出几乎不增加计算开销同时提升长上下文建模性能。4.3 混合注意力性能收益表 2 不同注意力布局性能对比30B 模型验证注意力布局相对计算量解码 / 预填充预训练平均性能长上下文性能256K全注意力FFFF2.68/2.9033.226.51:1 混合S1F11.58/1.6534.126.83:1 混合S3F11.00/1.0032.525.4S3F1 头优化1.01/1.0232.926.0结论S3F1 混合注意力将计算量降至全注意力的 1/3配合头优化后长上下文性能接近全注意力同时推理延迟降低 60% 以上完美平衡效率与性能。五、MTP-3 多 token 预测推理速度 3-5 倍提升5.1 自回归推理的速度瓶颈传统大模型采用自回归推理Autoregressive Decoding每次前向传播仅预测 1 个 token生成 N 个 token 需 N 次前向传播速度极慢是 Agent 交互延迟的主要来源如生成 1000 字需 10 秒以上。5.2 MTP-3 技术原理与设计Step3.5 Flash 提出MTP-33-way Multi-Token Prediction多 token 预测技术核心思想是 **“单次前向传播同时预测多个未来 token”**大幅减少前向传播次数。5.2.1 MTP 头结构数量3 个轻量级 MTP 头MTP-1、MTP-2、MTP-3额外参数仅 0.81B占总参数 0.41%几乎不增加模型体积结构每个 MTP 头由 1 层 SWA1 层稠密 FFN 组成无全注意力保持轻量级预测目标MTP-1基于 t 时刻隐藏状态预测 t1 token标准 LM 头MTP-2预测 t2 tokenMTP-3预测 t3 token。5.2.2 训练策略分阶段训练主训练阶段90% 训练数据仅优化 MTP-1确保基础预测能力轻量级后训练阶段10% 训练数据MTP-2、MTP-3 从 MTP-1 克隆初始化联合优化 3 个 MTP 头位置依赖损失加权对远距离 token 预测t3降低损失权重避免模型过度优化远距离预测影响近距离预测精度。5.2.3 推理加速流程首次前向传播输入初始 token3 个 MTP 头同时预测 t1、t2、t3 token并行验证一次性生成 3 个 token无需逐次前向传播循环执行每次前向传播生成 3 个 token生成 N 个 token 仅需 N/3 次前向传播速度提升 3 倍代码任务优化代码生成时语法规则强、预测确定性高可扩展至单次预测 4 个 token峰值速度达 350 tok/s。5.3 MTP-3 性能收益常规推理速度100-300 tok/s较自回归30-50 tok/s提升 3-5 倍代码任务峰值速度350 tok/s生成 5000 字报告仅需 40 秒无性能衰减MTP 头轻量级设计 分阶段训练复杂推理性能数学、代码无明显下降。六、训练技术体系17.2T 数据的稳定高效训练6.1 训练数据与预处理6.1.1 数据规模与来源总数据量17.2T 高质量、多样化 token覆盖文本、代码、数学公式、结构化数据、多语言内容数据来源公开书籍、网页、代码仓库GitHub、数学论坛、学术论文、多语言语料库经严格去重、过滤、脱敏处理低质量数据占比 0.1%。6.1.2 数据预处理去重基于 SimHash 算法删除重复文本避免模型过拟合过滤过滤低质量、低俗、敏感内容保留高信息密度文本分词采用 ByteLevel BPE 分词词汇表 128,896支持多语言格式统一将不同格式数据文本、代码、数学公式统一转换为 token 序列添加特殊标记如 |code|、|math|。6.2 优化器与训练策略6.2.1 改进版 Muon 优化器传统 Adam 优化器在千亿级模型训练时存在梯度爆炸、收敛速度慢、显存占用高等问题Step3.5 Flash 采用改进版 Muon 优化器参数更新更精准基于动量的自适应学习率调整减少梯度噪声影响训练更稳定在 17.2T 数据训练中仅出现 1 次短暂损失波动无梯度爆炸或消失显存占用低优化器状态占用显存较 Adam 降低 30%支持更大批次训练。6.2.2 三阶段训练策略预训练阶段12T 数据基础特征学习学习文本语法、语义、知识关联上下文长度 32K中期训练阶段3.2T 数据上下文扩展 Agent 能力强化上下文长度扩展至 128K通过合成数据强化数学、代码、工具调用能力后训练阶段2T 数据SFTRL 优化SFT监督微调对齐人类偏好提升对话、指令遵循能力RL采用 MIS-POMetropolis 独立采样 - 过滤策略优化强化学习框架整合可验证信号如代码执行结果、数学答案与偏好反馈提升长时序推理稳定性。6.3 MIS-PO 强化学习框架传统 RL 在 MoE 模型长时序推理训练时存在梯度方差大、训练不稳定、专家路由失衡等问题Step3.5 Flash 提出MIS-PO 强化学习框架核心思想用离散分布过滤替代连续重要性权重在 token 和轨迹双层面过滤低质量样本仅在稳定信任域内优化关键优势大幅降低梯度方差训练稳定性提升 50%保留有效学习信号长时序推理性能提升 15%适配 MoE 模型避免专家路由失衡专家利用率提升 30%。七、性能评测与技术对比7.1 核心基准测试结果Step3.5 Flash 在数学、代码、Agent 工具调用等核心基准测试中性能对标 GPT-5.2 xHigh、Gemini 3.0 Pro 等闭源前沿模型远超同级别开源模型。表 3 Step3.5 Flash 核心基准测试结果基准测试测试内容Step3.5 FlashGPT-5.2 xHighGemini 3.0 ProIMO-AnswerBench数学竞赛证明85.4%86.1%84.7%LiveCodeBench-v6代码生成2024.08-2025.0586.4%87.2%85.8%τ²-BenchAgent 工具调用推理88.2%89.0%87.5%BrowseComp网页浏览 信息检索69.0%70.5%68.3%Terminal-Bench 2.0终端命令工具调用51.0%52.8%50.2%SWE-bench Verified软件工程任务74.4%76.0%73.5%7.2 推理效率对比表 4 主流大模型推理效率对比单 GPUFP16模型总参数激活参数常规推理速度tok/s代码峰值速度tok/s256K 上下文延迟sStep3.5 Flash196B11B100-3003502.1Llama 3 70B70B70B30-50608.5DeepSeek V3 67B67B67B40-60707.8GPT-5.2 xHigh估算~1T~50B80-1502003.57.3 长上下文性能对比表 5 长上下文性能对比256K 上下文文档摘要任务模型上下文窗口摘要准确率上下文延迟s显存占用GBStep3.5 Flash256K82.3%2.138Llama 3 70B扩展256K75.6%8.572Kimi K2.5256K81.5%3.264结论Step3.5 Flash 在推理速度、长上下文延迟、显存占用三大效率指标上全面领先同级别开源模型甚至优于部分闭源前沿模型同时保持顶尖的推理性能是当前性能与效率平衡最优的开源大模型。八、部署优化与工程实现8.1 硬件适配Step3.5 Flash 针对 ** 主流 GPU 服务器8×NVIDIA A100/H100** 优化支持张量并行TP、专家并行EP、流水线并行PP混合部署张量并行TP8注意力层、嵌入层拆分到 8 个 GPU适配 8-GPU 服务器专家并行EP8288 个专家平均分配到 8 个 GPU每组 36 个专家负载均衡显存优化支持 FP8/FP16 混合精度推理KV 缓存量化4-bit256K 上下文仅需 38GB 显存 / GPU。8.2 推理引擎优化自研推理引擎针对 MoE、混合注意力、MTP 优化支持动态批处理、请求优先级调度KV 缓存复用多轮对话时复用历史 KV 缓存避免重复计算多轮交互速度提升 50%动态专家选择推理时根据输入类型动态调整 Top-K 专家数量简单任务 Top-4复杂任务 Top-8进一步提升效率。8.3 开源生态与商用支持开源协议Apache 2.0允许免费商用、二次开发、模型蒸馏开源代码训练代码SteptronOss、推理代码、模型权重HuggingFace全部开源部署工具提供 Docker 镜像、K8s 部署脚本、云服务器一键部署方案支持本地部署、私有部署、公有云部署。九、总结与技术展望9.1 核心技术总结Step3.5 Flash 的成功源于架构、注意力、推理、训练四大维度的系统性技术创新核心可概括为稀疏 MoE 架构196B 总参数、11B 激活参数288 个专家 Top-8 路由实现 “千亿能力、百亿速度”3:1 混合注意力SWA 全注意力协同头优化 头门控256K 上下文延迟降至 2.1 秒MTP-3 多 token 预测单次前向传播预测 4 个 token推理速度 350 tok/s提升 3-5 倍稳定训练体系17.2T 数据、改进 Muon 优化器、MIS-PO 强化学习长时序推理性能对标闭源前沿模型。9.2 技术展望Step3.5 Flash 为 Agent 大模型的发展指明了 **“高效稀疏化 长上下文优化 推理加速”** 的核心方向未来可在以下方向进一步突破专家动态扩展根据任务复杂度动态调整专家数量简单任务用少量专家复杂任务用大量专家进一步平衡效率与性能注意力机制升级结合线性注意力、局部 - 全局注意力融合技术进一步降低长上下文计算量MTP 技术优化提升 MTP 预测精度支持单次预测 5-6 个 token推理速度突破 400 tok/s多模态融合在文本基础上融合图像、音频、视频能力打造多模态 Agent 大模型。互动环节以上就是 Step3.5 Flash 大模型的核心技术深度解析从稀疏 MoE 架构、混合注意力优化、MTP 推理加速到训练体系、性能评测与部署优化全面拆解了这款模型的技术突破与工程实现细节。如果觉得本文对你有帮助欢迎点赞、收藏、加关注后续会持续更新 Step3.5 Flash 的部署实战、微调教程、性能调优技巧等系列内容也欢迎在评论区交流技术问题、分享部署经验一起探讨 Agent 大模型的技术演进方向

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2591047.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…