OpenClaw-RL 论文解读:用“下一状态信号“统一所有智能体的强化学习训练

news2026/3/15 13:33:04
OpenClaw-RL 论文解读用下一状态信号统一所有智能体的强化学习训练论文标题OpenClaw-RL: Train Any Agent Simply by Talking论文链接https://arxiv.org/abs/2603.10165作者Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang机构Peking University, Princeton University, Gen-Verse日期2026年3月10日GitHubhttps://github.com/Gen-Verse/OpenClaw-RL一、引言AI 智能体的训练困局过去一年大模型智能体Agent赛道热闹非凡。无论是对话助手、终端操作、GUI 自动化还是代码修复各种 Agent 层出不穷。但如果你仔细观察就会发现一个尴尬的事实几乎每种智能体都有自己独立的训练方法彼此之间毫无复用可言。想训练一个更好的对话助手你需要收集大量偏好数据构建奖励模型跑 RLHF 流程。想训练一个终端操作智能体你需要设计专门的环境奖励函数定义什么叫任务完成。想训练一个 GUI 智能体又是另一套完全不同的标注方案和评估体系。这就好比——你开了一家连锁餐厅每家分店都要从头发明一套全新的烹饪方法连锅碗瓢盆都不能通用。效率可想而知。问题的根源在哪现有方法把训练信号想得太复杂了。无论是 RLHF 的偏好数据、DPO 的成对比较还是各种手工设计的奖励函数本质上都是在往一个已经存在的简单信号上做加法——它们忽略了一个最朴素的事实智能体每执行一步操作后环境都会给出一个下一状态。这个下一状态本身就包含了判断这一步好不好的全部信息。你在终端敲了一行命令终端要么输出正确结果要么报错——这不就是最直接的反馈吗你在 GUI 上点了一个按钮界面要么跳转到了正确页面要么弹出了错误提示——这不也是明确的信号吗来自北京大学、普林斯顿大学和 Gen-Verse 的研究团队正是抓住了这个洞察提出了OpenClaw-RL框架。核心思路极其简洁把所有类型智能体的交互环境中自然产生的下一状态信号next-state signal统一起来作为强化学习的唯一训练来源。不需要人类标注偏好数据不需要手工设计奖励函数不需要为每种智能体定制训练流程。实验效果如何个人对话智能体的满意度从 0.17 飙升到 0.76提升 347%终端智能体在 InterCode-Bash 上从约 15% 提升到 50%SWE-bench Verified 的 Pass1 从约 5% 提升到 17.5%。更关键的是同一套框架、同一种训练方法就搞定了所有这些场景。图1OpenClaw-RL 的整体架构。左侧是各类智能体个人助手、终端、GUI、SWE、工具调用中间是环境服务器右侧是 RL 训练服务端——由策略服务器SGLang、PRM 服务器和训练引擎Megatron组成的全异步流水线。二、核心洞察被忽视的下一状态信号2.1 什么是下一状态信号让我们用一个生活中的类比来理解。假设你是一个正在学做菜的新手。你炒了一盘菜端给家人吃家人的反应就是你的下一状态信号评估信号家人说好吃或者太咸了——这告诉你这次做得好不好二元判断指导信号家人说下次少放半勺盐翻炒时间再短10秒——这告诉你具体该怎么改进方向性指导在智能体的世界里智能体类型动作下一状态信号包含的信息对话助手生成一段回复用户的下一轮回复“说得不对”评估或 “你应该更简洁些”指导终端智能体执行一条命令终端输出命令成功/报错评估 错误信息指导GUI 智能体点击一个按钮屏幕截图变化页面是否正确跳转评估 当前页面状态指导SWE 智能体提交一个代码补丁测试运行结果测试通过/失败评估 错误日志指导工具调用智能体调用一个 APIAPI 返回结果返回正确数据/错误码评估 错误描述指导关键洞察在于这些下一状态信号是环境免费产生的不需要任何额外的人工标注。用户回复了就是回复了终端输出了就是输出了。而且这些信号同时包含好不好评估和怎么改指导两种信息——前者可以转化为标量奖励后者可以转化为 token 级别的梯度方向。2.2 与传统方法的本质区别传统的 RLHF 或 DPO 方法有一个共同的架构假设训练信号需要离线收集然后批量训练。你先让模型生成一堆回复再找人标注哪个好哪个差最后用这些标注数据训练奖励模型或直接优化策略。这套流程有三个根本性的问题标注瓶颈需要大量人类标注数据成本高、速度慢分布漂移标注数据是基于旧模型生成的训练后的新模型已经跑偏了场景不通用对话场景的偏好标注方案完全无法迁移到终端操作或 GUI 交互OpenClaw-RL 的做法完全不同——在线学习即时反馈无需标注。智能体每执行一步操作环境自然产生下一状态立刻从中提取训练信号立刻更新模型。整个过程像一个永不停歇的自我改进循环。三、方法详解从下一状态到训练信号的两条路径OpenClaw-RL 提出了两种互补的方法从下一状态信号中提取不同粒度的训练信号并将它们组合成统一的优势函数。图2OpenClaw-RL 的三种学习机制。左Binary RL——从下一状态中提取二元奖励好/坏中后验引导在线策略蒸馏OPD——将下一状态作为额外上下文构建教师右Step-wise Reward——PRM 为每一步分配密集奖励。3.1 路径一Binary RL——“这步做得好不好”第一条路径解决的是最基本的问题判断智能体的每一步操作是好是坏。具体做法智能体在状态sts_tst​下执行动作ata_tat​环境返回下一状态st1s_{t1}st1​一个 PRMProcess Reward Model过程奖励模型判别器接收(st,at,st1)(s_t, a_t, s_{t1})(st​,at​,st1​)输出一个二元判断Atbinary{1如果 PRM 判定这步操作是好的−1否则A_t^{binary} \begin{cases} 1 \text{如果 PRM 判定这步操作是好的} \\ -1 \text{否则} \end{cases}Atbinary​{1−1​如果PRM判定这步操作是好的否则​这里用 PRM 而不是简单的 ORMOutcome Reward Model是有讲究的。传统 ORM 只在整个轨迹结束后给一个总分——就像老师只在学期末给你一个总评成绩。而 PRM 在每一步都给分——就像老师每次作业都批改打分你能立刻知道哪里做对了、哪里做错了。在 Agentic 场景下一个任务可能包含十几甚至几十步操作如果只在最后才知道整体好不好中间那些步骤的贡献完全无法区分这就是经典的信用分配难题。PRM 的逐步评判恰好解决了这个问题。3.2 路径二后验引导在线策略蒸馏OPD——“具体应该怎么改”Binary RL 告诉你好不好但没告诉你该往哪个方向改。这就引出了第二条路径OPDOnline Policy Distillation。核心思路非常巧妙——把下一状态信号当作作弊条塞给同一个模型让它在看过答案的条件下重新生成动作这个增强版的输出就是教师信号。具体来说智能体学生在状态sts_tst​下生成动作ata_tat​此时它看不到未来会发生什么环境返回下一状态st1s_{t1}st1​把st1s_{t1}st1​拼接到sts_tst​后面构建一个增强上下文让同一个模型在增强上下文下重新计算ata_tat​每个 token 的概率——这就是教师的输出教师和学生是同一个模型唯一的区别是教师多看了一个下一状态。这就好比——你和你自己比赛做数学题但教师版的你可以偷看答案的最后一行。显然教师版会更准确地知道中间步骤该怎么走。OPD 的优势函数定义为Atopdlog⁡πteacher(at∣st,st1)−log⁡πstudent(at∣st)A_t^{opd} \log \pi_{teacher}(a_t | s_t, s_{t1}) - \log \pi_{student}(a_t | s_t)Atopd​logπteacher​(at​∣st​,st1​)−logπstudent​(at​∣st​)这个公式的直觉很清晰如果教师看过答案认为某个 token 应该生成的概率比学生没看答案高得多说明这个 token 是正确方向反之亦然。这提供了token 级别的方向性梯度比 Binary RL 的粗粒度判断精细得多。更妙的是OPD 不需要训练任何额外的奖励模型或教师模型——它直接复用了当前策略模型本身。这在工程实现上极其简洁。3.3 组合统一优势函数最终两条路径的信号被加权组合Atwbinary⋅rfinalwopd⋅(log⁡πteacher−log⁡πθ)A_t w_{binary} \cdot r_{final} w_{opd} \cdot (\log \pi_{teacher} - \log \pi_\theta)At​wbinary​⋅rfinal​wopd​⋅(logπteacher​−logπθ​)其中rfinalr_{final}rfinal​是 PRM 给出的逐步奖励wbinaryw_{binary}wbinary​和wopdw_{opd}wopd​是平衡系数。这个组合的好处是Binary RL 提供稳定的方向盘明确告诉优化方向奖励好的惩罚差的OPD 提供精细的导航仪在 token 级别告诉具体往哪转两者互补就像开车时既要知道往北走Binary RL又要知道下个路口左转OPD。3.4 Step-wise Standardization解决密集奖励的尺度问题在 Agentic RL 中一个轨迹可能跨越几十步每一步的奖励值范围和分布可能差异很大。如果简单地对整个轨迹的奖励做全局标准化会丢失步骤间的相对信息。OpenClaw-RL 提出了Step-wise Standardization逐步标准化在同一个 batch 内对同一时间步的所有样本的奖励单独标准化。这保证了每一步的奖励信号都有合理的量纲不会因为某些步骤天然奖励值更高而压制其他步骤的信号。四、工程架构四模块全异步流水线论文的另一大贡献是提出了一个工程上极其优雅的异步训练架构。在智能体 RL 训练中环境交互通常是最大的瓶颈——一次 SWE 任务可能需要几分钟甚至几十分钟才能完成。如果让训练引擎干等环境返回结果GPU 利用率会低到令人发指。OpenClaw-RL 的解决方案是四个完全独立的异步循环模块功能技术栈特点策略服务器为智能体生成动作推理SGLang持续服务推理请求不等待训练完成环境托管运行各类环境终端/GUI/浏览器Docker 容器每个环境实例独立运行互不干扰PRM 判别从下一状态提取奖励信号SGLang/API独立评判不阻塞其他模块训练引擎用收集到的数据更新模型参数Megatron异步消费训练数据持续梯度更新四个模块之间零协调开销。策略服务器不断生成推理结果环境不断返回下一状态PRM 不断评判训练引擎不断用最新数据更新权重。任何一个模块都不需要等待其他模块完成——就像一条流水线上的四个工位每个工位各干各的产品训练数据在工位间自然流转。这种设计带来的好处是惊人的GPU 利用率极高训练引擎永远有数据可训练不会因为等环境而空转水平扩展容易每个模块都可以独立扩容环境慢就多加几个环境实例故障隔离某个环境实例挂了不影响其他模块容错性好这里值得注意一个微妙的设计选择策略服务器使用的模型权重和训练引擎正在更新的权重之间会有一个延迟——推理用的可能是几步之前的旧权重。论文指出这种轻微的 off-policy 偏差在实践中是可以接受的因为权重更新的步幅通常很小新旧策略之间的差异有限。五、实验分析五大场景全面验证5.1 个人对话智能体8 步对话满意度翻 4 倍图3个人智能体优化前后的对比。上方是模拟学生场景下方是模拟老师场景。优化后的回复明显更贴合用户个性化需求AI 味大幅降低。个人对话智能体的训练场景最能体现 OpenClaw-RL 的独特价值。传统的对话训练需要大量人类偏好标注——找一批人给 AI 回复打分或排序。OpenClaw-RL 的做法完全不同让 AI 直接和用户聊天用户的后续回复就是训练信号。如果用户说这不是我想要的我想要更简洁的回答Binary RL 会判定上一步回复不好A−1A -1A−1OPD 会利用用户这句反馈作为额外上下文计算出更好的回复应该是什么样的token 级别指导。实验结果非常亮眼场景优化前优化后提升幅度学生角色0.170.76347%教师角色0.220.90309%而且这些提升只需要约 8 步对话就能实现——也就是说用户只需要和 AI 聊几轮AI 就能显著适应这个用户的偏好风格。这对于打造个性化 AI 助手的意义不言而喻。5.2 终端智能体Bash 准确率从 15% 飙升到 50%终端智能体在 InterCode-Bash 基准上的表现通过与 Bash 终端的实时交互训练智能体学会了更准确地理解命令语义更好地处理错误输出并自我纠正在多步骤任务中保持连贯的执行策略从训练曲线来看终端智能体的准确率在 RL 训练过程中呈现出稳定的上升趋势——从起始的约 15% 一路攀升到约 50%且没有明显的过拟合迹象。这说明下一状态信号终端输出提供了足够丰富和稳定的训练信号。5.3 GUI 智能体OSWorld 上的稳步提升GUI 智能体在 OSWorld 基准上从约 26% 提升到约 31%。提升幅度看起来不大但要知道 OSWorld 是一个极具挑战性的基准——它要求智能体在真实的桌面操作系统中完成复杂的多步骤任务涉及窗口切换、菜单导航、表单填写等多种操作。在 GUI 场景中下一状态信号是屏幕截图的变化。PRM 通过对比操作前后的截图来判断操作是否朝着正确方向推进。这是一个视觉理解和动作评估的综合挑战能取得持续正向的训练效果已属不易。5.4 SWE 智能体代码修复能力的系统性提升SWESoftware Engineering智能体在 SWE-bench Verified 上的 Pass1 从约 5% 提升到约 17.5%。在 SWE 场景中下一状态信号主要来自代码编辑后的 lint 检查结果单元测试的运行输出CI/CD 流水线的状态反馈这些信号天然具有评估指导的双重性质测试失败不仅告诉你代码有问题还通过错误堆栈、断言失败信息等告诉你问题出在哪里。PRM 可以从这些丰富的文本信号中提取精确的逐步奖励。图4四种通用智能体场景的训练曲线。从左到右、从上到下依次为终端InterCode-Bash、GUIOSWorld、SWESWE-bench Verified、工具调用。所有场景均展现出持续的正向训练趋势。5.5 工具调用智能体API 交互的学习工具调用智能体从约 8% 提升到约 17%。在这个场景中智能体需要学会正确地调用各种外部 API——选择正确的 API、传递正确的参数、处理返回结果。API 返回的 JSON 响应或错误码就是天然的下一状态信号。一个400 Bad Request和具体的错误描述missing required field: user_id提供了比任何人工标注都更精确的反馈。5.6 消融实验Binary RL 与 OPD 各自的贡献论文通过消融实验验证了两条路径的互补性只用 Binary RL能提供稳定的训练方向但缺乏 token 级别的精细指导收敛较慢只用 OPD能提供精细的梯度方向但缺乏明确的好坏判断有时方向不够稳定两者组合取长补短既有稳定的优化方向又有精细的 token 级引导效果最佳这验证了论文的核心设计直觉评估信号和指导信号是下一状态的两个互补侧面缺一不可。六、与相关工作的对比OpenClaw-RL 到底新在哪为了更清晰地定位 OpenClaw-RL 的贡献我们将它与几个代表性方法做对比维度RLHF/DPOGRPOAgent-specific RLOpenClaw-RL训练信号来源人类偏好标注结果奖励手工设计的环境奖励环境自然产生的下一状态是否需要额外标注需要大量不需要需要设计奖励函数完全不需要场景通用性仅限对话仅限推理单一场景统一框架覆盖所有场景信号粒度轨迹级轨迹级任务级步骤级PRM token级OPD在线学习通常离线在线在线在线额外模型需要奖励模型不需要不需要PRM可选OPD 复用策略模型最突出的差异在于通用性和信号粒度。GRPO 虽然也是在线学习但它只利用最终结果奖励在长轨迹的 Agentic 场景下信用分配能力有限。而 OpenClaw-RL 通过 PRM 的逐步评判和 OPD 的 token 级蒸馏提供了远比 GRPO 更精细的训练信号。另一个值得注意的技术关联是Hindsight Policy Distillation后见之明策略蒸馏。OPD 的核心思想——“让模型在看到未来信息后重新生成并用这个增强版输出指导原始策略”——与 Hindsight 系列方法一脉相承。但 OPD 的创新在于它不需要训练一个单独的教师模型而是直接利用当前策略模型在增强上下文下的输出作为教师信号实现了自我蒸馏。七、深入思考这篇论文真正在解决什么问题7.1 表面与深层表面上看OpenClaw-RL 是一个智能体 RL 训练框架。但往深处想它实际上在回答一个更根本的问题通用智能体的奖励信号应该从哪里来过去几年RL 社区在 reward design 上投入了大量精力——reward modeling、reward hacking、reward shaping、inverse RL……各种技术试图解决如何获得好的奖励信号这个问题。但 OpenClaw-RL 的回答出人意料地朴素奖励信号一直就在那里我们只是没去看。每次智能体和环境交互环境都在说话。终端在说command not foundGUI 在说页面变了用户在说不是这个意思。这些反馈比任何人工构造的奖励信号都更真实、更即时、更丰富。7.2 PRM 是关键但也是瓶颈论文中 PRM 的角色值得特别关注。它承担着从自然语言/视觉形式的下一状态信号中提取标量奖励的任务——本质上是一个理解环境反馈的能力。这引出一个隐含的假设PRM 需要足够强大能正确理解各种形式的环境反馈。如果 PRM 把一个报错信息误判为成功整个训练流程就会往错误方向走。这对 PRM 的通用理解能力提出了很高的要求。在实践中论文使用了较强的模型作为 PRM如通过 API 调用的高能力模型这在一定程度上缓解了这个问题。但这也意味着训练成本中有一部分转移到了 PRM 的推理成本上。随着训练规模扩大PRM 的调用次数会线性增长。7.3 OPD 的理论启示OPD 最有趣的地方在于它揭示了一个被低估的现象同一个模型在不同上下文下的行为差异本身就可以作为训练信号。想一想模型在看到下一状态之前和之后对同一个 token 的概率预测是不同的。这个概率差异精确地编码了下一状态信号所包含的关于当前动作质量的信息。不需要训练任何额外的模型仅通过对比同一个模型在两种条件下的输出就能提取出有用的梯度信号。这让人联想到一个更广泛的原则信息差即训练信号。只要存在信息不对称有/没有下一状态就可以从中提取有用的学习信号。这个思路可能在 RL 之外也有广泛的应用。7.4 异步架构的工程思考四模块异步架构的设计选择背后隐藏着一个深层权衡数据新鲜度 vs. 系统吞吐量。全同步设计下训练引擎永远用最新权重生成的数据进行训练数据绝对新鲜但 GPU 会花大量时间等待环境返回结果。全异步设计下系统吞吐量最大化但训练数据可能是几步之前的旧权重生成的存在 off-policy 偏差。OpenClaw-RL 选择了几乎完全异步的极端方案这说明在 Agentic RL 的场景下单个交互耗时长、轨迹长度大吞吐量的收益远大于 off-policy 偏差的损失。这个经验性结论对于后续构建大规模 Agentic RL 系统具有重要的参考价值。八、局限性与未来展望坦率地说OpenClaw-RL 也有一些值得关注的局限PRM 的泛化能力当前 PRM 是通过 API 调用强模型来实现的。如果未来要部署到更多样化的场景如机器人控制、游戏、科学实验PRM 能否准确理解这些领域的环境反馈是一个问号。个人智能体的评估难度个人对话的好不好本质上是主观的。PRM 判定好的回复用户未必同意。目前实验中的满意度评分是通过模拟用户LLM 扮演来评估的与真实人类的偏好可能存在偏差。训练效率的绝对值虽然异步架构大幅提升了 GPU 利用率但 Agentic 场景的环境交互本身就很慢一次 SWE 任务可能需要几分钟。在大规模训练中环境吞吐量仍然可能是实际瓶颈。安全性考量在线学习意味着智能体在边用边学。如果智能体在学习过程中执行了有害操作比如在终端中运行了危险命令虽然环境会给出负面反馈但伤害已经造成了。如何在在线学习的同时确保安全性是一个需要进一步探索的问题。展望未来OpenClaw-RL 打开的方向非常广阔多模态环境信号目前主要处理文本和截图形式的下一状态信号未来可以扩展到音频、视频、传感器数据等多智能体协作多个智能体之间的交互也会产生下一状态信号框架可以自然扩展到多智能体 RL持续学习在线学习的特性天然支持持续适应——智能体可以随着用户习惯的变化而不断调整九、总结OpenClaw-RL 用一个朴素但深刻的洞察——环境交互自然产生的下一状态信号已经包含了训练智能体所需的全部信息——统一了对话、终端、GUI、SWE、工具调用五大类智能体的强化学习训练。通过 Binary RL提供步骤级评估信号和 OPD提供 token 级指导信号的互补组合配合 PRM 的密集信用分配和四模块全异步流水线OpenClaw-RL 在所有测试场景上都取得了显著且一致的提升——个人助手满意度 347%终端准确率从 15% 到 50%SWE Pass1 从 5% 到 17.5%。如果要用一句话概括这篇论文的核心贡献它证明了下一状态信号是智能体 RL 训练的通用货币——不管你是什么类型的智能体不管你在什么环境中操作只要有交互就有训练信号。这个认知上的突破可能比任何具体的实验数字都更有价值。论文信息标题OpenClaw-RL: Train Any Agent Simply by Talking作者Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang机构Peking University, Princeton University, Gen-Verse链接https://arxiv.org/abs/2603.10165代码https://github.com/Gen-Verse/OpenClaw-RL觉得有启发的话欢迎点赞、在看、转发。跟进最新AI前沿关注我的微信公众号机器懂语言

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2413817.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…