小白/程序员必看:收藏这份强化学习训练智能体的实战指南(HelloAgents实战篇)

news2026/4/8 20:59:02
本文介绍了如何使用强化学习训练智能体从LLM训练流程讲起对比了PBRFT与Agentic RL的区别并详细阐述了Agentic RL的六大核心能力推理、工具使用、记忆、规划、自我改进和感知。文章还介绍了HelloAgents框架如何集成强化学习库TRL和模型Qwen3-0.6B进行智能体训练适合想要入门智能体强化学习的程序员和开发者参考学习。《Hello Agents》系列 · 智能体强化学习从理论到实战在前面的章节中我们实现了多种智能体范式和通信协议。但当你让智能体处理更复杂的任务时往往会发现它表现不佳——推理能力不足、工具使用混乱、无法自我改进。如何让智能体从「模仿」进化到「真正学会思考」这就是 Agentic RL 要解决的核心问题。本章将为 HelloAgents 框架引入强化学习训练能力。我们将从 LLM 训练的完整流程讲起理解 PBRFT基于偏好的强化微调与 Agentic RL 的本质区别然后动手实践 SFT监督微调和 GRPO群组相对策略优化两大核心技术最终构建一个完整的智能体训练 Pipeline。一、从 LLM 训练到 Agentic RL一个强大的 LLM如 GPT、Claude、Qwen的诞生通常经历两个主要阶段预训练Pretraining在海量文本TB 级别上通过自监督学习训练目标是「预测下一个词」。模型在此阶段学会了语法规则、语义知识和基础推理能力。后训练Post-training包括三个步骤——SFT监督微调让模型学会遵循指令、RM奖励建模学习人类偏好评分、PPO强化学习微调用奖励信号优化输出质量。传统 RLHF 虽然效果显著但主要关注单轮对话质量优化——给定用户问题生成一个回答根据回答质量打分。对于需要多步推理、工具使用、长期规划的智能体任务这种范式显得力不从心。PBRFT vs Agentic RL思维方式的根本转变让我们通过一个例子理解区别PBRFT 场景用户问「请解释什么是强化学习」→ 模型生成完整回答 → 直接给分。Agentic RL 场景用户请求「帮我分析这个 GitHub 仓库的代码质量」→ 调用 GitHub API0.1→ 读取代码文件0.1→ 分析质量合理0.2→ 生成报告质量高0.6→ 总奖励 1.0。在 MDP 框架下二者的差异体现在五个维度状态空间PBRFT 是静态提示单步Agentic RL 是历史观察环境反馈多步演化行动空间PBRFT 只有文本生成Agentic RL 还包括工具调用和环境操作奖励设计PBRFT 是任务结束时单步评估Agentic RL 是中间步骤终局的累积奖励优化目标PBRFT 最大化单步期望奖励Agentic RL 最大化长期累积折扣奖励思维范式PBRFT 关注「更好的单个回答」Agentic RL 关注「完成复杂任务」Agentic RL 的六大核心能力Agentic RL 旨在赋予 LLM 智能体六项核心能力{bold(“推理Reasoning”)}通过试错学习有效的推理策略发现训练数据中没有的推理路径{bold(“工具使用Tool Use”)}学会何时需要工具、选择哪个工具、如何组合多个工具{bold(“记忆Memory”)}主动管理信息——决定哪些值得记住、何时更新、何时遗忘{bold(“规划Planning”)}通过试错发现有效的行动序列学会权衡短期和长期收益{bold(“自我改进Self-Improvement”)}识别错误、分析原因、调整策略从失败中学习{bold(“感知Perception”)}理解多模态信息学会视觉推理和视觉工具使用二、HelloAgents 的 Agentic RL 设计在技术选型上HelloAgents 集成了 {bold(“TRL”)}Hugging Face 强化学习库作为训练引擎模型选择 {bold(“Qwen3-0.6B”)}阿里云小型语言模型0.6B 参数适合普通 GPU 训练。Agentic RL 模块采用四层架构设计• {bold(“数据集层”)}GSM8KDataset 类、create_sft_dataset()、create_rl_dataset()负责数据加载和格式转换• {bold(“奖励函数层”)}AccuracyReward、LengthPenaltyReward、StepReward定义什么是好的行为• {bold(“训练器层”)}SFTTrainerWrapper 和 GRPOTrainerWrapper负责训练逻辑和 LoRA 支持• {bold(“统一接口层”)}RLTrainingTool支持 train / load_dataset / create_reward / evaluate 四种操作快速上手示例安装框架后用不到 20 行代码即可完成首次训练import json from hello_agents.tools import RLTrainingTool rl_tool RLTrainingTool() # 1. SFT 训练学会推理格式 sft_result rl_tool.run({{ action: train, algorithm: sft, model_name: Qwen/Qwen3-0.6B, output_dir: ./models/quick_sft, max_samples: 10, # 快速测试 num_epochs: 1, batch_size: 2, use_lora: True # LoRA 加速 }}) # 2. GRPO 训练优化推理策略 grpo_result rl_tool.run({{ action: train, algorithm: grpo, model_name: Qwen/Qwen3-0.6B, output_dir: ./models/quick_grpo, max_samples: 5, num_epochs: 1, batch_size: 2, use_lora: True }}) # 3. 评估模型 eval_result rl_tool.run({{ action: evaluate, model_path: ./models/quick_grpo, max_samples: 10, use_lora: True }})三、数据集与奖励函数数据集和奖励函数是强化学习训练的两大基石——数据集定义智能体要学习的任务奖励函数定义什么是好的行为。GSM8K 数学推理数据集数学推理是评估 LLM 推理能力的理想任务有明确正确答案可自动评估、需要多步推理2-8 步、推理能力可迁移到其他领域。GSM8K 数据集包含 {bold(“7,473 个训练样本”)}和 1,319 个测试样本难度为小学数学水平。数据需要转换为两种训练格式•SFT 格式包含完整的解题过程作为 completion让模型学习「如何格式化输出、如何分步推理」•RL 格式只提供问题prompt和最终答案ground_truth迫使模型自己生成完整的推理过程三种奖励函数HelloAgents 内置三种奖励函数可单独或组合使用准确率奖励最基础的二值函数——答案正确 1.0错误 0.0。简单直接但奖励稀疏训练初期缺乏有效反馈。长度惩罚鼓励简洁回答公式为R 1 - penalty * (len - target)仅在答案正确时生效惩罚系数默认 0.001。控制推理成本避免冗余输出。步骤奖励鼓励可解释推理公式为R 1 bonus * step_count每检测到一个推理步骤 0.1。帮助模型学习系统化的思考方式。实际应用中常用组合策略•简洁正确准确率 长度惩罚→ 适合对话/问答系统•详细推理准确率 步骤奖励→ 适合教育/可解释 AI•全面优化三者组合 权重平衡→ 适合生产级应用你还可以自定义奖励函数——只需实现一个接受 {inline_code(“completions”)} 列表、返回奖励值列表的函数然后通过 {inline_code(“rl_tool.register_reward_function()”)} 注册即可。四、SFT监督微调——学会「怎么回答」SFT 是强化学习训练的第一步也是最重要的基础。没有 SFT 打底直接进行强化学习往往会失败因为模型连基本的输出格式都不会。为什么需要 SFT预训练模型虽然具备强大语言能力但它只是「预测下一个词」的模型——输出格式是自由文本缺乏结构化输出能力也不知道什么是好的推理过程。SFT 的作用是教会模型三件事\1. 学习输出格式如 “Step 1: … Final Answer: …”\2. 学习推理模式如何分解问题、逐步推导\3. 建立基线能力为后续强化学习提供合理起点对比实验直观展示了 SFT 的效果——预训练模型面对数学题会输出冗长、缺乏结构、没有明确答案的回答而 SFT 后的模型能够输出结构清晰、推理正确、格式统一的标准答案。LoRA参数高效微调直接微调整个 Qwen3-0.6B 模型需要约 12GB 显存。LoRALow-Rank Adaptation通过低秩分解假设权重变化矩阵可以用两个小矩阵A和B的乘积近似只训练少量额外参数。参数量对比原模型d*kLoRA 参数量d*r r*kr8 时减少 256 倍效果Qwen3-0.6B LoRA 仅需4GB 显存即可训练效果接近全量微调。SFT 训练实战from hello_agents.tools import RLTrainingTool rl_tool RLTrainingTool() result rl_tool.run({{ action: train, algorithm: sft, model_name: Qwen/Qwen3-0.6B, output_dir: ./models/sft_model, max_samples: 100, # 训练样本数 num_epochs: 3, # 训练轮数 batch_size: 4, # 批次大小 learning_rate: 5e-5, # 学习率 use_lora: True, # 使用 LoRA lora_rank: 8, # LoRA 秩 lora_alpha: 16, # LoRA alpha (通常rank*2) }})关键调参建议lora_rank4-8 适合小任务、16-32 适合复杂任务学习率 SFT 推荐 5e-5、LoRA 可稍大 1e-4损失Loss应逐渐下降梯度范数保持在 0.1-10。五、GRPO让智能体「学会思考」SFT 模型只是学会了「模仿」训练数据中的推理过程并没有真正学会「思考」。GRPOGroup Relative Policy Optimization是一种专门为 LLM 设计的强化学习算法通过试错来优化推理策略。从 PPO 到 GRPOPPO是经典的强化学习算法但它在 LLM 训练中存在三大问题需要训练 Value Model价值模型增加复杂度和显存需要同时维护 4 个模型工程实现复杂训练不稳定容易出现奖励崩塌。GRPO的核心创新是用组内相对奖励替代绝对优势函数\1. 对每个问题生成多个答案num_generations 个\2. 计算每个答案的奖励\3. 用 {inline_code(“相对奖励 单个奖励 - 组内平均奖励”)} 代替 PPO 的优势函数\4. 添加 KL 散度惩罚防止偏离参考模型这意味着 GRPO不需要 Value Model只需 Policy Model 和 Reference Model大幅简化了训练流程。GRPO 训练循环解析让我们用一个具体例子理解 GRPO 的工作原理。问题 “What is 48 24?” 生成 4 个答案答案1“48 24 72. Final Answer: 72” → 奖励 1.0正确且简洁答案2“48 24 72. Final Answer: 72” → 奖励 1.0正确且简洁答案3“48 24 70. Final Answer: 70” → 奖励 0.0错误答案4“Let me think… 72. Final Answer: 72” → 奖励 0.8正确但冗长被惩罚组内平均 (1.0 1.0 0.0 0.8) / 4 0.7相对奖励 [0.3, 0.3,-0.7, 0.1]策略更新增加前两个答案的概率大幅减少第三个错误答案的概率。关键监控指标• {bold(“平均奖励”)}应逐渐上升。不上升可能是学习率太小或 KL 惩罚太大• {bold(“KL 散度”)}应保持在 0.01~0.1。过大0.5说明策略偏离太远• {bold(“准确率”)}最直观的指标反映实际推理能力GRPO 训练实战from hello_agents.tools import RLTrainingTool rl_tool RLTrainingTool() result rl_tool.run({{ action: train, algorithm: grpo, model_name: ./models/sft_full, # 从 SFT 模型开始 output_dir: ./models/grpo_model, num_epochs: 3, batch_size: 4, learning_rate: 1e-5, # GRPO 学习率通常比 SFT 小 # GRPO 特有参数 num_generations: 4, # 每题生成 4 个答案 kl_coef: 0.05, # KL 散度惩罚系数 clip_range: 0.2, # 策略比率裁剪 use_lora: True, lora_rank: 16, lora_alpha: 32, }})六、模型评估与改进训练完成后需要从多个维度评估模型性能——仅仅看准确率远远不够。多维度评估体系评估指标分为三类准确性准确率、Top-K 准确率生成 K 个答案只要有一个正确就算对、数值误差效率平均长度、推理步骤数、推理时间质量格式正确率、推理连贯性、可解释性错误分析模型的错误可分为四类针对性改进• {bold(“计算错误”)}42%推理步骤正确但计算出错 → 加强数值计算能力• {bold(“理解错误”)}29%没有正确理解问题 → 提升语言理解• {bold(“推理错误”)}24%逻辑错误导致思路不对 → 增强逻辑推理• {bold(“格式错误”)}5%答案正确但格式不符 → SFT 已经解决得不错还可以按难度分组分析——简单问题1-2 步准确率 78.5%中等3-4 步58.3%困难5 步31.6%。这清晰地指出了改进方向多步推理能力是瓶颈。七、端到端训练流程完整的 Agentic RL 训练流程包括六个阶段数据准备 → SFT 训练 → SFT 评估 → GRPO 训练 → GRPO 评估 → 模型部署。HelloAgents 提供了 {bold(“AgenticRLPipeline”)} 类将整个流程封装为可配置的 Pipelineclass AgenticRLPipeline: def run(self): # 阶段1: 数据准备 self.stage1_prepare_data() # 阶段2: SFT 训练 sft_model self.stage2_sft_training() # 阶段3: SFT 评估 self.stage3_sft_evaluation(sft_model) # 阶段4: GRPO 训练 grpo_model self.stage4_grpo_training(sft_model) # 阶段5: GRPO 评估 self.stage5_grpo_evaluation(grpo_model) # 阶段6: 保存结果 self.stage6_save_results()进阶分布式训练与生产部署当数据量和模型规模增大时需要用到分布式训练单机多卡使用DDP数据并行大模型7B使用DeepSpeed ZeRO-2/3分片优化器状态、梯度和参数超大规模训练可扩展到多节点。生产部署的关键步骤•模型导出将 LoRA 权重合并到基础模型使用 8-bit 量化降低显存占用•推理优化device_map“auto” 自动分配设备temperature0.7 平衡探索和质量•API 服务用 FastAPI 创建推理服务返回答案和置信度•超参数调优网格搜索全局最优但慢、随机搜索高效、贝叶斯优化Optuna最智能实用建议从小规模开始100-1000 样本快速迭代验证流程后再扩大到全量数据训练前检查数据质量确保格式正确、答案准确、无重复样本总 batch size per_device_batch_size x num_gpus x gradient_accumulation_steps。本章小结Agentic RL 的核心理念是将 LLM 作为可学习策略嵌入智能体的感知-决策-执行循环通过强化学习优化多步任务表现。这与传统 PBRFT 的根本区别在于从「单轮对话优化」走向「多步序贯决策」。完整的训练路径是SFT 打基础学习格式和基本推理能力→GRPO 做提升通过试错优化推理策略超越训练数据质量。没有 SFT 的基础RL 很难成功没有 RL 的优化模型只能模仿训练数据。那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2497180.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…