OpenManus-RL:基于强化学习优化大语言模型智能体决策的完整框架

news2026/5/13 3:45:13
1. 项目概述与核心价值如果你正在关注大语言模型智能体领域尤其是如何让模型从“会聊天”进化到“会做事”那么OpenManus-RL这个项目绝对值得你投入时间研究。它不是一个简单的工具库而是一个由UIUC-Ulab和MetaGPT团队联合发起的、以直播形式推进的开源项目核心目标直指一个业界公认的难题如何用强化学习来系统性地优化和提升LLM智能体的推理与决策能力。简单来说OpenManus-RL试图构建一个完整的“训练场”和“教练体系”。它不仅仅提供了用于训练的代码框架更重要的是它整合了从数据收集、环境模拟、多种强化学习算法到最终在权威基准上评估的一整套流程。这个项目的独特之处在于其“直播开发”模式所有探索方向、阶段性成果、调优后的模型都会动态、实时地开源共享。这意味着你不仅能使用一个成熟的工具更能参与到前沿方法论的探索过程中亲眼见证并验证各种RL调优策略在智能体任务上的实际效果。对于开发者而言它的价值是多维度的。首先它提供了一个经过整合和验证的代码基集成了字节跳动的Verl等成熟的RL框架让你不必从零搭建复杂的训练管线。其次它开源了精心构建的智能体轨迹数据集包含了数万条覆盖操作系统、数据库、网页、知识图谱等多个领域的交互数据为监督微调和强化学习提供了高质量的“燃料”。最后它明确地将目标对准了GAIA、AgentBench、WebShop、OSWorld等硬核的智能体评测基准确保了技术探索的实用性和可衡量性。接下来我将为你深入拆解这个项目的设计思路、核心方法、实操细节以及我基于类似项目经验总结出的避坑指南。2. 核心架构与设计思路拆解OpenManus-RL的架构设计体现了一种系统化的工程与研究思维。它不是简单地将RL算法套用在LLM上而是构建了一个分层、模块化的生态系统旨在全方位地提升智能体的“思考”和“行动”能力。2.1 从数据到评估的完整闭环项目的核心思路可以概括为一个完整的强化学习智能体训练闭环。这个闭环始于高质量的数据。项目团队没有从零开始标注数据而是巧妙地整合了AgentInstruct、Agent-FLAN和AgentTraj-L这三个已有的高质量智能体轨迹数据集形成了一个超过5万条样本、覆盖6大领域的复合数据集。这一步至关重要因为RL训练尤其是基于离线数据或与在线环境交互的初始阶段数据的质量和多样性直接决定了策略模型的上限。数据集统一采用ReAct格式确保了思维链与工具调用动作的结构化为后续的奖励信号设计奠定了基础。闭环的第二个关键环节是多样化的环境模拟。智能体需要在具体任务中学习因此项目支持了多个经典环境如WebShop在线购物、ALFWorld文本化家庭环境任务等。这些环境提供了真实的交互反馈是智能体进行在线探索、试错并从中学习的“沙盒”。环境与数据集的结合使得训练可以从模仿学习平滑过渡到强化学习。第三个环节是核心的RL调优范式。这是项目的技术核心。它并非依赖单一的PPO或DPO算法而是提出了一套组合拳。首先通过监督微调让模型学会基础的ReAct格式和任务模式然后引入基于广义奖励的策略优化其中奖励可能来自格式规范性、任务完成度等多个维度。更进一步项目探索了集成多种先进推理模型作为“教师”并尝试了树搜索、蒙特卡洛等更复杂的动作推演策略让智能体在决策时能进行更深度的“思考”。闭环的终点是严格的基准测试。所有训练出的模型最终都要在GAIA、AgentBench等标准测试集上接受检验。这确保了技术探索不是纸上谈兵而是以可量化的性能提升为目标。整个设计思路清晰体现了“数据驱动、环境交互、算法优化、结果验证”的现代AI系统开发理念。2.2 方法论的深度整合与创新在具体方法上OpenManus-RL展现了对前沿研究的敏锐整合能力。它受RAGEN项目的“推理-交互链优化”思想启发但进行了更广泛的探索。在推理模型探索层面项目没有局限于单一模型而是将GPT-4o、DeepSeek-R1、QwQ-32B等顶级推理模型纳入评估体系。这背后的逻辑是不同的推理模型在思维链的生成、逻辑连贯性上各有特点通过对比它们作为“推理引擎”的表现可以为下游的智能体策略模型提供更优的模仿目标或蒸馏对象。在推演策略上项目大胆引入了多种原本用于规划问题的算法。例如思维树让智能体能并行探索多种可能的行动路径图思维能更好地处理行动间的复杂依赖关系而蒙特卡洛树搜索则为在不确定环境中的长期规划提供了概率框架。这些策略的引入旨在解决传统单一思维链在复杂、多步任务中容易“钻牛角尖”或短视的问题。奖励设计是RL调优的灵魂。项目没有使用单一的任务完成奖励而是提出了结构化的奖励模型。这包括“格式奖励”鼓励输出符合ReAct规范和“结果奖励”鼓励最终达成目标。更进阶的是项目计划训练专门的智能体奖励模型通过学习人类标注的偏好数据来对智能体生成的复杂轨迹给出更细腻、更准确的评分从而引导模型学习更符合人类期望的行为模式。最后项目的工程整合非常务实。它没有重复造轮子而是将字节跳动的Verl框架作为核心RL引擎集成进来。Verl提供了工业级的PPO、DPO等算法实现以及高效的大模型训练优化。这种选择保证了算法底层的稳定性和效率让团队和社区贡献者能将精力集中在智能体特有的问题如动作空间设计、环境接口适配上而非RL算法本身的调试。注意这种“集成创新”的思路非常值得借鉴。在AI工程领域完全从零开始构建所有组件往往效率低下且容易出错。识别核心问题并利用社区最成熟的工具解决底层通用问题是快速推进项目的关键。3. 环境部署与数据准备实操详解理论再美好也需要落地。OpenManus-RL项目的上手第一步就是搭建环境并准备数据。这部分工作看似繁琐但却是后续所有实验的基石。我将结合官方指南和个人部署经验为你梳理出清晰的步骤和关键注意事项。3.1 基础环境与依赖安装项目的核心运行环境基于Python 3.10和PyTorch。我强烈建议使用Conda进行环境管理它能有效解决不同项目间的依赖冲突。# 1. 克隆仓库务必使用 --recursive 参数因为集成了verl子模块 git clone --recursive https://github.com/OpenManus/OpenManus-RL.git cd OpenManus-RL # 2. 创建并激活Conda环境 conda create -n openmanus-rl python3.10 -y conda activate openmanus-rl # 3. 安装PyTorch请根据你的CUDA版本到PyTorch官网获取对应命令 # 例如对于CUDA 11.8 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 4. 安装项目核心依赖及优化组件 pip install -e .[vllm] # 安装主包并包含vllm依赖用于高效推理 pip install flash-attn --no-build-isolation # 安装FlashAttention-2大幅提升训练效率 pip install wandb # 用于实验跟踪和可视化强烈推荐实操心得与避坑指南子模块是关键如果克隆时忘了加--recursive或者后续更新代码务必执行git submodule update --init --recursive。Verl框架的缺失会导致整个训练流程无法启动。FlashAttention-2这个库能显著减少训练时的显存占用并加速计算但对硬件和CUDA版本有要求。如果安装失败可以暂时注释掉但会牺牲性能。安装前请确保你的CUDA驱动和PyTorch的CUDA版本匹配。vllm这是一个高性能的推理库。-e .[vllm]中的[vllm]是“可选依赖”的语法确保vllm被安装。如果遇到vllm安装问题可以尝试先单独安装pip install vllm。3.2 智能体环境部署以WebShop和ALFWorld为例智能体需要在具体环境中学习。OpenManus-RL支持多个环境这里以WebShop和ALFWorld为例它们分别是网页交互和文本化 embodied 任务的经典测试平台。WebShop环境部署 WebShop是一个模拟在线购物网站的环境智能体需要根据用户指令搜索、筛选并购买商品。# 进入WebShop环境目录 cd openmanus_rl/environments/env_package/webshop/webshop/ # 为WebShop创建独立环境避免依赖污染 conda create -n agentenv_webshop python3.10 -y conda activate agentenv_webshop # 运行安装脚本 bash ./setup.sh -d all这个setup.sh脚本通常会处理依赖安装、数据下载和环境配置。-d all参数表示下载所有必要的数据。ALFWorld环境部署 ALFWorld将文本游戏《模拟人生》中的任务转换为了文本交互环境智能体需要执行如“把微波炉里的苹果拿出来”这样的具体动作。# 切换回主项目环境 conda activate openmanus-rl # 安装ALFWorld及其依赖 pip install gymnasium0.29.1 pip install stable-baselines32.6.0 pip install alfworld # 下载ALFWorld所需的游戏文件、PDDL定义和预训练检测器模型 alfworld-download -falfworld-download -f命令会将必要资源下载到~/.cache/alfworld/目录下。重要提示环境部署是最容易出错的环节。WebShop的setup.sh可能会因为网络问题或系统权限导致失败。如果遇到问题建议仔细查看脚本内容手动执行其中的pip安装和wget下载命令。ALFWorld的下载也可能较慢需要保持网络稳定。3.3 数据集获取与初步探索数据是训练的粮草。OpenManus-RL数据集已在Hugging Face上开源。# 使用 datasets 库加载需提前安装pip install datasets from datasets import load_dataset dataset load_dataset(CharlieDreemur/OpenManus-RL) print(dataset)你可以通过上述代码快速查看数据集结构。数据集中的每条样本都是一个多轮对话严格遵循ReAct格式。例如{ id: web_42, conversations: [ {role: user, content: Find a wireless mouse under $30 with at least 4-star rating.}, {role: assistant, content: Think: User wants a wireless mouse, budget $30, min 4 stars. Need to search and filter.\nAct: search[wireless mouse]}, {role: user, content: Environment: [Search results page showing 50 items]}, {role: assistant, content: Think: Need to apply price and rating filters.\nAct: filter[price30, rating4]}, ... // 后续可能还有点击、查看详情等动作 {role: assistant, content: Think: Item Logitech M185 meets all criteria. Finalize.\nAct: buy[Logitech M185]} ] }数据特点分析结构化思维每个助手的回复都明确分为“思考”和“行动”两部分。这种结构化的数据是训练智能体进行“先想后做”的关键。环境反馈用户的回复实际上是环境对上一个动作的反馈如搜索结果、操作结果。这模拟了真实的交互。多领域覆盖数据来自操作系统命令、数据库查询、网页交互、知识图谱操作等有助于训练通用型智能体。在开始训练前花些时间浏览不同领域的数十条数据样例能帮助你直观理解智能体需要学习的行为模式也对后续设计奖励函数有启发。4. 训练流程与核心配置解析环境就绪数据在手接下来就是最核心的训练阶段。OpenManus-RL提供了从监督微调到强化学习的完整训练脚本。这里我们深入其训练流程并解读关键配置。4.1 监督微调打好基础在进入复杂的RL之前通常需要对基础语言模型进行监督微调让其熟悉ReAct格式和特定领域的任务指令。这相当于“学前班”。 项目可能提供了类似以下的SFT训练脚本具体请查看scripts/sft_train/目录# 假设的SFT训练命令 python train_sft.py \ --model_name_or_path meta-llama/Llama-3.2-3B-Instruct \ # 基础模型 --dataset_name CharlieDreemur/OpenManus-RL \ # 训练数据 --output_dir ./models/sft_llama3.2_3b \ # 输出目录 --num_train_epochs 3 \ # 训练轮数 --per_device_train_batch_size 4 \ # 批次大小 --gradient_accumulation_steps 8 \ # 梯度累积步数 --learning_rate 2e-5 \ # 学习率 --logging_steps 10 \ # 日志步长 --save_strategy epoch \ # 保存策略 --bf16 true \ # 使用BF16混合精度训练关键参数解读gradient_accumulation_steps: 当GPU显存不足以容纳大的batch_size时通过梯度累积来模拟更大的批次这对训练稳定性很重要。实际生效的批次大小为per_device_train_batch_size * gradient_accumulation_steps。bf16: 使用BF16浮点格式可以大幅减少显存占用并加速训练是现代大模型训练的标准配置。确保你的硬件如Ampere架构及以后的NVIDIA GPU支持。数据格式处理在SFT阶段需要将数据集中多轮的conversations转换为模型能理解的指令微调格式。这通常意味着将整个对话拼接成一个序列并在不同角色间添加特定的标记如|user|,|assistant|。4.2 强化学习调优以ALFWorld PPO为例SFT模型学会了格式和基础能力但可能还不够“聪明”或“高效”。RL调优的目标是让模型通过与环境的交互学会优化其决策策略以获得更高的累积奖励。项目提供了一个在ALFWorld环境上进行PPO训练的示例脚本 (scripts/ppo_train/train_alfworld.sh)。让我们拆解其核心逻辑# train_alfworld.sh 内容概要 python train_ppo.py \ --config configs/ppo_alfworld.yaml \ # 主配置文件 --model_name_or_path ./models/sft_llama3.2_3b \ # 加载SFT后的模型 --reward_fn environment \ # 奖励来源环境直接反馈如任务成功1失败0 --env_name alfworld \ # 指定环境 --num_rollouts 128 \ # 每次迭代收集的轨迹数量 --ppo_epochs 4 \ # 每次数据收集后进行PPO更新的轮数 --batch_size 32 \ # PPO更新时的批次大小 --learning_rate 1e-6 \ # RL阶段学习率通常比SFT小1-2个数量级 --output_dir ./models/ppo_alfworld \ --use_wandb true # 启用wandb记录PPO训练流程解析轨迹收集智能体使用当前策略模型在ALFWorld环境中运行生成num_rollouts条轨迹从任务开始到成功/失败的一系列思考和动作。奖励计算环境根据任务完成情况给出奖励稀疏奖励。项目也可能在此处加入格式奖励等。优势估计使用广义优势估计等方法计算每个时间步动作的优势值该动作比平均好多少。策略更新利用收集的轨迹数据执行多轮PPO更新。PPO的核心是“信任区域”思想通过裁剪等方式限制每次更新的幅度防止策略突变导致性能崩溃。循环迭代重复步骤1-4直到策略收敛或达到预设步数。配置文件深度解析(configs/ppo_alfworld.yaml)# 模型相关 model: base_model: ./models/sft_llama3.2_3b use_flash_attention_2: true # 启用FlashAttention-2加速 # 环境相关 environment: name: alfworld max_steps: 30 # 单条轨迹最大步数防止智能体无限循环 reward_config: success_bonus: 1.0 # 任务成功奖励 step_penalty: -0.01 # 每一步的小惩罚鼓励高效完成 # PPO算法参数 ppo: clip_range: 0.2 # PPO裁剪范围核心超参 gamma: 0.99 # 折扣因子未来奖励的衰减率 lam: 0.95 # GAE(lambda)参数权衡偏差和方差 vf_coef: 0.5 # 价值函数损失权重 ent_coef: 0.01 # 熵奖励权重鼓励探索 # 训练循环 training: total_steps: 100000 rollout_workers: 4 # 并行收集轨迹的进程数加快数据收集 save_freq: 10000 # 每多少步保存一次检查点关键超参经验clip_range通常设置在0.1到0.3之间。太小更新慢太大稳定性差。step_penalty这是一个重要的技巧。给每个步骤一个微小的负奖励可以激励智能体用更少的步骤完成任务避免无意义的“踱步”。ent_coef熵奖励。在训练初期可以设得稍大如0.05以鼓励探索后期可以逐渐减小或设为0让策略更确定。rollout_workers如果环境模拟是CPU密集型增加并行工作者可以极大缩短数据收集时间是加速RL训练的有效手段。5. 高级技巧、问题排查与效果评估掌握了基础训练流程后要真正用好OpenManus-RL还需要了解一些高级技巧和常见问题的应对方法。RL训练 notoriously unstable以不稳定著称这些经验能帮你节省大量调试时间。5.1 奖励工程与课程学习原始的稀疏奖励成功/失败对于复杂任务来说学习信号太弱。OpenManus-RL提到的“格式奖励”和“结果奖励”是奖励工程的一部分。格式奖励可以设计一个规则或轻量级模型对智能体输出的“思考”和“行动”格式规范性进行打分。例如是否包含“Think:”和“Act:”前缀行动是否符合预定义的工具集。课程学习不要一开始就让智能体挑战最难的ALFWorld任务。可以先在简单的、奖励信号更密集的环境或任务的简化版本中训练然后再迁移到复杂环境。项目的数据集包含不同难度的任务可以据此构建课程。5.2 常见训练问题与排查奖励不上升策略不学习检查点首先确认SFT模型是否已经能较好地生成ReAct格式。如果SFT基础太差RL很难学会。奖励尺度确保奖励值在一个合理的范围内如-1到1。过大的奖励值会导致梯度爆炸。优势标准化在PPO中对优势函数进行批内标准化减去均值除以标准差是一个稳定训练的标准技巧Verl框架可能已内置。查看轨迹使用wandb或手动记录几条智能体生成的轨迹。看看它是在重复无意义的动作还是卡在了某个步骤。这能帮你判断是探索不足还是奖励设计有问题。策略崩溃训练初期奖励有提升但突然断崖式下跌。降低学习率RL的学习率通常非常小1e-6到1e-5。尝试进一步降低。检查clip_range尝试减小clip_range如从0.2调到0.1限制更新幅度。增加ent_coef适当增加熵奖励权重重新鼓励探索。显存不足梯度累积如上所述使用gradient_accumulation_steps。梯度检查点在模型前向传播时重新计算部分激活值以时间换空间。在配置中寻找gradient_checkpointing: true选项。降低batch_size或num_rollouts。使用更小的模型从7B、3B甚至1B参数的模型开始实验。5.3 模型评估与基准测试训练出的模型最终要在标准基准上见真章。OpenManus-RL项目强调在GAIA、AgentBench等基准上的测试。本地评估项目应该会提供针对每个环境的评估脚本。例如对ALFWorld训练好的模型运行一个评估脚本在几百个未见过的测试任务上计算成功率。python evaluate_alfworld.py --model_path ./models/ppo_alfworld/checkpoint-50000理解评估指标除了最终成功率还应关注平均步数衡量效率、轨迹一致性思维链是否合理等。与基线对比将你的模型与原始SFT模型、以及项目可能提供的基线模型如仅用SFT的模型进行对比量化RL调优带来的提升。一个实用的评估流程保留测试集在训练开始前就从数据集中或环境任务中划分出一部分作为固定的测试集绝不用于训练。定期快照评估在训练过程中每隔一定步数保存模型检查点并在测试集上运行评估。通过wandb图表观察性能随时间的变化。人工审查自动指标很重要但人工审查几条模型在复杂任务上的轨迹能发现指标无法反映的问题比如逻辑跳跃、无效动作等为后续改进提供方向。5.4 扩展方向与社区贡献OpenManus-RL是一个开放项目其路线图也指明了潜在的贡献方向集成新环境将更多的智能体环境如桌面操作环境、特定游戏API接入框架。尝试新算法在Verl框架基础上实现并试验如QR-DQN、CQL等离线RL算法或者探索基于模型的RL。贡献数据收集和标注新的、高质量的任务轨迹数据特别是当前覆盖不足的领域。改进奖励模型尝试训练更精准的奖励模型替代人工设计的奖励函数。参与这样的项目不仅能深化你对LLM智能体和RL的理解还能直接接触到最前沿的工程实践。从复现一个已有的训练示例开始到尝试调整超参数、修改奖励函数再到最终提出自己的改进并提交PR是一个非常有价值的学习和成长路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2608124.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…