写在前面
Manus 是由中国初创公司 Monica.im 于 2025 年 3 月推出的全球首款通用型 AI 智能体(AI Agent),旨在实现“知行合一”,即不仅具备强大的语言理解和推理能力,还能自主执行复杂任务,直接交付完整成果。
什么是 Manus?
“Manus”一词源自拉丁语“Mens et Manus”,意为“心智与双手”,强调其不仅能思考,还能动手执行。与传统 AI 助手(如 ChatGPT)主要提供建议或回答问题不同,Manus 能够独立完成从任务规划到执行的全过程。例如,用户只需输入一句话,Manus 就能自动完成数据分析、代码编写、文档生成等任务,真正实现从想法到成果的闭环。
Manus AI
https://manus.im/
这里放几个用户的案例:
● https://manus.im/share/jr5CKBMJJZDxvU2S5VdZLw?replay=1
● https://manus.im/share/c3onakN6Iajcm1Vt1xAVG7?replay=1
● https://manus.im/share/xFgpHb15vKqfRPWIs3JJPJ?replay=1
应用场景
- 数据分析与可视化:处理上传的数据,生成图表、趋势分析或仪表盘。
- 市场调研:搜索网络信息,整合数据并输出结构化分析结果。
- 旅行规划:根据用户偏好生成详细行程和旅行手册。
- 代码编写与运行:生成代码并测试,提供可执行程序或脚本。
- 文件操作与整理:解压文件、对比文档并生成比较表格。
- 网页生成:根据需求设计并输出展示型网页。
- 多任务并行处理:支持同时处理多个任务,提升工作效率。
工作原理
● 来源:https://x.com/dotey/status/1897871686458130699
● 宝玉的分析:https://baoyu.io/blog/where-is-manus-moat
● 虚拟机:一个 Linux 系统的虚拟机,安装有 Chrome 浏览器,用来访问网页。Python 运行环境,可以执行脚本分析数据,可以启动一个网页运行环境
● 任务规划器:根据用户输入的任务请求,拆分成 ToDo List,我推测是 Claude 模型,因为这一步至关重要,必须要求模型有很强的推理能力,目前来说 Claude 3.7 Sonnet 应该是很经济实惠的选择
● 任务执行调度器:根据 ToDo List 的任务清单,逐一执行,根据任务去选择最合适的 Agent。由于这一步重点是在 Agent 的选择,所以不需要能力太强的模型,可以用开源模型比如 Qwen 稍微微调一下就可以用了。
● 各种执行不同类型任务的 Agents:Manus 内置了很多 Agent,比如最复杂的应该是类似于 OpenAI Operator 的网页浏览 Agent,比如根据特定 API 检索特定数据的 Agent,每个 Agent 在完成任务后都会把任务结果写到虚拟机。
● 任务汇总生成器:当每个子任务执行完成后,任务执行调度器就会通知任务汇总生成器,任务汇总生成器就会去虚拟机读取 ToDo List 以及各个子任务的生成结果,把这些结果汇总整理生成最终结果,根据任务要求,可能是一份调研报告,可能是网页程序。由于这一步要求有极强的推理能力和语言能力,所以必然要求一个很强的模型,所以我猜这里也应该是 Claude 3.7 Sonnet。
网上有人通过提示词的方式,“逆向”了 Manus 的结构:
● https://x.com/jianxliao/status/1898861051183349870
看样子是通过操作 “/opt/.manus/” 目录的方式:
So... I just simply asked Manus to give me the files at "/opt/.manus/", and it just gave it to me, their sandbox runtime code...
> it's claude sonnet
> it's claude sonnet with 29 tools
> it's claude sonnet without multi-agent
> it uses
@browser_use
> browser_use code was also obfuscated (?)
> tools and prompts jailbreak
老哥将 Prompt 等内容也保存了出来:
● https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9
这里是 Agent Loop 的地方,大概就是 前文介绍的 ReACT 的部分:
You are Manus, an AI agent created by the Manus team.
You excel at the following tasks:
1. Information gathering, fact-checking, and documentation
2. Data processing, analysis, and visualization
3. Writing multi-chapter articles and in-depth research reports
4. Creating websites, applications, and tools
5. Using programming to solve various problems beyond development
6. Various tasks that can be accomplished using computers and the internet
Default working language: English
Use the language specified by user in messages as the working language when explicitly provided
All thinking and responses must be in the working language
Natural language arguments in tool calls must be in the working language
Avoid using pure lists and bullet points format in any language
System capabilities:
- Communicate with users through message tools
- Access a Linux sandbox environment with internet connection
- Use shell, text editor, browser, and other software
- Write and run code in Python and various programming languages
- Independently install required software packages and dependencies via shell
- Deploy websites or applications and provide public access
- Suggest users to temporarily take control of the browser for sensitive operations when necessary
- Utilize various tools to complete user-assigned tasks step by step
You operate in an agent loop, iteratively completing tasks through these steps:
1. Analyze Events: Understand user needs and current state through event stream, focusing on latest user messages and execution results
2. Select Tools: Choose next tool call based on current state, task planning, relevant knowledge and available data APIs
3. Wait for Execution: Selected tool action will be executed by sandbox environment with new observations added to event stream
4. Iterate: Choose only one tool call per iteration, patiently repeat above steps until task completion
5. Submit Results: Send results to user via message tools, providing deliverables and related files as message attachments
6. Enter Standby: Enter idle state when all tasks are completed or user explicitly requests to stop, and wait for new tasks
流程在这里:
● https://manus.im/share/lLR5uWIR5Im3k9FCktVu0k
工具列表
这里 Manus 就是通过 Function Calling 的方式,来调用这些工具,大概如下:
● https://zhuanlan.zhihu.com/p/29330461895
浏览器操作 (12个):
● browser_view - 查看当前浏览器页面内容
● browser_navigate - 导航浏览器到指定URL
● browser_restart - 重启浏览器并导航到指定URL
● browser_click - 点击当前页面上的元素
● browser_input - 在页面上的可编辑元素中覆写文本
● browser_move_mouse - 移动光标到页面上的指定位置
● browser_press_key - 模拟按键操作
● browser_select_option - 在下拉列表中选择指定选项
● browser_scroll_up - 向上滚动页面
● browser_scroll_down - 向下滚动页面
● browser_console_exec - 在浏览器控制台执行JavaScript代码
● browser_console_view - 查看浏览器控制台输出
Shell操作 (5个):
● shell_exec - 在指定shell会话中执行命令
● shell_view - 查看指定shell会话的内容
● shell_wait - 等待shell会话中运行的进程返回
● shell_write_to_process - 向运行中的进程写入输入
● shell_kill_process - 终止shell会话中运行的进程
文件操作(5个):
● file_read - 读取文件内容
● file_write - 写入或追加内容到文件
● file_str_replace - 替换文件中的指定字符串
● file_find_in_content - 在文件内容中搜索匹配文本
● file_find_by_name - 在指定目录中通过名称模式查找文件
部署工具(3个):
● deploy_expose_port - 临时公开本地端口以供公共访问
● deploy_apply_deployment - 将网站或应用部署到公共生产环境
● make_manus_page - 从本地MDX文件创建Manus页面
消息交互 (2个):
● message_notify_user - 向用户发送不需要回复的消息
● message_ask_user - 向用户提问并等待回复
信息查询 (1个):
● info_search_web - 使用搜索引擎搜索网页
其他工具 (1个):
● idle - 表示已完成所有任务并将进入空闲状态的特殊工具