Agent 30 课程开发指南 - 第24课

news2026/4/26 5:31:16
Agent 30 课程开发指南从零开始构建一个生产级 AI 助手框架。本指南将带你从向 LLM 问好一步步走到一个完整的多提供者、多通道 AI 智能体具备工具调用、记忆、安全防护和 Web 界面。每节课程都建立在上一节课的基础之上。每节课都包含可运行的代码和测试。本教程的主要思路来自于Nanobot (https://github.com/HKUDS/nanobot)Learn-Claude-Code (https://github.com/shareAI-lab/learn-claude-code/)本课程设计由AI辅助下完成因为课程自身也在不停修正请参考 https://github.com/junfhu/UltrabotStepByStep如果您觉得对您有帮助请帮助点亮一颗星。课程 24智能分块 — 平台感知的消息拆分目标构建一个分块器将较长的机器人回复拆分为各平台安全的片段同时不破坏代码块和句子完整性。你将学到为什么每个聊天平台的消息长度上限各不相同两种拆分策略基于长度 和 基于段落如何在拆分过程中检测并保护 Markdown 代码围栏将分块功能接入出站通道路径新建文件ultrabot/chunking/__init__.py— 公共导出ultrabot/chunking/chunker.py—ChunkMode、chunk_text()、平台限制表步骤 1定义平台限制与分块模式每个消息平台在达到特定字符数后会截断或拒绝消息。我们维护一个查找表使分块器在消息流经 Telegram、Discord、Slack 或其他通道时能自动适配。# ultrabot/chunking/chunker.py按通道对出站消息进行分块。from__future__importannotationsfromenumimportEnumclassChunkMode(str,Enum):拆分策略。LENGTHlength# 按字符限制拆分优先在空白处断开PARAGRAPHparagraph# 按空行边界拆分# ── 平台上限字符数 ──────────────────────────────────# 每个通道驱动可以覆盖这些值但以下是合理的默认值。CHANNEL_CHUNK_LIMITS:dict[str,int]{telegram:4096,discord:2000,slack:4000,feishu:30000,qq:4500,wecom:2048,weixin:2048,webui:0,# 0 无限制Web UI 会完整流式传输响应}DEFAULT_CHUNK_LIMIT4000DEFAULT_CHUNK_MODEChunkMode.LENGTHdefget_chunk_limit(channel:str,override:int|NoneNone)-int:返回 *channel* 的分块限制。0 表示无限制。ifoverrideisnotNoneandoverride0:returnoverridereturnCHANNEL_CHUNK_LIMITS.get(channel,DEFAULT_CHUNK_LIMIT)关键设计决策0表示无限制 — Web UI 直接流式传输到浏览器因此不需要拆分。override参数允许按通道配置覆盖默认值。步骤 2主入口chunk_text()调度器检查快速退出条件空文本、在限制范围内然后委托给相应的策略。defchunk_text(text:str,limit:int,mode:ChunkModeChunkMode.LENGTH,)-list[str]:将 *text* 拆分为遵守 *limit* 的分块。 - limit 0 → 将完整文本作为一个分块返回不拆分。 - LENGTH 模式 → 优先在换行/空白处断开感知代码围栏。 - PARAGRAPH 模式 → 在空行处拆分对过大的段落回退到 LENGTH 模式。 ifnottext:return[]iflimit0:return[text]iflen(text)limit:return[text]ifmodeChunkMode.PARAGRAPH:return_chunk_by_paragraph(text,limit)return_chunk_by_length(text,limit)步骤 3基于长度的拆分与代码围栏保护棘手的部分我们绝不能在 代码块内部拆分。如果拆分点落在未闭合的围栏内我们会将分块扩展到包含闭合围栏。def_chunk_by_length(text:str,limit:int)-list[str]:按 *limit* 拆分优先在换行/空白边界处断开。 Markdown 围栏感知不会在 代码块内部拆分。 chunks:list[str][]remainingtextwhileremaining:iflen(remaining)limit:chunks.append(remaining)breakcandidateremaining[:limit]# ── 代码围栏保护 ───────────────────────────# 统计开启/关闭围栏的数量。奇数表示我们在代码块内部。fence_countcandidate.count()iffence_count%21:# 找到最后一个开启围栏之后的关闭围栏fence_endremaining.find(,candidate.rfind()3)iffence_end!-1andfence_end3len(remaining):split_atfence_end3# 对齐到关闭围栏之后的下一个换行nlremaining.find(\n,split_at)ifnl!-1andnlsplit_at10:split_atnl1chunks.append(remaining[:split_at])remainingremaining[split_at:]continue# ── 寻找最佳断开点 ───────────────────────# 优先级双换行 单换行 空格best-1forsepin[\n\n,\n, ]:poscandidate.rfind(sep)ifposlimit//4:# 不要断得太早bestposlen(sep)breakifbest0:chunks.append(remaining[:best].rstrip())remainingremaining[best:].lstrip()else:# 没有合适的断开点 — 硬拆分chunks.append(remaining[:limit])remainingremaining[limit:]return[cforcinchunksifc.strip()]步骤 4基于段落的拆分对于像 Telegram 这样能渲染 Markdown 的平台按段落边界拆分能产生最干净的视觉效果。def_chunk_by_paragraph(text:str,limit:int)-list[str]:按段落边界空行拆分。 对于过大的段落回退到基于长度的拆分。 paragraphstext.split(\n\n)chunks:list[str][]currentforparainparagraphs:parapara.strip()ifnotpara:continue# 单个段落超过限制 → 回退到基于长度的拆分iflen(para)limit:ifcurrent:chunks.append(current.rstrip())currentchunks.extend(_chunk_by_length(para,limit))continue# 尝试追加到当前分块candidatef{current}\n\n{para}ifcurrentelseparaiflen(candidate)limit:currentcandidateelse:ifcurrent:chunks.append(current.rstrip())currentparaifcurrent:chunks.append(current.rstrip())return[cforcinchunksifc.strip()]步骤 5包初始化# ultrabot/chunking/__init__.py按通道对出站消息进行分块。fromultrabot.chunking.chunkerimport(CHANNEL_CHUNK_LIMITS,DEFAULT_CHUNK_LIMIT,DEFAULT_CHUNK_MODE,ChunkMode,chunk_text,get_chunk_limit,)__all__[CHANNEL_CHUNK_LIMITS,DEFAULT_CHUNK_LIMIT,DEFAULT_CHUNK_MODE,ChunkMode,chunk_text,get_chunk_limit,]测试# tests/test_chunking.py智能分块系统的测试。importpytestfromultrabot.chunking.chunkerimport(ChunkMode,chunk_text,get_chunk_limit,CHANNEL_CHUNK_LIMITS,)classTestGetChunkLimit:deftest_known_channel(self):assertget_chunk_limit(telegram)4096assertget_chunk_limit(discord)2000deftest_unknown_channel_returns_default(self):assertget_chunk_limit(matrix)4000deftest_override_wins(self):assertget_chunk_limit(telegram,override1000)1000deftest_zero_override_uses_channel_default(self):assertget_chunk_limit(discord,override0)2000deftest_webui_unlimited(self):assertget_chunk_limit(webui)0classTestChunkText:deftest_empty_text(self):assertchunk_text(,100)[]deftest_within_limit_returns_single(self):assertchunk_text(hello,100)[hello]deftest_unlimited_returns_single(self):bigx*10_000assertchunk_text(big,0)[big]deftest_splits_at_whitespace(self):textword *100# 500 字符chunkschunk_text(text.strip(),120)assertlen(chunks)2forchunkinchunks:assertlen(chunk)140# rstrip 后有一些余量deftest_code_fence_protection(self):代码块绝不应该在中间被拆分。textBefore\npython\nx 1\n*50\nAfterchunkschunk_text(text,100)# 找到包含代码围栏开始的分块forchunkinchunks:ifpythoninchunk:# 必须同时包含闭合围栏assertinchunk[chunk.index(python)3:]breakdeftest_paragraph_mode_splits_at_blank_lines(self):textPara one.\n\nPara two.\n\nPara three.chunkschunk_text(text,20,modeChunkMode.PARAGRAPH)assertlen(chunks)2deftest_paragraph_mode_oversized_falls_back(self):textShort.\n\nx*200# 第二个段落很大chunkschunk_text(text,50,modeChunkMode.PARAGRAPH)assertlen(chunks)2assertchunks[0]Short.检查点python-mpytest tests/test_chunking.py-v预期结果所有测试通过。验证代码围栏保持完整fromultrabot.chunkingimportchunk_text textHere:\n\nline\n*500\nDone.chunkschunk_text(text,200)forcinchunks:countc.count()assertcount%20orcount0,f分块中代码围栏被破坏print(f✓{len(chunks)}个分块所有围栏完好)本课成果一个平台感知的消息拆分器支持两种策略长度和段落、代码围栏保护以及按通道的限制表。通道在发送前调用chunk_text(response, get_chunk_limit(telegram))用户将永远不会看到被破坏的代码块。本课使用的 Python 知识from __future__ import annotations这是一个特殊的导入语句让 Python 把所有类型注解当作字符串处理延迟求值使新式类型语法在较早版本的 Python 中可用。from__future__importannotationsdefchunk_text(text:str,limit:int)-list[str]:...为什么在本课中使用代码中使用了list[str]、dict[str, int]、int | None等内置泛型类型注解加上这一行确保兼容 Python 3.9。Enum枚举类型与str, Enum多重继承Enum用于定义一组命名常量。同时继承str和Enum后枚举值可以直接当字符串比较和使用。fromenumimportEnumclassChunkMode(str,Enum):LENGTHlengthPARAGRAPHparagraphprint(ChunkMode.LENGTHlength)# Trueprint(ChunkMode.LENGTH.value)# length为什么在本课中使用ChunkMode定义了两种拆分策略LENGTH和PARAGRAPH用枚举可以防止传入无效的模式字符串又因为继承了str可以方便地序列化和比较。dict[str, int]类型注解的字典Python 3.9 允许直接在内置类型上使用泛型语法dict[str, int]来标注字典的键值类型。CHANNEL_CHUNK_LIMITS:dict[str,int]{telegram:4096,discord:2000,slack:4000,}为什么在本课中使用平台限制查找表是一个从通道名字符串到字符数限制整数的映射用dict[str, int]清晰表达了数据结构。list[str]类型注解的列表与字典类似list[str]标注一个元素全为字符串的列表。defchunk_text(text:str,limit:int)-list[str]:chunks:list[str][]...returnchunks为什么在本课中使用chunk_text()返回拆分后的文本列表用list[str]清晰标注返回值类型帮助 IDE 和类型检查器提供更好的提示。字符串方法split()、strip()、count()、find()、rfind()Python 字符串提供了丰富的内置方法用于拆分、清理和搜索textHello\n\nWorld\n\nPython# split() — 按分隔符拆分paragraphstext.split(\n\n)# [Hello, World, Python]# strip() / rstrip() / lstrip() — 去除首尾空白 hello .strip()# hellohello .rstrip()# hello# count() — 统计子串出现次数codemore.count()# 3# find() / rfind() — 查找子串位置rfind 从右向左查text.find(World)# 7从左找text.rfind(World)# 7从右找为什么在本课中使用分块器需要在合适的位置断开文本——split(\n\n)按段落拆分rfind(\n)找到最后一个换行处断开count()统计代码围栏数量判断是否在代码块内部。while循环while循环在条件为真时反复执行适合不知道具体迭代次数的场景。remainingvery long text...chunks[]whileremaining:iflen(remaining)limit:chunks.append(remaining)breakchunkremaining[:limit]chunks.append(chunk)remainingremaining[limit:]为什么在本课中使用基于长度的拆分算法需要不断从剩余文本中切出符合限制的分块直到没有剩余文本——这正是while循环的典型应用。for循环与break/continuefor遍历可迭代对象。break立即退出循环continue跳过本次迭代进入下一轮。forsepin[\n\n,\n, ]:poscandidate.rfind(sep)ifposlimit//4:bestposlen(sep)break# 找到最佳断开点退出循环为什么在本课中使用寻找最佳断开点时按优先级依次尝试双换行、单换行、空格——一旦找到合适的位置就用break退出不再尝试更低优先级的分隔符。列表推导与条件过滤列表推导可以在一行内从可迭代对象生成新列表if子句可以过滤不符合条件的元素。# 过滤掉空白分块chunks[cforcinchunksifc.strip()]为什么在本课中使用拆分后可能产生空的分块全是空白字符用列表推导加条件过滤一步清理干净。字符串切片Python 的切片语法s[start:end]可以从字符串中取出子串。支持省略start从头开始或end到末尾。textHello, World!print(text[:5])# Hello — 前 5 个字符print(text[7:])# World! — 第 7 个字符到末尾print(text[-6:])# World! — 倒数 6 个字符到末尾为什么在本课中使用分块的核心操作就是切片——remaining[:limit]取出一个分块remaining[best:]保留剩余文本。函数默认参数函数定义时可以为参数设置默认值调用时如果不传该参数就使用默认值。defchunk_text(text:str,limit:int,mode:ChunkModeChunkMode.LENGTH,# 默认使用长度模式)-list[str]:...为什么在本课中使用chunk_text()的mode参数默认为LENGTH大多数调用者不需要关心拆分模式简化了接口。__all__模块导出控制__all__是一个字符串列表定义了使用from module import *时导出哪些名称。它就像模块的公开 API 清单。# ultrabot/chunking/__init__.py__all__[ChunkMode,chunk_text,get_chunk_limit,CHANNEL_CHUNK_LIMITS,]为什么在本课中使用明确声明 chunking 包的公开接口隐藏内部实现函数如_chunk_by_length、_chunk_by_paragraph让使用者只看到需要用的部分。策略模式函数调度根据条件选择不同的处理函数执行——这是策略模式的简单实现。在 Python 中用if/elif调度即可无需复杂的类继承。defchunk_text(text:str,limit:int,mode:ChunkModeChunkMode.LENGTH)-list[str]:ifmodeChunkMode.PARAGRAPH:return_chunk_by_paragraph(text,limit)# 段落策略return_chunk_by_length(text,limit)# 长度策略为什么在本课中使用分块器提供两种策略——基于长度和基于段落。chunk_text()根据mode参数调度到不同的内部函数符合开放-封闭原则添加新策略只需增加新函数和一个elif分支。f-string格式化字符串f-stringf...{expr}...可以在字符串中直接嵌入变量或表达式简洁高效。channeltelegramlimit4096print(f通道{channel}的消息限制是{limit}字符)为什么在本课中使用测试代码中用 f-string 格式化输出信息如f✓ {len(chunks)} 个分块使调试信息更清晰可读。pytest测试框架pytest是 Python 最流行的测试框架支持类组织测试、丰富的断言、参数化等功能。importpytestclassTestChunkText:deftest_empty_text(self):assertchunk_text(,100)[]deftest_within_limit_returns_single(self):assertchunk_text(hello,100)[hello]为什么在本课中使用分块逻辑有很多边界情况空文本、在限制内、代码围栏、段落拆分需要全面的测试来确保每种情况都正确处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2536005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…