用 Codex 写运维脚本(二)—— Prompt 工程:如何精准描述你的脚本需求
系列第二篇上一篇介绍了 Codex 对运维场景的价值本篇聚焦核心技能——如何写出高质量的提示词让 AI 一次输出可用脚本而不是反复拉锯。一、为什么提示词决定 80% 的脚本质量同样让 Codex 生成一个磁盘监控脚本看看两种写法的差距写法 A模糊帮我写个磁盘监控脚本输出结果一个df -h加简单echo的 10 行脚本没有告警、没有阈值、没有日志。写法 B结构化请用 Bash 写一个磁盘使用率监控脚本要求 - 检查所有挂载点的磁盘使用率 - 阈值使用率超过 85% 时告警 - 告警方式发送钉钉 Webhook 通知Webhook URL 通过环境变量 DINGTALK_WEBHOOK 读取 - 每次检查结果追加写入 /var/log/disk_monitor.log格式[时间戳] [挂载点] [使用率] - 脚本可直接加入 crontab每 5 分钟执行一次 - 包含错误处理curl 失败时记录错误日志但不退出输出结果一个带告警、带日志、带环境变量注入、带错误处理的生产级脚本。二、运维 Prompt 的黄金结构总结成一个公式【脚本类型】 【核心功能】 【输入/输出】 【异常处理】 【运行环境约束】 【输出格式要求】逐项拆解要素说明示例脚本类型Bash / Python / Ansible“请用 Python 3.8”核心功能动词 对象越具体越好“批量 SSH 登录并执行命令”输入/输出入参格式、输出位置“从 hosts.txt 读取 IP 列表结果输出到 result.csv”异常处理超时、失败、权限问题“单机失败不影响其他机器继续执行”运行环境约束OS 版本、Python 版本、依赖限制“只能用标准库不能安装第三方包”输出格式要求代码注释、函数封装等“每个函数加 docstring使用 argparse 解析参数”三、七个高效 Prompt 模板直接复用模板 1批量操作类请用 Bash 写一个脚本实现以下批量操作 目标对 hosts.txt 中的每台服务器每行一个 IP执行以下操作 1. 检查 [服务名] 服务状态 2. 如果服务未运行尝试启动并等待 10 秒 3. 再次检查状态仍未运行则记录为失败 输出生成 report_YYYYMMDD.txt包含每台机器的 IP、状态成功/失败、耗时 要求 - 最大并发 10 台 - SSH 超时设置 5 秒 - 失败的机器不影响其他机器继续执行 - 最终统计成功/失败数量模板 2日志处理类请用 Python 写一个日志分析脚本 输入/var/log/nginx/access.log标准 Nginx 日志格式 分析维度 1. 统计每个 URI 的请求次数按降序排列取 Top 20 2. 统计每小时请求量输出为时序数据 3. 找出响应时间超过 2 秒的请求记录 URI、时间、客户端 IP 输出 - 控制台打印 Top 20 URI 表格 - 生成 analysis_YYYYMMDD.json包含完整分析结果 依赖只用 Python 标准库re、collections、json、datetime模板 3监控告警类请用 Bash 写一个系统资源监控脚本 监控指标 - CPU 使用率1 分钟平均 - 内存使用率 - 磁盘 I/O wait 百分比 - TCP 连接数ESTABLISHED 状态 告警阈值 - CPU 90% - 内存 85% - I/O wait 30% - TCP 连接 1000 告警通道企业微信 WebhookURL 从 ENV 变量 WEIXIN_WEBHOOK 读取 执行方式可作为 crontab 每分钟调用重复告警间隔 10 分钟通过标志文件实现模板 4部署发布类请用 Bash 写一个应用部署脚本部署流程如下 1. 从参数 $1 读取版本号格式v1.2.3 2. 从 Nexus 下载对应版本的 JAR 包URL 模板${NEXUS_BASE_URL}/app-${version}.jar 3. 备份当前运行的 JAR备份到 /backup/app/ 4. 停止现有服务systemctl stop app-service等待最多 30 秒 5. 替换 JAR 包并启动服务 6. 健康检查请求 http://localhost:8080/health连续 3 次 200 则判定成功 7. 失败时自动回滚到备份版本 输出每个步骤打印带时间戳的进度日志模板 5定时清理类请用 Python 写一个文件清理脚本 清理规则从配置文件 cleanup.yaml 读取 - 支持配置多个目录 - 每个目录可单独配置保留天数、文件扩展名过滤、最小保留文件数 清理逻辑 - 按修改时间判断 - 确保每个目录至少保留最近 N 个文件即使超过天数限制 - 删除前打印将被删除的文件列表--dry-run 参数时只打印不删除 日志记录每次运行的删除文件数、释放空间MB到 SQLite 数据库支持查询历史记录模板 6数据同步类请用 Python 写一个数据库备份脚本 数据库MySQL 5.7 功能 1. 读取 /etc/backup/db_list.conf 中的数据库列表每行一个库名 2. 对每个库执行 mysqldump压缩为 gz 格式 3. 上传到阿里云 OSSBucket 名和 AK/SK 从环境变量读取 4. 保留本地最近 3 天备份OSS 保留 30 天 5. 备份完成后发送结果通知到钉钉 错误处理单个库失败不影响其他库最终汇总失败列表 依赖只允许使用 oss2、subprocess、logging不用其他第三方库模板 7巡检报告类请用 Python 生成一个服务器巡检脚本 巡检项目通过 SSH 连接执行 - 系统基本信息OS 版本、内核、运行时间 - CPU / 内存 / 磁盘使用率 - 僵尸进程数量 - 系统日志最近 100 行中的 ERROR/WARN 统计 - 开放端口列表 - 关键服务状态列表从配置文件读取服务名 输入从 inventory.csv 读取主机列表列ip, hostname, username, key_path 输出生成 HTML 格式的巡检报告包含汇总表和每机器详情 依赖paramiko、jinja2四、让输出质量翻倍的 5 个追加指令每次生成完基础脚本后用以下追加提示词进一步优化# 追加 1强化错误处理请检查脚本中所有可能失败的操作添加对应的错误处理和有意义的错误提示# 追加 2添加参数解析请为脚本添加命令行参数支持使用 argparsePython或 getoptsBash 并添加 --help 说明# 追加 3要求日志规范请将所有 echo/print 替换为标准日志格式[YYYY-MM-DD HH:MM:SS] [LEVEL] message 同时写入日志文件和标准输出# 追加 4生产安全加固请检查脚本的安全性避免明文密码、路径注入风险、权限最小化建议# 追加 5生成配套文档请为这个脚本生成使用说明包含功能描述、依赖安装、配置说明、使用示例、 注意事项五、常见踩坑 规避方法坑现象规避方法路径硬编码生成的脚本写死 /home/ubuntu在提示词中注明路径通过参数或环境变量传入依赖版本假设用了某些版本特有语法明确说明Python 3.8 或 “CentOS 7 的 Bash 4.x”缺少幂等性重复执行会出错要求脚本可重复执行已存在的资源跳过而不是报错密码明文直接把密码写在脚本里要求敏感信息从环境变量或 .env 文件读取无超时控制SSH/HTTP 请求永久阻塞要求所有网络操作设置超时SSH 超时 N 秒并发不可控同时操作几百台机器要求最大并发数通过参数控制默认 10六、小结Prompt 质量检查清单在发送提示词之前对照这个清单是否指定了脚本语言和版本是否描述了完整的输入来源和输出目标是否说明了错误处理预期是否提及了运行环境约束是否明确了敏感信息处理方式是否要求了幂等性如果需要达到 5/6 以上你的脚本生成质量会大幅提升。下一篇我们将直接动手用以上模板批量生成 5 个真实运维场景的 Shell 脚本逐行解析拿来即用。觉得有用请点赞收藏你的支持是持续更新的动力 ️
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2547699.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!