运维工程师面试总结（一）

news2026/4/27 22:33:46

1.linux的基础命令按运维场景分类文件ls、cd、pwd、mkdir、cp、mv、rm、cat(tail、head、less、more)权限chmod、chown、chgrp、sudo磁盘df -h、du -sh、lsof | grep deleted进程ps aux、top、htop、kill、ss/netstat网络ping、curl、telnet、ss -tulnp日志排查grep、awk、sed、tailf2.禁止某个ip访问22端口1iptables封禁iptables -A INPUT -s 目标IP -p tcp --dport 22 -j DROP2filewalld封禁firewall-cmd --permanent --add-rich-rulerule familyipv4 source addressIP port port22 protocoltcp reject3系统配置文件/etc/hosts.deny里加sshdIP建议使用第二第三种方法iptables是底层工具老技术firewalld是上层服务新技术现在的linux系统都默认使用firewalld不能同时使用iptables和firewalld即使用iptables永久保存规则firewalld一运行也会直接覆盖iptables规则最后会导致规则失效、SSH断开、网络异常3.磁盘提示满了但df看还有空间1已删除文件被进程占用空间未释放lsof | grep deleted解决方法重启对应业务进程、重启服务日志使用tryncate / 清空不直接rm日志大型日志用轮转切割logrotate2inode耗尽df -ih解决方法定位大量小文件目录批量清理无用临时文件、缓存、垃圾碎片文件优化减少小文件产出3磁盘有坏块或挂载异常4.Nginx用过吗浅显的用过了解Nginx的核心用途反向代理、负载均衡、静态资源服务、HTTPS5.CDN节点请求量暴跌50%怎么排查1先定位突变时间查看该时间有无上线/变更/配置修改2检查监控采集器是否正常排查数据采集问题3查看节点状态cpu、内存、磁盘、网络、进程4查看域名解析、调度策略是否切走流量5差回源是否异常、运营商是否故障6先切流量保业务在定位根因6.半夜接到紧急告警怎么处理1先看告警级别、影响范围2先恢复业务切换备用节点、回滚、重启3先尽自己所能做能做的同时同步信息到团队按预案处理4业务恢复后排查根因5事后复盘更新监控、预案7.kubelet的作用是什么kubelet是运行在每个k8s节点上的代理程序是节点的核心组件担任管家的角色1接受Pod调度指令管理本节点上Pod和容器的完整生命周期创建、启动、停止、销毁2定期向kube-apiserver上报节点和Pod的状态信息3执行容器的健康检查存活探针、就绪探针4管理节点资源确保容器不会超过资源限制8.kube-apiserver的作用是什么kube-apiserver是k8s集群的唯一接口所有对集群的操作都必须通过它1提供RESTful API接口接收用户、组件和其他服务的请求2负责认证、授权和准入控制确保请求的合法性3操作etcd数据库存储集群的所有状态信息4作为集群各组件之间的枢纽协调各个组件的工作9.用ansible搭建k8s集群的完整步骤1设置所有节点的SSH免密登录编写ansible.cfg配置文件和与配置文件对应的主机清单inventory2编写主playbook按顺序调用不同角色common、master、worker3创建roles目录和任务文件4common角色任务关闭SELinux分区和交换分区安装containerd、kubeamd、kubelet、kubectl配置容器运行时启动kubelet服务5master角色任务初始化集群安装Calico CNI网络插件生成kubeadm join命令6worker角色任务执行kubeadm join 命令加入集群7执行kubectl get nodes 确认所有节点状态为Ready10.搭建k8s用来做什么1部署PrometheusGrafana监控体系实现集群和应用的指标监控2开发AI智能运维助手实现Pod崩溃的自动恢复3部署基于 MCP 协议的自然语言数据库查询工具传统的 AI 应用开发如 LangChain与业务系统耦合严重接口变动导致维护成本极高。我构建一个标准化、解耦、私有化的智能体平台让 AI 能够安全、准确地查询和操作企业数据。11.Pod自动修复的完整流程是怎样的1promethus持续监控Pod的状态指标当Pod进去CrashLoopBackOff状态一定时间后会触发预设的告警规则2我写的go语言程序SRE Agent会定期通过HTTP请求向promethus的API查询所有处于firing状态的告警发现告警3Agent从告警中提取故障的pod名字和命名空间接着它向kube-apiserver发起请求获取该pod的详细目录和事件为AI准备判断依据4Agent将所有信息整合成Prompt通过HTTP请求发送给Ollama5Ollama中的大模型分析Prompt返回一个建议6Agent收到大模型的响应提取RESTART指令向kube-apiserver发送删除pod的指令7Deployment控制器检测到pod被删除为维持监控的副本数会创建一个新的pod

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2560876.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！