【Linux】awk 命令详解及使用示例:结构化文本数据处理工具

news2025/6/8 22:53:10

【Linux】awk 命令详解及使用示例:结构化文本数据处理工具

引言

awk 是一种强大的文本处理工具和编程语言,专为处理结构化文本数据而设计。它的名称来源于其三位创始人的姓氏首字母:Alfred Aho、Peter Weinberger 和 Brian Kernighan。

基本功能

  1. 文本分析:按列/字段处理结构化文本数据
  2. 模式匹配:根据条件筛选文本
  3. 数据处理:支持算术运算和字符串操作
  4. 报表生成:格式化输出结果

工作原理

  1. awk 逐行读取输入
  2. 将每行按分隔符(默认是空格)分割为字段
  3. 对每行应用模式匹配和操作
  4. 输出处理结果

内置变量

  • $0 - 当前整行内容
  • $1, $2, … - 第1个、第2个…字段
  • NF - 当前行的字段数
  • $NF - 最后一个字段
  • NR - 当前处理的行号
  • FNR - 当前文件中的行号
  • FS - 输入字段分隔符(默认为空白字符)
  • OFS - 输出字段分隔符
  • RS - 输入记录分隔符(默认为换行符)
  • ORS - 输出记录分隔符
  • FILENAME - 当前输入文件名

常用选项

  • -F 分隔符 - 指定输入字段分隔符
  • -v var=值 - 设置变量
  • -f 脚本文件 - 从文件读取awk脚本

程序结构

awk程序可以包含三部分:

  • BEGIN { ... } - 在处理文本前执行
  • pattern { action } - 对匹配的每一行执行
  • END { ... } - 在处理完所有文本后执行
awk 'BEGIN {print "开始处理"} 
     {sum += $1} 
     END {print "总和:", sum}' data.txt

控制结构

awk支持常见的编程语言控制结构:

  • 条件:if-else
  • 循环:for, while, do-while
  • 分支:switch
# 使用if条件
awk '{if ($1 > 10) print "大于10:", $0; else print "小于等于10:", $0}' file.txt

# 使用for循环
awk '{for(i=1; i<=3; i++) print $i}' file.txt

内置函数

awk提供了丰富的内置函数:

  • 数学函数:sqrt(), sin(), rand()
  • 字符串函数:length(), substr(), index(), match()
  • 时间函数:systime(), strftime()
  • 其他函数:gsub(), system()

使用示例

  • 利用awk命令获取查看用户为root的进程PID信息
ps aux | awk '$1=="root" {print $2}'

  • 利用列出/bin目录下连接文件的创建日期或者是最近的修改日期
ls -l /bin | awk '/^l/ {print $6, $7, $8}'

  • 利用awk指令设置变量a=1,b=3并查找/etc目录下连接文件中第 a , a, ab列的字符信息
ls -l /etc | awk '/^l/ {a=1; b=3; print $a, $b}'

  • 利用awk列出/bin目录下连接文件的权限信息(使用substr内置函数)
ls -l /bin | awk '/^l/ {print substr($1, 1, 10)}'

  • 利用awk命令在/etc/passwd文件中显示以:作为分隔的第1列的数据
awk -F: '{print $1}' /etc/passwd

  • 利用awk命令在/etc/passwd文件中第一个"/“符号前面的字段变为"unknown”
awk -F/ '{$1="unknown"; print}' OFS=/ /etc/passwd

参考资料

  • https://www.runoob.com/linux/linux-comm-awk.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

紫光同创FPGA系列实现Aurora 8b/10b协议

特性 1.兼容XILINX aurora IP核 2.支持X1、X2、X4、X8模式&#xff08;根据硬件条件选择模式&#xff09; 3.支持FRAMING和STREAMING 用户接口 4.自动初始化和维护链路状态 5.支持热插拔 6.支持扰码、解扰 7.支持流量控制 8.支持crc用户数据 9.支持全双工或者半双工模式 10.最…

DAY 44 预训练模型

知识点回顾&#xff1a; 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战&#xff1a;resnet18 &#xff08;一&#xff09;预训练的概念 我们发现准确率最开始随着epoch的增加而增加。随着循环的更新&#xff0c;参数在不断发生更新。 所以…

【NLP中向量化方式】序号化,亚编码,词袋法等

1.序号化 将单词按照词典排序&#xff0c;给定从0或者1或者2开始的序号即可&#xff0c;一般情况有几 个特征的单词: PAD表示填充字符&#xff0c;UNK表示未知字符 在这个例子中&#xff0c;我们可以看到我们分别将3个文本分为了4个token&#xff0c;每个token用左侧的词典表示…

C++学习-入门到精通【16】自定义模板的介绍

C学习-入门到精通【16】自定义模板的介绍 目录&#xff09; C学习-入门到精通【16】自定义模板的介绍前言一、类模板创建一个自定义类模板&#xff1a;Stack\<T\> 二、使用函数模板来操作类模板特化的对象三、非类型形参四、模板类型形参的默认实参五、重载函数模板 前言…

源码级拆解:如何搭建高并发「数字药店+医保购药」一体化平台?

在全民“掌上看病、线上购药”已成常态的今天&#xff0c;数字药店平台正在以惊人的速度扩张。而将数字药店与医保系统打通&#xff0c;实现线上医保购药&#xff0c;更是未来互联网医疗的关键拼图。 那么&#xff0c;如何从技术底层搭建一个 支持高并发、可扩展、安全合规的数…

Hadoop 3.x 伪分布式 8088端口无法访问问题处理

【Hadoop】YARN ResourceManager 启动后 8088 端口无法访问问题排查与解决(伪分布式启动Hadoop) 在配置和启动 Hadoop YARN 模块时&#xff0c;发现虽然 ResourceManager 正常启动&#xff0c;JPS 进程中也显示无误&#xff0c;但通过浏览器访问 http://主机IP:8088 时却无法打…

零基础在实践中学习网络安全-皮卡丘靶场(第十期-Over Permission 模块)

经过这么长时间的学习&#xff0c;我相信大家已经有了很大的信心&#xff0c;有可能会有看不起的意思&#xff0c;因为皮卡丘是基础靶场&#xff0c;但是俗话说"基础不牢&#xff0c;地动山摇"&#xff0c;所以还请大家静下心来进行学习 来翻译一下是什么意思&#…

毕设 基于机器视觉的驾驶疲劳检测系统(源码+论文)

文章目录 0 前言1 项目运行效果2 课题背景3 Dlib人脸检测与特征提取3.1 简介3.2 Dlib优点 4 疲劳检测算法4.1 眼睛检测算法4.2 打哈欠检测算法4.3 点头检测算法 5 PyQt55.1 简介5.2相关界面代码 6 最后 0 前言 &#x1f525;这两年开始毕业设计和毕业答辩的要求和难度不断提升…

学习STC51单片机30(芯片为STC89C52RCRC)

每日一言 当你感到疲惫时&#xff0c;正是成长的关键时刻&#xff0c;再坚持一下。 IIC协议 是的&#xff0c;IIC协议就是与我们之前的串口通信协议是同一个性质&#xff0c;就是为了满足模块的通信&#xff0c;其实之前的串口通信协议叫做UART协议&#xff0c;我们千万不要弄…

Python-进程

进程 简介 操作系统分配资源的基本单位 创建 依赖 依赖模块 multiprocessing 中的 Process 语法 Process(group[,target[,name[,args[,kwargs]]]]) target&#xff1a;如果传递了函数的引用&#xff0c;这个子进程就执行这里的代码args&#xff1a;元组的方式传递&#x…

Paraformer分角色语音识别-中文-通用 FunASR demo测试与训练

文章目录 0 资料1 Paraformer分角色语音识别-中文-通用1 模型下载2 音频识别测试3 FunASR安装 &#xff08;训练用&#xff09;4 训练 0 资料 https://github.com/modelscope/FunASR/blob/main/README_zh.md https://github.com/modelscope/FunASR/blob/main/model_zoo/readm…

对抗反爬机制的分布式爬虫自适应策略:基于强化学习的攻防博弈建模

在大数据时代&#xff0c;数据的价值不言而喻。网络爬虫作为获取数据的重要工具&#xff0c;被广泛应用于各个领域。然而&#xff0c;随着爬虫技术的普及&#xff0c;网站为了保护自身数据安全和服务器性能&#xff0c;纷纷采取了各种反爬机制。这就使得爬虫与反爬虫之间形成了…

手写muduo网络库(一):项目构建和时间戳、日志库

引言 本文作为手写 muduo 网络库系列开篇&#xff0c;聚焦项目基础框架搭建与核心基础工具模块设计。通过解析 CMake 工程结构设计、目录规划原则&#xff0c;结合时间戳与日志系统的架构&#xff0c;为后续网络库开发奠定工程化基础。文中附完整 CMake 配置示例及模块代码。 …

14-Oracle 23ai Vector Search 向量索引和混合索引-实操

一、Oracle 23ai支持的2种主要的向量索引类型&#xff1a; 1.1 内存中的邻居图向量索引 (In-Memory Neighbor Graph Vector Index) HNSW(Hierarchical Navigable Small World &#xff1a;分层可导航小世界)索引 是 Oracle AI Vector Search 中唯一支持的内存邻居图向量索引类…

Web前端基础:JavaScript

1.JS核心语法 1.1 JS引入方式 第一种方式&#xff1a;内部脚本&#xff0c;将JS代码定义在HTML页面中 JavaScript代码必须位于<script></script>标签之间在HTML文档中&#xff0c;可以在任意地方&#xff0c;放置任意数量的<script></script>一般会把…

基于AWS Serverless架构:零运维构建自动化SEO内容生成系统

作者&#xff1a;[Allen] 技术专栏 | 深度解析云原生SEO自动化 在流量为王的时代&#xff0c;持续产出高质量SEO内容成为技术运营的核心痛点。传统方案面临开发成本高、扩展性差、关键词响应滞后三大难题。本文将分享如何用AWS Serverless技术栈&#xff0c;构建一套零服务器运…

电镀机的阳极是什么材质?

知识星球&#xff08;星球名&#xff1a;芯片制造与封测技术社区&#xff0c;点击加入&#xff09;里的学员问&#xff1a;电镀的阳极有什么讲究&#xff1f;什么是可溶性阳极和非可溶性阳极&#xff1f; 什么是可溶性阳极与非可溶性阳极&#xff1f; 可溶性阳极 阳极本身就是…

vscode调试deepspeed的方法之一(无需调整脚本)

现在deepspeed的脚本文件是&#xff1a; # 因为使用 RTX 4000 系列显卡时&#xff0c;不支持通过 P2P 或 IB 实现更快的通信宽带&#xff0c;需要设置以下两个环境变量 # 禁用 NCCL 的 P2P 通信&#xff0c;以避免可能出现的兼容性问题 export NCCL_P2P_DISABLE"1" …

Codeforces Round 509 (Div. 2) C. Coffee Break

题目大意&#xff1a; 给你n、m、d n为元素个数,m为数列长度,d为每个元素之间的最短间隔 问最少需要多少个数列可以使得元素都能装进数列&#xff0c;并且满足每个元素之间的间隔大于等于d 核心思想 使用贪心的思想&#xff0c;将元素的大小进行排序&#xff0c;问题出在必…

榕壹云健身预约系统:多门店管理的数字化解决方案(ThinkPHP+MySQL+UniApp实现)

随着全民健身热潮的兴起&#xff0c;传统健身房在会员管理、课程预约、多门店运营等方面面临诸多挑战。针对这一需求&#xff0c;我们开发了一款基于ThinkPHPMySQLUniApp的榕壹云健身预约系统&#xff0c;为中小型健身机构及连锁品牌提供高效、灵活的数字化管理工具。本文将详细…