Linux文件编程——read函数与lseek函数

news2025/5/15 10:19:06

一、read函数

在 Linux 文件编程中,read 函数是一个系统调用,用于从文件描述符(File Descriptor)指向的文件或设备中读取数据到缓冲区。它是 Unix/Linux 系统编程中实现底层 I/O 操作的核心函数之一。以下是 read 函数的详细使用方法和注意事项。


1. 函数原型

#include <unistd.h>

ssize_t read(int fd, void *buf, size_t count);
  • 参数
    • fd:文件描述符(通过 open 或 creat 等函数获得)。
    • buf:指向存储读取数据的缓冲区的指针。
    • count:要读取的最大字节数。
  • 返回值
    • 成功时返回实际读取的字节数(可能小于 count,例如到达文件末尾时返回 0)。
    • 失败时返回 -1,并设置 errno 表示错误原因。

2. 使用方法

基本示例
#include <unistd.h>
#include <fcntl.h>
#include <stdio.h>
#include <string.h>

int main() {
    int fd;
    char buf[256];
    ssize_t bytes_read;

    // 打开文件(只读模式)
    fd = open("example.txt", O_RDONLY);
    if (fd == -1) {
        perror("open failed");
        return 1;
    }

    // 读取数据
    bytes_read = read(fd, buf, sizeof(buf) - 1); // 保留一个字节给 '\0'
    if (bytes_read == -1) {
        perror("read failed");
        close(fd);
        return 1;
    }

    // 添加字符串终止符并打印
    buf[bytes_read] = '\0'; // 确保是字符串
    printf("Read %zd bytes: %s\n", bytes_read, buf);

    // 关闭文件
    close(fd);
    return 0;
}
关键步骤
  1. 打开文件
    • 使用 open 函数获取文件描述符,指定读取模式(如 O_RDONLY)。
  2. 读取数据
    • 调用 read(fd, buf, count),将数据从文件读取到 buf 中。
    • 检查返回值,确保读取成功。
  3. 处理数据
    • 如果读取的是文本数据,通常需要手动添加字符串终止符 \0
  4. 关闭文件
    • 使用 close(fd) 释放文件描述符。

3. 注意事项

(1) 返回值处理
  • 正常情况
    • 返回实际读取的字节数(可能小于 count,例如文件末尾或缓冲区不足)。
    • 返回 0 表示已到达文件末尾(EOF)。
  • 错误情况
    • 返回 -1,需检查 errno(如 EBADFEINTREIO 等)。
  • 示例代码(循环读取)
ssize_t total_read = 0;
while (total_read < count) {
    ssize_t bytes_read = read(fd, buf + total_read, count - total_read);
    if (bytes_read == -1) {
        if (errno == EINTR) continue; // 被信号中断,重试
        perror("read failed");
        break;
    } else if (bytes_read == 0) {
        break; // EOF
    }
    total_read += bytes_read;
}
(2) 错误处理
  • 常见错误包括:
    • EBADF:无效的文件描述符。
    • EINTR:被信号中断(需重试)。
    • EIO:底层 I/O 错误。
    • EAGAIN/EWOULDBLOCK:非阻塞模式下无数据可读(需结合 select/poll 使用)。
  • 使用 perror 或 strerror(errno) 打印错误信息。
(3) 缓冲与非阻塞 I/O
  • read 是无缓冲的(直接调用系统调用),但文件可能因缓冲设置(如 O_NONBLOCK)或设备特性而阻塞。
  • 对于非阻塞文件描述符(如套接字),read 可能返回 EAGAIN 或 EWOULDBLOCK,需结合 select/poll 使用。
(4) 性能优化
  • 批量读取(减少系统调用次数)。
  • 使用 mmap 映射文件到内存(适合大文件随机访问)。
  • 对于大文件,考虑 pread 进行分散/聚集读取(Scatter-Gather I/O)。
(5) 安全性
  • 确保缓冲区 buf 的大小足够,避免缓冲区溢出。
  • 验证文件描述符 fd 的合法性(如通过 fstat 检查)。
  • 避免读取未初始化的数据或越界访问。
(6) 信号中断
  • 如果 read 被信号中断(EINTR),通常需要重新尝试读取。
(7) 二进制 vs 文本数据
  • read 是字节级操作,不关心数据格式(文本或二进制)。
  • 读取文本时需手动处理换行符或编码问题。

4. 替代函数

  • pread:在指定偏移量处读取(无需 lseek)。
  • readv:聚集读取(将数据分散到多个缓冲区)。
  • recv:网络编程中用于套接字的读取(支持标志位)。

5. 常见问题

(1) 为什么 read 返回的字节数小于 count
  • 文件末尾(EOF)。
  • 缓冲区不足。
  • 信号中断(EINTR)。
  • 非阻塞 I/O 且无数据可读(EAGAIN/EWOULDBLOCK)。
(2) 如何确保读取完整数据?
  • 循环读取,直到满足条件(如读取到特定分隔符或固定长度)。
  • 示例(读取固定长度数据):
#define FIXED_SIZE 1024
char buf[FIXED_SIZE];
ssize_t total = 0;
while (total < FIXED_SIZE) {
    ssize_t ret = read(fd, buf + total, FIXED_SIZE - total);
    if (ret <= 0) break; // 错误或 EOF
    total += ret;
}
(3) 如何处理大文件?
  • 使用 mmap 映射文件到内存,避免频繁 read
  • 分块读取并处理。

6. 总结

read 是 Linux 文件编程的基础函数,使用时需注意:

  1. 正确处理返回值:区分 EOF、错误和部分读取。
  2. 错误处理:检查 errno 并处理信号中断。
  3. 性能优化:批量读取、避免频繁系统调用。
  4. 安全性:防止缓冲区溢出和非法访问。
  5. 非阻塞 I/O:结合 select/poll 使用。

通过合理使用 read,可以高效、可靠地完成文件 I/O 操作。

二、lseek函数的使用方法

1.函数原型

#include <unistd.h>
off_t lseek(int fd, off_t offset, int whence);
  • 参数
    • fd:文件描述符。
    • offset:偏移量(字节数),可正可负。
    • whence:基准点,取值如下:
      • SEEK_SET:从文件开头偏移。
      • SEEK_CUR:从当前位置偏移。
      • SEEK_END:从文件末尾偏移。
  • 返回值:成功时返回新的文件偏移量,失败时返回-1并设置errno

2.典型用途

随机访问文件:通过定位到文件的任意位置进行读写。例如,读取文件第1024字节处的512字节数据:

int fd = open("data.dat", O_RDONLY);
lseek(fd, 1024, SEEK_SET); // 定位到文件开头后1024字节处
char buf[512];
read(fd, buf, sizeof(buf));
close(fd);

获取文件大小:通过定位到文件末尾,再获取当前偏移量:

int fd = open("file.txt", O_RDONLY);
off_t size = lseek(fd, 0, SEEK_END); // 偏移量为文件大小
printf("File size: %lld bytes\n", (long long)size);
close(fd);

创建空洞文件:通过将偏移量移动到超过当前文件大小的位置,再写入数据,中间的区域会被视为空洞(不占用磁盘空间):

int fd = open("large_file.dat", O_CREAT | O_WRONLY, 0644);
lseek(fd, 1024 * 1024 * 1024 - 1, SEEK_SET); // 定位到1GB偏移处(最后一个字节)
write(fd, "", 1); // 写入一个字节,文件大小变为1GB
close(fd);

三、lseek函数的注意事项

  1. 返回值检查
    • 成功时返回新的文件偏移量,失败时返回-1,不能用<0判断,因为偏移量可能是负的(如SEEK_CURSEEK_END为基准且offset为负时)。
    • 必须检查返回值以确保操作成功。
  2. 文件类型限制
    • lseek仅适用于支持随机访问的文件(如普通文件),对管道、套接字等流式文件无效。例如,在管道或设备文件上调用lseek会失败,返回-1errno=ESPIPE
  3. 偏移量溢出风险
    • 在32位系统中,off_t为4字节,偏移量超过2GB可能导致溢出。64位系统中,off_t为8字节,可处理更大的文件。
  4. 并发与原子性
    • lseek是原子操作,多线程环境下无需额外同步,但读写操作仍需考虑线程安全。
  5. 文件打开模式的影响
    • 如果文件以追加模式(O_APPEND)打开,lseek设置的偏移量对write操作无效,write仍会追加到文件末尾。

四、lseekread函数的关系

  • 协同工作

lseek用于调整文件的读写位置,read用于从当前位置读取数据。例如:

int fd = open("file.txt", O_RDONLY);
lseek(fd, 100, SEEK_SET); // 定位到第100字节
char buf[10];
read(fd, buf, sizeof(buf)); // 从第100字节开始读取10字节
close(fd);
  • 文件偏移量的更新

read函数会更新文件的当前偏移量,而lseek可以显式地修改偏移量。两者共同决定了下一次读写操作的位置。

  • 性能优化

在需要随机访问文件时,lseek可以避免不必要的顺序读取,提高效率。例如,在数据库文件中,通过lseek直接定位到指定记录的起始位置进行读写操作。

  • 错误处理的关联性

如果lseek调用失败,后续的read操作可能会读取到错误的数据或返回错误。因此,必须在使用lseek后检查其返回值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2376017.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qwen集成clickhouse实现RAG

一、RAG概要 RAG&#xff08;Retrieval-Augmented Generation&#xff0c;检索增强生成&#xff09; 是一种结合了信息检索技术与语言生成模型的人工智能技术。旨在通过检索相关文档来增强大模型的生成能力&#xff0c;从而提高预测的质量和准确性。RAG模型在生成文本或回答…

Excel分组计算求和的两种实现方案

文章目录 背景样例数据方案一、函数求和实现步骤缺点 方案二、数据透视表实现步骤优点 背景 在Excel文档中&#xff0c;经常会进行数据的求和计算&#xff0c;可使用不同的方式实现&#xff0c;记录下来&#xff0c;方便备查。 样例数据 已有商品销量信息&#xff0c;包含销…

LLM定制新路径:微调与上下文学习的博弈与融合

在当今人工智能的浪潮中&#xff0c;大型语言模型&#xff08;LLMs&#xff09;已成为推动行业进步的关键力量。无论是自然语言处理、文本生成还是多模态应用&#xff0c;LLMs都在展现着它们的强大能力。然而&#xff0c;当我们将这些强大的模型应用于特定的下游任务时&#xf…

嵌入式中深入理解C语言中的指针:类型、区别及应用

在嵌入式开发中,C语言是一种基础且极为重要的编程语言,其中指针作为一个非常强大且灵活的工具,广泛应用于内存管理、动态数据结构的实现以及函数参数的传递等方面。然而,尽管指针的使用极为常见,很多开发者在掌握其基本使用后,往往对指针的深入理解还不够。本文将深入分析…

香港维尔利健康科技集团成都区域运营中心投入使用,西南市场战略全面提速

近日&#xff0c;香港维尔利健康科技集团正式宣布&#xff0c;其位于四川成都的西南区域运营中心已全面建成并投入使用。该中心将集设备调配、技术支持、客户服务、运营管理及数字健康平台维护于一体&#xff0c;成为集团在中国内地智慧医疗战略版图中的关键枢纽&#xff0c;对…

STM32CubeMX HAL库 串口的使用

1.配置 2.开启中断后&#xff0c;生成代码 3.串口的接收 1&#xff09;.开启空闲中断接收 __HAL_UART_ENABLE_IT(huart, UART_IT_IDLE); // 关键步骤&#xff1a;启用空闲中断 2&#xff09;. 启动接收 调用 HAL_UARTEx_ReceiveToIdle_IT 启动异步接收&#xff0c;可以使用…

flutter 视频通话flutter_webrtc

flutter 比较热门的库 flutter_webrtc | Flutter package agora_rtc_engine | Flutter package 我使用的是flutter_webrtc 下面是官方推荐的demo库 GitHub - flutter-webrtc/flutter-webrtc-demo: Demo for flutter-webrtc 其中 https://demo.cloudwebrtc.com:8086/ 已经停…

Babylon.js学习之路《四、Babylon.js 中的相机(Camera)与视角控制》

文章目录 1. 引言&#xff1a;为什么相机是 3D 场景的“眼睛”&#xff1f;1.1 相机的核心作用1.2 常见相机类型概览 2. 相机基础参数解析2.1 通用属性2.2 相机坐标系 3. 详解常用相机类型3.1 自由相机&#xff08;FreeCamera&#xff09;3.2 弧形旋转相机&#xff08;ArcRotat…

【Redis实战篇】秒杀优化

1. 秒杀优化-异步秒杀思路 我们来回顾一下下单流程 当用户发起请求&#xff0c;此时会请求nginx&#xff0c;nginx会访问到tomcat&#xff0c;而tomcat中的程序&#xff0c;会进行串行操作&#xff0c;分成如下几个步骤 1、查询优惠卷 2、判断秒杀库存是否足够 3、查询订单…

Trae IDE:AI深度集成的智能开发环境

&#xff08;以高效人机协作重塑编程体验&#xff09; 概述 Trae IDE&#xff08;发音 /treɪ/&#xff09;是一款深度集成AI能力的现代化开发工具&#xff0c;结合传统IDE的完备功能与前沿AI技术&#xff0c;提供智能问答、代码自动补全、跨文件编程及AI Agent驱动的自动化开…

【大模型】AI智能体Coze 知识库从使用到实战详解

目录 一、前言 二、知识库介绍 2.1 coze 知识库功能介绍 2.2 coze 知识库应用场景 2.3 coze 知识库类型 2.4 coze 知识库权限说明 2.5 coze 知识库与记忆对比 2.6 知识库的使用流程 三、知识库创建与使用 3.1 创建知识库入口 3.2 创建文本知识库 3.2.1 上传文件 3.…

【springcloud学习(dalston.sr1)】服务消费者通过restTemplate来访问服务提供者(含源代码)(五)

该系列项目整体介绍及源代码请参照前面写的一篇文章​​​​​​【springcloud学习(dalston.sr1)】项目整体介绍&#xff08;含源代码&#xff09;&#xff08;一&#xff09; 一般情况下&#xff0c;我们远程调用服务&#xff0c;可以用restTemplate来进行http请求的访问。接…

打破边界,智评未来:AI如何重塑学科交叉融合的评价体系?

目录: 引言:当“学科孤岛”遇上“创新浪潮”透视现状:学科交叉融合的“热望”与“冰壁”他山之石:国际交叉融合模式与评价的“镜与灯”AI赋能:重构学科交叉评价的内涵、要素与方法论 4.1. 基本内涵:从“知识叠加”到“价值涌现”4.2. 评价要素:超越“单点指标”的“网络…

ULVAC C30HMVRT系列冷冻泵和超捕集器压缩机组 安装、操作、维护和故障排除说明 含电路图

ULVAC C30HMVRT系列冷冻泵和超捕集器压缩机组 安装、操作、维护和故障排除说明 含电路图

ORACLE查看归档是否打开

一、使用V$DATABASE视图 SELECT log_mode FROM v$database; 结果说明&#xff1a; ARCHIVELOG - 数据库处于归档模式 NOARCHIVELOG - 数据库处于非归档模式 二、 使用v$instance视图 SELECT archiver FROM v$instance; 结果说明&#xff1a; STARTED - 归档进程已启动(归档模…

鸿蒙5.0项目开发——鸿蒙天气项目的实现(介绍)

【高心星出品】 文章目录 项目简介&#xff1a;项目运行效果图&#xff1a;主要功能&#xff1a;使用的技能点&#xff1a;开发环境&#xff1a; 项目简介&#xff1a; 这是一个基于鸿蒙系统&#xff08;HarmonyOS&#xff09;开发的天气应用&#xff0c;采用 ArkTS 语言开发&…

3Dblox

TSMC 3Dblox Introduction 3Dblox是TSMC定义的一门语言&#xff0c;目标是将物理封装系统分解为模块化的组件&#xff0c;然后进行集成 RDL : 代表interposer的部分 Die的实例化信息 堆叠信息 连接信息 thickness&#xff1a;Die与Die连接Bump的高度 RedHawk-SC-Electrothermal…

Python+大模型 day01

Python基础 计算机系统组成 基础语法 如:student_num 4.标识符要做到见名知意,增强代码的可读性 关键字 系统或者Python定义的,有特殊功能的字符组合 在学习过程中,文件名没有遵循标识符命名规则,是为了按序号编写文件方便查找复习 但是,在开发中,所有的Python文件名称必须…

磁光克尔效应在量子计算中的应用

一、量子自旋态光学操控 1、‌拓扑量子态探测‌ 磁光克尔效应通过检测拓扑磁结构&#xff08;如磁斯格明子&#xff09;的磁光响应&#xff0c;实现对量子材料中非平庸拓扑自旋序的非侵入式表征。例如&#xff0c;二维量子磁体中的“拓扑克尔效应”可通过偏振光旋转角变化揭示…

Vue.js---嵌套的effect与effect栈

4.3嵌套的effect与effect栈 1、嵌套的effect effect是可以发生嵌套的 01 effect(function effectFn1() { 02 effect(function effectFn2() { /* ... */ }) 03 /* ... */ 04 })有这么一段代码&#xff1a; 01 // 原始数据 02 const data { foo: true, bar: true } 03 /…