1、简介
MAT 文件和 NP(.npy 或 .npz)文件是两种不同的格式,用于存储数组数据。它们分别由 MATLAB 和 NumPy 开发,主要用于各自环境中的数据存储和交换。以下是这两种格式的主要区别:
1.1 格式和用途
- MAT 文件:这是 MATLAB 使用的二进制文件格式,通常用于保存变量、矩阵以及其他类型的数据。它支持多种数据类型,并且可以包含多个变量。MAT 文件有两种主要版本:v4 (Level 1.0), v6 and v7 to v7.2 (up to HDF5 based)。
- NPY/ NPZ 文件:
- .npy:NumPy 的单文件格式,设计用来高效地存储单一的同构数组(即具有相同数据类型的数组)。
- .npz:这是一个 ZIP 存档,里面可以包含多个
.npy
文件,每个文件对应一个数组。这允许在一个.npz
文件中存储多个命名数组。
1.2 兼容性
- MAT 文件:主要用于 MATLAB 环境,但可以通过其他软件(如 Python 的 SciPy 模块)读取。
- NPY/NPZ 文件:专门为 Python 和 NumPy 设计,但在其他编程语言中也有相应的库可以读写这些格式。
1.3 加载方法
- MAT 文件:在 Python 中使用
scipy.io.loadmat()
函数来加载 MAT 文件。 - NPY/NPZ 文件:使用
numpy.load()
函数,对于.npz
文件,返回的是一个类似于字典的对象,需要通过键名访问其中的数组。
1.4 性能与特性
- MAT 文件:由于其设计目的是为了与 MATLAB 配合使用,因此它支持 MATLAB 特有的数据类型,比如结构体和单元格数组等复杂数据类型。
- NPY/NPZ 文件:专注于提供高效的数值数组存储解决方案,支持直接存储 Python 基础数据类型以及复杂的多维数组,但不直接支持像 MATLAB 结构体这样的复杂数据结构。
1.5 扩展性和灵活性
- MAT 文件:适合于需要与 MATLAB 兼容的应用场景,尤其是当你需要处理 MATLAB 特定的数据结构时。
- NPY/NPZ 文件:非常适合于纯 Python/NumPy 工作流,特别是在科学计算和数据分析领域中。
1.6 总结
选择哪种格式取决于你的具体需求。如果你的工作流程主要围绕 MATLAB 进行,那么 MAT 文件可能是更合适的选择。然而,如果你主要使用 Python 和 NumPy 来进行数据分析或机器学习任务,那么 NPY 或 NPZ 文件将是更好的选择。此外,如果你希望跨平台共享数据并且保持良好的性能,NPY/NPZ 文件也提供了非常有效的解决方案。
2、案例
2.1 mat
from scipy.io import loadmat
data = loadmat('arr1')
# 查看字典keys
keys = list(data.keys())
print(keys)
print(data[keys[3]].shape)
2.2 npy
import numpy as np
data = np.load('arr1.npy')
print(data.shape)
2.3 npz
import numpy as np
data = np.load('out.npz')
# 查看所有可用变量名的两种方式
keys = data.files
print(keys)
keys = list(data.keys())
print(keys)
print(data[keys[0]])
print(data[keys[2]].shape)
2.4 其它
目标 | 正确代码 |
---|---|
加载 .npy 或 .npz 文件(普通数组) | numpy.load('filename.npy') |
加载含 pickle 数据的 .npy /.npz 文件 | numpy.load('filename.npy', allow_pickle=True) |
如果有不确定的文件类型,可以运行file命令查看内容,例如file out,文件out为mat:
file out
out: Matlab v5 mat-file (little endian) version 0x100, platform posix, created Thu May 8 11:24:24 2025
代码运行结果: