在单细胞测序数据分析中,barcodes、features和matrix是三个最核心的基础文件,它们共同构成了所有分析的基石。
在GEOGene Expression Omnibus数据库中下载单细胞数据时最常见的数据存储和提供形式主要有以下四种类型10x Genomics 标准格式最主流在GEO的数据集中我们通常会找到一个包含以下三个核心文件的文件夹通常以 *_filtered_feature_bc_matrix.tar.gz或类似名称的压缩包提供barcodes.tsv(.gz) 包含所有检测到的细胞条形码Cell Barcode每个条形码代表一个可能的细胞。features.tsv(.gz) 或 genes.tsv(.gz) 包含所有被检测的基因或转录本、抗体标签的标识符和名称。matrix.mtx(.gz) 以稀疏矩阵格式存储的基因表达计数矩阵行对应基因列对应细胞。H5 格式高效二进制格式这是一种用于存储大规模数据的二进制文件格式。在单细胞上下文中它通常是将上述10x标准格式的三个文件整合到了一个单一的 .h5文件中。典型命名 *_filtered_feature_bc_matrix.h5优势 文件单一便于管理和传输存储效率高。R 数据文件可直接使用的分析对象部分数据提交者会将已初步处理好的单细胞数据直接保存为R语言特有的数据文件格式供其他研究者快速载入。.rds文件 存储单个R对象如一个Seurat对象或表达矩阵。使用 readRDS()函数读取。.RData或 .rda文件 可存储一个或多个R对象。使用 load()函数读取对象会被载入当前工作环境。优势 读取速度极快且能保留完整的对象结构和中间分析结果。压缩文本矩阵通用表格格式这是一种比较传统和通用的数据提供方式将表达矩阵保存为纯文本表格并进行压缩以减小体积。格式 通常是 .txt.gz或 .csv.gz文件。内容 行是基因列是细胞或样本表格内的值为表达量。有时也可能提供转置后的格式行是细胞列是基因。如何读取 可以使用 data.table::fread()、read.delim()等函数读取或在Excel中打开不推荐用于大型数据。读取后通常需要转换为矩阵或数据框才能用于创建Seurat对象。二、以”GSE234527”为例子读取一个10× Genomics格式文件1、搜索“GSE234527”2、在补充材料里下载点击“custom”3、在桌面解压缩分类整理数据来自五个不同样本分成五类每个样本包含多个细胞修改前修改后
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2452760.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!