Pandas 操作指南（一）：DataFrame 的构建与表格数据组织

news2026/4/3 8:12:55

在数据分析与数据处理中原始数据往往并不是一开始就以规范表格的形式出现。它可能来自列表list、字典dict、CSV/Excel 文件或程序运行过程中临时生成的数据集合。若这些数据尚未被整理为结构明确的表格对象后续的数据选取、清洗、统计与可视化操作便缺乏统一基础。Pandas 的核心任务之一正是将原始数据组织为可计算、可检查、可分析的表格结构。其中最重要的数据结构是 DataFrame。本文以一张学生成绩表为贯穿示例说明如何将原始数据整理成 DataFrame并在此基础上认识其基本结构、内容查看方式以及常见检查方法。例如希望得到的成绩表如下学号姓名班级语文数学英语S001张三C01889285S002李四C01768179S003王五C02908793S004赵六C02858988S005孙七C03919590S006周八C03788480下面将围绕这张表说明如何把原始数据整理成 Pandas 中的 DataFrame。一、为什么要先学会使用表格数据在 Python 中列表、字典、元组等数据类型都可以保存数据但当数据本身具有明确的行列结构时仅用这些通用容器来组织数据往往不利于后续分析。以学生成绩数据为例这类数据通常具有如下特点• 每一行对应一个对象• 每一列对应一个字段Field• 不同对象在相同字段上具有可比较性若数据仍停留在原始列表或字典的层面则行列关系、字段含义与结构边界往往不够清晰。此时虽然数据已经被保存但尚未被整理为适合分析的表格形式。Pandas 中的数据选取、筛选、清洗、统计与合并等操作均以表格结构为基础。因此学习 Pandas 的起点不是立即进行复杂分析而是先将原始数据整理成结构清晰的 DataFrame。二、认识 DataFrame 和 SeriesPandas 中最核心的两种数据结构是• DataFrame• Series其中DataFrame 用于表示二维表格数据Series 用于表示一维带标签数据。1、DataFrameDataFrame 是 Pandas 提供的二维带标签数据结构two-dimensional labeled data structure。它既包含二维数据值又包含用于标识各行和各列的标签信息。下面先将学生成绩原始数据整理成一个 DataFrame并统一命名为 scoresimport pandas as pd data [ {学号: S001, 姓名: 张三, 班级: C01, 语文: 88, 数学: 92, 英语: 85}, {学号: S002, 姓名: 李四, 班级: C01, 语文: 76, 数学: 81, 英语: 79}, {学号: S003, 姓名: 王五, 班级: C02, 语文: 90, 数学: 87, 英语: 93}, {学号: S004, 姓名: 赵六, 班级: C02, 语文: 85, 数学: 89, 英语: 88}, {学号: S005, 姓名: 孙七, 班级: C03, 语文: 91, 数学: 95, 英语: 90}, {学号: S006, 姓名: 周八, 班级: C03, 语文: 78, 数学: 84, 英语: 80}] scores pd.DataFrame(data)print(scores)输出学号姓名班级语文数学英语0 S001 张三 C01 88 92 851 S002 李四 C01 76 81 792 S003 王五 C02 90 87 933 S004 赵六 C02 85 89 884 S005 孙七 C03 91 95 905 S006 周八 C03 78 84 80从结构上看可将其理解为行索引学号姓名班级语文数学英语0S001张三C018892851S002李四C017681792S003王五C029087933S004赵六C028589884S005孙七C039195905S006周八C03788480在这张结构表中• 最左侧一列是行索引Index• 第一行中的“学号、姓名、班级、语文、数学、英语”是列标签Columns• 中间区域是数据值区域因此DataFrame 可以概括为由数据值、行索引和列标签共同构成的二维表格对象。2、SeriesSeries 是 Pandas 提供的一维带标签数据结构one-dimensional labeled data structure。将 DataFrame 看作整张表则其中的单列数据通常可以理解为一个 Series。例如scores[数学] 的结果通常就是一个 Series。math_scores scores[数学]print(math_scores)输出0 921 812 873 894 955 84Name: 数学, dtype: int64由此可见Series 并非单纯的一列值而是“一列值一组标签”的组合。因此可以将二者概括为• Series 是一维的• DataFrame 是二维的• DataFrame 中的单列数据通常可视为 Series三、构建 DataFrame在 Pandas 中构建 DataFrame 最常用的方法是 pd.DataFrame()。构建一张表时通常需要明确三项内容• 数据值• 行的组织方式• 列标签的名称一般来说最常用的构建方式主要有三种由字典构建、由列表嵌套列表构建以及由字典列表构建。1、由值为列表的字典构建若原始数据已经按列组织则字典是最自然的输入形式。字典的键会成为列标签各键对应的列表会成为各列数据。示例import pandas as pd data { 学号: [S001, S002, S003, S004, S005, S006], 姓名: [张三, 李四, 王五, 赵六, 孙七, 周八], 班级: [C01, C01, C02, C02, C03, C03], 语文: [88, 76, 90, 85, 91, 78], 数学: [92, 81, 87, 89, 95, 84], 英语: [85, 79, 93, 88, 90, 80]} scores pd.DataFrame(data)print(scores)若需要显式控制列顺序也可以指定 columns 参数scores pd.DataFrame( data, columns[学号, 姓名, 班级, 语文, 数学, 英语]) print(scores)2、由列表嵌套列表构建若原始数据按行组织即每个内部列表表示一行数据则可以使用列表嵌套列表的形式。data [ [S001, 张三, C01, 88, 92, 85], [S002, 李四, C01, 76, 81, 79], [S003, 王五, C02, 90, 87, 93], [S004, 赵六, C02, 85, 89, 88], [S005, 孙七, C03, 91, 95, 90], [S006, 周八, C03, 78, 84, 80]] scores pd.DataFrame( data, columns[学号, 姓名, 班级, 语文, 数学, 英语])print(scores)当输入是二维列表时Pandas 无法自动获知每一列的字段含义因此通常应主动提供 columns 参数否则列标签会使用默认整数索引。3、由字典列表构建若原始数据是一条记录Record对应一个字典则可以直接使用字典列表构建 DataFrame。此类形式在接口数据、JSON 数据与对象集合中较为常见。这正是本文第二节 data 变量所采用的组织方式。示例同第二节的 DataFrame 构建示例。4、选择合适的构建方式构建 DataFrame 时不必刻意追求单一写法更重要的是顺着原始数据的组织方式进行选择。一般来说• 数据按“列”组织用“值为列表的字典”• 数据按“行”组织用“列表嵌套列表”• 数据按“记录”组织用“字典列表”四、表格的行、列与标签将原始数据整理成 DataFrame 之后首先需要准确理解这张表的结构。从表格语义看一张 DataFrame 至少包含三个核心层面• 行Row• 列Column• 标签Label1、行在学生成绩表中每一行对应一名学生的数据。例如第 0 行对应学号为 S001 的学生张三第 1 行对应学号为 S002 的学生李四。在表格数据中一行通常表示• 一个对象• 一条记录• 一次观察结果2、列在这张表中每一列对应一个字段Field学号姓名班级语文数学英语列通常表示对象的属性、指标或特征。后续分析通常围绕列展开例如比较数学成绩、统计英语平均分或按班级观察成绩分布。3、行索引行索引Index位于表格左侧用于标识各行。print(scores.index)输出示意RangeIndex(start0, stop6, step1)在当前示例中Pandas 自动生成了从 0 开始的默认整数索引。需要注意“行”与“行索引”并不是同一个概念前者是记录本身后者是用来标识这些记录的位置或标签。4、列标签列标签Columns位于表格上方用于标识各列的含义。print(scores.columns)输出示意Index([学号, 姓名, 班级, 语文, 数学, 英语], dtypeobject)列标签是后续数据选取、筛选、统计与绘图的重要基础。列名越明确后续操作越自然。5、学号与索引的区别在当前成绩表中“学号”具有明确业务含义能够唯一标识学生但它暂时仍作为普通列保留并不等同于行索引。索引属于 DataFrame 的标签结构而“学号”属于表中的业务字段二者可以一致也可以不同。五、查看表格内容当 DataFrame 构建完成后通常应按“先看内容、再看结构、最后看类型”的顺序进行初步检查。1、查看整张表若数据量较小可以直接输出整个 DataFrameprint(scores)这种方式适合小型表格。2、查看前几行更常见的做法是使用 head() 先查看前几行print(scores.head())head() 默认显示前 5 行常用于检查• 列名是否正确• 数据是否已成功构建• 字段顺序是否合理• 前几条数据是否符合预期3、查看后几行若需要检查表格末尾的数据可以使用 tail()print(scores.tail())tail() 默认显示后 5 行适合用于检查数据末尾是否完整。六、表格的整体结构在查看内容之后还需要从整体上认识这张表。这一部分主要关注表格的尺寸、列集合以及索引形式。1、表格形状表格的形状shape由“行数”和“列数”组成print(scores.shape)输出(6, 6)这表示该表共有 6 行、6 列。2、列集合可以再次通过 columns 查看表中包含哪些字段print(scores.columns)这一步有助于核对表格结构是否完整。3、索引形式可以通过 index 查看表格当前采用的索引形式print(scores.index)这一步有助于判断表格使用的是默认索引还是已经设置了自定义索引。七、数据类型与基本信息构建 DataFrame 后还需要检查各列的数据类型Data Type是否合理。这是后续计算与统计能够正常进行的重要前提。在当前成绩表中学号、姓名、班级通常应为文本型数据语文、数学、英语通常应为数值型数据。1、查看基本信息可以使用 info() 查看整张表的基本信息scores.info()它通常包含以下内容• 行数与索引范围• 每列的非空值数量• 每列的数据类型• 内存占用信息该方法可用于检查缺失情况与各列类型是否合理。2、查看各列数据类型若只需查看各列的数据类型可以使用 dtypes 属性print(scores.dtypes)输出结果类似于学号 object姓名 object班级 object语文 int64数学 int64英语 int64dtype: object这说明“学号”“姓名”“班级”为文本型列“语文”“数学”“英语”为整数型列。这样的类型结构符合这张成绩表的实际语义。八、综合示例下面给出一个完整示例从原始数据出发构建 scores 这一 DataFrame并对其内容、结构与数据类型进行初步检查。import pandas as pd students [ {学号: S001, 姓名: 张三, 班级: C01, 语文: 88, 数学: 92, 英语: 85}, {学号: S002, 姓名: 李四, 班级: C01, 语文: 76, 数学: 81, 英语: 79}, {学号: S003, 姓名: 王五, 班级: C02, 语文: 90, 数学: 87, 英语: 93}, {学号: S004, 姓名: 赵六, 班级: C02, 语文: 85, 数学: 89, 英语: 88}, {学号: S005, 姓名: 孙七, 班级: C03, 语文: 91, 数学: 95, 英语: 90}, {学号: S006, 姓名: 周八, 班级: C03, 语文: 78, 数学: 84, 英语: 80}] # 构建 DataFramescores pd.DataFrame(students) # 查看前几行print( 前几行 )print(scores.head()) # 查看后几行print(\n 后几行 )print(scores.tail()) # 查看表格形状print(\n 表格形状 )print(scores.shape) # 查看列标签print(\n 列标签 )print(scores.columns) # 查看行索引print(\n 行索引 )print(scores.index) # 查看数据类型print(\n 数据类型 )print(scores.dtypes) # 查看基本信息print(\n 基本信息 )scores.info()该示例体现了本篇的基本任务流程1、将原始数据整理为 DataFrame2、查看表格内容3、检查表格结构4、确认数据类型与基本状态完成这些步骤后数据便已进入可继续处理的标准表格阶段。小结DataFrame 是 Pandas 中最核心的二维表格数据结构。将原始数据整理成 DataFrame是后续数据选取、清洗、统计与分析的前提。本文围绕学生成绩表介绍了 DataFrame 与 Series 的基本含义、常见构建方式以及表格内容、结构和数据类型的基本检查方法。掌握这些内容才能为后续的数据处理操作建立稳定基础。延伸阅读《Pandas构建 Seriess》《Pandas构建 DataFrame》“点赞有美意赞赏是鼓励”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2478200.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！