pandas 笔记crosstab

news2026/5/11 16:30:40

用来计算两个（或更多）因子的交叉表（即频率表、列联表或透视表）。这个功能特别适用于统计分析和数据探索阶段，帮助理解不同变量之间的关系

1 基本用法

pd.crosstab(index, 
    columns, 
    values=None, 
    rownames=None, 
    colnames=None, 
    aggfunc=None, 
    margins=False, 
    margins_name='All', 
    dropna=True, 
    normalize=False)

2 参数说明

index	用作表的行标签的数组、序列或数组列表
columns	用作表的列标签的数组、序列或数组列表
values	可选，数组或序列，当使用 `aggfunc` 不为空时，这个参数用来计算聚合值
rownames	用于结果DataFrame的行标签的名称列表
colnames	用于结果DataFrame的列标签的名称列表
aggfunc	可选，用于聚合的函数或函数列表。如果提供了 `values`，则需要这个参数
margins	布尔值，是否添加行/列边际小计或总计
margins_name	边际的名称，默认是 'All
dropna	布尔值，是否删除所有条目都为NaN的列
normalize	布尔值或 {'all', 'index', 'columns'}，用于规范化频率表的总和

3 举例

3.1 基本例子

假设有一个关于人口的数据集，我们有性别和职业两个列

import pandas as pd

data = {
    'Sport': ['Soccer', 'Soccer', 'Tennis', 'Soccer', 'Tennis', 'Basketball', 'Basketball'],
    'Age Group': ['Youth', 'Adult', 'Adult', 'Youth', 'Youth', 'Adult', 'Youth']
}

df = pd.DataFrame(data)
df

现在我们想要查看不同职业中性别的分布情况：

ct = pd.crosstab(index=df['Age Group'], columns=df['Sport'])
ct

3.2 聚合函数 values,aggfunc

如果你有一个包含多个相同记录的数据集，并且你想要计算某些数值的总和或平均值，你可以使用 values 和 aggfunc 参数

data = pd.DataFrame({
    'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male', 'Male'],
    'Occupation': ['Engineer', 'Doctor', 'Engineer', 'Artist', 'Doctor', 'Artist', 'Engineer'],
    'Salary': [1000, 1500, 900, 1100, 1700, 1200, 1300]
})
data

不用聚合函数的情况：

pd.crosstab(data['Gender'], data['Occupation'])

使用聚合函数的情况

pd.crosstab(data['Gender'], data['Occupation'], values=data['Salary'], aggfunc='mean')

3.3 margins

使用 margins=True 可以快速获得每一行和每一列的总计，以及整个表的总计。

pd.crosstab(data['Gender'], 
    data['Occupation'], 
    values=data['Salary'], 
    aggfunc='mean', 
    margins=True)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2046463.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

pandas 笔记crosstab

1 基本用法

2 参数说明

3 举例

3.1 基本例子

3.2 聚合函数 values,aggfunc

3.3 margins

相关文章

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(二)---ROS2与UE5进行图像数据传输

HarmonyOS-MPChart以X轴或y轴为区间设置不同颜色

LVS （Linux virual server）

传知代码-【CLIP】文本也能和图像配对

利用住宅代理应对机器人流量挑战：识别、使用与检验指南

源代码加密的意义和办法？

品味白酒的四大步骤，体验不一样的美酒人生

android13 禁用wifi

Linux修改ssh默认端口22为其他端口2024

web 自动化测试，一定得掌握的 8 个核心知识点

HoloLens 和 Unity 空间坐标系统 Coordinate systems

Win10系统配置JDK和Maven环境变量

【Java 并发编程】(二) 从对象内存布局开始聊 synchronized

谷歌前CEO施密特放飞自我：斯坦福课堂上的AI洞见

将 PDF 转换为 JPG 的 3 种简便方法

The Science of Procrastination - And How To Manage It

UART通信实现与验证（RS485）

达美航空运营中断造成重大财务损失

stm32入门学习14-电源控制

zdppy+vue3+onlyoffice文档管理系统项目实战 20240812上课笔记