模块二-数据选择与索引——06. 列选择与操作

news2026/5/13 1:45:41

06. 列选择与操作1. 概述数据选择是 Pandas 最常用的操作之一。掌握列选择与操作可以高效地提取、添加、修改和删除数据列。importpandasaspdimportnumpyasnp# 创建示例数据dfpd.DataFrame({姓名:[张三,李四,王五,赵六,钱七],年龄:[25,30,28,32,35],城市:[北京,上海,广州,深圳,杭州],工资:[8000,12000,10000,15000,11000],部门:[技术,销售,技术,市场,销售]})print(原始数据:)print(df)2. 选择单列2.1 使用方括号df[列名]最常用的方式返回 Series。# 选择单列name_coldf[姓名]print(姓名列:)print(name_col)print(f类型:{type(name_col)})# 选择单列的另一种写法仅当列名是有效 Python 标识符name_col2df.姓名print(\n使用点语法:)print(name_col2)注意点语法有局限性当列名包含空格、特殊字符或与 DataFrame 方法重名时不能用。推荐使用方括号。2.2 获取列的值数组# 获取 NumPy 数组valuesdf[工资].valuesprint(f工资数组:{values})print(f类型:{type(values)})# 获取列表values_listdf[工资].tolist()print(f工资列表:{values_list})3. 选择多列使用双括号df[[列1, 列2]]返回 DataFrame。# 选择多列subsetdf[[姓名,年龄,工资]]print(选择多列:)print(subset)print(f类型:{type(subset)})# 使用变量指定列名cols[姓名,城市]subset2df[cols]print(\n使用变量:)print(subset2)4. 添加新列4.1 直接赋值添加# 添加常量列df[等级]普通print(添加常量列:)print(df)# 通过现有列计算df[年薪]df[工资]*12print(\n添加计算列:)print(df)# 通过条件添加df[是否高薪]df[工资]10000print(\n添加条件列:)print(df)4.2 使用 assign() 方法assign()返回新的 DataFrame不修改原数据。# 使用 assign 添加列df_newdf.assign(月薪df[工资],年薪2df[工资]*12,评级lambdax:Aifx[工资].mean()10000elseB)print(使用 assign 添加列:)print(df_new)# 原数据未被修改print(\n原数据不变:)print(df.columns.tolist())4.3 使用 insert() 插入到指定位置# 在指定位置插入列位置、列名、值df.insert(1,性别,[男,女,男,女,男])print(插入列到位置1:)print(df)5. 修改列5.1 修改整列的值# 修改整列df[等级]黄金print(修改等级列:)print(df)# 批量修改df[年薪]df[年薪]*1.1# 涨薪10%print(\n修改年薪:)print(df)5.2 条件修改# 使用 loc 条件修改df.loc[df[工资]10000,等级]钻石print(条件修改等级:)print(df)# 使用 numpy wheredf[奖金]np.where(df[工资]10000,10000,5000)print(\n条件添加奖金:)print(df)5.3 使用 map() 映射修改# 创建映射字典level_map{普通:Normal,黄金:Gold,钻石:Diamond}df[等级英文]df[等级].map(level_map)print(使用 map 映射:)print(df)6. 重命名列6.1 使用 rename() 方法# 重命名单个列df_renameddf.rename(columns{姓名:name,年龄:age})print(重命名单个列:)print(df_renamed)# 重命名多个列df_renameddf.rename(columns{姓名:name,年龄:age,城市:city,工资:salary})print(\n重命名多个列:)print(df_renamed)# 原地修改df.rename(columns{等级英文:level_en},inplaceTrue)print(\n原地修改:)print(df.columns.tolist())6.2 直接修改 columns 属性# 直接赋值需要提供全部列名df.columns[name,gender,age,city,salary,dept,level,annual_salary,is_high_salary,bonus,level_en]print(直接修改 columns:)print(df.head())# 使用列表推导式批量修改# df.columns [col.upper() for col in df.columns]7. 删除列7.1 使用 drop() 方法# 删除单列df_droppeddf.drop(bonus,axis1)print(删除 bonus 列:)print(df_dropped.columns.tolist())# 删除多列df_droppeddf.drop([level_en,is_high_salary],axis1)print(\n删除多列:)print(df_dropped.columns.tolist())# 原地删除df.drop(bonus,axis1,inplaceTrue)print(\n原地删除:)print(df.columns.tolist())7.2 使用 del 语句# 删除列原地删除deldf[level_en]print(使用 del 删除:)print(df.columns.tolist())7.3 使用 pop() 方法pop()删除列并返回该列。# 删除并返回列removed_coldf.pop(annual_salary)print(删除的列:)print(removed_col.head())print(\n剩余列:)print(df.columns.tolist())8. 列的类型转换8.1 查看列类型print(列类型:)print(df.dtypes)8.2 转换列类型# 转换为字符串df[年龄]df[年龄].astype(str)print(年龄转为字符串:)print(df.dtypes)# 转换为整数df[年龄]df[年龄].astype(int)print(\n年龄转回整数:)print(df.dtypes)# 转换为分类类型节省内存df[部门]df[部门].astype(category)print(\n部门转为 category:)print(df.dtypes)9. 列的排序9.1 按列名排序# 按列名排序axis1 表示列df_sorteddf.reindex(sorted(df.columns),axis1)print(按列名排序:)print(df_sorted.columns.tolist())9.2 指定列顺序# 指定列的顺序column_order[姓名,年龄,部门,城市,工资,等级]df_reordereddf[column_order]print(指定列顺序:)print(df_reordered.columns.tolist())10. 完整示例客户数据分析# 创建客户数据np.random.seed(42)customerspd.DataFrame({customer_id:range(1,11),name:[f客户_{i}foriinrange(1,11)],age:np.random.randint(20,60,10),purchase_amount:np.random.randint(100,5000,10),purchase_count:np.random.randint(1,20,10),city:np.random.choice([北京,上海,广州,深圳],10)})print(*60)print(原始客户数据)print(*60)print(customers)# 1. 选择特定列print(\n1. 选择客户ID、姓名、购买金额:)print(customers[[customer_id,name,purchase_amount]])# 2. 添加计算列customers[avg_purchase]customers[purchase_amount]/customers[purchase_count]customers[avg_purchase]customers[avg_purchase].round(0)print(\n2. 添加平均购买金额列:)print(customers[[name,purchase_amount,purchase_count,avg_purchase]])# 3. 添加客户等级customers[level]pd.cut(customers[purchase_amount],bins[0,1000,2000,3000,5000],labels[铜牌,银牌,金牌,钻石])print(\n3. 添加客户等级:)print(customers[[name,purchase_amount,level]])# 4. 重命名列customers.rename(columns{purchase_amount:total_spent,purchase_count:order_count},inplaceTrue)print(\n4. 重命名列:)print(customers.columns.tolist())# 5. 删除临时列customers.drop(avg_purchase,axis1,inplaceTrue)print(\n5. 删除临时列后:)print(customers.columns.tolist())# 6. 按购买金额排序显示print(\n6. 按消费金额降序:)print(customers[[name,total_spent,level]].sort_values(total_spent,ascendingFalse))11. 总结操作方法示例选择单列df[col]df[姓名]选择多列df[[col1, col2]]df[[姓名, 年龄]]添加列df[new] valuesdf[总分] df[数学] df[语文]添加列不修改原数据df.assign()df.assign(新列df[A] * 2)插入列df.insert(pos, name, values)df.insert(0, ID, range(10))条件修改df.loc[condition, col] valuedf.loc[df[年龄]30, 等级]高映射修改df[col].map(dict)df[性别].map({M:男,F:女})重命名列df.rename(columns{})df.rename(columns{A:a})删除列df.drop(col, axis1)df.drop(col, axis1)类型转换df[col].astype(type)df[年龄].astype(int32)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2607838.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！