pandas根据某列去重
pandas根据某列去重drop_duplicates(subset[‘comment’], keep‘first’, inplaceTrue)参数subset 列表的形式填写要进行去重的列名默认为 None 表示根据所有列进行。keep 可选参数有三个first、 last、 False 默认值 first。其中1first 表示 保留第一次出现的重复行删除后面的重复行。2last 表示 删除重复项保留最后一次出现。3False 表示 删除所有重复项。inplace默认为 False 删除重复项后返回副本。True直接在原数据上删除重复项。使用 drop_duplicates 去除重复值如果不指明 subset 那么默认根据所有列来考虑即当某两行数据所有列都重复时进行去重。df df.drop_duplicates(keepfirst, inplaceTrue)现在设置 subset 为 comment 即可删除该列重复值。df df.drop_duplicates(subset[comment], keepfirst, inplaceTrue)注意:此时索引没有重置如有需要可使用 reset_index() 重置索引。df df.reset_index(dropTrue, inplaceTrue)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2549478.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!