使用C# 快速删除Excel表格中的重复行数据-详解

news2025/6/2 8:19:24

目录

简介 

使用工具

C# 删除Excel工作表中的重复行

C# 删除指定Excel单元格区域中的重复行

C# 基于特定列删除重复行

RemoveDuplicates 方法快速比较


简介 

重复行是指在Excel表格中完全相同的多行数据。这些冗余行的存在可能源于多种原因,例如:

  • 数据输入错误:用户在手动输入数据时,可能不小心多次输入相同的信息。
  • 数据导入:从其他系统或文件导入数据时,可能会出现重复记录,尤其是在合并多个数据源时。
  • 复制粘贴:在处理数据时,复制粘贴操作可能导致无意中创建重复行。

删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论。通过清理重复数据,可以提高数据的准确性和整洁性,从而使后续的分析工作更加高效。这篇文章将探讨如何使用C# 实现快速删除Excel表格中的重复行,主要涵盖内容如下:

  • C# 删除Excel工作表中的重复行
  • C# 删除指定Excel单元格区域中的重复行
  • C# 基于特定列删除重复行

使用工具

要使用 C# 从 Excel 表格中删除重复数据,需要使用合适的Excel文档处理库。本文所使用的库是 Spire.XLS for .NET,它支持在.NET应用程序中创建和操作Excel 文件,无需安装Microsoft Excel。

安装Spire.XLS for .NET

在开始之前,在Package Manager Console中运行以下命令从NuGet 安装 Spire.XLS 库:

Install-Package Spire.XLS

C# 删除Excel工作表中的重复行

重复行可能会导致工作表结构混乱,影响数据的完整性。Spire.XLS 提供了一种简单的方法来检测和删除工作表中的重复行。

语法

sheet.RemoveDuplicates();

工作原理

该方法会检查工作表中的每一行,并比较每行内的所有单元格。只有当所有单元格的值与另一行完全一致时,该行才会被视为重复。第一次出现的行将被保留,而后续的重复行将被删除。

实现代码

using Spire.Xls;

namespace RemoveDuplicatesFromWorksheet
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Excel 文件
            Workbook workbook = new Workbook();
            workbook.LoadFromFile("测试.xlsx");

            // 获取所需的工作表(索引从0开始)
            Worksheet sheet = workbook.Worksheets[0];

            // 从工作表中删除重复行
            sheet.RemoveDuplicates();

            // 保存修改后的文件
            workbook.SaveToFile("删除工作表内重复行.xlsx", ExcelVersion.Version2016);
            workbook.Dispose();
        }
    }
}

C#删除Excel工作表重复行数据

C# 删除指定Excel单元格区域中的重复行

有时,你可能只想清除工作表特定单元格区域中的重复行数据,而不影响其他部分。Spire.XLS 支持指定要删除重复项的单元格范围。

语法

sheet.RemoveDuplicates(int startRow, int startColumn, int endRow, int endColumn);

参数

startRow, startColumn, endRow, endColumn: 定义要检查重复项的单元格区域(行列索引从1开始)。

工作原理

该方法会比较指定单元格区域内的所有行,如果有两行或多行的每一列的值都完全相同,那么这些行就被认为是重复的,只保留第一次出现的那一行。区域外的行不会受到影响,仍然保持原样。

实现代码

using Spire.Xls;

namespace RemoveDuplicateRowsFromCellRange
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Excel 文件
            Workbook workbook = new Workbook();
            workbook.LoadFromFile("测试.xlsx");

            // 获取所需的工作表(索引从0开始)
            Worksheet sheet = workbook.Worksheets[0];

            // 从特定单元格区域中删除重复行
            sheet.RemoveDuplicates(2, 1, 9, 4);

            // 保存修改后的文件
            workbook.SaveToFile("删除单元格区域内重复行.xlsx", ExcelVersion.Version2016);
            workbook.Dispose();
        }
    }
}

C# 基于特定列删除重复行

在处理某些特定数据集时,您可能只希望根据特定的关键列来删除重复项,而忽略其他列的值。

Spire.XLS 提供了另一种 RemoveDuplicates() 方法重载,以支持这种需求。使用此方法,你可以:

  • 指定要操作的单元格区域
  • 指明该区域是否包含标题行
  • 选择用于比较重复的列

语法

sheet.RemoveDuplicates(int startRow, int startColumn, int endRow, int endColumn, bool hasHeaders, int[] columnOffsets);

参数

  • startRow, startColumn, endRow, endColumn: 定义要检查重复数据的单元格区域(行列索引从1开始)。
  • hasHeaders: 判定第一行是否为标题行。如果为 true,则第一行将不参与比较。
  • columnOffsets: 相对于 startColumn 的偏移数组,指定用于比较的列,例如0表示指定区域中的第一列。

工作原理

该方法在删除重复行时,仅考虑用户指定的某些列。如果多行在这些指定列中的值完全相同,则只保留第一行,其他重复的行将被删除。这种做法尤其适用于需要根据特定标识(如客户 ID 或电子邮件)来确保数据唯一性的场景。

实现代码

using Spire.Xls;

namespace RemoveDuplicateRows
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Excel 文件
            Workbook workbook = new Workbook();
            workbook.LoadFromFile("测试.xlsx");

            // 获取所需的工作表(索引从0开始)
            Worksheet sheet = workbook.Worksheets[0];

            // 定义要检查重复行的区域
            int startRow = 2;
            int startColumn = 1;
            int endRow = 9;
            int endColumn = 4;

            // 判定区域内的第一行是否是标题行
            bool hasHeaders = false;

            // 指定用于比较重复的列
            int[] columnsToCompare = { 1, 2 };

            // 在定义的区域内基于指定列删除重复行
            sheet.RemoveDuplicates(startRow, startColumn, endRow, endColumn, hasHeaders, columnsToCompare);

            // 保存修改后的文件
            workbook.SaveToFile("基于特定列删除重复行.xlsx", ExcelVersion.Version2016);
            workbook.Dispose();            
        }
    }
}

RemoveDuplicates 方法快速比较

以下是RemoveDuplicates 几种方法的快速比较,你可以根据自己的需求选择最合适的方法:

方法

适用范围

RemoveDuplicates()

整个工作表

RemoveDuplicates(int startRow, int startColumn, int endRow, int endColumn)

指定单元格区域

RemoveDuplicates(int startRow, int startColumn, int endRow, int endColumn, bool hasHeaders, int[] columnOffsets)

基于特定列

以上就是使用C#实现快速删除Excel工作表中重复行数据的全部内容。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2393338.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WPF-Prism学习笔记之 “导航功能和依赖注入“

新建空白模板(Prism) 新建好后会有自动创建ViewModels和Views 在"MainWindow.xaml"文件里面标题去绑定了一个属性"Title",而"MainWindowViewModel.cs"里面继承一个非常重要的"BindbleBase"(prism框架里面非常重要的)。所以…

中国城市间地理距离矩阵(2024)

1825 中国城市间地理距离矩阵(2024) 数据简介 中国城市间地理距离矩阵数据集,通过审图号GS(2024)0650的中国城市地图在Albers投影坐标系中进行计算得出矩阵表格,单位为KM,方便大家研究使用。 中国城市地理距离矩阵数据通过计算城市中心距离…

【备战秋招】C++音视频开发经典面试题整理

1、简要介绍一下对 H.264 的了解? 1)基础描述 H.264 是由国际标准组织机构(ISO)下属的运动图象专家组(MPEG)和国际电传视讯联盟远程通信标准化组织(ITU-T)开发的系列编码标准之一。…

《java创世手记》---java基础篇(下)

《Java 创世手记 - 基础篇(下)》 第五章:契约与规范 —— 接口 (Interfaces) 与抽象类 (Abstract Classes) 造物主,在你日益繁荣的世界里,你发现仅仅依靠“继承”来构建“物种体系”有时会遇到一些限制。比如&#x…

【MySQL】C语言连接

要使用C语言连接mysql,需要使用mysql官网提供的库,大家可以去官网下载 我们使用C接口库来进行连接 要正确使用,我们需要做一些准备工作: 保证mysql服务有效在官网上下载合适自己平台的mysql connect库,以备后用 下载开发库 s…

新能源汽车与油车销量

中国油车与新能源车销量对比(2022-2025年) ‌1. 市场份额演化(2022-2025年)‌ ‌年份‌ ‌新能源车销量 (渗透率)‌ ‌燃油车销量 (渗透率)‌ ‌关键事件‌ ‌2022‌ 688.7万辆…

基于Java,SpringBoot,Vue,UniAPP宠物洗护医疗喂养预约服务商城小程序管理系统设计

摘要 随着宠物经济的快速发展,宠物主对宠物服务的便捷性、专业性需求日益增长。本研究设计并实现了一套宠物洗护医疗喂养预约服务小程序系统,采用 Java 与 SpringBoot 构建后端服务,结合 Vue 开发管理后台,通过 UniAPP 实现多端适…

中车靶场,网络安全暑期实训营

不善攻防,何谈就业? 实训目的:提升实战能力,直通就业快道。 实训对象:面向计算机相关专业、有兴趣接触网络攻防、大专及以上学历的学员。 知识准备 为确保高效实训,学员需具备一定的实战基础。报名后&am…

2.2.2 06年T1

成功的同化机器——美国:2006年考研英语(一)Text 1精析 本文解析2006年考研英语(一)第一篇文章,揭示美国社会强大的文化同化力及其表现。 一、原文与翻译 Paragraph 1:美国社会的同化本质 L1: …

【第1章 基础知识】1.8 在 Canvas 中使用 HTML 元素

文章目录 前言示例-橡皮筋式选取框示例代码 前言 尽管我们可以说 Canvas 是 HTML5 之中最棒的功能,不过在实现网络应用程序时,很少会单独使用它。在绝大多数情况下,你都会将一个或更多的 canvas 元素与其他 HTML 控件结合起来使用&#xff0…

c++流之sstream/堆or优先队列的应用[1]

目录 c流之sstream 解释 注意事项 215.数据流的第k大 问题分析 修正代码 主要修改点 优先队列的比较规则 代码中的比较逻辑 为什么这样能维护第 k 大元素? 举个例子 总结 Python 实现(使用heapq库) Java 实现(使用P…

SAR ADC 比较器噪声分析(二)

SAR ADC的比较器是非常重要的模块,需要仔细设计。主要考虑比较器的以下指标: 1)失调电压 2)输入共模范围 3)比较器精度 4)传输延时 5)噪声 6)功耗 这里主要讲一下动态比较器的noise。 动态比较器一般用于高速SAR ADC中,且精度不会超过12bit…

机器学习Day5-模型诊断

实现机器学习算法的技巧。当我们训练模型或使用模型时,发现预测误差很 大,可以考虑进行以下优化: (1)获取更多的训练样本 (2)使用更少的特征 (3)获取其他特征 &#xff…

vscode一直连接不上虚拟机或者虚拟机容器怎么办?

1. 检查并修复文件权限 右键点击 C:\Users\20325\.ssh\config 文件,选择 属性 → 安全 选项卡。 确保只有你的用户账户有完全控制权限,移除其他用户(如 Hena\Administrator)的权限。 如果 .ssh 文件夹权限也有问题,同…

初学c语言21(文件操作)

一.为什么使用文件 之前我们写的程序的数据都是存储到内存里面的,当程序结束时,内存回收,数据丢失, 再次运行程序时,就看不到上次程序的数据,如果要程序的数据一直保存得使用文件 二.文件 文件一般可以…

华为OD机试真题——数据分类(2025B卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 B卷 100分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C++、C语言、GO六种语言的最佳实现方式! 本文收录于专栏:《2025华为OD真题目录+全流程解析/备考攻略/经验分享》 华为OD机试真题《数据…

JavaWeb开发基础Servlet生命周期与工作原理

Servlet生命周期 Servlet的生命周期由Servlet容器(如Tomcat、Jetty等)管理,主要包括以下5个阶段: 加载Servlet类 创建Servlet实例 调用init方法 调用service方法 调用destroy方法 加载(Loading): 当Servlet容器启动或第一次接收到对某个…

三防平板科普:有什么特殊功能?应用在什么场景?

在数字化浪潮席卷全球的今天,智能设备已成为现代工业、应急救援、户外作业等领域的核心工具。然而,常规平板电脑在极端环境下的脆弱性,如高温、粉尘、水浸或撞击,往往成为制约效率与安全的短板。三防平板(防水、防尘、…

百度外链生态的优劣解构与优化策略深度研究

本文基于搜索引擎算法演进与外链建设实践,系统剖析百度外链的作用机制与价值模型。通过数据统计、案例分析及算法逆向工程,揭示不同类型外链在权重传递、流量获取、信任背书等维度的差异化表现,提出符合搜索引擎规则的外链建设技术方案&#…

【速写】PPOTrainer样例与错误思考(少量DAPO)

文章目录 序言1 TRL的PPO官方样例分析2 确实可行的PPOTrainer版本3 附录:DeepSeek关于PPOTrainer示例代码的对话记录Round 1(给定模型数据集,让它开始写PPO示例)Round 2 (指出PPOTrainer的参数问题)关键问题…