构建企业级人工智能高质量数据集:方法与路径
姜春宇 白玉真 刘渊 王超伦中国信息通信研究院北京 100191摘 要 当前我国人工智能数据集面临质量评估方法缺失、能力建设体系不明确等挑战。梳理了人工智能数据集的构成和分类结合结构化数据质量评估提出一套人工智能数据集质量评估方法并基于产业实践提炼出企业高质量人工智能数据工程体系与能力建设路径。最后给出了我国建设高质量数据集的政策建议。关键词 人工智能数据集; 数据质量评估; 人工智能数据工程DOI:10.11959/j.issn.2096-0271.2025088引用格式姜春宇, 白玉真, 刘渊, 等. 构建企业级人工智能高质量数据集方法与路径[J]. 大数据, 2025, 11(6): 47-56.Jiang C Y, Bai Y Z, Liu Y, et al. Building high-quality datasets for enterprise-level artificial intelligence: methods and pathways[J]. Big Data Research, 2025, 11(6): 47-56.0 引言在全球范围内数据作为基础资源和创新引擎的重要性已获得广泛认可。作为新型生产力的重要元素数据以其独特的增值方式推动了科技革命与产业变革提高了全要素生产率。我国已将数据视为生产要素美国、欧盟等主要经济体也高度重视数据价值将其纳入国家战略规划中。随着国家数据局的成立一系列文件如《“数据要素×”三年行动计划2024—2026年》及《关于加快公共数据资源开发利用的意见》相继发布致力于实现数据“供得出”“流得动”“用得好”的目标数据要素产业迎来蓬勃发展。近年来以GPT4、DeepSeek R1、LLMA为代表的大语言模型简称大模型技术取得了爆发性进展。这一波人工智能的发展趋势遵循所谓的“Scaling Law”即通过独立增加数据量、模型参数规模或训练时间持续提升模型性能。这表明大模型已经成为释放数据价值的主要途径之一。以数据为中心的人工智能理论强调优质的人工智能需要高质量、大规模且多样的数据集。从GPT系列的迭代过程中可以看出其数据集规模从GPT1的4.8 GB增长至GPT3的570 GB其对数据质量的要求也在不断提高。我国数据资源总量优势明显《全国数据资源调查报告2023 年》显示2023年全国数据总量达32.85 ZB然而原始数据到高质量人工智能数据集还存在较大的转化鸿沟面临开放不足、工具缺失、标准不完善、流通不畅通、方法论缺失等挑战。虽然开源大模型开始深入企业但由于产业界尚未建立完善的人工智能数据工程体系与治理体系也缺少相关技术工具和方法论限制了大模型在企业层面的进一步应用。为了解决这些问题本文对人工智能数据集的构成与分类进行了分析并提出一套评估数据集质量的方法。基于实际产业经验本文将探讨构建和运营高质量人工智能数据集的工程体系并梳理分步建设的路径旨在凝聚共识建立一套人工智能数据集建设与运营的通用方法以指导各类企业、机构开展相关能力体系构建。1 人工智能数据集的构成与分类1.1 人工智能数据集的构成人工智能数据集旨在为机器学习模型提供必要的训练资料它包含了大量标注的图像、文本、语音等数据样本这些样本用于训练人工智能系统识别和学习各种特征模式。具体来说一个数据集由4个主要部分构成特征、标签、元数据以及样本。特征指的是数据集中的输入变量它们描述了每个样本的具体属性。例如在预测一个人的体重时身高和年龄就是特征。根据不同的应用场景特征可以分为数值型如年龄、温度、类别型如性别、颜色分类、文本型如评论内容和时间序列型如股票价格随时间变化的数据等多种类型。标签则是监督学习中的目标变量代表了模型试图预测的结果。比如在体重预测中实际体重数值是标签在图像分类任务中“车”或“非车”的标识也是标签。标签为监督学习提供了“正确答案”使模型能够通过学习特征与标签之间的映射关系来提升预测能力。传统上标签需要人工手动标注但随着大模型技术的进步利用大模型实现自动化标注正逐渐成为可行方案。每个单独的数据记录被称为样本它由一组特征向量和对应的标签组成。例如在一个包含多个人员信息的数据集中每个人的年龄、性别、身高等特征组合成一个特征向量并配以该人的体重作为标签共同构成了一个样本。通过这样的结构人工智能数据集不仅支持从简单到复杂的各种机器学习任务而且促进了模型对特定领域知识的学习与应用。随着技术的发展高效地构建高质量的数据集特别是利用先进的自动化工具进行数据标注已成为推动人工智能进步的关键因素之一。1.2 人工智能数据集的分类根据大模型的生成流程人工智能数据集通常可以被分为3类预训练数据集、指令微调数据集和评估数据集。预训练数据集指的是大模型在初始训练阶段使用的最大规模的数据集合这类数据集主要由通用数据集和特定领域数据集构成。以大模型为例通用数据集来源广泛包括网页内容、书籍、学术文献、编程代码、平行语料库、社交媒体和百科全书等旨在为模型提供丰富的语言素材和基础知识。特定领域数据集则是针对特定行业或主题量身定制的数据集如增强金融领域性能的FinCorpus、FinGLM以及提升医疗领域准确性的Medical-pt目的是提高大模型在特定领域的专业能力和准确性。数据集的规模、多样性和质量会影响大模型的整体质量其中多样性非常重要多样化的数据来源能够为模型提供更全面的语言理解和知识基础而网页数据由于其高可访问性和丰富性成为构建预训练数据集的重要资源。指令微调数据集通常由一系列的问答对组成问题一般是向大模型发出的请求或指令答案一般是根据请求生成的响应。指令微调数据集用于进一步微调预训练的大模型使大模型能够更好地理解和遵循人类指令从而提高大模型的能力。指令微调数据集要么由人手动构建要么利用模型来生成或者直接利用现有的开源数据集。评估数据集是一类精心设计的数据样本主要目的是评估大模型在各种任务中的表现为大模型提供性能测量的标准。通过评估数据集研发人员可以衡量大模型的性能识别大模型可以优化的方向并间接衡量训练、指令、偏好数据集的质量。针对大模型的评估数据集通常覆盖考试、科目、自然语言理解、推理、长文本、代码、法律、医学、金融等20多个方面表1整理了代码生成、考试、自然语言理解、数据与逻辑推理、多模态能力评估中的典型评估数据集。从趋势来看越来越多的评估数据集尝试提供自动化的评估工具以此来降低评估的门槛同时支持动态的内容更新不断提升评估的能力。表1 典型评估数据集1.3 人工智能数据集的来源通过梳理能够发现人工智能数据集主要来自公开数据集、企业自有数据、外部机构数据和合成数据。公开数据集指的是通过网络爬取获得的数据集或互联网上的开源数据集比如ImageNet、Librispeech等数据集。企业自有数据指的是企业在业务经营中积累的数据分散在企业的业务系统、数据平台、知识库或物联网设备中。外部机构数据是与其他机构协作共享的数据或采购的数据比如医疗机构间共享的疾病数据库、政府机构开放的公共数据等。合成数据指的是基于专用数学模型或算法生成的数据一般可通过深度学习算法生成、统计模型生成、物理仿真模拟生成具备隐私保护、可扩展数据规模、提升数据获取效率等优点。随着大模型的演进合成数据正成为重要的数据来源。2 人工智能数据集质量维度与评估方法数据质量是对数据的定量和定性属性的全面特征描述与测量根据应用场景的不同数据质量的内涵不同。长期以来围绕结构化数据的质量产业界基本形成了一套比较成熟的质量度量维度和质量管理方法。从质量度量维度来看结构化数据的质量主要考察六大维度即规范性、完整性、准确性、一致性、时效性、可访问性。从质量管理来看结构化数据质量管理形成了质量的需求梳理、质量评估、质量分析和质量提升4个主要环节。人工智能时代数据集的质量愈发重要其质量显著影响大模型的效果、公平性、稳定性和安全性然而当前尚未对数据集质量定义形成统一共识也没有建立一套比较科学的数据集质量管理框架。2.1 人工智能数据集质量维度相比结构化数据的质量管理人工智能数据集质量维度更加复杂一是因为数据的模态更多样从结构化数据拓展到文本、图片、音视频等数据类型二是因为要考虑场景和行业特点三是因为要考虑数据集的内容安全性。在机器学习时代数据质量维度通常考虑4个维度即内在维度、情境维度、表示维度和可访问维度。具体来看内在维度主要有正确性、冗余性、可信度3个指标情境维度有均衡性、完整性、全面性、无偏差性、多样性等指标表示维度主要一致性和表示一致性两个指标可访问性主要考虑可用性指标。在材料科学领域面向机器学习的数据质量维度可参考9个指标包括可追溯性、完整性、时效性、一致性、准确性、冗余性、均衡性、归一化、洞察力。对文本数据的质量评价可以参考4种特定质量标准包括写作风格、包含的事实数量、教育价值和理解文本需要的专业水平。基于理论研究和实践探索本文提出了一套人工智能数据集质量评价的维度评估维度涵盖基础维度、安全维度、内容维度和应用维度四大类包括准确性、合规性、全面性、均衡性等12个一级指标如图1所示。图1 数据集质量评价维度从基础维度来看主要包括数据集的规范性、准确性、完整性和一致性。规范性衡量数据集结构化程度确保其遵循既定格式与内容准则。准确性衡量数据内容的正确性程度。完整性衡量数据集中应被赋值的数据属性的赋值程度。一致性衡量数据集在不同存储位置、不同时间、不同系统间的格式以及格式转换时的一致性。从安全维度来看主要包括数据集的合规性、真实性。合规性衡量数据集不包含个人隐私信息、涉政、涉恐、数据投毒、数据后门等违规样本的程度。真实性衡量数据反映信息不含错误事实陈述的程度。从内容维度来看主要包括内容的全面性、多样性、独特性、时效性。全面性衡量数据在类别、时间跨度满足真实情况或业务需求全面程度的比例。多样性衡量数据集在目标领域或场景对涉及类别丰富的程度。独特性衡量数据集内相同或近似样本规模的比例。时效性衡量信息或数据是否最新并确保其及时更新衡量数据反映的信息是否处于前沿以及更新频率是否符合具体场景需求。从应用维度来看主要侧重数据集的均衡性和有效性。均衡性衡量各类别样本数量分布与实际使用场景类别分布的适配度。有效性衡量数据中有效、高价值信息的比例衡量在应用中满足应用需求的程度。2.2 人工智能数据集质量评估依据基本的质量维度企业可以开展人工智能数据集的质量评估工作具体的质量评估流程如下。建立评估团队由企业组织待评估数据集相关的开发、维护和管理人员形成评估团队或引入外部第三方。选取评估指标对数据集进行分析根据分析结果选择相应的一级指标如完整性、准确性、及时性、一致性等和对应的二级指标如必填字段缺失率、业务规则校验通过率、合规审计通过率等设置各指标权重和计算方式。执行评估选取需要评估的数据集及其涉及的关键表、核心字段或业务实体将采集到的样本数据放入评估工具或计算环境中进行预处理如处理异常值、格式转换等确保指标计算时具备可操作性。统计执行结果指标项评分是对数据集作进一步评估等级划分的依据数据集应在通过符合性审查的基础上使用已定义好的方法对每一条指标进行统计和计算根据各指标项打分利用加权方法计算总体得分。当前数据集质量的评估是很多企业关注的热点议题评估工作的工具化、智能化是业界努力的方向。同时要意识到质量评估只完成了质量问题的发现后续数据集质量的提升以及构建数据集全生命周期的管理能力才是关键。3 企业人工智能数据集能力体系建设企业构建人工智能数据集是一项体系性的工程涉及组织、制度、技术和人员能力的建设面临不少挑战。一是跨团队这项工作涉及智能、数据和业务部门等团队需要构建专业、高效的协作机制来共同推进二是缺方法企业端数据集建设的实践刚刚开始可以参考的经验不多尚未建立较好的方法论三是缺工具技术工具是这项工作的具体承载物然而当前业界缺少成熟的管理工具阻碍了企业快速开展这项工作。3.1 人工智能数据工程参考框架训练数据集的处理通常有5个环节包括数据收集、数据过滤、数据去重、数据标准化和数据审查。结合通用方法笔者团队联合40多家机构编写技术标准《人工智能数据工程能力要求》旨在建立人工智能数据集建设的目标、内容和规范化流程体系指导企业开展能力建设。《人工智能数据工程能力要求》详细定义了数据集建设的五大能力即研发管理、交付管理、运维管理、运营管理和技术工具共18个能力子域如图2所示。图2 人工智能数据工程能力要求展开来看研发管理是对数据集的生成流程进行管控其中需求管理的目的是明确人工智能团队和业务部门对数据集有哪些需求规范化需求的描述确认其优先级和合理性设计管理的目的是构建数据集标准、质量、安全、合规的规范体系先立规矩再开展具体的开发行为数据加工管理的目的是梳理数据集加工的整体流程明确对应的技术能力和管理要求。交付管理面向数据集的交付过程开展管控活动其中测试管理的主要目的是对数据集上线前的质量进行把关开展质量和合规性验证数据集发布管理的目的是建立发布流程体系对发布后的数据集版本进行生成、对比、回滚等管理活动。运维管理关注数据集的日常监控和维护对过程中涉及的数据、计算、存储资源进行管理。运营管理关注数据集在用户端的使用情况衡量投入产出的收益关注数据集长期的质量提升。人工智能数据工程顺利推行离不开相应的技术工具的支持框架中列举了核心的7项技术能力涉及数据采集、数据处理、数据管理、数据标注、数据合成、数据质检工具、数据服务运营这些技术能力可以集成在一个或多个技术工具中。3.2 企业人工智能数据集建设实践企业级的人工智能数据集需要考虑4个要素一是围绕企业大模型训练和企业人工智能应用场景全面收集数据二是构建企业内统一的处理规范和流程保证数据集生产流水线的规范性三是需要统筹部署数据集处理和管理工具实现工具的集约建设四是建立数据集持续运营体系开展目录整理、检索、质量评价、版本更新维护等工作优化数据集的生产环节提供更好的服务能力。从建设路径来看企业可以依据“盘、建、研、管、用”五步走的方法开展高质量数据集体系建设。“盘”指的是理清内外部数据资源的来源、规模、质量、类别情况明确应用与采集的格式、质量、内容要求主要输出数据资源地图和需求列表建立采集的模板。“建”指的是提前制定数据集的质量、安全、运管要求构建标准化工作流程并开展工具平台的引入和定制化开发。“研”指的是依托前期建立的流程和规范开展数据集的研发工作生成数据集。“管”指的是对数据集质量、安全建立常态化管理体系包括质量的评价、安全和隐私的检测。“用”指的依托前序工作成果跟踪、维护、优化数据集的评价、使用、成本和价值。每个步骤都涉及相应的输入物、工作活动以及输出物同时要注意实施过程的进度管理。企业实践方面某通信运营商大力投入高质量数据集建设工作围绕工具平台、数据标注、质量评测、数据生产、数据集管理运营构建了全面的能力体系在盘点环节聚焦集团6类通用大模型的训练需求、30类场景需求形成统一全面的数据集建设需求列表在建设环节构建了集团、省公司两级部署的高质量数据供给和管理平台支持数据集的存储、汇聚、处理、标注、合成、评测、管理联合高校构建数据标注团队定义标注规范在研发环节构建了基础数据集、合成数据、应用数据三大生产链路以及一个数据治理流程目前已经形成覆盖32个行业领域涉及文学、教育151个方向26 TB的行业高质量数据集在管理环节形成了针对文本数据、音频数据、图像数据、视频数据的200多项质量评测指标每类数据均形成了基础评测、内容质量评测、标注质量评测、数据可用性评测等系列工具。某出版社着力构建教育大模型同步形成系统的高质量数据集在盘点环节面向高等教育和职业教育两大方向分别形成训练数据集、微调数据集、测试数据集需求清单在建设环节构建了统一的数据资源中心覆盖图像、视频、音频、文本等类型部署了数据存储、预处理、清洗、标注全链路工具在研发环节形成了数据集生产链路体系目前形成了13个学科门类、19个专业大类的数据集体系打造了高质量课程、高质量期刊、高质量题库等应用方向在管理环节具备数据分类分级、数据集检索、预览、版本控制等能力并对数据质量进行定期评价和提升。4 结束语从机器学习到深度学习再到现在的大模型时代人工智能的基本范式始终是让机器从数据中学习。近年来不少人工智能领域的学者提倡“以数据为中心的人工智能”理念强调提升数据的规模、质量和丰富度可以显著提升模型的效果。人工智能数据集由文本、图像、音视频等数据类型构成主要用于模型训练、微调和评测等环节覆盖互联网、图书、学术材料、代码库、企业知识库等多个来源。在训练数据集处理中通常采用基于规则的过滤技术来提升数据质量例如去除终端标记、检测句子重复以及强制设定长度限制以排除低质量数据。在指令微调阶段可以通过基于指标体系、基于可训练的大模型、基于大模型、小模型等方法来判断数据集的效果从而进行数据集的筛选。相比结构化数据人工智能数据集的质量维度和质量评价更复杂除了传统的七性维度还要关注内容、应用等维度本文提出了一种人工智能数据集质量评价的维度和评价方法可以作为评价高质量数据集的参考框架。同时在前期标准化的基础上围绕数据集生命周期本文提出了一套企业人工智能数据工程的体系覆盖了研发、交付、运维、运营4项管理活动和7项技术能力参考数据工程体系企业可以通过“盘、建、研、管、用”5个步骤来开展能力体系建设。未来国家层面推动高质量数据集建设可以考虑4个方面的内容。一是做好顶层规划和统筹整体推进各行业数据集能力建设包括开展行业数据集的摸底工作建立行业数据集的地图征集优秀建设案例鼓励经验共享。二是建立标准和规范体系围绕质量评价、建设运营能力、数据处理流程、工具平台等方面开展标准研制工作体系性构建方法论选取头部机构推动标准的验证落地。三是推进生态体系建设汇聚数据源企业、数据标注企业、版权机构和模型训练企业梳理数据集需求清单和数据集地图精准匹配模型训练企业和数据集供应企业鼓励更多主体参与到数据集开放、开源和流通体系建设中。四是研究版权和安全等问题出版行业可以制定AI版权管理办法确定出版社、创作者作品被用于AI训练的知情和收益权并构建数据调用的收费模式和收费标准可以尝试按年整体付费、按接口调用条数、按作者贡献度等多种收费方式构建版权协作的机制和安全保护的基线。参考文献见原文点击篇末『阅读原文』阅读及下载本文作者简介姜春宇男中国信息通信研究院高级工程师大数据与智能化部主任主要研究方向为大数据与人工智能技术、大模型、数据要素流通、数据资产管理、数据安全。参与起草多个国家文件包括《促进国家大数据发展行动纲要》《大数据产业发展规划(2016-2020年)》。建立了国内首个大数据人工智能产品能力评测体系制定了50多项数据标准规范牵头编写《数据资产管理实践白皮书》《数据安全治理实践指南》《数据要素白皮书》《智能中台实践指南》等多本研究报告。白玉真女博士中国信息通信研究院工程师主要研究方向为数据要素流通、高质量数据集、隐私计算等。参与构建可信数据流通技术标准与评测体系制定多方安全计算、联邦学习、隐私计算互联互通、公共数据等20多项数据标准规范牵头和参与编写《可信隐私计算研究报告》《可信数据流通网络(TDN)白皮书》《隐私计算白皮书》等多本研究报告。刘渊女中国信息通信研究院中级工程师主要研究方向为数据基础设施、人工智能技术和应用、数据智能技术和应用、数据管理和治理等。牵头《集成化大数据平台能力分级要求》《流批一体大数据平台技术要求》《数据智能平台技术要求》等团体标准的制定工作:主持执行国内大数据产品测试70余项主持《大数据技术发展成熟度研究》等课题的研究工作和研究报告编写。王超伦男中国信息通信研究院中级工程师主要研究方向为大数据与人工智能技术及行业应用。参与起草多个国家文件包括《促进国家大数据发展行动纲要》《大数据产业发展规划(2016-2020年)》。参与编写了《检索增强生成技术要求》《智能体平台技术要求》《大模型应用开发平台技术要求》《大模型驱动的智能数据分析工具技术要求》《大模型一体机能力要求》《知识中台能力成熟度模型》《人工智能数据工程能力要求》《数据智能白皮书》等多项标准及研究报告并开展相关评测工作。相关阅读面向人工智能的数据治理框架人工智能大语言模型数据集现状和充实对策研究联系我们:Tel:010-53859533010-53879208E-mail:bdrbjxintong.com.cnhttp://www.j-bigdataresearch.com.cn/转载、合作010-53879255大数据期刊《大数据Big Data ResearchBDR》双月刊是由中华人民共和国工业和信息化部主管人民邮电出版社主办中国计算机学会大数据专家委员会学术指导北京信通传媒有限责任公司出版的期刊已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。关注《大数据》期刊微信公众号获取更多内容
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2421784.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!