7 款用于训练 AI 模型的合成数据工具

news2025/7/19 3:53:07

什么是合成数据?

合成数据是计算机模拟或算法生成的注释信息,作为真实世界数据的替代品。换句话说,合成数据是在数字世界中创建的,而不是从现实世界中收集或测量的。

合成数据的用例

为机器人开发软件只是合成数据的众多用例之一。许多应用程序专注于训练计算机视觉系统,例如自动驾驶汽车用于学习如何驾驶的合成数据集。(而且,是的,Nvidia 也有一个应用程序Natural language processing (NLP) 是人工智能下的另一个领域,可以利用合成数据来增强或替换自然数据来训练 AI 模型。

事实上,行业专家认为,在不久的将来,合成数据将成为训练人工智能模型的首选来源。Gartner 预测,到 2024 年,用于开发 AI 和分析项目的数据将有 60% 是合成生成的。

在 AI 模型中,合成数据将超过真实数据。

图片来源:Gartner

合成数据公司

在这篇文章中,我们将重点介绍七家合成数据初创公司,这些初创公司在过去一年左右的时间里获得了资金,以开发生成非结构化数据来训练人工智能模型的平台。

It’s Almost Human

Datagen 将其合成数据称为模拟数据,因为它特别关注逼真的视觉模拟和现实世界的再现,在人体运动方面具有明显的专长。与许多合成数据公司一样,Datagen 依赖于一种日益流行的 AI 技术,称为 generative adversarial networks (GANs)。这有点像两个计算机系统之间的国际象棋游戏,但一个系统正在生成合成数据,而另一个系统则判断结果的真实性。该公司将GAN与物理模拟器中的强化学习人形运动算法以及超级渲染算法相结合,以大规模生成模拟数据。

计算机生成的人脸。

图片来源:Datagen

Datagen正在开拓多个市场,包括增强现实和虚拟现实、物联网、零售、机器人和自动驾驶汽车。

Peek-A-Boo, AI Sees You

点击进入公司网站

当今的主要用例之一可能是模拟自动驾驶汽车的环境。这是 Parallel Domain 背后的核心业务,该公司将其合成数据平台专注于一些最具挑战性的用例,以教自动驾驶汽车如何躲避行人。其与丰田研究所合作的最新创新涉及使用合成数据向自主系统传授对象持久性。目前的感知系统就像婴儿在玩躲猫猫,但部分归功于平行域,人工智能现在可以跟踪物体,即使它们暂时消失。该公司最近还向公众发布了其数据可视化工具,用于完全标记的合成相机和LiDAR数据集:

用于训练自动驾驶 AI 模型的合成数据可视化。

信用:平行域

除自动驾驶外,该公司还为自动无人机交付提供合成训练数据。

I Spy Synthetic Data

点击进入公司网站

Mindtech 将其端到端合成数据平台称为 Chameleon,这是一种模块化工具,使用户能够使用逼真的 3D 模型快速构建无限的场景和场景。该公司表示,Chameleon是专门为帮助其客户构建AI模型而设计的,以“理解和预测人类互动”。

Mindtech合成数据平台。

信用:Mindtech

Mindtech 主要服务于各种市场,包括零售、智能家居、医疗保健、交通系统和机器人技术。

Look Out Below

成立于 2017 年,我们首先报道了基于 New Yawk 的 AI。遐想回到2018年底。该公司已披露 5 万美元的资金,包括 8 年 5 月的 6 万美元种子轮融资,其中还包括 In-Q-Tel,以及 Microsoft 联合创始人兼前健在者保罗·艾伦 (Paul Allen) 的数十亿美元投资部门 Vulcan Capital。.AI。Reverie声称其合成数据的性能几乎与真实世界的训练数据相当。仅将 2020% 的自然数据与公司的计算机生成数据相结合,就比单独使用任何一个数据都能提供更好的结果。

用于训练 AI 模型的合成数据的准确性。

图片来源:AI。遐想

例如,该公司创建了 RarePlanes,这是一个公开可用的、非常高分辨率的数据集,旨在从开销的角度测试合成数据的价值。使用 RarePlanes 进行的实验表明,使用 10% 的观测数据集微调纯合成模型可获得大致相同的结果,同时消除了 90% 的手动收集和标记真实世界数据的成本。

Getting Some Synthetic Face Time

点击进入公司网站

Synthesis AI 成立于 2019 年,与 Datagen 一样,Synthesis 广泛地专注于生成合成人类,使用 GAN 和 computer-g enerated image (CGI) 技术,这在当今制作的几乎每部电影中都有。该公司的第一款产品是 FaceAPI,企业可以使用它来构建功能更强大的 AI 面部模型,用于智能手机面部验证、电话会议、驾驶员监控和智能助手。

人工智能生成的面孔,用于训练其他 AI 模型。

可以肯定的是,这就是在阿尔巴尼亚抢劫我们的那个人。图片来源:合成人工智能

随后,Synthesis AI 发布了独特的高分辨率 3D 面部模型,以改进 AI 模型的各种面部类型。

Automating Data Labeling

点击进入公司网站

Synthetaic 成立于 2019 年。网站上没有太多关于该公司用于创建合成数据的特定技术的细节。大多数信息是关于一种叫做 Rapid Automatic Image Categorization (RAIC) 的东西,它似乎是一个用于从单个标记示例中注释图像的自动化系统。我们确实看到了一则新闻,内容是关于该公司的GAN平台如何提供合成数据,以改进通过医学扫描诊断脑肿瘤的AI模型。

脑肿瘤扫描的合成数据。

它要么是意大利大理石,要么是用于训练 AI 模型以检测脑肿瘤的合成数据。信用:合成

结果:合成数据将主要脑肿瘤类型的准确率从 68% 提高到 96%,其中在最具挑战性的病例中表现为 90%,而对 70%。

A Bird’s Eye View

点击进入公司网站

OneView 成立于 2019 年,该公司专注于为人工智能模型提供合成数据,这些模型从卫星和航空图像中提供地理空间情报。这些图像通常涉及地球上的大片区域,包括城市、机场、港口等等。为了构建合成数据集的基础模型,OneView利用了来自名为OpenStreetMap的开源数据映射服务的真实数据。你可以在这里关于这个过程的信息,但基本上,该公司将5D图像膨胀成2D图像,然后多次渲染以模仿不同的场景,包括物体、天气、照明等。

将北京机场的真实图像转换为合成数据,以训练 AI 模型。信用:OneView

OneView 的合成数据可以训练服务于城市规划等一系列行业的 AI 模型。

结论

除了以上7款合成数据生成工具之外, 还有一款国产的UnrealSynth虚幻引擎合成数据生成器 :UnrealSynth 虚幻合成数据生成器是利用UE4虚幻引擎的实时渲染能力搭建逼真的三维场景,为 YOLO 等 AI 模型的训练提供自动生成的图像和标注数据。UnrealSynth 生成的合成数据可用于深度学习模型的训练和验证,可以极大地提高各种行业细分场景中目标识别任务的实施效率,例如:安全帽检测、交通标志检测、施工机械检测、车辆检测、行人检测、船舶检测等。

转载:7 款用于训练 AI 模型的合成数据工具 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1157529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑如何录制小视频

如果你想在你的电脑上录制视频分享给你的朋友或者亲人,无论你的电脑是win还是mac,都可以在本篇文章中找到电脑录制视频的详细教程。小编为你们整理了2种不同系统电脑的录制详细流程,继续阅读查看吧! 第一部分:windows…

公众号留言功能报价是多少?值得开通吗?

为什么公众号没有留言功能?根据要求,自2018年2月12日起,新申请的微信公众号默认无留言功能。有些人听过一个说法:公众号粉丝累计到一定程度或者原创文章数量累计到一定程度就可以开通留言功能。其实这个方法是2018年之前才可以&am…

智慧农场牧场小程序源码 智慧农业认养系统源码

智慧农场牧场小程序源码 智慧农业认养系统源码 要了解源码的,看文末。 随着科技的进步和人们对绿色食品的需求增加,智慧农场正成为未来农业发展的方向。智慧农场是指运用先进的技术手段,如物联网、云计算、智能控制技术、大数据分析等&…

修改element组件库的el-input-number的图标

官方样式: 我希望组件的图标改成一对上下是三角形的图标: 直接复制以下代码: ::v-deep .el-icon-arrow-down:before {content: "\e790"; } ::v-deep .el-icon-arrow-up:before {content: "\e78f"; } 完成&#xff01…

【C++】main开始的地方

目录 1. C关键字 2. 命名空间 2.1 命名空间定义 2.2 命名空间使用 3. C输入&输出 4. 缺省参数 4.1 缺省参数概念 4.2 缺省参数分类 5. 函数重载 5.1 函数重载概念 5.2 C支持函数重载的原理--名字修饰(name Mangling) 6. 引用 6.1 引用概…

VSIX:C#项目 重命名所有标识符(Visual Studio扩展开发)

出于某种目的(合法的,真的合法的,合同上明确指出可以这样做),我准备了一个重命名所有标识符的VS扩展,用来把一个C#库改头换面,在简单的测试项目上工作很满意,所有标识符都被准确替换…

springboot通过aop自定义注解@Log实现日志打印

springboot通过aop自定义注解Log实现日志打印 文章目录 效果图实操步骤1.引入依赖2.自定义日志注解3.编写日志切面类4.UserController5.运行 效果图 实操步骤 注意&#xff0c;本代码在springboot环境下运行&#xff0c;jdk1.8 1.引入依赖 <dependency><groupId>…

手机通讯录好备份,那微信通讯录怎么备份出来

6-8 众所周知的是&#xff0c;手机通讯录是很好备份的&#xff0c;但是微信不行&#xff0c;手机本身就带有备份功能&#xff0c;换手机可以快速地迁移通讯录&#xff0c;比如下面这个就是小米手机自带的备份功能&#xff0c;简单好用 但是现在生意可都在微信上做了&#xff0…

记一次flask框架环境综合渗透测试

PART.01 登入过程 访问靶场地址http://101.43.22.226/?name2023&#xff0c;框架为Flask。 2. 测试存在ssti注入。 3. 直接执行以下命令。 http://101.43.22.226/?name{% for c in [].class.base.subclasses() %} {% if c.name ‘catch_warnings’ %} {% for b in c.i…

42 深度学习(六):调参|保存模型以及再次调用或训练

文章目录 卷积神经网络调参optimizer 优化器SGDmomentumAdaGradRMSPropadam学习率自适应经验之谈 激活函数SigmoidTanhReLULeaky-ReLU指数线性单元(ELU)Maxout&#xff08;基本不用&#xff09;经验之谈 初始化全部为 0判断初始化好不好批归一化&#xff08;BN&#xff09; 数据…

Python项目——识别指定物品

目录 1、百度EasyDL平台数据配置 1.1、训练图像上传 1.2、训练图像进行标注 1.3、训练模型 1.4、检验识别 1.5、申请发布 1.6、控制台权限配置 2、Python调用物体识别API 本项目是基于百度EasyDL平台制作的识别转盘内瓶子&#xff0c;且识别瓶子位置的一个项目。通过在…

10步搭建跨境商城,打造全球销售帝国

我将向您介绍如何通过10个简明步骤搭建一个强大的跨境商城&#xff0c;从而打造一个覆盖全球的销售帝国。在这个全球化时代&#xff0c;跨境电商已成为许多企业扩大业务的关键途径。然而&#xff0c;搭建一个成功的跨境商城并不容易&#xff0c;需要充分了解市场需求、制定合适…

【java学习—十一】枚举类(2)

文章目录 1. 枚举类概述2. 实现接口的枚举类 1. 枚举类概述 在某些情况下&#xff0c;一个类的对象是有限而且固定的。例如季节类&#xff0c;只有4个对象&#xff1b; ①手动实现枚举类&#xff1a; • private 修饰构造器 • 属性使用 private final 修饰 • 把该类的所有实…

pod进阶--02

//示例4&#xff1a;就绪检测 vim readiness-httpget.yaml apiVersion: v1 kind: Pod metadata:name: readiness-httpgetnamespace: default spec:containers:- name: readiness-httpget-containerimage: soscscs/myapp:v1imagePullPolicy: IfNotPresentports:- name: httpcon…

安装pakachu靶场

1.路径 2.修改 3.安装 之后就成功了

众和策略可靠吗?pb是市净率吗?

可靠 市净率既是股市的常用方针&#xff0c;也是价值出资的重要东西之一&#xff0c;而PB也常被用来作为衡量企业估值的规范之一。但是&#xff0c;PB是不是就等同于市净率呢&#xff1f;本文将从多个视点来剖析PB是否等于市净率。 一、市净率和PB的界说 市净率通常指股票的…

Webpack构建慢如蜗牛?提升开发效率的速度优化秘籍!

&#x1f3ac; 江城开朗的豌豆&#xff1a;个人主页 &#x1f525; 个人专栏 :《 VUE 》 《 javaScript 》 &#x1f4dd; 个人网站 :《 江城开朗的豌豆&#x1fadb; 》 ⛺️ 生活的理想&#xff0c;就是为了理想的生活 ! 目录 ⭐ 专栏简介 &#x1f4d8; 文章引言 一、背…

一个平台搞定数据治理,让数据资产发挥价值

根据北京研精毕智信息咨询发布的调查报告&#xff0c;2018-2021年&#xff0c;全球数据存储量由30ZB上升至55ZB左右&#xff0c;年平均增长率约为27.8%。到2022年&#xff0c;数据总存储量进一步增加至65ZB以上&#xff0c;较2021年同期新增了约10ZB&#xff0c;同比增长18.2%。…

软件开发项目文档系列之八数据库设计说明书

数据库设计说明书是一个关键文档&#xff0c;它提供了有关数据库的详细信息&#xff0c;包括设计、结构、运行环境、数据安全、管理和维护等方面的内容。 1 引言 引言部分&#xff0c;简要介绍数据库设计说明书的目的和内容。这部分通常包括以下内容&#xff1a; 引言的目的…

Python如何使用datetime模块进行日期和时间的操作

目录 一、引言 二、datetime模块的基本使用 三、日期的运算 四、注意事项 总结 本文将对Python的datetime模块进行深入探讨&#xff0c;阐述如何使用该模块进行日期和时间的各种操作。我们将介绍日期和时间的基本操作&#xff0c;以及格式化、时区处理等高级操作&#xff…