Ctrl-Crash 助力交通安全:可控生成逼真车祸视频,防患于未然

news2025/6/8 18:58:45

视频扩散技术虽发展显著,但多数驾驶数据集事故事件少,难以生成逼真车祸图像,而提升交通安全又急需逼真可控的事故模拟。为此,论文提出可控车祸视频生成模型 Ctrl-Crash,它以边界框、碰撞类型、初始图像帧等为条件,能生成反事实场景,输入微小变动就可能引发截然不同的碰撞结果。

生成不同碰撞类型的场景

这些示例说明了针对多种不同碰撞类型(描述哪些参与者涉及碰撞)的场景:

事故重建

仅使用初始地面真实帧和所有边界框帧作为输入,通过 Ctrl-Crash 预测的碰撞:

碰撞预测

使用初始帧和前 9 个边界框帧作为输入,通过 Ctrl-Crash 预测崩溃(白色帧表示边界框被遮罩):

从非崩溃数据生成崩溃

通过调节初始帧和前 9 个边界框帧,从非事故 BDD100K 数据集生成碰撞:

相关链接

  • 论文:https://arxiv.org/pdf/2506.00227

  • 代码:https://github.com/AnthonyGosselin/Ctrl-Crash

  • 试用:https://huggingface.co/AnthonyGosselin/Ctrl-Crash

论文介绍

 Ctrl-Crash:可控扩散,实现逼真的车祸场景

近年来,视频扩散技术取得了显著进展;然而,由于大多数驾驶数据集中事故事件的稀缺,它们难以生成逼真的车祸图像。提高交通安全需要逼真且可控的事故模拟。

为了解决这个问题,论文提出了 Ctrl-Crash,这是一个可控的车祸视频生成模型,它以边界框、碰撞类型和初始图像帧等信号为条件。提出的方法能够生成反事实场景,其中输入的微小变化都可能导致截然不同的碰撞结果。为了支持推理时的细粒度控制,作者利用无分类器引导,每个调节信号都有独立可调的尺度。与之前基于扩散的方法相比,Ctrl-Crash 在定量视频质量指标(例如 FVD 和 JEDi)和基于人工评估的物理真实感和视频质量的定性测量方面均实现了最佳性能。

方法概述

Ctrl-Crash 是一个可控的视频扩散框架,旨在通过空间和语义控制信号的引导,从单个初始帧生成逼真的车祸场景。Ctrl-Crash 基于 Ctrl-V (一个用于从渲染的边界框轨迹生成视频的框架),将其功能扩展到特定于车祸的场景,从而提供更丰富的控制和更大的灵活性。具体而言,论文引入了一种新的语义控制信号来表示车祸类型,并引入了一种改进的训练程序来处理部分和噪声条件。

实验结果

AVD2、DrivingGen、Ctrl-V 和 Ctrl-Crash 的定性结果比较。AVD2 生成的碰撞画面视觉上抖动,场景通常缺乏一致性。Driving-Gen 生成的视频质量低下且不连贯。虽然 Ctrl-V 实现了良好的视觉质量,但它无法生成逼真的碰撞事件。相比之下,Ctrl-Crash 在视觉保真度和场景一致性方面均优于所有基准,同时能够准确地建模碰撞动力学。

结论

Ctrl-Crash是一个可控的视频扩散框架,它能够从单帧生成逼真的车祸场景,在基于扩散的方法中达到了最佳性能,并通过改变空间和语义控制输入实现反事实推理。为了支持训练和评估,还开发了从车祸视频中提取边界框的处理流程,并发布了 MM-AU、RussiaCrash 和 BDD100k 的精选注释版本,以促进未来车祸模拟和生成式建模的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404449.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络编程之服务器模型与UDP编程

一、服务器模型 在网络通信中,通常要求一个服务器连接多个客户端 为了处理多个客户端的请求,通常有多种表现形式 1、循环服务器模型 一个服务器可以连接多个客户端,但同一时间只能连接并处理一个客户的请求 socket() 结构体 bind() listen() …

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测 目录 Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五…

阿里云服务器安装nginx并配置前端资源路径(前后端部署到一台服务器并成功访问)

​​​运行以下命令,安装Nginx相关依赖。 yum install -y gcc-c yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel 运行wget命令下载Nginx 1.21.6。 您可以通过Nginx开源社区直接获取对应版本的安装包URL&…

C++11新增重要标准(下)

前言 一,forward(完美转发) 二,可变参数模板 三,emplace系列接口 四,新增类功能 五,default与delete 六,lambda表达式 七,包装器 八,bind 在C11中新增…

【第六篇】 SpringBoot的日志基础操作

简介 日志系统在软件开发中至关重要,用于调试代码、记录运行信息及错误堆栈。本篇文章不仅详细介绍了日志对象的创建及快速使用,还说明了日志持久化的两种配置方式和滚动日志的设置。实际开发需根据场景选择合适的日志级别和存储策略。文章内容若存在错误…

Pluto论文阅读笔记

主要还是参考了这一篇论文笔记:https://zhuanlan.zhihu.com/p/18319150220 Pluto主要有三个创新点: 横向纵向用lane的query来做将轨迹投回栅格化地图,计算碰撞loss对数据进行正增强和负增强,让正增强的结果也无增强的结果相近&a…

matlab 2024a ​工具箱Aerospsce Toolbox报错​

Matlab R2024a中Aerospsce Toolbox报错 警告:Aerospace Toolbox and Aerospace Blockset licenses are required in ‘built-in/Spacecraft Dynamics’ 找到安装路径\MATLAB\R2024a\licenses文件夹license_****_R2024a.lic 里面工具箱名称出错,手动修改…

使用有限计算实现视频生成模型的高效训练

大家读完觉得有帮助记得关注和点赞!!! 抽象 视频生成的最新进展需要越来越高效的训练配方,以减轻不断上升的计算成本。在本报告中,我们介绍了 ContentV,这是一种 8B 参数文本到视频模型,在 256 …

Server2003 B-1 Windows操作系统渗透

任务环境说明: 服务器场景:Server2003(开放链接) 服务器场景操作系统:Windows7 1.通过本地PC中渗透测试平台Kali对服务器场景Windows进行系统服务及版本扫描渗透测试,并将该操作显示结果中Telnet服务对应的…

一次Oracle的非正常关闭

数据库自己会关闭吗? 从现象来说Oracle MySQL Redis等都会出现进程意外停止的情况。而这些停止都是非人为正常关闭或者暴力关闭(abort或者kill 进程) 一次测试环境的非关闭 一般遇到这种情况先看一下错误日志吧。 2025-06-01T06:26:06.35…

YOLO11解决方案之分析

概述 Ultralytics提供了一系列的解决方案,利用YOLO11解决现实世界的问题,包括物体计数、模糊处理、热力图、安防系统、速度估计、物体追踪等多个方面的应用。 Ultralytics提供了三种基本的数据可视化类型:折线图(面积图&#xf…

yolov11与双目测距结合,实现目标的识别和定位测距(onnx版本)

一、yolov11双目测距基本流程 yolov11 双目测距的大致流程就是: 双目标定 --> 立体校正(含消除畸变) --> 立体匹配 --> 视差计算 --> 深度计算(3D坐标)计算 --> 目标检测 --> 目标距离计算及可视化 下面将分别阐述每…

基于51单片机和8X8点阵屏、独立按键的填充消除类小游戏

目录 系列文章目录前言一、效果展示二、原理分析三、各模块代码1、8X8点阵屏2、独立按键3、定时器04、定时器1 四、主函数总结 系列文章目录 前言 使用的是普中A2开发板。 【单片机】STC89C52RC 【频率】12T11.0592MHz 【外设】8X8点阵屏、独立按键 效果查看/操作演示&#x…

物联网技术发展与应用研究分析

文章目录 引言一、物联网的基本架构(一)感知层(二)网络层(三)平台层(四)应用层 二、物联网的关键技术(一)传感器技术(二)通信技术&…

金融系统渗透测试

金融系统渗透测试是保障金融机构网络安全的核心环节,它的核心目标是通过模拟攻击手段主动发现系统漏洞,防范数据泄露、资金盗取等重大风险。 一、金融系统渗透测试的核心框架 合规性驱动 需严格遵循《网络安全法》《数据安全法》及金融行业监管要求&am…

9.进程间通信

1.简介 为啥要有进程间通信? 如果未来进程之间要协同呢?一个进程要把自己的数据交给另一个进程!进程是具有独立性的,所以把一个进程的数据交给另一个进程----基本不可能!必须通信起来,就必须要有另一个人…

React 基础入门笔记

一、JSX语法规则 1. 定义虚拟DOM时,不要写引号 2.标签中混入JS表达式时要用 {} (1).JS表达式与JS语句(代码)的区别 (2).使用案例 3.样式的类名指定不要用class,要用className 4.内…

压测软件-Jmeter

1 下载和安装 1.1 检查运行环境 Jmeter需要运行在java环境(JRE 或 JDK)中 在window的"命令提示窗"查看安装的java版本: java -version 1.2 下载Jmeter 从Apache官网下载Jmeter安装包 1.3 解压和运行 解压后,进入bin文件夹,双击jmeter.bat即可…

NLP学习路线图(三十):微调策略

在自然语言处理领域,预训练语言模型(如BERT、GPT、T5)已成为基础设施。但如何让这些“通才”模型蜕变为特定任务的“专家”?微调策略正是关键所在。本文将深入剖析七种核心微调技术及其演进逻辑。 一、基础概念:为什么需要微调? 预训练模型在海量语料上学习了通用语言表…

leetcode刷题日记——1.组合总和

解答&#xff1a; class Solution { public:void dfs(vector<int>& candidates, int target, vector<vector<int>>& ans, vector<int>& combine, int idx) {if(idxcandidates.size()){//遍历完的边界return;}if(target0){//找完了能组成和…