浅论3DGS溅射模型在VR眼镜上的应用

news2025/5/17 10:54:58

摆烂仙君小课堂开课了,本期将介绍如何手搓VR眼镜,并将随手拍的电影变成3D视频。

一、3DGS模型介绍

3D 高斯模型是基于高斯函数构建的用于描述三维空间中数据分布概率的模型,高斯函数在数学和物理领域有着广泛应用,其在 3D 情境下的拓展为我们理解和处理三维数据提供了强大工具。在三维空间中,高斯模型的概率密度函数形式较为复杂,涉及多个参数。中心点坐标 (μ_x, μ_y, μ_z) 决定了分布的中心位置,即数据最可能聚集的点。而协方差矩阵则描述了数据在各个方向上的分布范围和相关性。协方差矩阵是一个对称的 3×3 矩阵,其对角线元素 (σ_x², σ_y², σ_z²) 分别代表数据在 x、y、z 轴上的方差,方差越大,说明数据在该轴方向上的分散程度越高;非对角线元素 σ_xy、σ_xz、σ_yz 反映了不同坐标轴之间的协方差,衡量了两个变量之间的线性相关程度,比如 σ_xy 为正,表明 x 和 y 方向的数据变化呈正相关趋势。

该模型在诸多领域都有重要应用,其中最重要的就是可以恶搞自己的室友,如图。

但是我们本期要讲的是如何通过3D溅射模型把普通视频变成3D视频。

二、VR眼镜盒子

VR眼镜盒子是一种较为基础且便捷的虚拟现实设备。其外观通常小巧轻便,便于携带和使用,主体部分多为一个类似眼镜的框架结构,中间有可容纳显示屏的区域,两侧设有绑带或夹子等固定装置,用于将设备稳固地佩戴在头上,确保使用者在使用过程中不会轻易滑落或移位。它的工作原理在于借助智能手机等具备显示功能的设备来作为显示屏,将手机放入盒子中特定的位置后,通过盒子内部的光学镜片等元器件对手机屏幕上的画面进行放大和聚焦,营造出一种身临其境的立体视觉效果。当使用者转动头部时,借助手机内部的陀螺仪等传感器,可实时感知头部的运动方向和角度变化,并将这些信息反馈给正在运行的VR应用,从而使得画面能够相应地进行切换或调整,让使用者仿佛置身于一个全方位、沉浸式的虚拟场景之中,无论是观看3D电影、体验虚拟旅游还是进行一些简单的VR游戏,都能提供较为出色的沉浸感体验。不过,由于其成本相对较低,技术也较为基础,在画面的清晰度、视场角以及帧率等方面可能不如一些高端的VR头显设备,但其亲民的价格和便捷的操作方式使其在普通消费者群体中有着较为广泛的应用,为大众接触和体验虚拟现实技术提供了一个入门级的便捷选择。

假设透镜的焦距为f,透镜与显示屏之间的距离为d,显示屏上的图像高度为h,经过透镜放大后的像高度为H。根据透镜成像公式:

f1​=u1​+v1​

其中,u 为物体到透镜的距离(即显示屏到透镜的距离),v 为像到透镜的距离。对于VR眼镜盒子来说,透镜通常被设计为靠近显示屏的一侧,因此 u 是一个较小的正值。根据成像公式,可以求出像距 v。

像的放大率 M 可以表示为:

M=hH​=uv​

通过调整透镜的焦距 f 和物体距 u,可以控制像的放大率和成像位置,从而优化用户的视觉体验。VR眼镜盒子利用双眼视觉和视差原理来营造三维立体效果。人类的双眼分别位于头部的两侧,两眼之间的距离(称为瞳距)导致两眼看到的物体图像存在细微差异,这种差异称为视差。大脑通过对两眼图像的融合和处理,能够感知物体的深度和立体感。在VR眼镜盒子中,左右两个透镜分别将两幅略有差异的图像(通常由VR应用生成)投射到用户的左右眼中,模拟了人眼观察真实世界时的视差效果。这种视差信息被大脑处理后,用户就会感受到虚拟场景的深度和立体感。

三、博主的实操记录

1.手搓VR眼镜

VR眼镜的技术原理在之前已经讲的很清楚了,无非就是双目视差罢了,所以实现起来也很简单,找个空纸壳然后折叠成下图这个样子,然后放上两个放大镜片就好了,是不是有手就行。

什么?说没有放大镜片,没事儿,仙君教你:在塑料瓶的上半部分中裁出两个圆片,然后将这两个圆片用胶水粘起来,里面放满水,一个放大镜片这不就做出来了吗?还不会的同学就自己上网买一个吧,也就十来块的样子,没钱的可以在评论区找博主报销。

2.普通视频转成VR视频

这种VR视频比较普通,就是将一个视频变成两个分视角的图片,多的不说,上干货:

import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt

# 加载预训练的深度估计模型和相关文件
def load_depth_model():
    # 模型和配置文件路径(假设已下载对应的模型文件)
    model_path = "models/midas_v2_1_small.onnx"
    # 加载模型
    depth_model = cv.dnn.readNet(model_path)
    return depth_model

# 深度估计函数
def estimate_depth(frame, depth_model):
    # 将图片转换为模型需要的格式
    img = cv.cvtColor(frame, cv.COLOR_BGR2RGB)
    img = cv.resize(img, (256, 256), interpolation=cv.INTER_AREA)
    # 创建blob
    blob = cv.dnn.blobFromImage(img, 1/255., (256, 256), (123.675, 116.28, 103.53), swapRB=True, crop=False)
    # 设置输入并前向传播
    depth_model.setInput(blob)
    depth_map = depth_model.forward()
    depth_map = depth_map.reshape((256, 256))
    # 归一化深度图
    depth_map = cv.normalize(depth_map, None, 0, 1, cv.NORM_MINMAX)
    return depth_map

# 根据深度图计算视差图
def compute_disparity(depth_map, max_disparity=50):
    # 计算视差图,简单的将深度图转换为视差图
    # 实际应用中可能需要更复杂的计算
    disparity_map = (1.0 - depth_map) * max_disparity
    return disparity_map.astype(np.int32)

# 根据视差图生成右视图
def generate_right_view(left_view, disparity_map):
    height, width = left_view.shape[:2]
    # 将视差图扩展到与图像相同的尺寸
    disparity_map_img = cv.resize(disparity_map, (width, height), interpolation=cv.INTER_NEAREST)
    # 创建右视图
    right_view = np.zeros_like(left_view)
    # 沿x轴移动每个像素,根据视差图的值(简单的水平位移)
    for y in range(height):
        for x in range(width):
            disp = disparity_map_img[y, x]
            new_x = x - disp
            if new_x >= 0 and new_x < width:
                right_view[y, new_x] = left_view[y, x]
            else:
                # 处理边界情况,使用原图的边缘像素填充
                if new_x < 0:
                    right_view[y, 0] = left_view[y, x]
                elif new_x >= width:
                    right_view[y, width - 1] = left_view[y, x]
    return right_view

# 读取视频文件
input_video_path = 'input_video.mp4'
output_video_path = 'output_3d_video.mp4'

# 打开视频文件
cap = cv.VideoCapture(input_video_path)
if not cap.isOpened():
    print("Error: Could not open video.")
    exit()

# 获取视频属性
frame_width = int(cap.get(cv.CAP_PROP_FRAME_WIDTH))
frame_height = int(cap.get(cv.CAP_PROP_FRAME_HEIGHT))
fps = cap.get(cv.CAP_PROP_FPS)

# 定义视频输出
fourcc = cv.VideoWriter_fourcc(*'MP4V')
out = cv.VideoWriter(output_video_path, fourcc, fps, (frame_width * 2, frame_height))

# 加载深度估计模型
depth_model = load_depth_model()

# 处理视频的每一帧
while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break

    # 估计深度
    depth_map = estimate_depth(frame, depth_model)

    # 计算视差图
    disparity_map = compute_disparity(depth_map)

    # 生成右视图
    right_view = generate_right_view(frame, disparity_map)

    # 创建左右分屏的3D视频帧
    stereo_frame = cv.hconcat([frame, right_view])

    # 写入输出视频文件
    out.write(stereo_frame)

    # 显示处理后的帧(可选)
    cv.imshow('3D Video', cv.resize(stereo_frame, (frame_width * 2 // 2, frame_height // 2)))

    # 按'q'键退出循环
    if cv.waitKey(1) & 0xFF == ord('q'):
        break

# 释放资源
cap.release()
out.release()
cv.destroyAllWindows()

以上代码使用深度估计模型来估计每一帧图像的深度,然后根据深度图计算视差图,最后根据视差图生成右视图。需要注意的是,这种方法的效果可能不是非常好,实际应用中可能需要更复杂的视差计算方法,例如使用立体匹配算法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377591.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6种方式来探究数据集的的方法worldquant

覆盖率百分比 指金融数据字段&#xff08;如股价、成交量、财务指标&#xff09;在时间或空间上的有效数据比例。 时间维度&#xff1a;数据在历史周期内的完整度&#xff08;如&#xff1a;某股票过去 1 年中&#xff0c;95% 的交易日有收盘价&#xff09;。空间维度&#xf…

深度学习中的归一化:提升模型性能的关键因素

&#x1f4cc; 友情提示&#xff1a; 本文内容由银河易创AI&#xff08;https://ai.eaigx.com&#xff09;创作平台的gpt-4-turbo模型辅助完成&#xff0c;旨在提供技术参考与灵感启发。文中观点或代码示例需结合实际情况验证&#xff0c;建议读者通过官方文档或实践进一步确认…

vue+threeJS 大理石贴图

嗨&#xff0c;我是小路。今天主要和大家分享的主题是“vuethreeJS 大理石贴图”。 通过 Vue 3 和 Three.js 实现大理石纹理效果&#xff0c;并将这种技术应用于产品展示、虚拟展览、甚至是互动游戏之中&#xff0c;其潜力无穷。今天主要介绍基础的大理石贴图。 vueth…

WebGL 3着色器和GLSL

我们之前提到过着色器和GLSL&#xff0c;但是没有涉及细节&#xff0c;你可能已经对此有所了解&#xff0c; 但以防万一&#xff0c;这里将详细讲解着色器和GLSL。 在工作原理中我们提到&#xff0c;WebGL每次绘制需要两个着色器&#xff0c; 一个顶点着色器和一个片段着色器&…

华为OD机试真题——通信系统策略调度(用户调度问题)(2025B卷:100分)Java/python/JavaScript/C/C++/GO最佳实现

2025 B卷 100分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…

llamafactory SFT 从断点恢复训练

背景 我使用llamafactory sft 微调模型的时候。gpu停止运行了。日志文件没有任何的报错信息。 显存还是占用状态。 查看llamafactory的进程是下述信息&#xff1a; 151312 151306 91 17:42 ? 03:58:10 [llamafactory-cl] 既然如此&#xff0c;那就只能从断点恢复训练了。 …

计算机网络-----6分层结构

目录 “分层” 的设计思想&#xff1a; 计算机网络要完成的功能&#xff1a; 计算机网络的分层结构&#xff1a; 网络体系结构的概念&#xff1a; 各层之间的关系&#xff1a; 数据的传输过程 水平视角&#xff1a; 垂直视角&#xff1a; 相关概念 协议三要素&#x…

运算放大器相关的电路

1运算放大器介绍 解释&#xff1a;运算放大器本质就是一个放大倍数很大的元件&#xff0c;就如上图公式所示 Vp和Vn相差很小但是放大后输出还是会很大。 运算放大器不止上面的三个引脚&#xff0c;他需要独立供电&#xff1b; 如图比较器&#xff1a; 解释&#xff1a;Vp&…

python版本管理工具-pyenv轻松切换多个Python版本

在使用python环境开发时&#xff0c;相信肯定被使用版本所烦恼&#xff0c;在用第三方库时依赖兼容的python版本不一样&#xff0c;有没有一个能同时安装多个python并能自由切换的工具呢&#xff0c;那就是pyenv&#xff0c;让你可以轻松切换多个Python 版本。 pyenv是什么 p…

elementUI 循环出来的表单,怎么做表单校验?

数据结构如下&#xff1a; diversionParamList: [ { length: null, positionNumber: null, value: null, } ] 思路&#xff1a;可根据 index 动态绑定 :props 属性值&#xff0c;校验规则写在:rules <div class"config-item" v-for"(item, index) in form.…

Leetcode76覆盖最小子串

覆盖最小子串 代码来自b站左程云 class Solution {public String minWindow(String str, String tar) {char[] s str.toCharArray();char[] t tar.toCharArray();int[] cnt new int[256];for (char cha : t) { cnt[cha]--;}int len Integer.MAX_VALUE;int debt t.length…

电力杆塔安全监测解决方案

一、方案背景 在台风、滑坡等自然灾害出现时&#xff0c;极易产生倒杆、断杆、杆塔倾斜、塔基滑动等致使杆塔失稳的状况&#xff0c;进而引发导线断线、线路跳闸等事故&#xff0c;给电网的安全稳定运行造成影响。可借助在铁塔上装设的传感器&#xff0c;能够感知铁塔的工作状态…

AD 常用系统快捷键

(1) L: 打开层设置开关选项(在元件移动状态下&#xff0c;按下“L”键换层) (2) S: 打开选择&#xff0c;如SL(线选)、SI(框选)、SE(滑动选择) (3) J: 跳转&#xff0c;如JC(跳转到元件)、JN(跳转到网络) (4) CtrlQ: 英寸和毫米相互切换。 (5) Delete: 删除已被选择的对象 E…

今日行情明日机会——20250516

上证缩量收阴线&#xff0c;小盘股表现相对更好&#xff0c;上涨的个股大于下跌的&#xff0c;日线已到前期压力位附近&#xff0c;注意风险。 深证缩量收假阳线&#xff0c;临近日线周期上涨末端&#xff0c;注意风险。 2025年5月16日涨停股行业方向分析 机器人概念&#x…

AlphaEvolve:LLM驱动的算法进化革命与科学发现新范式

AlphaEvolve&#xff1a;LLM驱动的算法进化革命与科学发现新范式 本文聚焦Google DeepMind最新发布的AlphaEvolve&#xff0c;探讨其如何通过LLM与进化算法的结合&#xff0c;在数学难题突破、计算基础设施优化等领域实现革命性进展。从48次乘法优化44矩阵相乘到数据中心资源利…

多尺度对比度调整

一、背景介绍 受到了前面锐化算法实现的启发&#xff0c;对高频层做增强是锐化&#xff0c;那么对中低频一起做增强&#xff0c;就应该能有局域对比度增强效果。 直接暴力实现了个基本版本&#xff0c;确实有对比度增强效果。然后搜了下关键字&#xff0c;还真找到了已经有人这…

解决IDEA Maven编译时@spring.profiles.active@没有替换成具体环境变量的问题

如果不加filtering true&#xff0c;编译后的文件还是 spring.profiles.active 编译前的application.yml 编译后的application.yml【环境变量没有改变】 解决方案 找到 SpringBoot 启动类所在的pom.xml&#xff0c;在 resources 增加 filtering true&#xff0c;然后重新…

记参加一次数学建模

题目请到全国大学生数学建模竞赛下载查看。 注&#xff1a;过程更新了很多文件&#xff0c;所有这里贴上的有些内容不是最新的&#xff08;而是草稿&#xff09;。 注&#xff1a;我们队伍并没有获奖&#xff0c;文章内容仅供一乐。 从这次比赛&#xff0c;给出以下赛前建议 …

Maven使用详解:Maven的概述(二)

一、核心定义与功能 Maven是由Apache软件基金会开发的开源项目管理工具&#xff0c;专为Java项目设计&#xff0c;主要用于自动化构建、依赖管理和项目标准化。其核心功能包括&#xff1a; 依赖管理&#xff1a;通过pom.xml文件声明依赖库&#xff0c;自动从中央仓库下载并管…

新型智慧园区技术架构深度解析:数字孪生与零碳科技的融合实践

&#x1f3ed;在杭州亚运村零碳园区&#xff0c;光伏板与氢燃料大巴构成的能源网络&#xff0c;正通过数字孪生技术实现智能调度。这不仅是格力电器与龙源电力在新能源领域的创新实践&#xff0c;更是智慧园区4.0时代的标杆案例。当AI算法开始接管能源调度&#xff0c;当BIM建模…