AI系统-20AI芯片ISP视觉系统介绍

news2026/3/30 7:57:10
人有五感眼睛、耳朵、鼻子、舌头和皮肤。 这些器官中的专门细胞和组织会接收原始刺激并将其转化为神经系统可以使用的信号。 神经将信号传递到大脑大脑将其解释为影像视觉、声音听觉、气味嗅觉、味道味觉和触感触觉。但是对于机器则不局限于这五种感官只要能造出来传感器可以转化为电信号都可以但是最终人类要使用还是必须转化为人类的五种感官去接收其中五感最重要的就是视觉。由于人使用视觉非常的多那么基于视觉的智能人类天然的拥有人类的行为很多受视觉的影响所以造机器的时候给机器按一双眼睛来模拟人类的智能是刻不容缓。在手机、汽车、机器人都会有摄像头搭配上AI算法就可以实现智能例如自动驾驶、自主干家务等。那么其中的技术原理例如摄像头怎么把光信号变成电信号电信号又怎么还原成图片电信号数据化怎么给芯片去处理等问题本文将深入浅出的进行介绍。1. 摄像机工作原理介绍1.1 相机成像整体流程图像传感器SENSOR是一种半导体芯片其表面包含有几十万到几百万的光电二极管。光电二极管受到光照射时就会产生电荷。目前的 SENSOR 类型有两种1.CCDCharge Couple Device)电荷耦合器件它是目前高像素类 sensor 中比较成熟的成像器件是以一行为单位的电流信号。2.CMOSComplementary Metal Oxide Semiconductor互补金属氧化物半导体。CMOS的信号是以点为单位的电荷信号更为敏感速度也更快更为省电上图中少画了ISPImage Signal Processing其实相机单纯的RAM 数据人类看是失真的需要ISP进行处理后续会详细介绍ISP会修复哪些相机的缺陷。DSP 控制芯片的作用是将感光芯片获取的数据及时快速地传到 baseband 中并刷新感光芯片因此控制芯片的好坏直接决定画面品质比如色彩饱和度、清晰度与流畅度。这个是相机使用我们在AI SoC中数据是不需要显示的直接就输出给NPU去进行运算了。下面一个图更加专业的说明了ISP的位置作用1.2 sensor原理我们都知道彩色是RGB三原色组成的屏幕显示就是RGB三原色例如把一个RGB格式的图片显示到屏幕上就是点亮屏幕上对应RGB位置的亮点就可以。这是显示的一个过程但是这个RGB格式的图片怎么得到首先就是捕捉RGB三原色的传感器sensorsensor由密密麻麻排列的收集光线的光腔组成如上图的阵列。光腔会把光信号的强弱转化为电信号的值一个光腔只能产生一个电信号值那就让其只接收RGB中的一种光光腔上面用滤光片挡住其他光就可以了。光腔的排列如上图也叫“拜耳阵列”。这样就可以抓取每行的RGB颜色了这样的数据称为RAW Data。然后再转换成RGB格式不就可以了理想很美好但是现实很打脸。反常作妖的东西我们拆开来一一介绍并且ISP就是镇妖神器。2. ISP功能介绍相机看到的转化为人类看的图片就是ISPImage Signal Processing要干的活可以说都是些无厘头的脏活累活。具体就是相机看到的图片有如下问题Bayer马赛克、黑电平补偿 black level compensation、镜头矫正lens shading correction、坏像素矫正bad pixel correction、颜色插值 demosaic、Bayer 噪声去除、 白平衡AWB 矫正、 色彩矫正color correction、gamma 矫正、色彩空间转换RGB 转换为 YUV、在YUV 色彩空间上彩噪去除与边缘加强、色彩与对比度加强中间还要进行自动曝光控制等 这些都需要ISP去处理然后输出 YUV或者RGB 格式的数据 再通过 I/O 接口传输到 CPU 中处理。要实现上面说的功能实现上有软件和硬件部分部分算法使用硬件实现并且有核可以运行软件固件。如上图ISP这个子系统里面就有CPU和外设并且可以集成到SoC中去或者其本身就是一个SoC芯片了。CPUCPU 即中央处理器可以运行 AF、LSC 等各种图像处理算法控制外围设备。现代的 ISP 内部的 CPU 一般都是 ARM Cortex-A 系列的例如 Cortex-A5、Cortex-A7。SUB IPSUB IP 是各种功能模块的通称对图像进行各自专业的处理。常见的 SUB IP 如 DIS、CSC、VRA 等。图像传输接口图像传输接口主要分两种并口 ITU 和串口 CSI。CSI 是 MIPI CSI的简称鉴于 MIPI CSI 的诸多优点在手机相机领域已经广泛使用 MIPI-CSI 接口传输图像数据和各种自定义数据。外置 ISP 一般包含 MIPI-CSIS 和 MIPI-CSIM 两个接口。内置 ISP 一般只需要 MIPI-CSIS 接口。通用外围设备通用外围设备指 I2C、SPI、PWM、UART、WATCHDOG 等。ISP 中包含 I2C 控制器用于读取 OTP 信息控制 VCM 等。对于外置 ISPISP 本身还是 I2C 从设备。AP 可以通过 I2C 控制 ISP 的工作模式获取其工作状态等。1.3 拜耳阵列首先拜耳阵列中包含的绿色传感器是红色或蓝色传感器的两倍。由于人眼对绿光比红光和蓝光更敏感因此每种原色不会获得总面积的同等比例。绿色像素的冗余会生成一个图像该图像看起来不那么嘈杂并且具有比每种颜色均等处理时所能完成的更精细的细节。这也解释了为什么绿色通道中的噪音比其他两种主要颜色要小得多常见图像噪声及产生原因高斯、泊松和椒盐噪声。例如上面这个原始场景图在相机sensor视角传感器原始获取数据直接显示如下放大如下里面还是三原色显示某一个点上的值强弱来决定这种颜色的强弱。到这里很明显这个相机看到的图片需要进行处理才能变为人类看到的自然界的镜像。这里人眼和sensor竟然看到的东西不一样太神奇了。一个问题就是到底谁看到的才是真实的应该是两者都看到了真实的世界只是表示方法不一样就像两种语言需要中间进行翻译。由此引出一个更深奥的问题哪种数据更适合AI训练目前都是按人类看的图片给AI进行训练的因为人类可以去判断图片是否正确还依赖人类。但是长远来说sensor直接获取的数据应该更加适合同样是机器的AI去计算这是一个趋势但需要大胆尝试可能已经超出人类正常的理解过程只能去靠分析看效果了。2.2 拜尔马赛克转换图像在将实际的景物转换为图像数据时 通常是将传感器分别接收红、 绿、 蓝三个分量的信息 然后将红、 绿、 蓝三个分量的信息合成彩色图像。 该方案需要三块滤镜 这样价格昂贵且不好制造 因为三块滤镜都必须保证每一个像素点都对齐。 通过在黑白 cmos 图像传感器的基础上 增加彩色滤波结构和彩色信息处理模块就可以获得图像的彩色信息 再对该彩色信息进行处理 就可以获得色彩逼真的彩色图像。通常把彩色图像传感器表面覆盖的滤波称为彩色滤波阵列Color Filter ArraysCFA。 目前最常用的滤镜阵列是棋盘格式的 已经有很多种类的 其中绝大多数的摄像产品采用的是原色贝尔模板彩色滤波阵列Bayer Pattern CFA。R、G、B 分别表示透红色、透绿色和透蓝色的滤镜阵列单元。由于人的视觉对绿色最为敏感所以在 Bayer CFA 中G分量是 R和B 的二倍在每个像素点上只能获取一种色彩分量的信息然后根据该色彩分量的信息通过插值算法得到全色彩图像。拜耳阵列直接获取的信息比较少需要原色阵列转换为包含每个像素全彩色信息的最终图像的过程。像素对某些波长组之间的光很敏感本质上是颜色不可知的。获取彩色图像的方法是在顶部放置一个滤镜通常是拜耳图案滤色镜然后对相邻像素的颜色进行插值。8 MP CMOS不会为每个像素感应红色绿色和蓝色而是为每个像素感应一种颜色然后ISP根据旁边的颜色猜测颜色。这就是所谓的去马赛克可能是ISP的主要工作并且有许多秘密的调解方法来计算此插值图像这估计是各个品牌相机的核心技术。当光线通过 Bayer型 CFAColor Filter Arrays 阵列之后 单色光线打在传感器上每个像素都为单色光从而理想的Bayer 图是一个较为昏暗的马赛克图。首先需要说明的就是demosaiced并不是和字面的意思一样是为了去除电影中的一些打马赛克的图像而是数字图像处理中用来从不完整的color samples插值生成完整的color samples的方法(因为bayer pattern看起来像一个个马赛克因此称为去马赛克)。在sensor端通常需要使用CFA滤镜来得到Bayer pattern而在后面的处理中需要把bayer pattern变成完整的RGB444(真彩色)图像。在ISP中需要有这么一个模块来做。在传统的ISP中有很多算法可以来做这个插值包括最近邻域法bilinear 插值cubic 插值等。2.3 镜头的几何变形由于镜头本身的物理性质 造成图像四周亮度相对中心亮度逐渐降低以及由于图像光照在透过镜头照射到 pixel 上时边角处的焦点夹角大于中心焦点夹角造成边角失光。表现在图像上的效果就是亮度从图像中心到四周逐渐衰减 且离图像中心越远亮度越暗。 为了补偿四周的亮度 需要进行 Lens Shading 的矫正。Lens Shading 的矫正的方法是根据一定的算法计算每个像素对应的亮度矫正值从而补偿周边衰减的亮度。矫正方法有二次项矫正、 四次项矫正。2.4 镜头渐晕Flare offset光学上称Flare也叫stray light,耀斑补偿。镜片的表面反射或镜筒、反光镜组的内面所引起的反射光到达底面后造成画面整体或一部份产生了雾蒙降低了图像的鲜锐度。镜片的镀膜及内面防反射处理的加强固然可以大幅度地减少光斑但被摄体的状况并不相同不可能完全消除。2.5 曝光控制曝光不足2.6 黑电平校正BLCBlack Level Correction黑电平校正。所谓黑电平就是在DNP下将曝光时间和增益都调到最小时拍摄图片的亮度值理想情况下应该是0但是实际中因为sensor暗电流作用全黑像素值大于0。这一个值在后面可能会受到AWBGainCCMGamma的影响。物理器件不可能是理想的 由于杂质、 受热等其他原因的影响 即使没有光照射到象素象素单元也会产生电荷 这些电荷产生了暗电流。 而且 暗电流与光照产生的电荷很难进行区分。Black Level 是用来定义图像数据为0时对应的信号电平。由于暗电流的影响 传感器出来的实际原始数据并不是我们需要的黑平衡数据不为0。所以为减少暗电流对图像信号的影响可以采用的有效的方法是从已获得的图像信号中减去参考暗电流信号。一般情况下 在传感器中实际像素要比有效像素多 如下图所示 像素区头几行作为不感光区 实际上这部分区域也做了RGB 的 color filter用于自动黑电平校正其平均值作为校正值 然后在下面区域的像素都减去此矫正值那么就可以将黑电平矫正过来了。做了black level 矫正与没做black level 矫正的对比没做black level矫正的图片会比较亮影响图像的对比度。2.7 图像噪音指的是图像中的杂点干扰表现为图像中有固定的彩色杂点。使用 cmos sensor获取图像光照程度和传感器问题是生成图像中大量噪声的主要因素。同时 当信号经过ADC 时 又会引入其他一些噪声。 这些噪声会使图像整体变得模糊 而且丢失很多细节 所以需要对图像进行去噪处理空间去噪传统的方法有均值滤波、 高斯滤波等。但是 一般的高斯滤波在进行采样时主要考虑了像素间的空间距离关系 并没有考虑像素值之间的相似程度 因此这样得到的模糊结果通常是整张图片一团模糊。 所以 一般采用非线性去噪算法 例如双边滤波器 在采样时不仅考虑像素在空间距离上的关系 同时加入了像素间的相似程度考虑 因而可以保持原始图像的大体分块 进而保持边缘。固定模式噪声。由于CMOS每个感光二极体旁都搭配一个ADC 放大器如果以百万像素计那么就需要百万个以上的 ADC 放大器但是每个像素结构中的光电二极管的尺寸、掺杂浓度、生产过程中的沾污以及MOS场效应管的参数的偏差等都会造成像素输出信号的变化。对于给定的单个像素它是固定的。通常消除固定模式噪声采用“双采样降噪”方法这是CMOS 感光器件特有的一种降噪方式。在光线较暗的环境下使用时画面会有明显的噪声这时通过对景物进行两次不同曝光率和敏感度的采样然后将两次采样的结果进行综合处理就可以有效解决低照度下的图像噪声问题。2.8 白平衡处理技术(AWB)AWBAuto White Balance 自动白平衡。解决环境光不同色温导致整幅图片偏色的情况。白平衡指不管在任何光源下都能将白色物体还原为白色。白平衡是描述显示器或相机中红、绿、蓝三基色混合生成后白色精确度的一项指标。色温表示光谱成份光的颜色。色温低表示长波光成分多。当色温改变时光源中三基色红、绿、蓝的比例会发生变化需要调节三基色的比例来达到彩色的平衡这就是白平衡调节的实际。图象传感器的图象数据被读取后系统将对其进行针对镜头的边缘畸变的运算修正然后经过坏像处理后被系统送进去进行白平衡处理在不同的环境光照下人类的眼睛可以把一些“白”色的物体都看成白色是因为人眼进行了修正。但是SENSOR没有这种功能因此需要对SENSOR输出的信号进行一定的修正这就是白平衡处理技术。白平衡的基本原理是在任意环境下 把白色物体还原成白色物体 也就是通过找到图像中的白块 然后调整R/G/B 的比例 如下关系R′R∗RGainR′R∗RGainG′G∗GGainG′G∗GGainB′B∗BGainB′B∗BGainR′G′B′R′G′B′AWB 算法通常包括的步骤如下(1)色温统计 根据图像统计出色温(2)计算通道增益 计算出R 和B 通道的增益(3)进行偏色的矫正 根据给出的增益 算出偏色图像的矫正。2.9 坏点矫正 BPC(Bad Pixel Correction)坏点校正/坏点检测。相机中成像坏点一般是白色或者黑色的点和周围像素点的差异明显。a.坏点坏点为全黑环境下输出图像中的白点高亮环境下输出图像中的黑点。b.坏点修复方法一般情况下 RGB 信号应与景物亮度呈线性响应关系 但由于 Senor 部分 pixel 不良导致输出的信号不正常 出现白点或黑点。坏点修复方法通常有两种 一种是自动检测坏点并自动修复 另一种是建立坏点像素链表进行固定位置的坏像素点修复 这种方式是 OTP 的方式。2.10 Color Correction颜色矫正由于人类眼睛可见光的频谱响应度和半导体传感器频谱响应度之间存在差别还有透镜等的影响 得到的RGB 值颜色会存在偏差 因此必须对颜色进行校正 通常的做法是通过一个3x3 的颜色变化矩阵来进行颜色矫正。2.11 Gamma Correction伽马矫正人眼对外界光源的感光值与输入光强不是呈线性关系的 而是呈指数型关系的。 在低照度下人眼更容易分辨出亮度的变化 随着照度的增加人眼不易分辨出亮度的变化。而摄像机感光与输入光强呈线性关系 为方便人眼辨识图像 需要将摄像机采集的图像进行gamma 矫正。Gamma 矫正是对输入图像灰度值进行的非线性操作 使输出图像灰度值与输入图像灰度值呈指数关系out Vin ^ gamma这个指数就是 gamma 横坐标是输入灰度值 纵坐标是输出灰度值 蓝色曲线是 gamma 值小于 1 时的输入输出关系 红色曲线是 gamma 值大于 1 时的输入输出关系。 可以观察到 当 gamma 值小于 1 时(蓝色曲线) 图像的整体亮度值得到提升 同时低灰度处的对比度得到增加 更利于分辩低灰度值时的图像细节。2.12 色彩空间转换YUV 是一种基本色彩空间 人眼对亮度改变的敏感性远比对色彩变化大很多 因此 对于人眼而言 亮度分量Y 要比色度分量U、V 重要得多。 所以 可以适当地抛弃部分U、V分量 达到压缩数据的目的。 YCbCr 其实是YUV 经过缩放和偏移的改动版Y 表示亮度Cr、Cb 表示色彩的色差RGB信号亮度值之间的差异分别是红色和蓝色的分量。 在YUV 家族中YCbCr 是在计算机系统中应用最多的成员 其应用领域很广泛JPEG、MPEG 均采用此格式。 一般人们所讲的YUV 大多是指YCbCr。YCbCr有许多取样格式如 4∶4∶44∶2∶2 4∶1∶1和 4∶2∶0。Cb反映的是RGB输入信号蓝色部分与RGB信号亮度值之间的差异。Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异。色彩空间转换这个模块 是将RGB 转换为 YUV444 然后在YUV 色彩空间上进行后续的彩色噪声去除、 边缘增强等 也为后续输出转换为jpeg 图片提供方便。2.13 Color Denoise为了抑制图像的彩色噪声 一般采用低通滤波器进行处理。 例如使用M×N的高斯低通滤波器在色度通道上进行处理。阴影校正。Lens Shading是由于镜片从边缘到中心对入射光线的反射程度不同造成拍摄均匀亮度的画面图像从中心到边缘亮度不均匀逐渐变暗。Color Shading是由于Lens从中心到边缘其R、G、B变暗的速率不一样总体表现就是Gb/Gr像素值差异较大两个像素之间有细微纹理。找出shading的distribution然后用最小的模型来建模将其导入2.14 图形压缩上面只是ISP处理的部分问题看完你可能要说ISP干的都是些什么事就净给sensor硬件的缺陷擦屁股了这点也看出来我们人类的眼睛相对sensor还是高级了不少多少年的进化不是白给的。3. ISP架构3.1 ISP构成CPUCPU 即中央处理器可以运行 AF、LSC 等各种图像处理算法控制外围设备。现代的 ISP 内部的 CPU 一般都是 ARM Cortex-A 系列的例如 Cortex-A5、Cortex-A7。SUB IPSUB IP 是各种功能模块的通称对图像进行各自专业的处理。常见的 SUB IP 如 DIS、CSC、VRA 等。图像传输接口图像传输接口主要分两种并口 ITU 和串口 CSI。CSI 是 MIPI CSI 的简称鉴于 MIPI CSI 的诸多优点在手机相机领域已经广泛使用 MIPI-CSI 接口传输图像数据和各种自定义数据。外置 ISP 一般包含 MIPI-CSIS 和 MIPI-CSIM 两个接口。内置 ISP 一般只需要 MIPI-CSIS 接口。通用外围设备通用外围设备指 I2C、SPI、PWM、UART、WATCHDOG 等。ISP 中包含 I2C 控制器用于读取 OTP 信息控制 VCM 等。对于外置 ISPISP 本身还是 I2C 从设备。AP 可以通过 I2C 控制 ISP 的工作模式获取其工作状态等。实现实例TI TMS320DM270ISP算法处理流程3.2 ISP固件lens 将光信号投射到sensor 的感光区域后sensor 经过光电转换将Bayer 格式的原始图像送给ISPISP 经过算法处理输出RGB空间域的图像给后端的视频采集单元。在这个过程中ISP通过运行在其上的firmware固件对ISP逻辑从而对lens 和sensor 进行相应控制进而完成自动光圈、自动曝光、自动白平衡等功能。其中firmware的运转靠视频采集单元的中断驱动。PQ Tools 工具通过网口或者串口完成对ISP 的在线图像质量调节。 ISP 由ISP逻辑及运行在其上的Firmware组成逻辑单元除了完成一部分算法处理外还可以统计出当前图像的实时信息。Firmware 通过获取ISP 逻辑的图像统计信息重新计算反馈控制lens、sensor 和ISP 逻辑以达到自动调节图像质量的目的。ISP 的Firmware包含三部分一部分是ISP 控制单元和基础算法库一部分是AE/AWB/AF 算法库一部分是sensor 库。Firmware 设计的基本思想是单独提供3A算法库由ISP控制单元调度基础算法库和3A 算法库同时sensor 库分别向ISP 基础算法库和3A 算法库注册函数回调以实现差异化的sensor 适配。ISP firmware 架构如图所示。不同的sensor 都以回调函数的形式向ISP 算法库注册控制函数。ISP 控制单元调度基础算法库和3A 算法库时将通过这些回调函数获取初始化参数并控制sensor如调节曝光时间、模拟增益、数字增益控制lens 步进聚焦或旋转光圈等。AP对ISP的操控方式CPU处理器包括AP、BP、CP。 BP基带处理器、AP应用处理器、CP多媒体加速器。这里所说的控制方式是AP 对 ISP 的操控方式 。I2C/SPI这一般是外置 ISP 的做法。SPI 一般用于下载固件、I2C 一般用于寄存器控制。在内核的 ISP 驱动中外置 ISP 一般是实现为 I2C 设备然后封装成 V4L2-SUBDEV。MEM MAP这一般是内置 ISP 的做法。将 ISP 内部的寄存器地址空间映射到内核地址空间MEM SHARE这也是内置 ISP 的做法。AP 这边分配内存然后将内存地址传给 ISP二者实际上共享同一块内存。因此 AP 对这段共享内存的操作会实时反馈到 ISP 端。4. ISP集成入AI SoC在AI SoC芯片中可以说视觉智能是必不可少的特别是汽车和机器人ISP这个IP必然要集成到SoC内部作为一个子系统。另外在AI SoC内部相机的高清数据一般需要高速的MIPI接口进入SoC芯片内部然后ISP就对数据进行处理之后提供给NPU去进行AI计算。所以AI SoC需要集成MIPI或者其他接口的驱动控制器。且相机的数量越多控制器需要集成的越多。4.1 MIPI接口移动产业处理器接口(Mobile Industry ProcessorinterfaceMIPI)常见的智能手机上的摄像头是MIPI接口CSI是相机串行接口CMOS Sensor Interface的简称。MIPI总线速率lvds接口耦合走线必须差分等长并且需要保护故对PCB走线以及阻抗控制要求高一点一般来讲差分阻抗要求在85欧姆~125欧姆之间MIPI是LVDS低压差分串口只需要要CLKP/N、DATAP/N——最大支持4-lane一般2-lane即可。MIPI接口比DVP的接口信号线少由于是低压差分信号产生的干扰小抗干扰能力也强。DVP接口在信号完整性方面受限制速率也受限制。500W还可以勉强用DVP800W及以上都采用MIPI接口。所以高清摄像头我们都选用MIPI接口 。4.2 自动驾驶对ISP的需求ISP作为视觉处理芯片核心其主要功能包括AE自动曝光、AF自动对焦、AWB自动白平衡、去除图像噪声、LSC(Lens Shading Correction)、BPC(Bad PixelCorrection)最后把Raw Data 保存起来传给videocodec 或CV等。通过ISP 可以得到更好的图像效果因此在自动驾驶汽车上对ISP的要求很高比如开始集成双通道甚至三通道的ISP。一般来说ISP 是集成在AP 里面对很多AP 芯片厂商来说这是差异化竞争的关键部分但是随着需求的变化也出现了独立的ISP主要原因是可以更灵活的配置同时弥补及配合AP 芯片内ISP 功能的不足。图像/视频处理单元SOC芯片上的图像处理单元主要包括几个部分功能数字图像信号处理、图像分割Pyramid、图像拼接Stitch、图像渲染GDC以及视频编解码功能。ISP模块接收感光元件Sensor的原始信号数据并处理图像传感器输出的图像信号对图像质量起着非常重要的作用。ISP内部包含多个图像算法处理模块其中主要包含如下几种通过扣暗电流去掉底电流噪声通过线性化解决数据非线性问题解决镜头带来的亮度衰减与颜色变化通过去坏点剔除sensor中坏点数据通过数字图像滤波进行图像去噪通过感光半导体处理将原始环境光源数据转为RGB数据自动白平衡自动对焦自动曝光亮度映射曲线优化局部与整体对比度此外ISP的处理过程还包括如下几个部分即旋转角度变化锐化调整锐度缩放放大缩小色彩空间转换转换到不同色彩空间进处理颜色增强可选调整颜色肤色增强可选优化肤色表现等。图像分割实在神经网络处理逻辑之前进行简单的场景分割将环境中明显可表达的语义进行分别输出。图像拼接是针对有一定overlap的图像进行全场景范围拼接拼接的结果主要用于流媒体显示。此外图像处理单元一版还会额外搭载一些视频编解码核一般可应用HEVC的方式进行编解码。更为强大的图像/视频处理单元会有能力进行3D图像渲染。这一部分可能会用到GPU的相关计算能力。这里需要说明一下的是在我们设计域控制器的时候很多情况下我们选择的SOC芯片是不具备足够的3D渲染能力的这时从整个先进的显示方案需求出发我们就需要采用额外的处理器进行渲染。这里有两种方案其一是采用驾驶域控制器的芯片扩充方案即在自动驾驶域控制器AI芯片外围在增加相应的GPU芯片进行集成两者可通过PCIe进行图像传输。其二是采用座舱域控制器芯片扩充方案即在智能座舱控制器芯片中集成GPU处理能力的芯片直接做渲染和显示。特斯拉的自研模式很有价值可以垂直整合做到更高效的利用软硬件资源来实现更先进的技术和性能而且不受外部很多规范规则限制。摄像头就传感器收集视频画面再进行后续图像分割、物体分类、目标跟踪、世界模型、多传感器融合、在线标定、视觉SLAM、ISP 等一系列步骤进行匹配与深度学习4.3 ISP演进ISP的作用就是把相机看到的失真不好的图片还原成人眼真实看到的清晰的图片这就需要一些算法但是这些算法都是固定的。那能不能利用AI这个武器去让图片变清晰答案是肯定的而且很好用特别针对特殊的例子固定算法直接失效例如忽明忽暗的场景。AI的做法就是把相机看到的图片搞一个图片集进行神经网络训练让跟人眼看到的图片进行标记训练尽量的贴近这不是固定的运算而是根据经验进行局部修复替换全新的思路。甚至手机可以拍照月亮非常清晰因为算法识别到你在拍月亮那直接拿数据库里面一个清晰的月亮给你换上直接搞定。但是有一个问题这里ISP处理的数据要给NPU进行AI运算的自己先用NPU给运算了一下那是不是直接把RAW Data数据给NPU得了把ISP自己革命革没了。当前应该AI算法还不足完成ISP所有的算法或者说直接上AI耗费资源太多有固定的算法先处理下快ISP轻量化而且把进入NPU的数据缩小有利于大规模的AI计算。4.4 视觉AI演进回到之前的问题相机看到的图片和人类看到的图片那个更适合AI神经网络去运算给出判断如果是相机的硬件缺陷那肯定是需要进行弥补的不然信息会造成缺失。如果在同样信息的条件下先转换为人类看的图片再给AI去训练AI其实根本不理解人人类看的图片同样是直接固定的算法去给出判断结果。这点看ISP先转换为人类看的图片完全是多此一举但是这样做的好处就是人类可以去判断监控处理的过程。不然完全是一个黑盒人类也直接看不懂那些二进制表示啊。ISP不直接转换为人类看清的图片那么只用保证信息的完整性很多色彩和平衡的计算都不需要了这样ISP更加的简化也是好处。为了保证信息完整性特别是摄像头有很多缺陷可以多个摄像头一块信息对比叠加就像人有两个眼睛。这就符合AI算法只需要特征把两个或者多个摄像头拍摄的图片叠加特征会更好的保留。参考blog.csdn.net/qq_28258885…blog.csdn.net/u010783226/…zhuanlan.zhihu.com/p/457952229blog.csdn.net/lz0499/arti…zhuanlan.zhihu.com/p/142640955blog.csdn.net/qq_37692302…mp.weixin.qq.com/s/nxKCBf-5x…后记对于非相机研发来说这部分ISP入门知识会挺有趣通过视觉的处理原理可以延伸到人类其他的感官处理也是同样的道理sensor抓取信息转换为电信号再各种算法处理还原人类判断信息正确后给AI进行运算给出智能的判断。“啥都懂一点啥都不精通干啥都能干干啥啥不是专业入门劝退堪称程序员杂家”。欢迎各位有自己公众号的留言申请转载纯干货持续更新欢迎分享给朋友、点赞、收藏、在看、划线和评论交流公众号“那路谈OS与SoC嵌入式软件”欢迎关注个人文章汇总https://thatway1989.github.io

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2464280.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…