【基础复习笔记】计算机视觉

一、计算机视觉基础

1. 卷积神经网络原理

2. 目标检测系列

二、算法与模型实现

1. 在PyTorch/TensorFlow中实现自定义损失函数或网络层的步骤是什么？

2. 如何设计一个轻量级模型用于移动端的人脸识别？

3. 描述使用过的一种注意力机制（如SE Block、Transformer）及其应用场景。

4. 如何优化模型推理速度？是否使用过量化、剪枝或蒸馏技术？

5. 解释数据增强在图像任务中的作用，并举出5种以上增强方法。

三、工程能力与编程

1. 用C++实现一个快速图像边缘检测算法（如Sobel算子）。

2. Python中多线程与多进程的区别？如何解决GIL问题？

3. 如何部署一个深度学习模型到生产环境？

4. 使用Shell脚本批量处理图像并生成特征文件的思路。

四、实际应用思路

1. 如果实际场景中模型准确率高但召回率低，如何调整策略？

2. 在跨摄像头人员跟踪任务中，如何处理遮挡和光线变化？

五、前沿技术与研究

1. 最近关注的计算机视觉论文是什么？其创新点对你有何启发？

2. Vision Transformer与传统CNN相比有哪些优势和局限？

3. 如何将自监督学习应用到图像搜索任务中？

4. 对比学习（Contrastive Learning）在无监督任务中的作用。

5. 对多模态模型（如图像+文本）在工业界的应用有何看法？

6. Diffusion Model如何在CV中应用？

Diffusion Model在CV中的六大应用方向

一、计算机视觉基础

1. 卷积神经网络原理

① 解释卷积神经网络（CNN）的工作原理及其在图像处理中的优势。

原理：通过卷积核滑动提取局部特征（如边缘、纹理），池化层降低空间维度，全连接层分类。

优势：局部连接（减少参数量）、权值共享（平移不变性）、层次化特征提取（低级→高级语义）。
示例：在ResNet中，残差块缓解梯度消失，使网络更深。

补充：

池化操作：降采样 + 平滑 ⇒ 降低计算、增强鲁棒

激活函数（ReLU/Leaky ReLU、Swish 等）提升非线性表达

② 列举常见的图像分割方法，并比较它们的优缺点。

例如Mask R-CNN 和 U-Net

Mask R-CNN：基于Faster R-CNN，增加掩膜分支，适合实例分割（如区分不同物体个体）。

U-Net：编码-解码结构，跳跃连接保留细节，适合医学图像分割（小样本高精度）。
优化场景：U-Net在数据少时表现更好，Mask R-CNN更适合复杂场景多目标分割。

③ 如何处理类别不均衡问题（如人脸识别中不同人种数据量差异）？

数据层面：过采样少数类（如SMOTE）、欠采样多数类。

损失函数：加权交叉熵（Weighted Cross-Entropy）、Focal Loss（抑制易分类样本权重）。
示例：在人脸识别中，对罕见人种数据增强（旋转、光照变换）并提高其损失权重。

④ 什么是非极大值抑制（NMS）？如何优化其计算效率？

NMS作用：去除冗余检测框（如YOLO中同一目标多个预测框）。
优化方法：Soft-NMS（加权降低重叠框分数）、GPU并行加速、IoU阈值动态调整。

示例代码：

def nms(boxes, scores, threshold):
    """非极大值抑制（Non-Maximum Suppression, NMS）
    Args:
        boxes (np.array): 边界框坐标，形状为 [N, 4]（格式通常为x1,y1,x2,y2）
        scores (np.array): 边界框对应的置信度得分，形状为 [N]
        threshold (float): IoU阈值，用于判断是否抑制重叠框
    Returns:
        keep (list): 保留的边界框索引列表
    """
    keep = []
    # 按置信度得分从高到低排序，获得索引（argsort默认升序，[::-1]反转后为降序）
    order = scores.argsort()[::-1]
    
    while order.size > 0:
        # 取当前置信度最高的边界框索引
        i = order[0]
        keep.append(i)
        
        # 计算当前框与剩余所有框的IoU（注意：bbox_iou需要提前实现）
        ious = bbox_iou(boxes[i], boxes[order[1:]])  # 比较当前框 vs 后续所有框
        
        # 找到IoU小于等于阈值的框索引（保留这些框，抑制重叠框）
        # np.where返回满足条件的索引，[0]是因为返回的是元组格式
        idx = np.where(ious <= threshold)[0]
        
        # 更新待处理框列表：
        # 1. order[1:]跳过当前已处理的框
        # 2. idx+1 是因为order[1:]的索引比原order小1，需映射回原order的索引位置
        order = order[idx + 1]
    
    return keep

⑤ 如何评估目标检测模型的性能？mAP的计算逻辑是什么？

性能评估：精确率、召回率、F1分数、交并比、mAP

mAP的计算逻辑：先计算每个类别的AP（Average Precision），再对所有类别的AP取平均

精确率（Precision）

所有预测为正样本的检测框中，实际为正样本的比例。

意义：衡量模型预测的“准确性”（避免误检）。

召回率（Recall）

所有真实正样本中，被正确检测出的比例。

意义：衡量模型检测的“全面性”（避免漏检）。

F1分数（F1-Score）

精确率和召回率的调和平均值，平衡两者的重要性。

交并比（IoU, Intersection over Union）

预测框与真实框的重叠面积占两者并集面积的比例。

作用：判断检测框是否有效（通常阈值设为0.5）。

平均精度均值（mAP, mean Average Precision）

核心指标：综合所有类别和不同召回率下的平均精度，是目标检测领域的“金标准”。

⑥ FCN、U-Net、DeepLabV3+ 的核心思想差异？

核心思想差异

FCN：全卷积 + 上采样 → 粗分割

U-Net：编码-解码 + 跳跃连接 → 更细节保留

DeepLabV3+：空洞卷积（Atrous） + ASPP → 大感受野

2. 目标检测系列

① Faster R-CNN、YOLO、SSD 各自的网络结构和优缺点？

特性	Faster R-CNN	SSD	YOLOv5/YOLOv8
检测流程	two-stage（提议生成 + 分类回归）	one-stage，多尺度特征图	one-stage，端到端
精度	高，但速度较慢	平衡	更快，适合实时
小目标表现	较好	依赖多尺度设计	anchor-free 版本效果提升

② 什么是自监督学习？

自监督学习（Self-Supervised Learning，简称 SSL）是一种介于有监督学习和无监督学习之间的学习范式。它的核心思想是在“无标签”数据上自动构造“伪标签”（pretext task），让模型先通过解决这些辅助任务来学习数据的内在表示（representation），再将学到的表示用于下游的监督任务（如分类、检测、分割等），通常能显著提升数据利用效率，减少对人工标注的依赖。

核心思路

构造预训练任务（Pretext Task）

在没有人工标注的数据上，自动生成监督信号。例如：

图像旋转预测：随机将一张图像旋转 0°/90°/180°/270°，让网络预测旋转角度。

图像拼图（Jigsaw Puzzle）：将图像切成若干块打乱顺序，让网络恢复原始拼图布局。

像素填充（Inpainting）：随机遮挡图像一部分，让网络去重建被遮挡区域。

学习通用特征

通过完成预训练任务，网络在浅层到深层蒸馏出了图像的纹理、边缘、结构、语义等多层次信息。

由于预训练任务本身不依赖人工标签，海量“无标签”图像都可以拿来用。

迁移到下游任务

把预训练好的网络作为“特征提取器”或初始化权重，再用较少量的有标签数据进行微调（fine-tuning）。

实验表明，这种方式在数据稀缺或标签昂贵的场景下，往往能超越从头训练或仅用无监督预训练的方法。

典型方法

对比学习（Contrastive Learning）

SimCLR：对同一张图像做两种不同的数据增强（crop、color-jitter、Gaussian blur 等），生成一对“正样本”；其它图像增强结果构成“负样本”。通过 InfoNCE 损失最大化正样本特征相似度、最小化负样本相似度。

MoCo：维护一个动态更新的“负样本队列”（memory bank），并使用动量更新（momentum update）的方式来稳定负样本表示。

生成式方法（Generative Pretext）

Context Encoder：遮挡图像中心块，让网络生成该区域的像素；等同于一种条件生成对抗网络（cGAN）。

Auto-Encoder / Masked Autoencoder (MAE)：随机遮掉图像的部分 Patch，模型通过 Transformer 或 Encoder-Decoder 架构去重建被遮掉的内容。

上下文预测（Context Prediction）

Jigsaw Puzzle：将图像网格切块并打乱顺序，网络要预测每块在原图中的位置。

有监督学习无监督学习自监督学习
数据需求大量带标签数据仅无标签数据仅无标签数据（自动生成伪标签）
学习目标直接优化下游任务（如分类）学习数据分布（如聚类、降维）先解决预训练任务，再迁移下游任务
应用优势精度高，但标签昂贵可用性广，但表示质量有限平衡两者：利用海量无标签，学到更有辨识力的表示

	有监督学习	无监督学习	自监督学习
数据需求	大量带标签数据	仅无标签数据	仅无标签数据（自动生成伪标签）
学习目标	直接优化下游任务（如分类）	学习数据分布（如聚类、降维）	先解决预训练任务，再迁移下游任务
应用优势	精度高，但标签昂贵	可用性广，但表示质量有限	平衡两者：利用海量无标签，学到更有辨识力的表示

二、算法与模型实现

1. 在PyTorch/TensorFlow中实现自定义损失函数或网络层的步骤是什么？

① PyTorch自定义损失函数

继承nn.Module，重写forward方法。

示例代码：

class DiceLoss(nn.Module):
    def __init__(self):
        super().__init__()
    def forward(self, pred, target):
        smooth = 1e-6
        pred = pred.view(-1)
        target = target.view(-1)
        intersection = (pred * target).sum()
        return 1 - (2*intersection + smooth)/(pred.sum() + target.sum() + smooth)

② TensorFlow自定义损失函数

方法1：函数式定义（简单场景）

适用于无复杂逻辑的损失函数，直接使用TensorFlow运算。

import tensorflow as tf

def custom_mse_loss(y_true, y_pred):
    """自定义均方误差损失，对高误差样本加权"""
    error = y_true - y_pred
    # 对误差绝对值大于1的样本赋予2倍权重
    weights = tf.where(tf.abs(error) > 1.0, 2.0, 1.0)
    return tf.reduce_mean(weights * tf.square(error))

# 使用示例
model.compile(optimizer='adam', loss=custom_mse_loss)

方法2：继承tf.keras.losses.Loss类（推荐）

需处理样本加权、多任务损失等复杂场景时使用。

class FocalLoss(tf.keras.losses.Loss):
    def __init__(self, alpha=0.25, gamma=2.0, name="focal_loss"):
        super().__init__(name=name)
        self.alpha = alpha
        self.gamma = gamma

    def call(self, y_true, y_pred):
        # 计算交叉熵
        ce = tf.nn.sigmoid_cross_entropy_with_logits(labels=y_true, logits=y_pred)
        # 计算概率值
        p = tf.sigmoid(y_pred)
        # 计算调制因子
        modulating_factor = (1.0 - p)**self.gamma * y_true + p**self.gamma * (1.0 - y_true)
        # 组合损失
        loss = self.alpha * modulating_factor * ce
        return tf.reduce_mean(loss)

# 使用示例
model.compile(optimizer='adam', loss=FocalLoss(alpha=0.25, gamma=2))