论文阅读：Fast Color Segementation

news2026/2/19 1:43:09

Fast Color Segementation 发表于CVPR 2020，主要是对之前的一篇图像软分割的论文（参见：论文回顾：Unmixing-Based Soft Color Segmentation for Image Manipulation，Aksoy 2017）进行改进。

一、论文简介

[Aksoy 2017] 这篇论文假设每个图层的颜色服从一个正态分布，并通过优化的方法求解每个图层的均值，协方差矩阵，以及不透明度。总体上效率低下，难以满足实时性的需求，因此，本文通过深度学习的方法快速的预测半透明的图层。

先来看一下论文的teaser。输入：原始图像 + 调色板，输出：RGBA图层，应用主要就是图像重着色。

在这里插入图片描述

二、本文解决方案

本文给出的网络结构主要基于AutoEncoder结构，如下所示，主要包括3个模块：调色板提取（Palatte Seletion），不透明度预测（Alpha Layer Estimation）和 RGBA图层预测 Color Layer Estimation。
在这里插入图片描述

1）调色板提取

调色板提取主要通过K-means算法对图像聚类获取，K的数目是固定的。预测过程中，调色板的颜色也可由用户直接指定。

2）不透明度预测

使用U-net网络预测每一个图层的不透明度（每个图层任意像素位置均有一个不透明度）.
输入：原始图像 $I$ + 调色板 $U=\{u_1,u_2,...u_K\}$ 。
输出：K个跟原始图像尺寸相同的不透明度图层（单通道，取值位于[0,1]）， $A=\{\alpha_1,\alpha_2,...\alpha_K\}$ 。

在这里插入图片描述
通过归一化操作，使得图层在任意位置的取值位于[0,1]。为了使得重建误差尽可能小，这一部分的损失函数定义为：
$L_r = \sum_{p \in I}|\sum^K_{i=1}\alpha^p_iu_i-c^p|\tag 1$

其中， $p$ 表示图像中任意像素的位置， $\alpha^p_i$ 表示第 $i$ 个图层在 $p$ 点处的不透明度。 $\sum^K_{i=1}\alpha^p_iu_i$ 表示经多个图层重建的颜色， $c^p$ 表示输入图像在 $p$ 点处的颜色。

3）图层颜色微调

[Tan 2016] 使用凸包作为图像调色板，然后通过广义中心坐标插值算法计算的权重，可以很完美的重建输入图像。本质上是因为凸包在几何上具有很好的性质，即凸包内部的任意点可以被凸包顶点唯一的表示为凸包顶点的线性组合（凸组合），从而保证了精确的重建。然而本文使用聚类的算法提取的调色板颜色并不具备这样的性质，因此难以通过插值实现精确的重建。

为了实现精确的重建，本文进一步对调色板进行改进，对单色的调色板进行扰动，变成非单色的调色板。其实差不多就是[Aksoy 2017] 的思想，只不过[Aksoy 2017] 假设每一个图层的RGB服从正态分布，本文并没有这么强的约束。

这里使用U-net预测图层颜色的变化量。
输入：原始图像 + 调色板 + 上一步计算出的图层不透明度
输出：调色板颜色的变化量 $\triangle U = \{\triangle u_1,\triangle u_2,...\triangle u_K\}$
在这里插入图片描述
上图所示的：

RGB layers: $[U=\{u_1,u_2,...u_K\}] +[ \triangle U = \{\triangle u_1,\triangle u_2,...\triangle u_K\}]$ , 这样一来，调色板的颜色确实不再是单色。
Decomposed layers 其实就是三通道的 RGB layer + 单通道的不透明度，结果为四通道的RGBA 图层。