HyperSeg

Nirkin, Y., Wolf, L., & Hassner, T. (2021). HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4060-4069.

论文简介:

💡亮点:

  • 解码器中的 Meta block 模块,在模块中提出了 Dynamic Patch-wise Convolution(DPWConv);
  • Context head 也比较新颖。该模块的作用就是学习meta block所用的参数;即本论文的创新点:“Hypernetworks——使用一个网络为另一个网络生成权重”;
  • 网络的整体结构视为类 U-Net 结构(嵌套的U-Net);

Abstract

提出了一个新颖的、实时的、语义分割网络,其中编码器既编码又生成解码器的参数(权重)。 此外,为了允许最大的适应性,每个解码器块的权重在空间上都有变化。该网络由一个嵌套的 U-Net 组成,用于提取更高层次的上下文特征; 一个多头的权重生成模块;主网络由动态补丁式卷积(DPWConv)组成。

在 PASCAL VOC 2012(val. set.)、Cityscapes、CamVid 实现了SOTA 准确性与运行时间的折衷。

1 Introduction

本篇论文试图通过为网络提供额外的适应性的方式来提高性能。

使用元学习技术来增加这种适应性,通常被称为动态网络或超网络(dynamic networks or hypernetworks)。以前的方法所建议的超网络并不能完全捕捉到高分辨率图像的信号,因此很少用于生成 image-like maps。

本篇论文提供了一种新颖的编码器-解码器方法,其中编码器的主干是基于该领域的最新进展。编码信号通过内部U-Net映射到动态网络权重,而解码器则由具有空间变化权重的动态块组成。

采用了具有动态权重的局部连接层,方法非常的有效。运行时间/精度权衡见 Fig 1.

本论文的贡献总结为:

  • A new hypernetwork architecture that employs a UNet within a U-Net.(嵌套 U-Net)
  • Novel dynamic patch-wise convolution with weights that vary both per input and per spatial location.
  • SOTA accuracy vs. runtime trade-off on the major benchmarks of the field.

Hypernetworks

Hypernetwork 是为其他网络(通常被称为主网络)产生权重值的网络。我们发现,Hypernetworks 从未被用于语义分割领域。

Locally connected layers.

连接性遵循一种空间模式,类似于传统的卷积层,但没有权重共享。

在语义分割的背景下,我们是第一个提出将局部连接层与 Hypernetworks 结合起来。

Semantic segmentation.

FCN, 条件随机场(CRF)、U-Net、SPP、ASPP、Attention。

Real-time segmentation.

其目标是在准确性和计算量之间实现最佳权衡,重点是保持实时性能。网络架构通常由基于高效主干的编码器和相对较小的解码器组成。

SegNet,ENet,ICNet,GUNNet,SwiftNet。

深度可分离卷积,inverted residual blocks,BiSeNet,BiSeNetV2,TDNet。

3. Method

提出的模型涉及三个子网络:

  • Backbone (b):EfficientNet
  • context head (h):Figure 2 (c) for details
  • primary network(Decoder):multiple meta-block

三个网络的权重:θb、θh 和 θw,在推理过程中是固定的,并在训练过程中学习。而 θmi,即 decoder meta block mi 的权重,在推理时是动态预测的(不是常规的卷积,而是动态的、局部的卷积)。

Backbone:将输入图像 $I \in \mathbb{R}^{3 \times H \times W}$ 映射到组 5 组分辨率不同的特征图。

Context head:将最后一个特征图映射为一个信号 φ。信号输入w生成主网络元块的权重d。 请注意,这些权重在不同的空间位置是不同的(动态)。

最后,给定输入图像和特征图,F1,……,Fn,其相应的相同分辨率的位置编码 P0,……Pn,以及权重 θd,解码器 d 输出分割预测,$S \in \mathbb{R}^{C×H×W}$,其中 C 是语义分割任务中的类别数量。

整个网络是由以下一组方程定义:

3.1. The encoder and the hypernetwork

Backbone 提取不同分辨率特征图后,采用 1×1 卷积,为的是减少特征图的通道数量,以减小解码器的规模,

Context head 输出的通道数为输入的一半。 最底层的特征图被平均池化以提取最高级别的上下文,然后使用近邻插值将其上采样到之前的分辨率。在 h 的上采样路径中,在每一级,将特征图与相应的上采样特征图连接起来,然后是一个全连接层。

权重映射网络,w = [w0, … , wn],是 Hypernetworks 的一个关键部分,将 w 分成若干部分,并将这些部分附加到 Primary Network 块上,是比较有效的( Figure 2 (b))。将权重映射网络的各层w0, . . , wn, 的权重映射网络被嵌入到d的每个元块中。每个wi是与通道组1×1的卷积,见 Figure 3 (a)。

3.2 Decoder(Primary Network)

Decoder 包含 n+1 个 Meta-Block($m_0, …m_n$)。$m_0$ 对应输入图片,$m_i$ 对应特征图 $F_i$,每个块之后是双线性上采样并与下一个更高分辨率的特征图连接。

解码器 d 的权重不仅取决于输入图像,而且会在图像的不同区域之间变化。d 受益于知道像素的位置信息。 出于这个原因,我们通过额外的位置编码来增强输入图像和编码器的特征图。

每个 Meta-Block 基于 inverted residual block of MobileNetV2。Figure 3(a) 所示,包含一个点卷积 pw1,然后是深度卷积 dw,以及另一个没有激活函数的点卷积 pw2。

3.3. Dynamic patch-wise convolution

dynamic patchwise convolution (DPWConv):

4. Experimental results

三个数据集: PASCAL VOC 2012, Cityscapes, 和 CamVid.

评估指标:mIoU、FPS、GFLOP。

Batch size = 1 模拟实时推理。

$\theta^b$ 在 ImageNet 上预训练得到 ,$\theta^h, \theta^w$ 取随机的正态分布。采用 Adam Optimizer,学习率采用 polynomial learning rate scheduling。

Conclusion

我们提出将自动编码器与超网络结合起来,以完成语义分割的任务。在我们的方案中,超网络是由三个网络组成的:语义分割编码器的主干b、内部U-Net形式的上下文头h、以及多个权重映射头wi。解码器是一个多块解码器,其中每个块,di,实现局部连接的层。其结果是一种新型的U-Net,能够动态地、局部地适应输入,从而有可能使分割过程更好地适应输入图像。正如我们的实验所显示的,在这个竞争激烈的领域,我们的方法在多个基准上都超过了SotA方法。