HyperSeg

Nirkin, Y., Wolf, L., & Hassner, T. (2021). HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4060-4069.

论文简介：

CVPR 2021
https://arxiv.org/abs/2012.11582

💡亮点：

解码器中的 Meta block 模块，在模块中提出了 Dynamic Patch-wise Convolution(DPWConv)；
Context head 也比较新颖。该模块的作用就是学习meta block所用的参数；即本论文的创新点：“Hypernetworks——使用一个网络为另一个网络生成权重”；
网络的整体结构视为类 U-Net 结构（嵌套的U-Net）；

Abstract

提出了一个新颖的、实时的、语义分割网络，其中编码器既编码又生成解码器的参数（权重）。此外，为了允许最大的适应性，每个解码器块的权重在空间上都有变化。该网络由一个嵌套的 U-Net 组成，用于提取更高层次的上下文特征；一个多头的权重生成模块；主网络由动态补丁式卷积（DPWConv）组成。

在 PASCAL VOC 2012（val. set.）、Cityscapes、CamVid 实现了SOTA 准确性与运行时间的折衷。

1 Introduction

本篇论文试图通过为网络提供额外的适应性的方式来提高性能。

使用元学习技术来增加这种适应性，通常被称为动态网络或超网络（dynamic networks or hypernetworks）。以前的方法所建议的超网络并不能完全捕捉到高分辨率图像的信号，因此很少用于生成 image-like maps。

本篇论文提供了一种新颖的编码器-解码器方法，其中编码器的主干是基于该领域的最新进展。编码信号通过内部U-Net映射到动态网络权重，而解码器则由具有空间变化权重的动态块组成。

采用了具有动态权重的局部连接层，方法非常的有效。运行时间/精度权衡见 Fig 1.

本论文的贡献总结为：

A new hypernetwork architecture that employs a UNet within a U-Net.（嵌套 U-Net）
Novel dynamic patch-wise convolution with weights that vary both per input and per spatial location.
SOTA accuracy vs. runtime trade-off on the major benchmarks of the field.

Hypernetworks

Hypernetwork 是为其他网络（通常被称为主网络）产生权重值的网络。我们发现，Hypernetworks 从未被用于语义分割领域。

Locally connected layers.

连接性遵循一种空间模式，类似于传统的卷积层，但没有权重共享。

在语义分割的背景下，我们是第一个提出将局部连接层与 Hypernetworks 结合起来。

Semantic segmentation.

FCN，条件随机场(CRF)、U-Net、SPP、ASPP、Attention。

Real-time segmentation.

其目标是在准确性和计算量之间实现最佳权衡，重点是保持实时性能。网络架构通常由基于高效主干的编码器和相对较小的解码器组成。

SegNet，ENet，ICNet，GUNNet，SwiftNet。

深度可分离卷积，inverted residual blocks，BiSeNet，BiSeNetV2，TDNet。

3. Method

提出的模型涉及三个子网络：

Backbone (b)：EfficientNet
context head (h)：Figure 2 (c) for details
primary network(Decoder)：multiple meta-block

三个网络的权重：θb、θh 和 θw，在推理过程中是固定的，并在训练过程中学习。而 θmi，即 decoder meta block mi 的权重，在推理时是动态预测的（不是常规的卷积，而是动态的、局部的卷积）。

Backbone：将输入图像 $I \in \mathbb{R}^{3 \times H \times W}$ 映射到组 5 组分辨率不同的特征图。

Context head：将最后一个特征图映射为一个信号 φ。信号输入w生成主网络元块的权重d。请注意，这些权重在不同的空间位置是不同的（动态）。

最后，给定输入图像和特征图，F1，……，Fn，其相应的相同分辨率的位置编码 P0，……Pn，以及权重 θd，解码器 d 输出分割预测，$S \in \mathbb{R}^{C×H×W}$，其中 C 是语义分割任务中的类别数量。

整个网络是由以下一组方程定义：

3.1. The encoder and the hypernetwork

Backbone 提取不同分辨率特征图后，采用 1×1 卷积，为的是减少特征图的通道数量，以减小解码器的规模，

Context head 输出的通道数为输入的一半。最底层的特征图被平均池化以提取最高级别的上下文，然后使用近邻插值将其上采样到之前的分辨率。在 h 的上采样路径中，在每一级，将特征图与相应的上采样特征图连接起来，然后是一个全连接层。

权重映射网络，w = [w0, … , wn]，是 Hypernetworks 的一个关键部分，将 w 分成若干部分，并将这些部分附加到 Primary Network 块上，是比较有效的（ Figure 2 (b)）。将权重映射网络的各层w0, . . , wn, 的权重映射网络被嵌入到d的每个元块中。每个wi是与通道组1×1的卷积，见 Figure 3 (a)。

3.2 Decoder(Primary Network)

Decoder 包含 n+1 个 Meta-Block（$m_0, …m_n$）。$m_0$ 对应输入图片，$m_i$ 对应特征图 $F_i$，每个块之后是双线性上采样并与下一个更高分辨率的特征图连接。

解码器 d 的权重不仅取决于输入图像，而且会在图像的不同区域之间变化。d 受益于知道像素的位置信息。出于这个原因，我们通过额外的位置编码来增强输入图像和编码器的特征图。

每个 Meta-Block 基于 inverted residual block of MobileNetV2。Figure 3(a) 所示，包含一个点卷积 pw1，然后是深度卷积 dw，以及另一个没有激活函数的点卷积 pw2。

3.3. Dynamic patch-wise convolution

dynamic patchwise convolution (DPWConv):

4. Experimental results

三个数据集： PASCAL VOC 2012, Cityscapes, 和 CamVid.

评估指标：mIoU、FPS、GFLOP。

Batch size = 1 模拟实时推理。

$\theta^b$ 在 ImageNet 上预训练得到，$\theta^h, \theta^w$ 取随机的正态分布。采用 Adam Optimizer，学习率采用 polynomial learning rate scheduling。

Conclusion

我们提出将自动编码器与超网络结合起来，以完成语义分割的任务。在我们的方案中，超网络是由三个网络组成的：语义分割编码器的主干b、内部U-Net形式的上下文头h、以及多个权重映射头wi。解码器是一个多块解码器，其中每个块，di，实现局部连接的层。其结果是一种新型的U-Net，能够动态地、局部地适应输入，从而有可能使分割过程更好地适应输入图像。正如我们的实验所显示的，在这个竞争激烈的领域，我们的方法在多个基准上都超过了SotA方法。

HyperSeg#

Abstract#

1 Introduction#

2 Related Work#

3. Method#

3.1. The encoder and the hypernetwork#

3.2 Decoder(Primary Network)#

3.3. Dynamic patch-wise convolution#

4. Experimental results#

Conclusion#