人工智能 – 第 31 页

Point Transformer –ICCV2021

论文：Point Transformer
作者单位：牛津大学, 港中文(贾佳亚等), Intel Labs

transformer应用到了点云任务处理中。为点云设计了自注意力层，并使用它们来构造诸如语义场景分割，object part分割和对象分类等任务的自注意力网络。

attention层设计：

这里的y是输出的feature，ϕ、ψ、α都是逐点特征变换的一种方式（比如mlp），δ是一个位置编码函数，ρ是正则化函数，简单来说，x_i是点i的feature向量，先通过特征变换将点i和点j（Xj是Xi的邻域上的点，而非全局的，目的是减少计算量）的特征得到，这里的β是关系函数，通过这个函数得到两个点特征之间的关系，也就是建立每个点特征之间的关系，然后加上位置编码函数δ，γ是映射函数，也就是映射到某一维度而用。在这基础上就可以设计这里的重点，Point transformer层了

输入是(x,p)也就是每个点的位置信息，首先通过两个线性函数编码不同主次点的特征向量（也就是得到前面的key向量），再用一个MLP得到位置函数，也就是前面的查询向量），两者结合得到relation关系，然后再用一个线性函数得到它的值向量，将relation和值向量结合，也就是前面说的对于每个点既关注它的和其他点之间的语义关系，也关注它和其他点之间的位置关系，最后输出y作为点云处理结果。

位置函数也就是计算查询向量的那个函数：

p就是各自点的三维坐标值，θ是一个MLP层，而前面的线性函数也就是ax+b的形式（就是linear层）

定义完了transformer层，就可以定义一个block来作为基本的block（下图a）：

输入是点集合x（拥有各自的三维点坐标等点特征），输出就是将每个点x的更新后的特征输出：

down的功能是根据需要减少点集的基数，简单来说就是减少点，而up就是根据两个不同数量的点来得到结合后的结果，常常使用在U型网络设计中（也就是当前层结果是结合了当前层的输入和之前某一层不同维度的输出而得到）

transition down:

step1：farthest point sample，把p1个点采样到 p个点，通过MLP改变特征向量（y，p），通过KNN算法，把p个点分成p2类，每个类内部做最大池化得到最终输出（y,p2）。

up模块：input1 如何才能扩充点数：通过线性插值算法

网络结构：

实验结果：

用于大规模语义场景分割的具有挑战性的S3DIS数据集上，Point Transformer在Area 5上的mIoU达到70.4％，比最强的现有模型高3.3个绝对百分点，并首次超过70％mIoU阈值。

在ModelNet40和ShapeNetPart数据集上的性能表现：

目前paper with code 网站的排名：

3D Point Cloud Classification on ModelNet40

3D Semantic Segmentation on SemanticKITTI

Induction Networks for Few-Shot TextClassification

论文：https://arxiv.org/abs/1902.10482?context=cs.CL

                            IJCNLP 2019 paper

代码： https://github.com/wuzhiye7/Induction-Network-on-FewRel

在深度学习领域，监督式深度学习对大型标记数据集的贪婪需求是出了名的，然而又由于标注数据集的昂贵成本，这就限制了深度模型对新类的可泛化性。本文提出了一个用于在文本分类领域的小样本学习训练工作。

什么是小样本学习：（以图片为例）

few-shot learing 的训练目标与传统的监督学习目标不同，传统的分类是学会识别训练集合里面的图片，并且泛化到测试集合，神经网络识别出该图片属于哪个类。而few shot learing是让机器自己学会学习，学习的目的不是让机器学会那个是大象那个是老虎，而是让模型学会学习不同类别的不同之处，给定两张图片，模型知道两个图片是否是同一类别。哪怕模型训练集中没有出现过该类别。

当前的小样本学习技术经常会将输入的query和support的样本集合进行sample-wise级别的对比。但是，如果跟同一个类别下的不同表达的样本去对比的时候产生的效果就不太好，除此之外，目前的技术会使用简单地求和或平均表示来计算类别，这会丢失一些信息。因此本文利用胶囊网络，通过学习sample所属于的类别的表示得到class-wise的向量，然后跟输入的query进行对比。

模型如下：

模型分为三个模块：Encoder Module, Induction Module and Relation Module.

Encoder Module

编码器使用双向LSTM，然后对每个隐藏层进行self-attention。

其中H维度为[C*K, T, 2u] ,经过矩阵变化，a的维度变为[C*K, T] ,最后e的维度为[C*K, 2u]。

Induction Module

本模块的主要目的是设计一个从样本向量到类向量的非线性映射。

这是使用动态路由算法，输出的capsule数为1.

首先将样本表征进行一次变换，这里为了能够支持不同大小的C，对原Capsule Network中不同类别使用不同的W做了修改，也就是使用一个所有类别共享的W。

Relation Module

在得到类表示后，就可以计算ci与query set的相关性了。

Objective Function

使用均方误差来计算损失，匹配对的相似度为1，不匹配的相似度为0。

点云基础知识+ 三维计算机视觉研究内容

1）点云概念

点云是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合，在获取物体表面每个采样点的空间坐标后，得到的是点的集合，称之为“点云”（Point Cloud）。

2）点云图像是最基础也是最常见的三维图像。

那什么是三维图像呢？三维图像是一种特殊的图像信息表达形式。相比较于常见的二维图像，其最大的特征是表达了空间中三个维度（长度宽度和深度）的数据。

3）三维图像的表现形式

深度图（以灰度表达物体与相机的距离），几何模型（由CAD软件建立），点云模型（所有逆向工程设备都将物体采样成点云）。

4）点云根据测量原理主要分为两种

根据激光测量原理得到的点云，包括三维坐标（XYZ）和激光反射强度（Intensity）。强度信息与目标的表面材质、粗糙度、入射角方向，以及仪器的发射能量，激光波长有关。

根据摄影测量原理得到的点云，包括三维坐标（XYZ）和颜色信息（RGB）。

当然也有把激光和摄影相结合在一起的（多传感器融合技术），这种结合激光测量和摄影测量原理得到点云，包括三维坐标（XYZ）、激光反射强度（Intensity）和颜色信息（RGB）。

本次的文章主要讲的是基于摄像技术的点云配准。

5）点云的获取设备

RGBD设备（深度摄像机）是可以获取点云的设备。比如PrimeSense公司的PrimeSensor、微软的Kinect、华硕的XTionPRO。

6）点云的属性

空间分辨率、点位精度、表面法向量等。

7）点云存储格式

.pts; .asc ; *.dat; .stl ; [1] .imw；.xyz；.las。

8）点云的数据类型

（1）pcl::PointCloudpcl::PointXYZ

PointXYZ 成员：float x，y，z;表示了xyz3D信息，可以通过points[i].data[0]或points[i].x访问点X的坐标值

（2）pcl::PointCloudpcl::PointXYZI

PointXYZI成员：float x, y, z, intensity; 表示XYZ信息加上强度信息的类型。

（3）pcl::PointCloudpcl::PointXYZRGB

PointXYZRGB 成员：float x,y,z,rgb; 表示XYZ信息加上RGB信息，RGB存储为一个float。

（4）pcl::PointCloudpcl::PointXYZRGBA

PointXYZRGBA 成员：float x , y, z; uint32_t rgba; 表示XYZ信息加上RGBA信息，RGBA用32bit的int型存储的。

（5） PointXY 成员：float x,y;简单的二维x-y点结构

（6）Normal结构体：

表示给定点所在样本曲面上的法线方向，以及对应曲率的测量值，用第四个元素来占位，兼容SSE和高效计算

9）点云处理的三个层次

一般将图像处理分为三个层次，低层次包括图像强化，滤波，关键点/边缘检测等基本操作。中层次包括连通域标记（label），图像分割等操作。高层次包括物体识别，场景分析等操作。工程中的任务往往需要用到多个层次的图像处理手段。

低层次处理方法

①滤波方法：双边滤波、高斯滤波、条件滤波、直通滤波、随机采样一致性滤波。②关键点：ISS3D、Harris3D、NARF，SIFT3D

中层次处理方法

①特征描述：法线和曲率的计算、特征值分析、SHOT、PFH、FPFH、3D Shape Context、Spin Image

②分割与分类：

分割：区域生长、Ransac线面提取、全局优化平面提取

K-Means、Normalize Cut（Context based）

3D Hough Transform(线、面提取)、连通分析

分类：基于点的分类，基于分割的分类，基于深度学习的分类（PointNet，OctNet）

高层次处理方法

①配准

点云配准分为粗配准（Coarse Registration）和精配准（Fine Registration）两个阶段。

精配准的目的是在粗配准的基础上让点云之间的空间位置差别最小化。应用最为广泛的精配准算法应该是ICP以及ICP的各种变种（稳健ICP、point to plane ICP、Point to line ICP、MBICP、GICP、NICP）。

粗配准是指在点云相对位姿完全未知的情况下对点云进行配准，可以为精配准提供良好的初始值。当前较为普遍的点云自动粗配准算法包括基于穷举搜索的配准算法和基于特征匹配的配准算法。

基于穷举搜索的配准算法：

遍历整个变换空间以选取使误差函数最小化的变换关系或者列举出使最多点对满足的变换关系。如RANSAC配准算法、四点一致集配准算法（4-Point Congruent Set, 4PCS）、Super4PCS算法等……

基于特征匹配的配准算法：

通过被测物体本身所具备的形态特性构建点云间的匹配对应，然后采用相关算法对变换关系进行估计。如基于点FPFH特征的SAC-IA、FGR等算法、基于点SHOT特征的AO算法以及基于线特征的ICL等…

②SLAM图优化

Ceres（Google的最小二乘优化库，很强大）， g2o、LUM、ELCH、Toro、SPA

SLAM方法：ICP、MBICP、IDC、likehood Field、NDT

③三维重建

泊松重建、 Delaunay triangulations、表面重建，人体重建，建筑物重建，树木重建。结构化重建：不是简单的构建一个Mesh网格，而是为场景进行分割，为场景结构赋予语义信息。场景结构有层次之分，在几何层次就是点线面。实时重建：重建植被或者农作物的4D（3D+时间）生长态势；人体姿势识别；表情识别；

④点云数据管理

点云压缩，点云索引（KD、Octree），点云LOD（金字塔），海量点云的渲染。

三维计算视觉研究内容：

　1）三维匹配：两帧或者多帧点云数据之间的匹配，因为激光扫描光束受物体遮挡的原因，不可能通过一次扫描完成对整个物体的三维点云的获取。因此需要从不同的位置和角度对物体进行扫描。三维匹配的目的就是把相邻扫描的点云数据拼接在一起。三维匹配重点关注匹配算法，常用的算法有最近点迭代算法 ICP和各种全局匹配算法。

　2）多视图三维重建：计算机视觉中多视图一般利用图像信息，考虑多视几何的一些约束，射影几何和多视图几何是视觉方法的基础，在摄影测量中类似的存在共线方程。光束平差法是该类研究的核心技术。这里也将点云的多视匹配放在这里，比如人体的三维重建，点云的多视重建不再是简单的逐帧的匹配，还需要考虑不同角度观测产生误差累积，因此存在一个针对三维模型进行优化或者平差的过程在里面。多视图三维重建这里指的只是静态建模，输入是一系列的图像或者点云集合。可以只使用图像，或者只使用点云，也可以两者结合（深度图像）实现，重建的结果通常是Mesh网格。

SFM（运动恢复结构） vs Visual SLAM [摘抄] SFM 和 Visual SLAM
Multi-View Stereo （MVS）多视图立体视觉，研究图像一致性，实现稠密重建。

　　3）3D SLAM

　　按照传感器类型分类：可以分为基于激光的SLAM和基于视觉的SLAM。

　　基于激光的SLAM可以通过点云匹配（最近点迭代算法 ICP、正态分布变换方法 NDT）+位姿图优化（g2o、LUM、ELCH、Toro、SPA）来实现；实时激光3D SLAM算法（LOAM，Blam，CartoGrapher等）；Kalman滤波方法。通常激光3D SLAM侧重于定位，在高精度定位的基础上可以产生3D点云，或者Octree Map。

　　基于视觉（单目、双目、鱼眼相机、深度相机）的SLAM，根据侧重点的不同，有的侧重于定位，有的侧重于表面三维重建。不过都强调系统的实时性。

　　（1）侧重于定位的VSLAM系统比如orbSLAM，lsdSLAM；VINS是IMU与视觉融合的不错的开源项目。

　　（2）侧重于表面三维重建SLAM强调构建的表面最优，或者说表面模型最优，通常包含Fusion融合过程在里面。通常SLAM是通过观测形成闭环进行整体平差实现，优先保证位姿的精确；而VSLAM通过Fusion过程同时实现了对构建的表面模型的整体优化，保证表面模型最优。最典型的例子是KinectFusion，Kinfu，BundleFusion，RatMap等等。

　　（4）目标检测与识别：无人驾驶汽车中基于激光数据检测场景中的行人、汽车、自行车、道路（车道线，道路标线，路边线）以及道路设施（路灯）和道路附属设施（行道树等）。这部分工作也是高精度电子地图的主要内容。当然高精度电子地图需要考虑的内容更多。同时室内场景的目标识别的研究内容也很丰富，比如管线设施，消防设施等。

　　（5）形状检测与分类：点云技术在逆向工程中有很普遍的应用。构建大量的几何模型之后，如何有效的管理，检索是一个很困难的问题。需要对点云（Mesh）模型进行特征描述，分类。根据模型的特征信息进行模型的检索。同时包括如何从场景中检索某类特定的物体，这类方法关注的重点是模型。

　　（6）语义分类：获取场景点云之后，如何有效的利用点云信息，如何理解点云场景的内容，进行点云的分类很有必要，需要为每个点云进行Labeling。可以分为基于点的分类方法和基于分割的分类方法。从方法上可以分为基于监督分类的技术或者非监督分类技术，深度学习也是一个很有希望应用的技术。最近深度学习进行点云场景理解的工作多起来了，比如PointNet，各种八叉树的Net。

（7）双目立体视觉与立体匹配 ZNCC：立体视觉（也称双目视觉）主要研究的两个相机的成像几何问题，研究内容主要包括：立体标定（Stereo Calibration）、立体校正（Stereo Rectification）和立体匹配（Stereo Matching）。目前，立体标定主要研究的已经比较完善，而立体匹配是立体视觉最核心的研究问题。按照匹配点数目分类，立体匹配可分为稀疏立体匹配（sparse stereo matching）和密集立体匹配（dense stereo matching）。稀疏立体匹配由于匹配点数量稀少，一般很难达到高精度移动测量和环境感知的要求。因此，密集立体匹配是学术界和工业界的主要研究和应用方向。

参考：https://mp.weixin.qq.com/s/cOHAQX12k19eogxfpk95tA

（8）自动造型（构型），快速造型（构型）技术。对模型进行凸分割，模型剖分，以实现模型进一步的编辑修改，派生出其他的模型。

（9）摄像测量技术，视频测量

PointNet++

论文：https://arxiv.org/abs/1706.02413（NIPS 2017）

code： https://github.com/charlesq34/pointnet2

1、改进

PointNet因为是只使用了MLP和max pooling，没有能力捕获局部结构，因此在细节处理和泛化到复杂场景上能力很有限。

point-wise MLP，仅仅是对每个点表征，对局部结构信息整合能力太弱 –> PointNet++的改进：sampling和grouping整合局部邻域
global feature直接由max pooling获得，无论是对分类还是对分割任务，都会造成巨大的信息损失 –> PointNet++的改进：hierarchical feature learning framework，通过多个set abstraction逐级降采样，获得不同规模不同层次的local-global feature
分割任务的全局特征global feature是直接复制与local feature拼接，生成discriminative feature能力有限 –> PointNet++的改进：分割任务设计了encoder-decoder结构，先降采样再上采样，使用skip connection将对应层的local-global feature拼接

2、方法

PointNet++的网络大体是encoder-decoder结构

encoder为降采样过程，通过多个set abstraction结构实现多层次的降采样，得到不同规模的point-wise feature，最后一个set abstraction输出可以认为是global feature。其中set abstraction由sampling，grouping，pointnet三个模块构成。

decoder根据分类和分割应用，又有所不同。分类任务decoder比较简单，不介绍了。分割任务decoder为上采样过程，通过反向插值和skip connection实现在上采样的同时，还能够获得local+global的point-wise feature，使得最终的表征能够discriminative（分辩能力）。

思考：

PointNet++降采样过程是怎么实现的？/PointNet++是如何表征global feature的？（关注set abstraction, sampling layer, grouping layer, pointnet layer）
PointNet++用于分割任务的上采样过程是怎么实现的？/PointNet++是如何表征用于分割任务的point-wise feature的？（关注反向插值，skip connection）

🐖：上图中的 d 表示坐标空间维度， C 表示特征空间维度

2.1 encoder

在PointNet的基础上增加了hierarchical （层级）feature learning framework的结构。这种多层次的结构由set abstraction层组成。

在每一个层次的set abstraction，点集都会被处理和抽象，而产生一个规模更小的点集，可以理解成是一个降采样表征过程，可参考上图左半部分。

set abstraction由三个部分构成（代码贴在下面）：

def pointnet_sa_module(xyz, points, npoint, radius, nsample, mlp, mlp2, group_all, is_training, bn_decay, scope, bn=True, pooling='max', knn=False, use_xyz=True, use_nchw=False):
    ''' PointNet Set Abstraction (SA) Module
        Input:
            xyz: (batch_size, ndataset, 3) TF tensor
            points: (batch_size, ndataset, channel) TF tensor
            npoint: int32 -- #points sampled in farthest point sampling
            radius: float32 -- search radius in local region
            nsample: int32 -- how many points in each local region
            mlp: list of int32 -- output size for MLP on each point
            mlp2: list of int32 -- output size for MLP on each region
            group_all: bool -- group all points into one PC if set true, OVERRIDE
                npoint, radius and nsample settings
            use_xyz: bool, if True concat XYZ with local point features, otherwise just use point features
            use_nchw: bool, if True, use NCHW data format for conv2d, which is usually faster than NHWC format
        Return:
            new_xyz: (batch_size, npoint, 3) TF tensor
            new_points: (batch_size, npoint, mlp[-1] or mlp2[-1]) TF tensor
            idx: (batch_size, npoint, nsample) int32 -- indices for local regions
    '''
    data_format = 'NCHW' if use_nchw else 'NHWC'
    with tf.variable_scope(scope) as sc:
        # Sample and Grouping
        if group_all:
            nsample = xyz.get_shape()[1].value
            new_xyz, new_points, idx, grouped_xyz = sample_and_group_all(xyz, points, use_xyz)
        else:
            new_xyz, new_points, idx, grouped_xyz = sample_and_group(npoint, radius, nsample, xyz, points, knn, use_xyz)
        # Point Feature Embedding
        if use_nchw: new_points = tf.transpose(new_points, [0,3,1,2])
        for i, num_out_channel in enumerate(mlp):
            new_points = tf_util.conv2d(new_points, num_out_channel, [1,1],
                                        padding='VALID', stride=[1,1],
                                        bn=bn, is_training=is_training,
                                        scope='conv%d'%(i), bn_decay=bn_decay,
                                        data_format=data_format) 
        if use_nchw: new_points = tf.transpose(new_points, [0,2,3,1])
        # Pooling in Local Regions
        if pooling=='max':
            new_points = tf.reduce_max(new_points, axis=[2], keep_dims=True, name='maxpool')
        elif pooling=='avg':
            new_points = tf.reduce_mean(new_points, axis=[2], keep_dims=True, name='avgpool')
        elif pooling=='weighted_avg':
            with tf.variable_scope('weighted_avg'):
                dists = tf.norm(grouped_xyz,axis=-1,ord=2,keep_dims=True)
                exp_dists = tf.exp(-dists * 5)
                weights = exp_dists/tf.reduce_sum(exp_dists,axis=2,keep_dims=True) # (batch_size, npoint, nsample, 1)
                new_points *= weights # (batch_size, npoint, nsample, mlp[-1])
                new_points = tf.reduce_sum(new_points, axis=2, keep_dims=True)
        elif pooling=='max_and_avg':
            max_points = tf.reduce_max(new_points, axis=[2], keep_dims=True, name='maxpool')
            avg_points = tf.reduce_mean(new_points, axis=[2], keep_dims=True, name='avgpool')
            new_points = tf.concat([avg_points, max_points], axis=-1)
        # [Optional] Further Processing 
        if mlp2 is not None:
            if use_nchw: new_points = tf.transpose(new_points, [0,3,1,2])
            for i, num_out_channel in enumerate(mlp2):
                new_points = tf_util.conv2d(new_points, num_out_channel, [1,1],
                                            padding='VALID', stride=[1,1],
                                            bn=bn, is_training=is_training,
                                            scope='conv_post_%d'%(i), bn_decay=bn_decay,
                                            data_format=data_format) 
            if use_nchw: new_points = tf.transpose(new_points, [0,2,3,1])
        new_points = tf.squeeze(new_points, [2]) # (batch_size, npoints, mlp2[-1])
        return new_xyz, new_points, idx

2.1.1 sampling layer

使用FPS（最远点采样）对点集进行降采样，将输入点集从规模 N1 降到更小的规模 N2 。FPS可以理解成是使得采样的各个点之间尽可能远，这种采样的好处是可以降采样结果会比较均匀。

FPS实现方式如下：随机选择一个点作为初始点作为已选择采样点，计算未选择采样点集中每个点与已选择采样点集之间的距离distance，将距离最大的那个点加入已选择采样点集，然后更新distance，一直循环迭代下去，直至获得了目标数量的采样点。

class FarthestSampler:
    def __init__(self):
        pass
    def _calc_distances(self, p0, points):
        return ((p0 - points) ** 2).sum(axis=1)
    def __call__(self, pts, k):
        farthest_pts = np.zeros((k, 3), dtype=np.float32)
        farthest_pts[0] = pts[np.random.randint(len(pts))]
        distances = self._calc_distances(farthest_pts[0], pts)
        for i in range(1, k):
            farthest_pts[i] = pts[np.argmax(distances)]
            distances = np.minimum(
                distances, self._calc_distances(farthest_pts[i], pts))
        return farthest_pts

输入规模为 B∗N∗(d+C) ，其中 B 表示batch size， N 表示点集中点的数量， d 表示点的坐标维度， C 表示点的其他特征（比如法向量等）维度。一般 d=3 ， c=0

输出规模为 B∗N1∗(d+C) ， N1<N ，因为这是一个降采样过程。

sampling和grouping具体实现是写在一个函数里的：

def sample_and_group(npoint, radius, nsample, xyz, points, knn=False, use_xyz=True):
    '''
    Input:
        npoint: int32
        radius: float32
        nsample: int32
        xyz: (batch_size, ndataset, 3) TF tensor
        points: (batch_size, ndataset, channel) TF tensor, if None will just use xyz as points
        knn: bool, if True use kNN instead of radius search
        use_xyz: bool, if True concat XYZ with local point features, otherwise just use point features
    Output:
        new_xyz: (batch_size, npoint, 3) TF tensor
        new_points: (batch_size, npoint, nsample, 3+channel) TF tensor
        idx: (batch_size, npoint, nsample) TF tensor, indices of local points as in ndataset points
        grouped_xyz: (batch_size, npoint, nsample, 3) TF tensor, normalized point XYZs
            (subtracted by seed point XYZ) in local regions
    '''
    new_xyz = gather_point(xyz, farthest_point_sample(npoint, xyz)) # (batch_size, npoint, 3)
    if knn:
        _,idx = knn_point(nsample, xyz, new_xyz)
    else:
        idx, pts_cnt = query_ball_point(radius, nsample, xyz, new_xyz)
    grouped_xyz = group_point(xyz, idx) # (batch_size, npoint, nsample, 3)
    grouped_xyz -= tf.tile(tf.expand_dims(new_xyz, 2), [1,1,nsample,1]) # translation normalization
    if points is not None:
        grouped_points = group_point(points, idx) # (batch_size, npoint, nsample, channel)
        if use_xyz:
            new_points = tf.concat([grouped_xyz, grouped_points], axis=-1) # (batch_size, npoint, nample, 3+channel)
        else:
            new_points = grouped_points
    else:
        new_points = grouped_xyz
    return new_xyz, new_points, idx, grouped_xyz

其中sampling对应的部分是：

new_xyz = gather_point(xyz, farthest_point_sample(npoint, xyz)) # (batch_size, npoint, 3)

xyz既是 B∗N∗3 的点云，npoint是降采样点的规模。注意：PointNet++的FPS均是在坐标空间做的，而不是在特征空间做的。这一点很关键，因为FPS本身是不可微的，无法计算梯度反向传播。

本着刨根问题的心态，我们来看看farthest_point_sample和gather_point究竟在做什么

farthest_point_sample输入输出非常明晰，输出的是降采样点在inp中的索引，因此是 B∗N1 int32类型的张量

def farthest_point_sample(npoint,inp):
    '''
input:
    int32
    batch_size * ndataset * 3   float32
returns:
    batch_size * npoint         int32
    '''
    return sampling_module.farthest_point_sample(inp, npoint)

gather_point的作用就是将上面输出的索引，转化成真正的点云

def gather_point(inp,idx):
    '''
input:
    batch_size * ndataset * 3   float32
    batch_size * npoints        int32
returns:
    batch_size * npoints * 3    float32
    '''
    return sampling_module.gather_point(inp,idx)

2.1.2 grouping layer

上一步sampling的过程是将 N∗(d+C) 降到 N1∗(d+C) （这里论述方便先不考虑batch，就考虑单个点云），实际上可以理解成是在 N 个点中选取 N1 个中心点(key point)。

那么这一步grouping的目的就是以这每个key point为中心，找其固定规模（令规模为 K）的邻点，共同组成一个局部邻域(patch)。也就是会生成 N1 个局部邻域，输出规模为 N1∗K∗(d+C)

if knn:
    _,idx = knn_point(nsample, xyz, new_xyz)
else:
    idx, pts_cnt = query_ball_point(radius, nsample, xyz, new_xyz)
    grouped_xyz = group_point(xyz, idx) # (batch_size, npoint, nsample, 3)

1)找邻域的过程也是在坐标空间进行（也就是以上代码输入输出维度都是 d ，没有 C ， C 是在后面的代码拼接上的），而不是特征空间。

2)找邻域这里有两种方式：KNN和query ball point.

其中前者KNN就是大家耳熟能详的K近邻，找K个坐标空间最近的点。
后者query ball point就是划定某一半径，找在该半径球内的点作为邻点。

还有个问题：query ball point如何保证对于每个局部邻域，采样点的数量都是一样的呢？
事实上，如果query ball的点数量大于规模 K ，那么直接取前 K 个作为局部邻域；如果小于，那么直接对某个点重采样，凑够规模 K

KNN和query ball的区别：（摘自原文）Compared with kNN, ball query’s local neighborhood guarantees a fixed region scale thus making local region feature more generalizable across space, which is preferred for tasks requiring local pattern recognition (e.g. semantic point labeling).也就是query ball更加适合于应用在局部/细节识别的应用上，比如局部分割。

补充材料中也有实验来对比KNN和query ball:

sample_and_group代码的剩余部分：

sample和group操作都是在坐标空间进行的，因此如果还有特征空间信息（即point-wise feature），可以在这里将其与坐标空间拼接，组成新的point-wise feature，准备送入后面的unit point进行特征学习。

if points is not None:
    grouped_points = group_point(points, idx) # (batch_size, npoint, nsample, channel)
    if use_xyz:
        new_points = tf.concat([grouped_xyz, grouped_points], axis=-1) # (batch_size, npoint, nample, 3+channel)
    else:
        new_points = grouped_points
else:
    new_points = grouped_xyz

2.1.3 PointNet layer

使用PointNet对以上结果表征

输入 B∗N∗K∗(d+C) ，输出 B∗N∗(d+C1)

以下代码主要分成3个部分：

1)point feature embedding

这里输入是 B∗N∗K∗(d+C) ，可以类比成是batch size为 B ，宽高为 N∗K ，通道数为 d+C 的图像，这样一类比，这里的卷积就好理解多了实际上就是 1∗1 卷积，不改变feature map大小，只改变通道数，将通道数升高，实现所谓“embedding”

这部分输出是 B∗N∗K∗C1

2)pooling in local regions

pooling，只是是对每个局部邻域pooling,输出是 B∗N∗1∗C1

3)further processing

再对池化后的结果做MLP，也是简单的 1∗1 卷积。这一部分在实际实验中PointNet++并没有设置去做

# Point Feature Embedding
if use_nchw: new_points = tf.transpose(new_points, [0,3,1,2])
for i, num_out_channel in enumerate(mlp):
    new_points = tf_util.conv2d(new_points, num_out_channel, [1,1],
                                padding='VALID', stride=[1,1],
                                bn=bn, is_training=is_training,
                                scope='conv%d'%(i), bn_decay=bn_decay,
                                data_format=data_format) 
if use_nchw: new_points = tf.transpose(new_points, [0,2,3,1])

# Pooling in Local Regions
if pooling=='max':
    new_points = tf.reduce_max(new_points, axis=[2], keep_dims=True, name='maxpool')
elif pooling=='avg':
    new_points = tf.reduce_mean(new_points, axis=[2], keep_dims=True, name='avgpool')
elif pooling=='weighted_avg':
    with tf.variable_scope('weighted_avg'):
        dists = tf.norm(grouped_xyz,axis=-1,ord=2,keep_dims=True)
        exp_dists = tf.exp(-dists * 5)
        weights = exp_dists/tf.reduce_sum(exp_dists,axis=2,keep_dims=True) # (batch_size, npoint, nsample, 1)
        new_points *= weights # (batch_size, npoint, nsample, mlp[-1])
        new_points = tf.reduce_sum(new_points, axis=2, keep_dims=True)
elif pooling=='max_and_avg':
    max_points = tf.reduce_max(new_points, axis=[2], keep_dims=True, name='maxpool')
    avg_points = tf.reduce_mean(new_points, axis=[2], keep_dims=True, name='avgpool')
    new_points = tf.concat([avg_points, max_points], axis=-1)

# [Optional] Further Processing 
if mlp2 is not None:
    if use_nchw: new_points = tf.transpose(new_points, [0,3,1,2])
    for i, num_out_channel in enumerate(mlp2):
        new_points = tf_util.conv2d(new_points, num_out_channel, [1,1],
                                    padding='VALID', stride=[1,1],
                                    bn=bn, is_training=is_training,
                                    scope='conv_post_%d'%(i), bn_decay=bn_decay,
                                    data_format=data_format) 
    if use_nchw: new_points = tf.transpose(new_points, [0,2,3,1])

2.1.4 Encoder还有一个问题

pointnet++实际上就是对局部邻域表征。

那就不得不面对一个挑战：non-uniform sampling density(点云的密度不均匀)，也就是在稀疏点云局部邻域训练可能不能很好挖掘点云的局部结构

PointNet++做法：learn to combine features from regions of different scales when the input sampling density changes.

因此文章提出了两个方案：

一、Multi-scale grouping（MSG）

对当前层的每个中心点，取不同radius的query ball，可以得到多个不同大小的同心球，也就是得到了多个相同中心但规模不同的局部邻域，分别对这些局部邻域表征，并将所有表征拼接。如上图所示。

该方法比较麻烦，运算较多。

代码层面其实就是加了个遍历radius_list的循环，分别处理，并最后concat

new_xyz = gather_point(xyz, farthest_point_sample(npoint, xyz))
new_points_list = []
for i in range(len(radius_list)):
    radius = radius_list[i]
    nsample = nsample_list[i]
    idx, pts_cnt = query_ball_point(radius, nsample, xyz, new_xyz)
    grouped_xyz = group_point(xyz, idx)
    grouped_xyz -= tf.tile(tf.expand_dims(new_xyz, 2), [1,1,nsample,1])
    if points is not None:
        grouped_points = group_point(points, idx)
        if use_xyz:
            grouped_points = tf.concat([grouped_points, grouped_xyz], axis=-1)
    else:
        grouped_points = grouped_xyz
    if use_nchw: grouped_points = tf.transpose(grouped_points, [0,3,1,2])
    for j,num_out_channel in enumerate(mlp_list[i]):
        grouped_points = tf_util.conv2d(grouped_points, num_out_channel, [1,1],
                                        padding='VALID', stride=[1,1], bn=bn, is_training=is_training,
                                        scope='conv%d_%d'%(i,j), bn_decay=bn_decay)
    if use_nchw: grouped_points = tf.transpose(grouped_points, [0,2,3,1])
    new_points = tf.reduce_max(grouped_points, axis=[2])
    new_points_list.append(new_points)
new_points_concat = tf.concat(new_points_list, axis=-1)

二、Multi-resolution grouping（MRG）

（摘自原文）features of a region at some level Li is a concatenation of two vectors.

One vector (left in figure) is obtained by summarizing the features at each subregion from the lower level Li−1 using the set abstraction level.

The other vector (right) is the feature that is obtained by directly processing all raw points in the local region using a single PointNet.

简单来说，就是当前set abstraction的局部邻域表征由两部分构成：

左边表征：对上一层set abstraction（还记得上一层的点规模是更大的吗？）各个局部邻域（或者说中心点）的特征进行聚合。右边表征：使用一个单一的PointNet直接在局部邻域处理原始点云

2.2 decoder：

2.2.1 分类任务的decoder

比较简单，将encoder降采样得到的global feature送入几层全连接网络，最后通过一个softmax分类。

2.2.2 分割任务的decoder

经过前半部分的encoder，我们得到的是global feature，或者是极少数点的表征（其实也就是global feature）

而如果做分割，我们需要的是point-wise feature，这可怎么办呢？

PointNet处理思路很简单，直接把global feature复制并与之前的local feature拼接，使得这个新point-wise feature能够获得一定程度的“邻域”信息。这种简单粗暴的方法显然并不能得到很discriminative的表征

别急，PointNet++来了。

PointNet++设计了一种反向插值的方法来实现上采样的decoder结构，通过反向插值和skip connection来获得discriminative point-wise feature：

设红色矩形点集 P1 : N1∗C ，蓝色矩形点集 P2 : N2∗C2 ，因为decoder是上采样过程，因此 N2>N1

一、反向插值具体做法：

对于 P2 中的每个点 x ，找在原始点云坐标空间下， P1 中与其最接近的 k 个点 x1,…,xk

当前我们想通过反向插值的方式用较少的点把更多的点的特征插出来，实现上采样

此时 x1,…,xk 的特征我们是知道的，我们想得到 x 的特征。如上公式，实际上就是将 x1,…,xk 的特征加权求和，得到x的特征。其中这个权重是与x和 x1,…,xk 的距离成反向相关的，意思就是距离越远的点，对x特征的贡献程度越小。P2 中其他点以此类推，从而实现了特征的上采样回传

二、skip connection具体做法：

回传得到的point-wise feature是从decoder的上一层得到的，因此算是global级别的信息，这对于想得到discriminative还是不够，因为我们还缺少local级别的信息！！！

如上图就是我们反向插值只得到了 C2 ，但是我们还需要提供local级别信息的 C1 特征！！！

这时skip connection来了！！！

skip connection其实就是将之前encoder对应层的表征直接拼接了过来

因为上图中encoder蓝色矩形点集的 C1 表征是来自于规模更大的绿色矩形点集的表征，这在一定程度上其实是实现了local级别的信息

我们通过反向插值和skip connection在decoder中逐级上采样得到local + global point-wise feature，得到了discriminative feature，应用于分割任务。

2.3 loss

无论是分类还是分割应用，本质上都是分类问题，因此loss就是分类任务中常用的交叉熵loss

2.4 其他的问题

Q：PointNet++梯度是如何回传的？？？

A：PointNet++ fps实际上并没有参与梯度计算和反向传播。

可以理解成是PointNet++将点云进行不同规模的fps降采样，事先将这些数据准备好，再送到网络中去训练的

3 dataset and experiments

3.1 dataset

MNIST: Images of handwritten digits with 60k training and 10k testing samples.（用于分类）
ModelNet40: CAD models of 40 categories (mostly man-made). We use the official split with 9,843 shapes for training and 2,468 for testing. （用于分类）
SHREC15: 1200 shapes from 50 categories. Each category contains 24 shapes which are mostly organic ones with various poses such as horses, cats, etc. We use five fold cross validation to acquire classification accuracy on this dataset. （用于分类）
ScanNet: 1513 scanned and reconstructed indoor scenes. We follow the experiment setting in [5] and use 1201 scenes for training, 312 scenes for test. （用于分割）

3.2 experiments

主要关心的实验结果是2个：

ModelNet40分类结果
ShapeNet Part分割结果

PointNet++也做了ShapeNet part数据集上的part segmentation：

4、 conclusion

PointNet++是PointNet的续作，在一定程度上弥补了PointNet的一些缺陷，表征网络基本和PN类似，还是MLP、 1∗1 卷积、pooling那一套，核心创新点在于设计了局部邻域的采样表征方法和这种多层次的encoder-decoder结合的网络结构。

第一次看到PointNet++网络结构，觉得设计得非常精妙，特别是设计了上采样和下采样的具体实现方法，并以此用于分割任务的表征，觉得设计得太漂亮了。但其实无论是分类还是分割任务，提升幅度较PointNet也就是1-2个点而已。

PointNet++，特别是其前半部分encoder，提供了非常好的表征网络，后面很多点云处理应用的论文都会使用到PointNet++作为它们的表征器。

pointnet–基于点云的分类和分割深度学习算法

论文：https://arxiv.org/abs/1612.00593（cvpr2017）

code：https://github.com/charlesq34/pointnet

基础知识：

1、什么是点云？

简单来说就是一堆三维点的集合，必须包括各个点的三维坐标信息，其他信息比如各个点的法向量、颜色等均是可选。点云的文件格式可以有很多种，包括xyz，npy，ply，obj，off等（有些是mesh不过问题不大，因为mesh可以通过泊松采样等方式转化成点云）。对于单个点云，如果你使用np.loadtxt得到的实际上就是一个维度为 (num_points,num_channels) 的张量，num_channels一般为3，表示点云的三维坐标。

这里以horse.xyz文件为例，实际就是文本文件，打开后数据长这样（局部，总共有2048个点）：

实际就是一堆点的信息，这里只有三维坐标，将其可视化出来长这样：

2、点云处理任务是重要的？

三维图形具有多种表现形式，包括了mesh、体素、点云等，甚至还有些方法使用多视图来对三维图形表征。而点云在以上各种形式的数据中算是日常生活中最能够大规模获取和使用的数据结构了，包括自动驾驶、增强现实等在内的应用需要直接或间接从点云中提取信息，点云处理也逐渐成为计算机视觉非常重要的一部分。

正文：

PointNet所作的事情就是对点云做特征学习，并将学习到的特征去做不同的应用：分类（shape-wise feature）、分割（point-wise feature）等。

PointNet之所以影响力巨大，就是因为它为点云处理提供了一个简单、高效、强大的特征提取器（encoder），几乎可以应用到点云处理的各个应用中，其地位类似于图像领域的AlexNet。

1、动机

点云或者mesh，大多数研究人员都是将其转化成3D体素或者多视图来做特征学习的，这其中的工作包括了VoxelNet, MVCNN等。这些工作都或多或少存在了一些问题。

直接对点云做特征学习也不是不可以，但有几个问题需要考虑：特征学习需要对点云中各个点的排列保持不变性、特征学习需要对rigid transformation保持不变性等。虽然有挑战，但是深度学习强大的表征能力以及其在图像领域取得的巨大成功，因此是很有必要直接在点云上进行尝试的。

2、贡献

我们设计了一个新颖的深层网络架构来处理三维中的无序点集
我们设计的网络表征可以做三维图形分类、图形的局部分割以及场景的语义分割等任务
我们提供了完备的经验和理论分析来证明PointNet的稳定和高效。
充分的消融实验，证明网络各个部分对于表征的有效性。

3、方法

3.1 点云的几个特点：

无序性 –> 对称函数设计用于表征
点不是孤立的，需要考虑局部结构 –> 局部全局特征结合
仿射变换无关性 –> alignment network

（重要）关于第三点：相同的点云在空间中经过一定的刚性变化（旋转或平移），坐标发生变化。其实对于点云分类or分割任务来说（分割可以认为是点的分类），例如，整体的旋转和平移不应修改全局点云类别和每个点的类别，也不应修改点的分割因此需要保证仿射变换无关性（简单来说，“仿射变换”就是：“线性变换”+“平移”），但是对于位置敏感的任务：点云配准、点云补全任务，对于位置敏感，就不需要保证 仿射变换的无关性 。

我们希望不论点云在怎样的坐标系下呈现，网络都能正确的识别出。这个问题可以通过STN（spacial transform netw）来解决。三维不太一样的是点云是一个不规则的结构（无序，无网格），不需要重采样的过程。pointnet通过学习一个矩阵来达到对目标最有效的变换。

解决方法

空间变换网络解决旋转问题：三维的STN可以通过学习点云本身的位姿信息学习到一个最有利于网络进行分类或分割的DxD旋转矩阵（D代表特征维度，pointnet中D采用3和64）。至于其中的原理，我的理解是，通过控制最后的loss来对变换矩阵进行调整，pointnet并不关心最后真正做了什么变换，只要有利于最后的结果都可以。pointnet采用了两次STN，第一次input transform是对空间中点云进行调整，直观上理解是旋转出一个更有利于分类或分割的角度，比如把物体转到正面；第二次feature transform是对提取出的64维特征进行对齐，即在特征层面对点云进行变换。
maxpooling解决无序性问题：网络对每个点进行了一定程度的特征提取之后，maxpooling可以对点云的整体提取出global feature。

3.2 网络结构:

网络分成了分类网络和分割网络2个部分，大体思路类似，都是设计表征的过程分类网络设计global feature，分割网络设计point-wise feature。两者都是为了让表征尽可能discriminative，也就是同类的能分到一类，不同类的距离能拉开。

输入 n*3 n是点数

inputtransform：放射变换（为了保证仿射变换的不变性）：直接预测一个变换矩阵（3*3）来处理输入点的坐标（对所有坐标进行变换）。因为会有数据增强的操作存在，这样做可以在一定程度上保证网络可以学习到变换无关性。T-Net模型，它的主要作用是学习出变化矩阵来对输入的点云或特征进行规范化处理。

MLP：

有两种实现方法：

1、输入 B,N,3 —- nn.liner层 — B,N,64

2、输入 B,3,N —- conv1d(1×1) — B,64,N

Pooling:

为了解决无序性（点云本质上是一长串点（nx3矩阵，其中n是点数）。在几何上，点的顺序不影响它在空间中对整体形状的表示，例如，相同的点云可以由两个完全不同的矩阵表示。）使用 maxpooling或sumpooling，也就是说，最后的D维特征对每一维都选取N个点中对应的最大特征值或特征值总和，这样就可以通过g来解决无序性问题。

最后再经过一个mlp（代码中运用全连接）得到k个score。分类网络最后接的loss是softmax。

分割网络：

将池化后的特征和前一阶段特征拼接，池化后的特征有全局信息，在和之前的拼接，以此得到同时对局部信息和全局信息感知的point-wise特征，提升表征效果。然后最后输出n*m, m为类别数量，表示每个点的类别信息。

损失函数：

分类中常用的交叉熵+alignment network中用于约束生成的alignment matrix的loss

dataset and experiments

evaluate metric

分类：分类准确率acc
分割：mIoU

dataset

分类：ModelNet40
分割：ShapeNet Part dataset和Stanford 3D semantic parsing dataset

experiments

1、分类：

2、局部分割：

code：

1. 如何对点云使用MLP？
2. alignment network怎么做的？
3. 对称函数如何实现来提取global feature的？
4. loss?

def get_model(point_cloud, is_training, bn_decay=None):
    """ Classification PointNet, input is BxNx3, output Bx40 """
    batch_size = point_cloud.get_shape()[0].value
    num_point = point_cloud.get_shape()[1].value
    end_points = {}
    with tf.variable_scope('transform_net1') as sc:
        transform = input_transform_net(point_cloud, is_training, bn_decay, K=3)
    point_cloud_transformed = tf.matmul(point_cloud, transform)
    input_image = tf.expand_dims(point_cloud_transformed, -1)
    net = tf_util.conv2d(input_image, 64, [1,3],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv1', bn_decay=bn_decay)
    net = tf_util.conv2d(net, 64, [1,1],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv2', bn_decay=bn_decay)
    with tf.variable_scope('transform_net2') as sc:
        transform = feature_transform_net(net, is_training, bn_decay, K=64)
    end_points['transform'] = transform
    net_transformed = tf.matmul(tf.squeeze(net, axis=[2]), transform)
    net_transformed = tf.expand_dims(net_transformed, [2])
    net = tf_util.conv2d(net_transformed, 64, [1,1],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv3', bn_decay=bn_decay)
    net = tf_util.conv2d(net, 128, [1,1],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv4', bn_decay=bn_decay)
    net = tf_util.conv2d(net, 1024, [1,1],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv5', bn_decay=bn_decay)
    # Symmetric function: max pooling
    net = tf_util.max_pool2d(net, [num_point,1],
                             padding='VALID', scope='maxpool')
    net = tf.reshape(net, [batch_size, -1])
    net = tf_util.fully_connected(net, 512, bn=True, is_training=is_training,
                                  scope='fc1', bn_decay=bn_decay)
    net = tf_util.dropout(net, keep_prob=0.7, is_training=is_training,
                          scope='dp1')
    net = tf_util.fully_connected(net, 256, bn=True, is_training=is_training,
                                  scope='fc2', bn_decay=bn_decay)
    net = tf_util.dropout(net, keep_prob=0.7, is_training=is_training,
                          scope='dp2')
    net = tf_util.fully_connected(net, 40, activation_fn=None, scope='fc3')
    return net, end_points

MLP的核心做法：

input_image = tf.expand_dims(point_cloud_transformed, -1)
net = tf_util.conv2d(input_image, 64, [1,3],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv1', bn_decay=bn_decay)
net = tf_util.conv2d(net, 64, [1,1],
                     padding='VALID', stride=[1,1],
                     bn=True, is_training=is_training,
                     scope='conv2', bn_decay=bn_decay)

这里input_image维度是 B×N×3×1 ，因此将点云看成是W和H分为N和3的2D图像，维度是 1

然后直接基于这个“2D图像”做卷积，第一个卷积核size是 [1,3] ，正好对应的就是“2D图像”的一行，也就是一个点（三维坐标），输出通道数是64，因此输出张量维度应该是 B×N×1×64

第二个卷积核size是 [1,1] ， 1∗1 卷积只改变通道数，输出张量维度是 B×N×1×64

conv2d就是将卷积封装了一下，核心部分也就是调用tf.nn.conv2d，实现如下：

def conv2d(inputs,
           num_output_channels,
           kernel_size,
           scope,
           stride=[1, 1],
           padding='SAME',
           use_xavier=True,
           stddev=1e-3,
           weight_decay=0.0,
           activation_fn=tf.nn.relu,
           bn=False,
           bn_decay=None,
           is_training=None):
  """ 2D convolution with non-linear operation.
  Args:
    inputs: 4-D tensor variable BxHxWxC
    num_output_channels: int
    kernel_size: a list of 2 ints
    scope: string
    stride: a list of 2 ints
    padding: 'SAME' or 'VALID'
    use_xavier: bool, use xavier_initializer if true
    stddev: float, stddev for truncated_normal init
    weight_decay: float
    activation_fn: function
    bn: bool, whether to use batch norm
    bn_decay: float or float tensor variable in [0,1]
    is_training: bool Tensor variable
  Returns:
    Variable tensor
  """
  with tf.variable_scope(scope) as sc:
      kernel_h, kernel_w = kernel_size
      num_in_channels = inputs.get_shape()[-1].value
      kernel_shape = [kernel_h, kernel_w,
                      num_in_channels, num_output_channels]
      kernel = _variable_with_weight_decay('weights',
                                           shape=kernel_shape,
                                           use_xavier=use_xavier,
                                           stddev=stddev,
                                           wd=weight_decay)
      stride_h, stride_w = stride
      outputs = tf.nn.conv2d(inputs, kernel,
                             [1, stride_h, stride_w, 1],
                             padding=padding)
      biases = _variable_on_cpu('biases', [num_output_channels],
                                tf.constant_initializer(0.0))
      outputs = tf.nn.bias_add(outputs, biases)
      if bn:
        outputs = batch_norm_for_conv2d(outputs, is_training,
                                        bn_decay=bn_decay, scope='bn')
      if activation_fn is not None:
        outputs = activation_fn(outputs)
      return outputs

alignment network ：

input_transform_net为例：

def input_transform_net(point_cloud, is_training, bn_decay=None, K=3):
    """ Input (XYZ) Transform Net, input is BxNx3 gray image
        Return:
            Transformation matrix of size 3xK """
    batch_size = point_cloud.get_shape()[0].value
    num_point = point_cloud.get_shape()[1].value
    input_image = tf.expand_dims(point_cloud, -1)
    net = tf_util.conv2d(input_image, 64, [1,3],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='tconv1', bn_decay=bn_decay)
    net = tf_util.conv2d(net, 128, [1,1],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='tconv2', bn_decay=bn_decay)
    net = tf_util.conv2d(net, 1024, [1,1],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='tconv3', bn_decay=bn_decay)
    net = tf_util.max_pool2d(net, [num_point,1],
                             padding='VALID', scope='tmaxpool')
    net = tf.reshape(net, [batch_size, -1])
    net = tf_util.fully_connected(net, 512, bn=True, is_training=is_training,
                                  scope='tfc1', bn_decay=bn_decay)
    net = tf_util.fully_connected(net, 256, bn=True, is_training=is_training,
                                  scope='tfc2', bn_decay=bn_decay)
    with tf.variable_scope('transform_XYZ') as sc:
        assert(K==3)
        weights = tf.get_variable('weights', [256, 3*K],
                                  initializer=tf.constant_initializer(0.0),
                                  dtype=tf.float32)
        biases = tf.get_variable('biases', [3*K],
                                 initializer=tf.constant_initializer(0.0),
                                 dtype=tf.float32)
        biases += tf.constant([1,0,0,0,1,0,0,0,1], dtype=tf.float32)
        transform = tf.matmul(net, weights)
        transform = tf.nn.bias_add(transform, biases)
    transform = tf.reshape(transform, [batch_size, 3, K])
    return transform

实际上，前半部分就是通过卷积和max_pooling对batch内各个点云提取global feature，再将global feature降到 3×K 维度，并reshape成 3×3 ，得到transform matrix

通过数据增强丰富训练数据集，网络确实应该学习到有效的transform matrix，用来实现transformation invariance

loss：

监督分类任务中常用的交叉熵loss + alignment network中的mat_diff_loss

对于特征空间的alignment network，由于特征空间维度比较高，因此直接生成的alignment matrix会维度特别大，不好优化，因此这里需要加个loss约束一下。

总结：

PointNet之所以影响力巨大，并不仅仅是因为它是第一篇，更重要的是它的网络很简洁（简洁中蕴含了大量的工作来探寻出简洁这条路）却非常的work，这也就使得它能够成为一个工具，一个为点云表征的encoder工具，应用到更广阔的点云处理任务中。

MLP+max pooling竟然就击败了众多SOTA，令人惊讶。另外PointNet在众多细节设计也都进行了理论分析和消融实验验证，保证了严谨性，这也为PointNet后面能够大规模被应用提供了支持。

让网络来学习resize：插即用的新型图像调整器模型

Learning to Resize Images for Computer Vision Tasks

论文地址：https://arxiv.org/abs/2103.09950

代码：https://github.com/KushajveerSingh/resize_network_cv

尽管近年来卷积神经网络很大地促进了计算机视觉的发展，但一个重要方面很少被关注：图像大小对被训练的任务的准确性的影响 。通常，输入图像的大小被调整到一个相对较小的空间分辨率(例如，224×224)，然后再进行训练和推理。这种调整大小的机制通常是固定的图像调整器（image resizer）（如：双行线插值）但是这些调整器是否限制了训练网络的任务性能呢？ 作者通过实验证明了典型的线性调整器可以被可学习的调整器取代，从而大大提高性能 。虽然经典的调整器通常会具备更好的小图像感知质量（即对人类识别图片更加友好），本文提出的可学习调整器不一定会具备更好的视觉质量，但能够提高CV任务的性能。

在不同的任务中，可学习的图像调整器与baseline视觉模型进行联合训练。这种可学习的基于cnn的调整器创建了机器友好的视觉操作，因此在不同的视觉任务中表现出了更好的性能 。作者使用ImageNet数据集来进行分类任务，实验中使用四种不同的baseline模型来学习不同的调整器，相比于baseline模型，使用本文提出的可学习调整器能够获得更高的性能提升。

主要包括了两个重要的特性：（1）双线性特征调整大小（bilinear feature resizing），以及（2）跳过连接（skip connection），该连接可容纳双线性调整大小的图像和CNN功能的组合。

第一个特性考虑到以原始分辨率计算的特征与模型的一致性。跳过连接可以简化学习过程，因为重定大小器模型可以直接将双线性重定大小的图像传递到基线任务中。

与一般的编码器-解码器架构不同，这篇论文中所提出的体系结构允许将图像大小调整为任何目标大小和纵横比（注意：这个大小必须是我们自己设定的，而不是网络自己学习的）。并且可学习的resizer性能几乎不依赖于双线性重定器的选择，这意味着它可以直接替换其他现成的方法。

以上之后，就没有别的了，还以为是什么样子的惊天设计，最后不就是：给网络变得复杂了吗，把这种复杂说成是可学习的resizer，这样的话，普通网络的浅层都可以说成是可学习的resizer不是吗？

另外，通过一些实验来说，确实能够提升效果。个人认为作者提出的resizer模型实际上是一个可训练的数据增强方法，甚至也可以认为就是将模型变得更加复杂。整体的网络就像是一般模型中resblock。

作者的对比试验是这样做的：首先通过常用的reisze方法训练网络模型，作为baseline，然后在训练好的网络模型前面添加可学习的resizer，然后进行训练，作为自己的方法。感受一下作者的实验结果吧。如表3和表4

四. 总结

文章写得好，加上点运气，都可以发高质量论文，以上

代码实现：

import torch
import torch.nn as nn
import torch.nn.functional as F
from functools import partial

"""
    Learning to Resize Images for Computer Vision Tasks
    https://arxiv.org/pdf/2105.04714.pdf
"""

def conv1x1(in_chs, out_chs = 16):
    return nn.Conv2d(in_chs, out_chs, kernel_size=1, stride=1, padding=0)


def conv3x3(in_chs, out_chs = 16):
    return nn.Conv2d(in_chs, out_chs, kernel_size=3, stride=1, padding=1)


def conv7x7(in_chs, out_chs = 16):
    return nn.Conv2d(in_chs, out_chs, kernel_size=7, stride=1, padding=3)


class ResBlock(nn.Module):
    def __init__(self, in_chs,out_chs = 16):
        super(ResBlock, self).__init__()
        self.layers = nn.Sequential(
            conv3x3(in_chs, out_chs),
            nn.BatchNorm2d(out_chs),
            nn.LeakyReLU(0.2),
            conv3x3(out_chs, out_chs),
            nn.BatchNorm2d(out_chs)
        )
    def forward(self, x):
        identity = x
        out = self.layers(x)
        out += identity
        return out


class Resizer(nn.Module):
    def __init__(self, in_chs, out_size, n_filters = 16, n_res_blocks = 1, mode = 'bilinear'):
        super(Resizer, self).__init__()
        self.interpolate_layer = partial(F.interpolate, size=out_size, mode=mode,
            align_corners=(True if mode in ('linear', 'bilinear', 'bicubic', 'trilinear') else None))
        self.conv_layers = nn.Sequential(
            conv7x7(in_chs, n_filters),
            nn.LeakyReLU(0.2),
            conv1x1(n_filters, n_filters),
            nn.LeakyReLU(0.2),
            nn.BatchNorm2d(n_filters)
        )
        self.residual_layers = nn.Sequential()
        for i in range(n_res_blocks):
            self.residual_layers.add_module(f'res{i}', ResBlock(n_filters, n_filters))
        self.residual_layers.add_module('conv3x3', conv3x3(n_filters, n_filters))
        self.residual_layers.add_module('bn', nn.BatchNorm2d(n_filters))
        self.final_conv = conv7x7(n_filters, in_chs)

    def forward(self, x):
        identity = self.interpolate_layer(x)
        conv_out = self.conv_layers(x)
        conv_out = self.interpolate_layer(conv_out)
        conv_out_identity = conv_out
        res_out = self.residual_layers(conv_out)
        res_out += conv_out_identity
        out = self.final_conv(res_out)
        out += identity
        return

HRNet 论文和代码详解

github： https://github.com/HRNet/HRNet-Semantic-Segmentation

Paper: https://arxiv.org/abs/1908.07919

High-Resoultion Net(HRNet)由微软亚洲研究院和中科大提出，发表在CVPR2019

摘要：高分辨率表示对于位置敏感的视觉问题十分重要，比如目标检测、语义分割、姿态估计。为了这些任务位置信息更加精准，很容易想到的做法就是维持高分辨率的feature map，事实上HRNet之前几乎所有的网络都是这么做的，通过下采样得到强语义信息，然后再上采样恢复高分辨率恢复位置信息(如下图所示)，然而这种做法，会导致大量的有效信息在不断的上下采样过程中丢失。而HRNet通过并行多个分辨率的分支，加上不断进行不同分支之间的信息交互，同时达到强语义信息和精准位置信息的目的。

模型的主要特点是在整个过程中特征图（Feature Map）始终保持高分辨率，这与之前主流方法思路上有很大的不同。在HRNet之前，2D人体姿态估计算法是采用（Hourglass/CPN/Simple Baseline/MSPN等）将高分辨率特征图下采样至低分辨率，再从低分辨率特征图恢复至高分辨率的思路（单次或重复多次），以此过程实现了多尺度特征提取的一个过程。

HRNet在整个过程中保持特征图的高分辨率，但多尺度特征提取是姿态估计模型一定要实现的过程，那么HRNet是如何实现多尺度特征提取的呢？模型是通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络，不同网络实现多尺度融合与特征提取实现的。

特点与优势：

（1）作者提出的方法是并行连接高分辨率与低分辨率网络，而不是像之前方法那样串行连接。因此，其方法能够保持高分辨率，而不是通过一个低到高的过程恢复分辨率，因此预测的heatmap可能在空间上更精确。

（2）本文提出的模型融合相同深度和相似级别的低分辨率特征图来提高高分辨率的特征图的表示效果，并进行重复的多尺度融合。

缺点：因为特征图分辨率过大，而且数量多，这样肯定会导致巨额的耗时计算，对显存对硬件要求更高了

HRNet结构细节

Backbone设计

我将HRNet整个backbone部分进行了拆解，分成4个stage，每个stage分成蓝色框和橙色框两部分。其中蓝色框部分是每个stage的基本结构，由多个branch组成，HRNet中stage1蓝色框使用的是BottleNeck，stage2&3&4蓝色框使用的是BasicBlock。其中橙色框部分是每个stage的过渡结构，HRNet中stage1橙色框是一个TransitionLayer，stage2&3橙色框是一个FuseLayer和一个TransitionLayer的叠加，stage4橙色框是一个FuseLayer。

解释一下为什么这么设计，FuseLayer是用来进行不同分支的信息交互的，TransitionLayer是用来生成一个下采样两倍分支的输入feature map的，stage1橙色框显然没办法做FuseLayer，因为前一个stage只有一个分支，stage4橙色框后面接neck和head了，显然也不再需要TransitionLayer了。

整个backbone的构建流程可以总结为：make_backbone -> make_stages -> make_branches

有关backbone构建相关的看源码，主要讲一下FuseLayer、TransitionLayer和Neck的设计

FuseLayer设计

FuseLayer部分以绿色框为例，融合前为pre，融合后为post，静态构建一个二维矩阵，然后将pre和post对应连接的操作一一填入这个二维矩阵中。

以上图为例，图1的pre1和post1的操作为空，pre2和post1的操作为2倍上采，pre3和post1的操作为4倍上采；图2的pre1和post2的操作为3×3卷积下采，pre2和post2的操作为空，pre3和post2的操作为2倍上采；图3的pre1和post3的操作为连续两个3×3卷积下采，pre2和post3的操作为3×3卷积下采，pre3和post的操作为空。

前向计算时用一个二重循环将构建好的二维矩阵一一解开，将对应同一个post的pre转换后进行融合相加。比如post1 = f11(pre1) + f12(pre2) + f13(pre3)

FuseLayer的整体code如下：

def _make_fuse_layers(self):
  fuse_layers = []
  for post_index, out_channel in enumerate(self.out_channels[:len(self.in_channels)]):
      fuse_layer = []
      for pre_index, in_channel in enumerate(self.in_channels):
          if pre_index > post_index:
              fuse_layer.append(nn.Sequential(
                  nn.Conv2d(in_channel, out_channel, 1, 1, 0, bias=False),
                  nn.BatchNorm2d(out_channel, momentum=0.1),
                  nn.Upsample(scale_factor=2**(pre_index-post_index), mode='nearest')))
          elif pre_index < post_index:
              conv3x3s = []
              for cur_index in range(post_index - pre_index):
                  out_channels_conv3x3 = out_channel if cur_index == post_index - pre_index - 1 else in_channel
                  conv3x3 = nn.Sequential(
                      nn.Conv2d(in_channel, out_channels_conv3x3, 3, 2, 1, bias=False),
                      nn.BatchNorm2d(out_channels_conv3x3, momentum=0.1)
                  )
                  if cur_index < post_index - pre_index - 1:
                      conv3x3.add_module('relu_{}'.format(cur_index), nn.ReLU(False))
                  conv3x3s.append(conv3x3)
              fuse_layer.append(nn.Sequential(*conv3x3s))
          else:
              fuse_layer.append(None)
      fuse_layers.append(nn.ModuleList(fuse_layer))
  return nn.ModuleList(fuse_layers)

def forward(self, x):
  x_fuse = []
  for post_index in range(len(self.fuse_layers)):
      y = 0
      for pre_index in range(len(self.fuse_layers)):
          if post_index == pre_index:
              y += x[pre_index]
          else:
              y += self.fuse_layers[post_index][pre_index](x[pre_index])
      x_fuse.append(self.relu(y))

TransitionLayer设计

TransitionLayer以黄色框为例，静态构建一个一维矩阵，然后将pre和post对应连接的操作一一填入这个一维矩阵中。当pre1&post1、pre2&post2、pre3&post3的通道数对应相同时，一维矩阵填入None；通道数不相同时，对应位置填入一个转换卷积。post4比较特殊，这一部分代码和图例不太一致，图例是pre1&pre2&pre3都进行下采然后进行融合相加得到post4，而代码中post4通过pre3下采得到。

TransitionLayer整体code如下

def _make_transition_layers(self):
  num_branches_pre = len(self.in_channels)
  num_branches_post = len(self.out_channels)
  transition_layers = []
  for post_index in range(num_branches_post):
      if post_index < len(self.in_channels):
          if self.in_channels[post_index] != self.out_channels[post_index]:
              transition_layers.append(nn.Sequential(
                  nn.Conv2d(self.in_channels[post_index], self.out_channels[post_index], 3, 1, 1, bias=False),
                  nn.BatchNorm2d(self.out_channels[post_index], momentum=0.1),
                  nn.ReLU(inplace=True)
              ))
          else:
              transition_layers.append(None)
      else:
          conv3x3s = []
          for pre_index in range(post_index + 1 - num_branches_pre):
              in_channels_conv3x3 = self.in_channels[-1]
              out_channels_conv3x3 = self.out_channels[post_index] if pre_index == post_index - \
                  num_branches_pre else in_channels_conv3x3
              conv3x3s.append(nn.Sequential(
                  nn.Conv2d(in_channels_conv3x3, out_channels_conv3x3, 3, 2, 1, bias=False),
                  nn.BatchNorm2d(out_channels_conv3x3, momentum=0.1),
                  nn.ReLU(inplace=True)
              ))
          transition_layers.append(nn.Sequential(*conv3x3s))
  return nn.ModuleList(transition_layers)

def forward(self, x):
  x_trans = []
  for branch_index, transition_layer in enumerate(self.transition_layers):
      if branch_index < len(self.transition_layers) - 1:
          if transition_layer:
              x_trans.append(transition_layer(x[branch_index]))
          else:
              x_trans.append(x[branch_index])
      else:
          x_trans.append(transition_layer(x[-1]))

Neck设计

我把HRNet所描述的make_head过程理解成make_neck(因为一般意义上将最后的fc层理解成head更为清晰，这个在很多开源code中都是这样子拆解的)。下面着重讲解一下HRNet的neck设计。

HRNet的backbone输出有四个分支，paper中给出了几种方式对输出分支进行操作。

(a)图是HRNetV1的操作方式，只使用分辨率最高的feature map。

(b)图是HRNetV2的操作方式，将所有分辨率的feature map(小的特征图进行upsample)进行concate，主要用于语义分割和面部关键点检测。

(c)图是HRNetV2p的操作方式，在HRNetV2的基础上，使用了一个特征金字塔，主要用于目标检测。

而在图像分类任务上，HRNet有另一种特殊的neck设计

HRNet的neck可以分成三个部分，IncreLayer(橙色框)，DownsampLayer(蓝色框)和FinalLayer(绿色框)。对每个backbone的输出分支进行升维操作，然后按照分辨率从大到小依次进行下采样同时从上到下逐级融合相加，最后用一个1x1conv升维。

def _make_neck(self, in_channels):
  head_block = Bottleneck
  self.incre_channels = [32, 64, 128, 256]
  self.neck_out_channels = 2048

  incre_modules = []
  downsamp_modules = []
  num_branches = len(self.in_channels)
  for index in range(num_branches):
      incre_module = self._make_layer(head_block, in_channels[index], incre_channels[index], 1, stride=1)
      incre_modules.append(incre_module)
      if index < num_branches - 1:
          downsamp_in_channels = self.incre_channels[index] * incre_module.expansion
          downsamp_out_channels = self.incre_channels[index+1] * incre_module.expansion
          downsamp_module = nn.Sequential(
              nn.Conv2d(in_channels=downsamp_in_channels, out_channels=downsamp_out_channels,
                        kernel_size=3, stride=2, padding=1),
              nn.BatchNorm2d(downsamp_out_channels, momentum=0.1),
              nn.ReLU(inplace=True)
          )
          downsamp_modules.append(downsamp_module)
  incre_modules = nn.ModuleList(incre_modules)
  downsamp_modules = nn.ModuleList(downsamp_modules)
  final_layer = nn.Sequential(
      nn.Conv2d(in_channels=self.out_channels[-1] * 4, out_channels=2048,
                kernel_size=1, stride=1, padding=0),
      nn.BatchNorm2d(2048, momentum=0.1),
      nn.ReLU(inplace=True)
  )
  return incre_modules, downsamp_modules, fine_layer

def forward(self, x):
  y = self.incre_modules[0](x[0])
  for index in range(len(self.downsamp_modules)):
      y = self.incre_modules[index+1](x[index+1]) + self.downsamp_modules[index](y)
  y = self.final_layer(y)
  y = F.avg_pool2d(y, kernel_size=y.size()[2:]).view(y.size(0), -1)

还有几个小细节

BN层的momentom都设置为0.1
stem使用的是两层stried为2的conv3x3
FuseLayer的ReLU的inplace都设置为False

CycleMLP：用于密集预测的类似 MLP 的架构

paper：https://arxiv.org/abs/2107.10224

作者单位：香港大学, 商汤科技
代码：https://github.com/ShoufaChen/CycleMLP

核心：用 Cycle-FC来替换Spatial FC（计算量大且网络对于不同图像分辨率的输入不可接受，且不能用于下游任务）

本文提出了一个简单的 MLP-like 的架构 CycleMLP，它是视觉识别和密集预测的通用主干，不同于现代 MLP 架构，例如 MLP-Mixer、ResMLP 和 gMLP，其架构与图像大小相关，因此是在目标检测和分割中不可行。

与现代方法相比，CycleMLP 有两个优势。

(1) 可以应对各种图像尺寸。

(2) 利用局部窗口实现对图像大小的线性计算复杂度。

相比之下，以前的 MLP 具有二次计算，因为它们具有完全的空间连接。

单个 CycleMLP Block 依然是分为 Token-mixing MLP 和 Channel mixing MLP，其中作者主要的贡献点在于替换 MLP-mixer 的 Token-mixing MLP 为 Cycle-FC。所以整个 CycleMLP Block 可以描述为：

何为 Cycle-FC ？要回答这个问题，我们首先来回顾一下 Channel FC 以及 Spatial FC.

Channel FC 即通道方向的映射，等效与1×1 卷积，其参数量与图像尺寸无关，而与通道数（token 维度）有关。假设输入输出特征图尺寸一致，则参数量为 C^2，其中 C 为通道数。而计算量则为 HWC^2，其中 H W 分别为特征图的高和宽。如果只考虑计算量与图像尺寸的影响的话，则为 O ( H W ) 。

Spatial FC 即 MLP-Mixer 使用的 Token-mixing 全连接层，在这里我们都是只考虑一个全连接层，则其实现的是 H W − > H W 的映射，参数量为 H^2W^2，计算量也为 H 2 W 2 C H^2W^2C，如果只考虑计算量与图像尺寸的影响的话，则为 O(H^2W^2)。并且HW 大小固定，网络对于不同图像分辨率的输入不可接受，且不能用于下游任务以及使用类似 EfficientNetV2 等的多分辨率训练策略。

为什么我们可以在复杂度分析时只考虑 H W 的影响呢？因为在金字塔结构的 MLP 中，通常一开始的 patch size 为 4，然后输入尺寸为 224×224，则一开始的 H = W = 56 = 224 / 4 ，而 C = 64 或者 96 ，所以C≪HW。如果对于下游任务而言，例如输入变为了512×512，则它们之间的差距更大了。为此在这里我们可以在复杂度分析中暂时只考虑 H W 而忽略 C 。

为了同时克服 Spatial 对于图像输入尺寸敏感以及计算量大的问题，作者提出了 Cycle-FC。其只是用通道方向的映射并且计算量和 Channel FC 保持一致。其说白了就是不断地以 [+1 0 -1 0 +1 0 -1 0 +1 …] 的方式移动特征图，将不同空间位置的特征对齐到同一个通道上，然后使用1×1 卷积。

回忆 AS-MLP，其采用的特征图移动方式则为 [+1 0 -1 +1 0 -1 +1 0 -1] 这样的成组方式，CycleMLP 则是使用“楼梯型”方式，但是其思想没有本质不同。此外，AS-MLP 确实对特征图进行了 Shift，并且采用了 zero-padding，而 CycleMLP 在具体实现过程中则是使用可变形卷积加以实现的。我个人对于 AS-MLP 与 CycleMLP 的理解如下图所示，可见他们其实核心思想是一致的。

from torchvision.ops.deform_conv import deform_conv2d

CycleMLP 与 AS-MLP 只并行 H 和 W 方向的移动不同，CycleMLP 其实是三条支路并行：H 方向，W 方向，以及不移动特征图做通道方向映射。此外，AS-MLP 在一开始还做了一次 Channel Projection 进行降维。

CycleMLP 最终使用的和 ViP 一样，使用 Split Attention 来融合三条支路。

class CycleMLP(nn.Module):
    def __init__(self, dim, qkv_bias=False, qk_scale=None, attn_drop=0., proj_drop=0.):
        super().__init__()
        self.mlp_c = nn.Linear(dim, dim, bias=qkv_bias)

        self.sfc_h = CycleFC(dim, dim, (1, 3), 1, 0)
        self.sfc_w = CycleFC(dim, dim, (3, 1), 1, 0)

        self.reweight = Mlp(dim, dim // 4, dim * 3)

        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

    def forward(self, x):
        B, H, W, C = x.shape
        h = self.sfc_h(x.permute(0, 3, 1, 2)).permute(0, 2, 3, 1)
        w = self.sfc_w(x.permute(0, 3, 1, 2)).permute(0, 2, 3, 1)
        c = self.mlp_c(x)

        a = (h + w + c).permute(0, 3, 1, 2).flatten(2).mean(2)
        a = self.reweight(a).reshape(B, C, 3).permute(2, 0, 1).softmax(dim=0).unsqueeze(2).unsqueeze(2)

        x = h * a[0] + w * a[1] + c * a[2]

        x = self.proj(x)
        x = self.proj_drop(x)

        return x

最后提一句，作者将投影区间定义为是 Pseudo-Kernel，这其实也是我们常说的 感受野 一词。

2.2 整体网络结构

CycleMLP 的 Patch Embedding 也很有特色，使用卷积核大小为 7×7 ，步长为 4 的卷积。后续 Hire-MLP 其实也是这样进行的 Patch Embedding。相比而言 Swin 使用卷积核大小为 4×4，步长为 4 的卷积。在近期的我自己的小实验中也发现：Patch Embedding 时具有重叠会更好，这样可以避免边界效应并在小数据集上提升性能。CycleMLP 中间采用多阶段金字塔模型，总共分为 4 个阶段，每个阶段交替重复使用 CycleMLP Block。下采样使用卷积核大小为3×3，步长为 2 的卷积，这样做也有重叠，Hire-MLP 也是这样子哈。最后经过全局池化后连接一个全连接分类器即可。作者一共提出来了四种配置：

在这四种配置，Si 指 Patch Embedding 中的 Patch size，Ci 指 Patch Embedding 的输出编码特征维度，E i 为 Channel-mixing MLP 中两个全连接层中第一个全连接层的 expand radio，Li 则是不同 Stage 中 Block 的重复次数。

3. 下游任务实验

CycleMLP 旨在为 MLP 模型的目标检测、实例分割和语义分割提供一个有竞争力的基线。与 AS-MLP 不同之处在于，CycleMLP 在 ADE20K 上进行实验，而 AS-MLP 在 COCO 上进行的实验。这真的是巧合，还是故意避开？不敢问也不敢说。

目标检测性能表现：相比 PVT，CycleMLP 都更具有优势。

语义分割性能表现：特别是，CycleMLP 在 ADE20K val 上达到了 45.1 mIoU，与 Swin (45.2 mIOU) 相当。

4. 消融实验

作者一共进行了三组消融实验：

Cycle-FC VS Spacial-FC and Channel-FC: 作者将 CycleMLP 中的 Cycle-FC 替换为 Spacial-FC 或者 Channel-FC，结果发现 CycleMLP 具有更好的性能。但是只有 Channel-FC，也能达到 79.4% 的性能，真的这么高吗，比 ResNet 高那么多…

Cycle-FC 中三条支路的选择：Cycle-FC 中作者并行了三条支路，对他们的消融实验发现，同时拥有正交 H 和 W 方向效果很好，加上不动之后效果更好。两倍 H 方向或者两倍 W 方向比仅含有 H 或者 W 方向会好一些。

测试分辨率的影响：最终发现测试正确率随分辨率先升后降，CycleMLP 表现最好。

4. 总结与反思

CycleMLP 提出了 Cycle-FC，即将不同 token 的特征对齐到同一个通道，然后使用通道映射，从而实现网络参数量计算量的降低，以及对图像分辨率不敏感。CycleMLP 也在下游任务上测试了自己的性能表现。整体而言做得还是很充分的。不过其试图造一些新的名词以强化贡献，例如 Cycle-FC 其实就是移动特征图，Pseudo-Kernel 其实就是卷积核感受野的概念。最终 CycleMLP 通过三条并行的支路构建了十字形感受野。相比 AS-MLP，CycleMLP 在感受野分析上略显不足，没有更泛化地分析以及进行消融实验。比如 CycleMLP 也可以间隔采样，例如 [+4 +2 0 -2 -4 -2 0 2 4 2 0 -2 …]，就可以构建 AS-MLP 那种空洞的更大范围的感受野。（最后插一句：CycleMLP 和 AS-MLP，就像 ResMLP 与 MLP-Mixer，学术界的 Idea 真的能够这么惊人的一致吗？）

AS-MLP：首个检测与分割领域MLP架构

paper: https://arxiv.org/abs/2107.08391

github：https://github.com/svip-lab/AS-MLP

本文是上海科技大学在MLP架构方面的探索，它设计了一种轴向移位操作以便于进行空间信息交互。在架构方面，AS-MLP采用了类似PVT的分层架构，因为可以轻易的迁移到下游任务。所提方法在ImageNet数据集上取得了优于其他MLP架构的性能，在COC检测与ADE20K分割任务上取得了与Swin相当的性能。值得一提的是，AS-MLP是首个迁移到下游任务的MLP架构。注：CycleMLP与AS-MLP属于同一时期的工作，发到arxiv的时间也只差两天，说两者都是首个其实也可以。

本文提出了一种轴向移动架构AS-MLP(Axial Shifted MLP)用于不同的视觉任务(包含图像分类、检测以及分割)。不同于MLP-Mixer通过矩阵转置+词混叠MLP进行全局空域特征编码，我们在局部特征通信方向投入了更多的关注。

通过轴向移动特征信息，AS-MLP可以得到不同方向的信息流，这有助于捕获局部相关性。该操作使得我们采用纯MLP架构即可取得与CNN相同的感受野。我们还可以类似卷积核设置AS-MLP模块的感受野尺寸以及扩张因子。如此简单而有效的架构取得了优于其他MLP架构的性能，同时具有与Transformer架构(比如Swin Transformer)相当的性能，甚至具有稍少的FLOPs。比如，AS-MLP在ImageNet数据集上凭借88M参数量+15.2GFLOPs取得了83.3%top1精度，且无需额外训练数据。

此外，所提AS-MLP也是首个用于下游任务(如目标检测、语义分割)的MLP架构。AS-MLP在COC验证集上取得了51.5mAP指标，在ADE20K数据集上取得了49.5mIoU指标，具有与Transformer架构相当的性能。

Method：

Comparisons between AS-MLP, Convolution, Transformer and MLP-Mixer

在这里，我们将AS-MLP、卷积、Swin以及MLP-Mixer进行对比分析。尽管这些模型是从不同角度出发设计得到，但它们均基于给定输出位置点，其值依赖于局部特征的加权。这些采样位置包含局部依赖与长距离依赖。

从上述对比图可以看到：

卷积是一种局部感受野的操作，更适合于提取具有局部依赖关系的特征；
Swin同样是一种局部感受野操作，Swin为自注意力机制引入了局部性提升了Transformer架构的性能，同时也降低了计算复杂度；
MLP-Mixer是一种全局感受野操作，它仅仅由矩阵转置与MLP操作构成；
AS-MLP是一种局部“十”字感受野操作，它可以更好的提取局部依赖关系。

Variants of AS-MLP Architecture

前面的Figure仅仅给出了Tiny版本的AS-MLP架构，参考DeiT与Swin，我们通过调整模块数与通道数构建了不同大小的模型。

Experiments

ImageNet Classification

上表给出了所提方法在ImageNet数据上的性能对比，从中可以看到：

所提AS-MLP取得了比其他MLP架构更优的性能，同时具有相似的参数量与FLOPs；
AS-MLP-S取得了83.1%的top1精度同时具有比Mixer-B/16、ViP-Medium/7更少的参数量；
此外，AS-MLP-B取得了与Swin相当的性能：83.3%。

此外，我们还对比了端侧配置版本的AS-MLP，结果见上表。可以看到：在端侧配置下，所提方法大幅超越了Swin Transformer。

COCO Detection

上表对比了COCO检测任务上的性能对比，可以看到：

所提AS-MLP是首个用于下游任务的MLP架构；
所提AS-MLP取得了与Swin相当的性能。具体来说，在Cascade Mask R-CNN+Swin-B取得了51.9AP指标，参数量为145M；而AS-MLP-B取得了51。5AP指标，参数量为145M。

ADE20K Segmentation

上表给出了ADE20K分割任务上的性能对比，从中可以看到：

所提AS-MLP同样是首个用于分割任务的MLP架构；
AS-MLP-T取得了比Swin-T等有的性能，同时具有稍少FLOPs；
UperNet+Swin-B取得了49.7mIoU，参数量为121M，计算量为1188GFLOPs；而UperNet+AS-MLP-B取得了49.5mIoU，参数量121M，计算量为1166GFLOPs。

Ablation Study

AS-MLP的核心是轴向移动，接下来我们将对其不同成分进行消融分析，所有试验均基于AS-MLP-T实现。

上表对比了不同padding方式、不同移动尺寸以及不同扩展比例的性能对比，从中可以看到：

zero-padding更适合于AS-MLP设计；
提升扩张因子会轻微降低模型性能；
提升移动尺寸，模型精度会先上升后下降。
基于上述分析，我们采用shift=5，zero-padding，dilation=1。

我们同时还比较了AS-MLP模块的不同链接类型，结果见上表，从中可以看到：在不同移动尺寸下，并行连接总是具有比串行连接更佳性能。

Comparsion with S2MLP

在初看到该文时，第一感觉这个与百度的那篇S2MLP(见下图核心模块)真的非常相似，都是采用了垂直、水平移位方式进行空间信息交互，而且还都是上下左右四个方向。可惜AS-MLP并未与S2MLP进行对比，反而比较晚(指的是见刊arxiv)的ViP进行的对比。

既然提到了，我们还是对S2MLP与ASMLP进行一下对比吧。

在整体架构方面，AS-MLP采用了类似PVT的分层架构，而S2MLP一文则是采用了类似ViT的柱状架构；
在应用方面，AS-MLP即可应用于图像分类，还可以迁移到下游任务中；而S2MLP则仅适用于图像分类，并不适用下游任务；
在核心模型方面，AS-MLP采用并行垂直、水平移动，分别进行特征汇聚后再进行特征相加汇聚；而S2MLP则采用分组方式，不同组进行不同方向的移动，然后再进行空间信息汇聚；
在模型性能方面，AS-MLP取得了与Swin相当的性能，比ViP更优的性能；而S2MLP的性能则弱于Swin与ViP；
最后一点，AS-MLP开源了，但S2MLP并未开源。

自然语言处理中注意力机制综述

注意力汇聚

查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚（attentionpooling）。注意力汇聚有选择地聚合了值（感官输入）以生成最终的输
出。注意力汇聚（attention pooling）公式：

其中 x 是查询，(xi; yi) 是键值对。注意力汇聚是 yi 的加权平均。将查询 x 和键 xi之间的关系建模为注意力权重（attetnion weight） (x; xi)，如 (10.2.4) 所示，这个权重将被分配给每一个对应值 yi。对于任何查询，模型在所有键值对上的注意力权重都是一个有效的概率分布：它们是非负数的，并且总和为1。

正如我们所看到的，选择不同的注意力评分函数 a 会导致不同的注意力汇聚操作。

1、加性注意力

2、缩放点积注意力

使用点积可以得到计算效率更高的评分函数。但是点积操作要求查询和键具有相同的⻓度d。假设查询和键的所有元素都是独立的随机变量，并且都满足均值为 0 和方差为 1。那么两个向量的点积的均值为 0，方差为 d。为确保无论向量⻓度如何，点积的方差在不考虑向量⻓度的情况下仍然是 1，则可以使用缩放点积注意力（scaled dot-product attention）评分函数：

1. 写在前面

近些年来，注意力机制一直频繁的出现在目之所及的文献或者博文中，可见在nlp中算得上是个相当流行的概念，事实也证明其在nlp领域散发出不小得作用。这几年得顶会paper就能看出这一点。本文深入浅出地介绍了自然语言处理中的注意力机制技术。据Lilian Weng博主总结以及一些资料显示，Attention机制最早应该是在视觉图像领域提出来的，这方面的工作应该很多，历史也比较悠久。人类的视觉注意力虽然存在很多不同的模型，但它们都基本上归结为给予需要重点关注的目标区域(注意力焦点)更重要的注意力，同时给予周围的图像低的注意力，然后随着时间的推移调整焦点。而直到Bahdanau等人发表了论文《Neural Machine Translation by Jointly Learning to Align and Translate》，该论文使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，这个工作目前是最被认可为是第一个提出attention机制应用到NLP领域中，值得一提的是，该论文2015年被ICLR录用，截至现在，谷歌引用量为5596，可见后续nlp在这一块的研究火爆程度。

注意力机制首先从人类直觉中得到，在nlp领域的机器翻译任务上首先取得不错的应用成功。简而言之，深度学习中的注意力可以广义地解释为重要性权重的向量：为了预测一个元素，例如句子中的单词，使用注意力向量来估计它与其他元素的相关程度有多强，并将其值的总和作为目标的近似值。

既然注意力机制最早在nlp领域应用于机器翻译任务，那在这个之前又是怎么做的呢？传统的基于短语的翻译系统通过将源句分成多个块然后逐个词地翻译它们来完成它们的任务。这导致了翻译输出的不流畅。想想我们人类是如何翻译的？我们首先会阅读整个待翻译的句子，然后结合上下文理解其含义，最后产生翻译。在某种程度上，神经机器翻译（NMT）的提出正是想去模仿这一过程。而在NMT的翻译模型中经典的做法是由编码器 – 解码器架构制定(encoder-decoder)，用作encoder和decoder常用的是循环神经网络。这类模型大概过程是首先将源句子的输入序列送入到编码器中，提取最后隐藏的表示并用于初始化解码器的隐藏状态，然后一个接一个地生成目标单词，这个过程广义上可以理解为不断地将前一个时刻 t-1 的输出作为后一个时刻 t 的输入，循环解码，直到输出停止符为止。通过这种方式，NMT解决了传统的基于短语的方法中的局部翻译问题：它可以捕获语言中的长距离依赖性，并提供更流畅的翻译。但是这样做也存在很多缺点，譬如，RNN是健忘的，这意味着前面的信息在经过多个时间步骤传播后会被逐渐消弱乃至消失。其次，在解码期间没有进行对齐操作，因此在解码每个元素的过程中，焦点分散在整个序列中。对于前面那个问题，LSTM、GRU在一定程度能够缓解。而后者正是Bahdanau等人重视的问题。

2、NLP中Attention mechanism的起源

在Seq2Seq结构中，encoder把所有的输入序列都编码成一个统一的语义向量context，然后再由decoder解码。而context自然也就成了限制模型性能的瓶颈。譬如机器翻译问题，当要翻译的句子较长时，一个context可能存不下那么多信息。除此之外，只用编码器的最后一个隐藏层状态，感觉上都不是很合理。实际上当我们翻译的时候譬如：Source:机器学习–>Target:machine learning。当decoder要生成”machine”的时候，应该更关注”机器”，而生成”learning”的时候，应该给予”学习”更大的权重。所以如果要改进Seq2Seq结构，一个不错的想法自然就是利用encoder所有隐藏层状态解决context限制问题。

Bahdanau等人把attention机制用到了神经网络机器翻译（NMT）上。传统的encoder-decoder模型通过encoder将Source序列编码到一个固定维度的中间语义向量context，然后在使用decoder进行解码翻译到目标语言序列。前面谈到了这种做法的局限性，而且，Bahdanau等人在摘要也说到这个context可能是提高这种基本编码器 – 解码器架构性能的瓶颈，那Bahdanau等人又是如何尝试缓解这个问题的呢？让我们来一探究竟，作者为了缓解中间向量context很难将Source序列所有必要信息压缩进来的问题，特别是对于那些很长的句子。提出在机器翻译任务上在 encoder–decoder 做出了如下扩展：将翻译和对齐联合学习。这个操作在生成Target序列的每个词时，用到的中间语义向量context是Source序列通过encoder的隐藏层的加权和，而传统的做法是只用encoder最后一个输出 ht 作为context，这样就能保证在解码不同词的时候，Source序列对现在解码词的贡献是不一样的。想想前面那个例子：”Source:机器学习–>Target:machine learning”(假如中文按照字切分)。decoder在解码”machine”时，”机”和”器”提供的权重要更大一些，同样，在解码”learning”时，”学”和”习”提供的权重相应的会更大一些，这在直觉也和人类翻译也是一致的。通过这种attention的设计，作者将Source序列的每个词(通过encoder的隐藏层输出)和Target序列(当前要翻译的词)的每个词巧妙的建立了联系。想一想，翻译每个词的时候，都有一个语义向量，而这个语义向量是Source序列每个词通过encoder之后的隐藏层的加权和。由此可以得到一个Source序列和Target序列的对齐矩阵，通过可视化这个矩阵，可以看出在翻译一个词的时候，Source序列的每个词对当前要翻译词的重要性分布，这在直觉上也能给人一种可解释性的感觉。

3. NLP中的注意力机制

随着注意力机制的广泛应用，在某种程度上缓解了源序列和目标序列由于距离限制而难以建模依赖关系的问题。现在已经涌现出了一大批基于基本形式的注意力的不同变体来处理更复杂的任务。让我们一起来看看其在不同NLP问题中的注意力机制。

其实我们可能已经意识到了，对齐模型的设计不是唯一的，确实，在某种意义上说，根据不同的任务设计适应于特定任务的对齐模型可以看作设计出了新的attention变体，让我们再看看这个模型(函数)： score(st,hi) 。再来看几个代表性的work。

Citation等人提出Content-base attention，其对齐函数模型设计为：

Bahdanau等人的Additive(*)，其设计为：

Luong[4]等人文献包含了几种方式：

以及Luong等人还尝试过location-based function。这种方法的对齐分数仅从目标隐藏状态学习得到。

Vaswani[6]等人的Scaled Dot-Product(^)缩放点积注意：

细心的童鞋可能早就发现了这东东和点积注意力很像，只是加了个scale factor。当输入较大时，softmax函数可能具有极小的梯度，难以有效学习，所以作者加入比例因子 1/n 。

Cheng[7]等人的Self-Attention(&)可以关联相同输入序列的不同位置。从理论上讲，Self-Attention可以采用上面的任何 score functions。在一些文章中也称为“intra-attention”

Hu[7]对此分了个类：

前面谈到的一些Basic Attention给人的感觉能够从序列中根据权重分布提取重要元素。而Multi-dimensional Attention能够捕获不同表示空间中的term之间的多个交互，这一点简单的实现可以通过直接将多个单维表示堆叠在一起构建。Wang[8]等人提出了coupled multi-layer attentions，该模型属于多层注意力网络模型。作者称，通过这种多层方式，该模型可以进一步利用术语之间的间接关系，以获得更精确的信息。

3.1 Hierarchical（层次） Attention

再来看看Hierarchical Attention，Yang[9]等人提出了Hierarchical Attention Networks，看下面的图可能会更直观：

Hierarchical Attention Networks

这种结构能够反映文档的层次结构。模型在单词和句子级别分别设计了两个不同级别的注意力机制，这样做能够在构建文档表示时区别地对待这些内容。Hierarchical attention可以相应地构建分层注意力，自下而上（即，词级到句子级）或自上而下（词级到字符级），以提取全局和本地的重要信息。自下而上的方法上面刚谈完。那么自上而下又是如何做的呢？让我们看看Ji[10]等人的模型：

Nested Attention Hybrid Model

和机器翻译类似，作者依旧采用encoder-decoder架构，然后用word-level attention对全局语法和流畅性纠错，设计character-level attention对本地拼写错误纠正。

3.2 Self-Attention

那Self-Attention又是指什么呢？

Self-Attention(自注意力)，也称为”intra-attention”(内部注意力)，是关联单个序列的不同位置的注意力机制，以便计算序列的交互表示。它已被证明在很多领域十分有效比如机器阅读，文本摘要或图像描述生成。

比如Cheng[11]等人在机器阅读里面利用了自注意力。当前单词为红色，蓝色阴影的大小表示激活程度，自注意力机制使得能够学习当前单词和句子前一部分词之间的相关性。

当前单词为红色，蓝色阴影的大小表示激活程度

比如Xu[12]等人利用自注意力在图像描述生成任务。注意力权重的可视化清楚地表明了模型关注的图像的哪些区域以便输出某个单词。

我们假设序列元素为 V=vi ，其匹配向量为 u 。让我们再来回顾下前面说的基本注意力的对齐函数，attention score通过 a(u,vi) 计算得到，由于是通过将外部 u 与每个元素 vi 匹配来计算注意力，所以这种形式可以看作是外部注意力。当我们把外部u替换成序列本身(或部分本身)，这种形式就可以看作为内部注意力(internal attention)。

我们根据文章[7]中的例子来看看这个过程，例如句子:”Volleyball match is in progress between ladies”。句子中其它单词都依赖着”match”，理想情况下，我们希望使用自我注意力来自动捕获这种内在依赖。换句话说，自注意力可以解释为，每个单词 vi 去和V序列中的内部模式 v′ ，匹配函数 a(v′,vi) 。 v′ 很自然的选择为V中其它单词 vj ，这样遍可以计算成对注意力得分。为了完全捕捉序列中单词之间的复杂相互作用，我们可以进一步扩展它以计算序列中每对单词之间的注意力。这种方式让每个单词和序列中其它单词交互了关系。

另一方面，自注意力还可以自适应方式学习复杂的上下文单词表示。譬如经典文章：”A structured self-attentive sentence embedding”。这篇文章提出了一种通过引入自注意力机制来提取可解释句子嵌入的新模型。使用二维矩阵而不是向量来代表嵌入，矩阵的每一行都在句子的不同部分，想深入了解的可以去看看这篇文章，另外，文章的公式感觉真的很漂亮。

值得一提还有2017年谷歌提出的Transformer[6]，这是一种新颖的基于注意力的机器翻译架构，也是一个混合神经网络，具有前馈层和自注意层。论文的题目挺霸气：Attention is All you Need，毫无疑问，它是2017年最具影响力和最有趣的论文之一。那这篇文章的Transformer的庐山真面目到底是这样的呢？

这篇文章为提出许多改进，在完全抛弃了RNN的情况下进行seq2seq建模。接下来一起来详细看看吧。

Key, Value and Query：

众所周知，在NLP任务中，通常的处理方法是先分词，然后每个词转化为对应的词向量。接着一般最常见的有二类操作，第一类是接RNN（变体LSTM、GRU、SRU等），但是这一类方法没有摆脱时序这个局限，也就是说无法并行，也导致了在大数据集上的速度效率问题。第二类是接CNN，CNN方便并行，而且容易捕捉到一些全局的结构信息。很长一段时间都是以上二种的抉择以及改造，知道谷歌提供了第三类思路：纯靠注意力，也就是现在要讲的这个东东。

将输入序列编码表示视为一组键值对（K，V）以及查询 Q，因为文章取K=V=Q，所以也自然称为Self Attention。

K, V像是key-value的关系从而是一一对应的，那么上式的意思就是通过Q中每个元素query，与K中各个元素求内积然后softmax的方式，来得到Q中元素与V中元素的相似度，然后加权求和，得到一个新的向量。其中因子 n 为了使得内积不至于太大。以上公式在文中也称为点积注意力(scaled dot-product attention)：输出是值的加权和，其中分配给每个值的权重由查询的点积与所有键确定

而Transformer主要由多头自注意力(Multi-Head Self-Attention)单元组成。在NMT的上下文中，键和值都是编码器隐藏状态。在解码器中，先前的输出被压缩成查询Q，并且通过映射该查询以及该组键和值来产生下一个输出。

3.3 Memory-based Attention

Memory-based Attention又是什么呢？我们先换种方式来看前面的注意力，假设有一系列的键值对 (ki,vi) 存在内存中和查询向量q，这样便能重写为以下过程：

这种解释是把注意力作为使用查询q的寻址过程，这个过程基于注意力分数从memory中读取内容。聪明的童鞋肯定已经发现了，如果我们假设ki=vi ，这不就是前面谈到的基础注意力么？然而，由于结合了额外的函数，可以实现可重用性和增加灵活性，所以Memory-based attention mechanism可以设计得更加强大。

那为什么又要这样做呢？在nlp的一些任务上比如问答匹配任务，答案往往与问题间接相关，因此基本的注意力技术就显得很无力了。那处理这一任务该如何做才好呢？这个时候就体现了Memory-based attention mechanism的强大了，譬如Sukhbaatar[18]等人通过迭代内存更新（也称为多跳）来模拟时间推理过程，以逐步引导注意到答案的正确位置：

在每次迭代中，使用新内容更新查询，并且使用更新的查询来检索相关内容。一种简单的更新方法为相加 qt+1=qt+ct 。那么还有其它更新方法么？当然有，直觉敏感的童鞋肯定想到了，光是这一点，就可以根据特定任务去设计，比如Kuma[13]等人的工作。这种方式的灵活度也体现在key和value可以自由的被设计，比如我们可以自由地将先验知识结合到key和value嵌入中，以允许它们分别更好地捕获相关信息。看到这里是不是觉得文章灌水其实也不是什么难事了。

3.4 Soft/Hard Attention

这个概念由《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》提出，这是对attention另一种分类。SoftAttention本质上和Bahdanau等人[3]很相似，其权重取值在0到1之间，而Hard Attention取值为0或者1。

3.5 Global/Local Attention

Luong等人[4]提出了Global Attention和Local Attention。Global Attention本质上和Bahdanau等人[3]很相似。Global方法顾名思义就是会关注源句子序列的所有词，具体地说，在计算语义向量时，会考虑编码器所有的隐藏状态。而在Local Attention中，计算语义向量时只关注每个目标词的一部分编码器隐藏状态。由于Global方法必须计算源句子序列所有隐藏状态，当句子长度过长会使得计算代价昂贵并使得翻译变得不太实际，比如在翻译段落和文档的时候。