人工智能 – 第 30 页

计算机图形学——网格

网格有多种，三角形，四边形或者其他的多边形。但是目前使用最多的，也是本文着重介绍的是三角网格。三角网格是计算机中表示三维模型最重要的方法。这篇文章主要介绍一下网格的相关概念以及技术算法。

定义

网格就是使用多边形来表示物体的表面。一个网格模型的描述之前也说到过，它包含一系列的面片和顶点。

面片F=(f1,…,fn)F=(f1,…,fn)，对于三角网格，每个面片都是三角形。

顶点V=(v1,…,vm)V=(v1,…,vm)。其中，每个面片又是由3个顶点构成的三角形，因此:fi=(vi1,vi2,vi3);vi1,vi2,vi3∈V.fi=(vi1,vi2,vi3);vi1,vi2,vi3∈V.

网格的由来

计算机生成的三维模型和实际获取的数据表示模式是不同的。计算机生成的模型可能是平滑曲线曲面，而实际获取的数据，如激光扫描得到的，一般都是以点云的形式存在。图形学中需要一个统一的表示方式，同时要求视觉精度和处理速度都在可以接受的范围内。于是就选择了网格，用多边形来近似曲面，三角网格最为简单高效，再加上图形硬件的快速发展，三角网格和光栅化已经可以嵌入到硬件中去渲染。

三维数据的来源

一般来说，获取三维模型数据的方法有多种。我们可以直接在几何文件中输入，也可以通过程序创建，比较高级的建模软件有3Ds/max，maya等。第二种就是通过激光扫描，结构光技术等等获取深度，得到点云模型。也有一些别的方法，如SFM，从多视图（多张照片）中构建三维模型。

三维模型又可以分为实体模型和表面模型。

实体模型，多用于CAD领域，通常强调对应实际工业生产中的加工过程，如切割，钻孔等。它是实心的而非空心，在显示过程中需要考虑很多的东西，占用内存较大，因此不利于显示。
表面模型，我们平时见到的模型多是表面模型，只考虑物体的表面细节并直接进行处理，这种模型易于显示。

网格化

网格化是指将模型（点云，多边形等等）分割称为更容易处理的图元，如凸多边形，三角形或者四边形。如果分割成三角形，被称为三角化。我们先看看2D网格化，而3D空间中的网格化也和2D中类似。

如上图，最左侧的多边形不能被称作网格化，第二个是凸多边形网格化，第三个是三角化，最右侧是被均匀分割。

这里介绍两个三角网格化的非常简单的算法。

基本的网格化算法

给定多边形，检验其任意两个顶点之间的线段是否与该多边形的边相交或者部分重叠。如果是，则不能用于分割三角形，否则，用该线段来将多边形分成两个多边形，对每个部分继续上述算法。

割耳（ear clipping）算法

首先找到多边形的ear：查看所有具有顶点序列i,i+1,i+2(modn)i,i+1,i+2(modn)的三角形，称这个三角形为顶点为i+1i+1的三角形，检查线段i,i2i,i2是不是没有与任何边相交。如果是，则这个三角形构成一个ear，去掉该ear，检查顶点ii和i+2i+2处的三角形是不是构成ear。重复上述过程。这个算法每次都会分出一个新的三角形。

上述两种算法对凹多边形进行三角化，会使得其变成凸多边形的样子。原本不是面的部分由于三角化而多了面片。

除此之外，我们还需要注意一种特殊的情况叫T型顶点：

它最常出现在网格细分或者网格简化过程中，使得一个顶点出现在了某个面片的边上。理论上这个点是完全在边上，但是实际渲染中顶点的位置可能不会那么精确。当一个模型中有T顶点存在，一些算法可能会失败。

网格简化

网格的简化有很多好处。比如当前我做的项目中，就需要网格简化来节省内存。同时，网格简化还有很多好处。

减少几何冗余：如果一个具有很多共面小三角形的平坦区域，可以将这些小三角形合并成大的多边形来降低模型复杂度。
减小模型大小
提高运行性能

而且有时候，对于网格的简化，并不会引起多大的感官差异，例如我们可以对较远的场景进行网格简https://www.baidu.com/baidu?wd=163&tn=ubuntuu_cb&ie=utf-8的东西看不清，复杂的网格和简化之后的网格差别不大。这也是当前很多游戏能实时运行的一个重要的技术，叫做生成场景中物体的层次细分。

拓扑结构

拓扑结构指的是多边形网格的连接结构。有一些专业术语需要了解一下，对于网格简化，细分等会用到。

亏格（genus）
亏格指的是网格表面孔洞的数目。如下：

面片，边或顶点的拓扑结构，指相邻元素的局部连接关系。如下图：

临界边只接一个三角形，普通边接两个三角形，奇异边接三个三角形。对于没有临界边的网格称为closed mesh。

二维流形（2-manifold）

二维流行网格定义如下：

一条网格边为一个或两个网格三角面片共享；
一个网格顶点的一环邻域三角片构成一个闭合或者开放的扇面。

看上去不好理解，看图片就比较好明白。

非流形网格：

流形网格：

很显然，流形网格只包含临界边和普通边。

网格简化的方法有很多，但是不外乎是下面四种的改进或者组合。

采样（sample）。很好理解，简单的选取模型表面上的点进行几何采样，编程较为复杂。这种方法对高频特征难以精确采样，通常在没有尖角的光滑表面上能取得最好的效果。
自适应细分（adaptive subdivision）通过寻找一个可以递归细分逼近最初模型的基网格，该算法在基模型容易获取的情况下能取到很好的效果，但是它会保持表面拓扑细节，因此对模型进行大规模简化的能力不足。
去除（decimation）。去除方法迭代地去除网格上的顶点或者面片，并三角化每次去除后的空洞。这类方法比较简单，易于编程实现而且运行效率也较高，且通常保持原有的亏格，尤其适用于处理像共面多边形这种冗余的几何。
顶点合并（vertex merging）。顶点合并一般将多个顶点合并成一个顶点，该算法也比较好实现，但是需要采用多种技术来确定哪些点被合并以及合并次序。
有一个例子是边坍塌算法，将共边的两个顶点合并为一个点，该算法通常保持局部拓扑，但也允许修改拓扑。

细分

网格的细分和简化相反。对于一个给定的原始网格，通过网格细分产生更光滑的效果。细分广泛应用于电影行业，实际上算法提出者之一Catmull还是皮克斯和迪士尼的总裁。

下面是几个细分的例子：

一维细分，原本是4个点的线段，通过向中间插入点得到下一张图，不断迭代得到圆滑曲线。

三维网格细分，根据特定细分规则，每次细分每一个三角形被细分成4个小的三角形。

细分可以看做是一个两阶段过程，最初的网格被称为控制网格。

细化阶段，创建新的顶点并与先前顶点相连，产生新的更小的三角形
平滑阶段，计算新顶点的位置

这两步的细节决定了不同的细分方案，在第一步中一个三角形可以以不同的形式进行分割，第二部新顶点的位置可以以不同的方式插值产生。

Loop细分

Loop细分是第一个基于三角网格的细分方案。它更新每个已有的顶点，并对每条边创建一个新的顶点，这样每个三角形被分割成4个新的三角形。经过n步细分，一个三角形被分割成4n4n个三角形。

下图为一个loop细分的例子，新的顶点以黑色显示。

为了更好说明Loop细分的步骤

下图中左侧给出了第二个公式的相关点，右侧给出了第一个公式的相关点：

β是n的函数

√3细分

另外有一种细分方法，被称为3–√3细分。和Loop细分不同的地方在于，Loop把每个三角形划分成4个三角形，而3–√3细分把每个三角形细分成3个三角形。这意味着新增加的顶点在原三角形内部。不过，很明显内部点直接与各个点连线构成的三角形很奇怪，如下图中的第二张。而3–√3在连线之后，会做一个边翻转，把原来的边删掉，而连接新的顶点的作为边，像是把原来的边进行了一个翻转，如下图中最后一张：

DenseCLIP：CVPR2022 用文本指导图像分割

代码链接：https://github.com/raoyongming/DenseCLIP
论文链接：https://arxiv.org/abs/2112.01518

最近的研究表明，使用对比图像文本对进行大规模的预训练可能是从自然语言监督中学习高质量视觉表示的有前途的方法。得益于更广泛的监督来源，这一新范式在下游分类任务和可迁移性方面展现出了不错的结果。

然而，将从图像-文本对中学习到的知识转移到更复杂的密集预测任务的问题几乎没有被研究 。在这项工作中，作者通过隐式和显式地利用CLIP的预训练的知识，提出了一个新的密集预测框架。

具体而言，作者将CLIP中的原始图像-文本匹配问题 转换为像素-文本匹配问题 ，并使用像素-文本得分图来指导密集预测模型的学习。通过进一步使用来自图像的上下文信息来提示语言模型，能够促进模型更好地利用预训练的知识。

本文的方法与模型无关，可以应用于任意密集预测模型和各种预训练的视觉主干，包括CLIP模型和ImageNet预训练的模型。广泛的实验证明了本文的方法在语义分割，目标检测和实例分割任务上的卓越性能。

在本文中，作者研究了如何将预训练的CLIP模型迁移到密集的预测任务 。与传统的ImageNet预训练模型相比，一个明显的挑战是上游对比预训练任务和下游像素预测任务之间的差距，前者涉及图像和文本的实例级表示，而后者仅基于像素级别的视觉信息。

为了解决这个问题，作者提出了一个新的语言指导的密集预测框架，名为DenseCLIP 。

如上图所示，它是通过隐式和显式地利用来自CLIP模型的预训练的知识而为各种密集预测任务而设计的。利用预训练的知识的一种隐式方法是直接微调下游数据集上的模型。结果表明，通过对超参数进行一些修改，CLIP模型可以优于传统的ImageNet预训练模型（如下图所示）。

但是直接的方法不能充分利用CLIP模型的潜力。受CLIP中的原始对比学习框架的启发，作者提出将CLIP中的原始图像-文本匹配问题转换为像素-文本匹配问题，并使用像素-文本得分图来明确地指导密集预测模型的学习 。

通过进一步使用图像中的上下文信息，使用Transformer模块来提示语言模型，能够通过优化文本嵌入，使模型更好地利用预训练的知识。

Preliminaries: Overview of CLIP

CLIP由两个编码器组成，包括一个图像编码器 (ResNet或ViT) 和一个文本编码器 (Transformer)。CLIP的目标是通过对比目标在预训练期间对齐视觉和语言的嵌入空间。

为了学习更多可迁移的预训练知识，CLIP收集4亿图像-文本对进行模型训练。迁移CLIP的知识，对于下游分类任务，一种简单但有效的方法是基于模板（如“a photo of a [CLS]”）构建一组文本提示，其中[CLS]可以替换为实际的类名。

然后给定一个图像，可以使用CLIP来计算图像和嵌入空间中的文本提示之间的相似性，并且得分最高的类被视为最终预测。最近，一些作品已经表明CLIP可以通过很少的样本获得强大的分类性能。因此，这就出现了一个有趣的问题: CLIP强大的能力是否可以迁移到像密集预测这样更复杂的视觉任务中？

但是，这种扩展是不容易的。首先，如何在密集预测任务中利用视觉语言预训练模型是一个几乎没有被研究的问题。尽管一种简单的解决方案是仅像预训练的2D主干一样使用图像编码器，但作者认为文本编码器中包含的语言先验也非常重要 。

其次，由于上游对比预训练任务与下游每像素预测任务之间存在巨大差距，因此将知识从CLIP转移到密集预测更加困难 ，前者考虑图像和文本的实例级表示，后者仅基于视觉信息，但需要像素级输出。

Language-Guided Dense Prediction

为了解决上述问题，作者提出了本文的语言指导的密集预测框架，该框架可以更好地利用CLIP预训练模型中的语言先验。本文的模型结构如上图所示。作者发现，除了全局图像特征之外，还可以从CLIP图像编码器的最后一层中提取语言兼容的特征图。

为了说明这一点，下面首先详细描述CLIP图像编码器的结构。以ResNet 编码器为例，总共有4个阶段，将特征图表示为。与原始的ResNet不同，CLIP添加了一个注意力池化层。

具体而言，CLIP首先对执行全局平均池化，以获得全局特征，其中是从主干网络第4阶段开始的特征图的高度，宽度和通道数。然后将concat的特征输入到多头自注意层(MHSA) 中:

在CLIP的标准训练过程中，全局特征用作图像编码器的输出，而其他输出通常被忽略。然而，作者发现z有两个有趣的特性：

1）z仍然保留了足够的空间信息，因此可以用作特征图 。

2）因为MHSA对每个输入元素都是对称的，所以z可能和 相似。根据以上观察结果，作者可以将z用作语言兼容的特征图。

为了获得文本特征，可以从模板“a photo of a [CLS].”中构造文本提示使用K类名称，并使用CLIP文本编码器将特征提取。然后，使用语言兼容的特征图z和文本特征t通过以下方式计算像素文本得分图

其中和是沿通道维度的z和t的l2归一化版本。得分图表示了像素文本匹配的结果，这是本文框架中最关键的要素之一。首先，可以将分数图视为具有较低分辨率的分割结果，因此可以使用它们来计算辅助分割损失。

其次，将分数映射concat到最后一个特征映射，以显式地合并语言先验，即。本文的框架是与模型无关的，因为修改的特征图可以像往常一样直接用于分割或检测。

Context-Aware Prompting

先前的研究已经证明，减少视觉或语言领域的差距可以显着提高CLIP模型在下游任务中的性能。因此，作者寻求其他方法来改进文本特征t，而不是使用人类预先定义的模板。

Language-domain prompting

与原始CLIP不同，原始CLIP使用人工设计的模板，如“a photo of a [CLS]”。CoOp引入了可学习的文本上下文，通过使用反向传播直接优化上下文，在下游任务中实现更好的可迁移性。受CoOp的启发，作者还在框架中使用可学习的文本上下文作为baseline，其中仅包括语言域提示。文本编码器的输入变为：

其中是可学习的文本上下文，而是第k类名称的嵌入。

Vision-to-language prompting

包括视觉上下文的描述可以使文本更加准确。例如，“a photo of a cat in the grass.”比“a photo of a cat.”更准确。因此，作者研究了如何使用视觉上下文来重新提取文本特征。通常可以使用Transformer decoder中的交叉注意机制来建模视觉和语言之间的相互作用。

作者提出了两种不同的上下文感知提示策略，如上图所示。作者考虑的第一个策略是pre-model prompting 。将特征传递给Transformer解码器以编码视觉上下文

其中是一组可学习的查询，而是提取的视觉上下文。

另一种选择是在文本编码器之后重新定义文本特征，即post-model prompting 。在此变体中，作者使用CoOp生成文本特征，并直接将其用作Transformer解码器的查询

尽管这两个变体的目标是相同的，但作者认为post-model prompting更好 ，主要有两个原因:

1）模型后提示是高效的。由于文本编码器的输入依赖于图像，因此在推理过程中，预模型提示需要额外的文本编码器前向传递。在后模型提示的情况下，可以存储训练后提取的文本特征，从而减少文本编码器在推理过程中带来的开销。

2) 实验结果表明，模型后提示可以比模型前提示获得更好的性能。

Improved DDPM

作者：Alex Nichol*, Prafulla Dhariwal*

关键词：diffusion model, fast sampling

论文：Improved Denoising Diffusion Probabilistic Models

知乎：https://zhuanlan.zhihu.com/p/557971459

摘要

去噪扩散概率模型（DDPM）是一类生成模型，最近已被证明能产生良好的样本。我们表明，通过一些简单的修改，DDPM也可以在保持高样本质量的同时实现具有竞争力的对数似然。此外，我们发现，反向扩散过程的学习方差允许以数量级更少的正向传递进行采样，样本质量差异可以忽略，这对于这些模型的实际部署非常重要。我们还使用精度和重新调用来比较DDPM和GANs覆盖目标分布的程度。最后，我们表明，这些模型的样本质量和似然性随模型容量和训练计算而平滑扩展，使其易于扩展。

贡献

噪声机制更新，使用cosine
引入了方差项的学习

方差学习

faster sampling

DDPM是一步一步的往上采样，这里有一个strided sampling schedule，也就是每次网上采样100步，参数都没变化。

Paper List

(DDPM) Denoising Diffusion Probabilistic Models. NIPS 20. (Diffusion and deep-learning-based 图像生成开山之作)
More Control for Free! Image Synthesis with Semantic Diffusion Guidance. arXiv 21. (对DDIM进行了推广，引入了一般形式的判别器引导)
Denoising Diffusion Implicit Models. ICLR 21. (提出了一种新的sampling的方法，可以通过改变eta来skip一些step，进而达到加速sampling的目的)
Improved denoising diffusion probabilistic models. ICML 21.
Classifier-Free Diffusion Guidance. NIPSW 21. （引入了等价结构替代了分类器引导）
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. ICML 22.
Hierarchical Text-Conditional Image Generation with CLIP Latents. NIPS 22 在投. (DALL-E 2)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. NIPS 22 在投. (Imagen, SOTA)
High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 22. (隐空间LDM)

基于扩散模型的语义分割

论文标题：LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS

论文地址：https://arxiv.org/pdf/2112.03126.pdf

论文代码：https://github.com/yandex-research/ddpm-segmentation

摘要

背景介绍：去噪扩散概率模型DDPM最近受到了很多研究关注，因为它们优于其他方法，如GAN，并且目前提供了最先进的生成性能。差分融合模型的优异性能使其在修复、超分辨率和语义编辑等应用中成为一个很有吸引力的工具。
研究方法：作者为了证明扩散模型也可以作为语义分割的工具，特别是在标记数据稀缺的情况下。对于几个预先训练的扩散模型，作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。结果表明这些激活有效地从输入图像中捕获语义信息，并且似乎是分割问题的出色像素级表示。基于这些观察结果，作者描述了一种简单的分割方法，即使只提供了少量的训练图像也可以使用。
实验结果：提出的算法在多个数据集上显着优于现有的替代方法。

K-L散度（相对熵）

Kullback-Leibler Divergence，即K-L散度，是一种量化两种概率分布P和Q之间差异的方式，又叫相对熵。在概率学和统计学上，我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。

数据的熵

K-L散度源于信息论。信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵Entropy，一般用H表示。分布的熵的公式如下：

上面对数没有确定底数，可以是2、e或10，等等。如果我们使用以2为底的对数计算H值的话，可以把这个值看作是编码信息所需要的最少二进制位个数bits。上面空间蠕虫的例子中，信息指的是根据观察所得的经验分布给出的蠕虫牙齿数量。计算可以得到原始数据概率分布的熵值为3.12 bits。这个值只是告诉我们编码蠕虫牙齿数量概率的信息需要的二进制位bit的位数。

可是熵值并没有给出压缩数据到最小熵值的方法，即如何编码数据才能达到最优（存储空间最优）。优化信息编码是一个非常有意思的主题，但并不是理解K-L散度所必须的。熵的主要作用是告诉我们最优编码信息方案的理论下界（存储空间），以及度量数据的信息量的一种方式。理解了熵，我们就知道有多少信息蕴含在数据之中，现在我们就可以计算当我们用一个带参数的概率分布来近似替代原始数据分布的时候，到底损失了多少信息。

K-L散度度量信息损失

只需要稍加修改熵H的计算公式就能得到K-L散度的计算公式。设p为观察得到的概率分布，q为另一分布来近似p，则p、q的K-L散度为：

显然，根据上面的公式，K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望。如果继续用2为底的对数计算，则K-L散度值表示信息损失的二进制位数。下面公式以期望表达K-L散度：

一般，K-L散度以下面的书写方式更常见：

注：log a - log b = log (a/b)

OK，现在我们知道当用一个分布来近似另一个分布时如何计算信息损失量了

散度并非距离

很自然地，一些同学把K-L散度看作是不同分布之间距离的度量。这是不对的，因为从K-L散度的计算公式就可以看出它不符合对称性（距离度量应该满足对称性）。也就是说，用p近似q和用q近似p，二者所损失的信息并不是一样的。

如果你熟悉神经网络，你肯能已经猜到我们接下来要学习的内容。除去神经网络结构的细节信息不谈，整个神经网络模型其实是在构造一个参数数量巨大的函数（百万级，甚至更多），不妨记为f(x)，通过设定目标函数，可以训练神经网络逼近非常复杂的真实函数g(x)。训练的关键是要设定目标函数，反馈给神经网络当前的表现如何。训练过程就是不断减小目标函数值的过程。

Occupancy Networks: Learning 3D Reconstruction in Function Space

https://arxiv.org/abs/1812.03828
CVPR2019

code: https://github.com/autonomousvision/occupancy_networks

体素表示的缺点：内存随分辨率呈立方增加，故需要限制在32*32*32或64*64*64。使用例如八叉树的数据自适应表示来降低内存，实现起来又会复杂，现有数据自适应算法依旧局限于相对较小的256*256*256分辨率。

点云表示的缺点：由于缺少底层网格的连接结构，需要额外的后处理来从模型中提取三维几何图形。

网格表示的缺点：现有的网格表示通常基于对一个模板网格的变形，因此不允许任意拓扑。

点云和网格都限制了使用标准前馈网络能可靠预测的点/顶点的数量。

本文贡献：提出了基于对连续三维占据函数进行直接学习的三维重建新方法。利用神经网络 $gif.latex?f_%7B%5Ctheta%20%7D$ 实现对任意分辨率的占据函数的预测。训练时大大降低了内存，推理时利用简单的多分辨率等值面提取算法从学习的模型中提取网格。

1、介绍了一种基于学习连续三维映射的对三维几何图形的新表示

2、展示了该表示如何用于从多种输入类型中重建三维几何形状

3、实验证明此方法能生成高质量网格且超越目前最优方法

本文提出了一种3D图形的表示方法，并给出了得到他的网络架构和训练方法。用decision boundary （判定边界）来表示物体的表面。这个方法贼好，放在2D类比，就像像素图和矢量图，矢量图是精度是无限的，但又不会耗费额外的内存。

随着深度神经网络的到来，基于学习的三维重建方法逐渐变得流行。但是和图像不同的是，在3D中没有规范的表示，既能高效地进行计算，又能有效地存储，同时还能表示任意拓扑的高分辨率几何图形。很多先进的基于学习的三维重建方法只能表示粗糙的三维几何，或者限制于一个特定的领域。在这篇论文中，作者提出了占用网格，一种新的基于学习的三维重建方法。占位网络隐式地将三维曲面表示为深度神经网络分类器的连续决策边界。与现有方法相比，该表示方式编码了高分辨率的3D输出，并且没有过多的内存占用。同时该方法能够高效地编码三维结构，并且能够从不同种类的输入推断出模型。实验证明，无论是在质量上还是在数量上，对于从单个图像、有噪声的点云和粗糙的离散体素网格进行三维重建，该方法都获得了具有竞争力的结果。

和传统多视图立体几何算法相比，学习模型的方法能够编码3D形状空间中的丰富先验信息，这有助于解决输入的模糊性。生成模型的方法在高分辨率的图像上已经取得了很好的效果，但是还没有复制到3D领域。与2D领域相比，暂时还没有就3D输出表示达成一致，这种表示既能提高内存效率，又能从数据中有效推断。现存的表示方法能够大概分成三类：体素、网格、点云，如下图所示：

体素表示是直接将像素一般化的情况，随着分辨率的提高，这种方法的内存占用将会呈指数增长，因此限制了分辨率。使用适当的损失函数，点云和网格被引入作为深度学习的代替表示。但是点云缺少底层网格的连接结构，从模型中提取3D几何需要额外的过程。现存网格的表示方法大多数是基于一个模板变形，因此不允许任意的拓扑结构。在这篇文章中，作者提出了一种基于直接学习连续三维占用函数的三维重建方法，如上图D所示。和其他方法不同的是，作者用神经网络预测了完全占用函数，它可以在任意分辨率下评估。这篇文章的主要贡献可以分为以下三点：1：介绍了一种基于学习连续三维映射的三维几何表示方法；2：使用此表示法重建各种输入类型的3D几何图形；3：此表示方法能够生成高质量的网格，并且达到先进技术水平。

结果展示:

上图显示了连续表示(纯橙色线)和网格体素化(蓝线)的IoU，以及两个表示(虚线)所需的每个模型的参数数量。

单幅图像三维重建，输入图像显示在第一列中，其他列显示与不同baselines相比该方法的结果。

基于点云的三维重建结果比较:

特斯拉 – occupancy network占据网络

视频： https://www.zhihu.com/zvideo/1566362268736200704?playTime=194.2

讲解： https://zhuanlan.zhihu.com/p/572057070

今年Tesla FSD部分，感知网络从去年的Bev感知(Hydranet)的基础上，更近一步，提出了occupancy network.

1. 为什么是occupancy network?

在基于 LiDAR 的系统中，可以根据检测到的反射强度来确定对象的存在，但在相机系统中，必须首先使用神经网络检测对象。如果看到不属于数据集的对象怎么办？比如侧翻的大卡车。仅此一项，就引发了很多事故。

可行驶区域的一些问题

rv、bev (Birds Eye View) 空间下可行驶区域会有一定问题：

地平线的深度不一致，只有2个左右的像素决定了一个大区域的深度。
无法看穿遮挡物，也无法行驶。
提供的结构是 2D的，但世界是 3D 的。
高度方向可能只有一个障碍物（悬垂的检测不到），目前是每类对象设置固定的矩形。
存在未知物体，例如，如果看到不属于数据集的对象。

所以希望有种通用的方式来解决该问题，首先能想到的是bev下的可行驶区域，但相对来说在高度维会比较受限，索性一步到位变成3d空间预测、重建。

2. Occupancy Network

2022 CVPR中，tesla FSD新负责人 Ashok Elluswamy 推出了Occupancy Network。借鉴了机器人领域常用的思想，基于occupancy grid mapping，是一种简单形式的在线3d重建。将世界划分为一系列网格单元，然后定义哪个单元被占用，哪个单元是空闲的。通过预测3d空间中的占据概率来获得一种简单的3维空间表示。关键词是3D、使用占据概率而非检测、多视角。

Occupancy Network

这里输出的并非是对象的确切形状，而是一个近似值，可以理解为因为算力和内存有限，导致轮廓不够sharp，但也够用。另外还可以在静态和动态对象之间进行预测，以超过 100 FPS 的速度运行（或者是相机可以产生的 3 倍以上）。

2020 AI day中的Hydranet算法中有三个核心词汇：鸟瞰图(BEV)空间、固定矩形、物体检测。而occupancy network针对这三点有哪些优化，可以看：

第一是鸟瞰图。在 2020 年特斯拉 AI 日上，Andrej Karpathy 介绍了特斯拉的鸟瞰网络。该网络展示了如何将检测到的物体、可驾驶空间和其他物体放入 2D 鸟瞰视图中。occupancy则是计算占据空间的概率。

BEV vs Volume Occupancy

最主要的区别就是，前者是 2D表示，而后者是3D表示。

第二是固定矩形，在设计感知系统时，经常会将检测与固定输出尺寸联系起来，矩形无法表示一些异形的车辆或者障碍物。如果您看到一辆卡车，将在featuremap上放置一个 7×3 的矩形，如果看到一个行人，则使用一个 1×1 的矩形。问题是，这样无法预测悬垂的障碍物。如果汽车顶部有梯子，卡车有侧拖车或手臂；那么这种固定的矩形可能无法检测到目标。而使用Occupancy Network的话，看到下图中，是可以精细的预测到这些情况的。

固定矩形 vs Volume Occupancy

后者的工作方式如下：

将世界划分为微小（或超微小）的立方体或体素
预测每个体素是空闲还是被占用

这里意味着两种方法的思维方式完全不一样，前者是为一个对象分配一个固定大小的矩形，而后者是简单地说“这个小立方体中有一个对象吗？ ”。

第三点，物体检测。

目前有很多新提出来的物体检测算法，但大多面向的是固定的数据集，只检测属于数据集的部分或全部对象，一旦有没有标注的物体出现，比如侧翻的白色大卡车，垃圾桶出现的路中，这是没法检测到的。而当思考和训练一个模型来预测“这个空间是空闲的还是被占用的，不管对象的类别是什么？”，正可以避免这种问题。

对象检测 vs Occupancy Network

基于视觉的系统有 5 个主要缺陷：地平线深度不一致、物体形状固定、静态和移动物体、遮挡和本体裂缝。特斯拉旨在创建一种算法来解决这些问题。

新的占用网络通过实施 3 个核心思想解决了这些问题：体积鸟瞰图、占用检测和体素分类。这些网络可以以超过 100 FPS 的速度运行，可以理解移动对象和静态对象，并且具有超强的内存效率。

模型结构：

cvpr 时的网络结构

输入为不同视角的图像（总共 8 个：正面、侧面、背面等……）。
图像由Regnet和BiFPN等网络提取特征
接着transformer模块，使用注意力模块，采用位置图像编码加上QKV获得特征，以此来产生占用Occupancy。
这会产生一个Occupancy feature，然后将其与之前的体积（t-1、t-2 等）融合，以获得4D Occupancy feature。
最后，我们使用反卷积来检索原始大小并获得两个输出：Occupancy volume和Occupancy flow。

AI day时的网络结构

相比cvpr时，AI day上的分享更加详细，主要有三点更新：

最左侧是基于photon count的传感器图像作为模型输入（虽然鼓吹的很高大上，其实就是ISP处理前的raw数据），这里的好处是可以在低光照、可见度低等情况下，感知的动态范围更好。
temporal alignment利用里程计信息，对前面时刻的occupancy features进行时序上的加权融合，不同的时间的特征有着不同的权重，然后时序信息似乎实在Channel维度进行拼接的？组合后的特征进入deconv模块提高分辨率。这样看来时序融合上，更倾向于使用类似transformer或者时间维度作为一个channel的时序cnn进行并行的处理，而非spatial RNN方案。
相比CVPR的方案，除了输出3D occupancy特征和occupancy flow（速度，加速度）以外，还增加了基于x,y,z坐标的query思路（借鉴了Nerf），可以给occupancy network提供基于query的亚像素、变分辨率的几何和语义输出。

因为nerf只能离线重建，输出的occupancy 猜想可以通过提前训好的的nerf生成GT来监督？

光流估计和Occupancy flow

特斯拉在这里实际上做的是预测光流。在计算机视觉中，光流是像素从一帧到另一帧的移动量。输出通常是flow map 。

在这种情况下，可以有每一个体素的流动，因此每辆车的运动都可以知道；这对于遮挡非常有帮助，但对于预测、规划等其他问题也很有帮助

Occupancy Flow（来源）

Occupancy flow实际上显示了每个对象的方向：红色：向前 — 蓝色：向后 — 灰色：静止等……（实际上有一个色轮代表每个可能的方向）

Nerf

特斯拉的 NeRF（来源）

神经辐射场，或 Nerf，最近席卷了3D 重建；特斯拉也是其忠实粉丝。它最初的想法是从多视图图像中重建场景（详见3D 重建课程）。

这与occupancy network 非常相似，但这里的不同之处在于也是从多个位置执行此操作的。在建筑物周围行驶，并重建建筑物。这可以使用一辆汽车或特斯拉车队在城镇周围行驶来完成。

这些 NeRF 是如何使用的？

由于Occupancy network产生 3D volume，可以将这些 3D volume与 3D-reconstruction volume（Nerf离线训练得到）进行比较，从而比较预测的 3D 场景是否与“地图”匹配（NeRF 产生 3D重建）。

在这些重建过程中也可能出现问题是图像模糊、雨、雾等……为了解决这个问题，他们使用车队平均（每次车辆看到场景，它都会更新全局 3D 重建场景）和描述符而不是纯像素。

使用Nerf的descriptor

这就是获得最终输出的方式！特斯拉还宣布了一种名为隐式网络的新型网络，其主要思想是相似的：通过判断视图是否被占用来避免冲突

总结来说：

当前仅基于视觉的系统的算法存在问题：它们不连续，在遮挡方面做得不好，无法判断物体是移动还是静止，并且它们依赖于物体检测。因此，特斯拉决定发明“Occupancy network”，它可以判断 3D 空间中的一个单元格是否被占用。
这些网络改进了 3 个主要方面：鸟瞰图、物体类别和固定大小的矩形。
occupancy network分 4 个步骤工作：特征提取、注意和occupancy检测、多帧对齐和反卷积，从而预测光流估计和占用估计。
生成 3D 体积后，使用 NeRF（神经辐射场）将输出与经过训练的 3D 重建场景进行比较。
车队平均采集数据用于解决遮挡、模糊、天气等场景

reference：

Marching Cubes 算法

　Marching Cubes算法是三维离散数据场中提取等值面的经典算法，其主要应用于医学领域的可视化场景，例如CT扫描和MRI扫描的3D重建等。

Marching Cube 首先将空间分成众多的六面体网格，类似将空间分成很多的小块

我们有很多的已知采样点，并且知道这些点在空间中的空间场值，现在我们将空间分为很多个小格子，每个小格子都有8个顶点，我们通过计算8个顶点周围（范围与六面体的大小相关）的采样点，近似计算出8个顶点的空间场值（加权评价等方法）。　

以0等值面为例:如何找到0等值面经过的六面体网格？　

算法主要的思想是在三维离散数据场中通过线性插值来逼近等值面，具体如下：三维离散数据场中每个栅格单元作为一个体素，体素的每个顶点都存在对应的标量值。如果体素顶点上的值大于或等于等值面值，则定义该顶点位于等值面之外，标记为“0”；而如果体素顶点上的值小于等值面值，则定义该顶点位于等值面之内，标记为“1”。由于每个体素单元有8个顶点，那么共存在2^8 = 256种情形，下图是Marching Cubes算法的15种基本情形，其他241种情形可以通过这15种基本情形的旋转、映射等方式实现。

　每个体素单元上顶点和边的索引规则如下图左所示，假如体素下方的顶点3的值小于等值面值，其他顶点上的值都大于等值面值（如下图右所示），那么我们可以生成一个与体素边2，3，11相交的三角面片，而三角面片顶点的具体位置则需要根据等值面值和边顶点3-2，3-0，3-7的值线性插值计算得到。

对于与等值面存在交点的体素边，交点坐标用P表示，P₁、P₂代表边上两个端点的坐标，V₁、V₂代表这两个端点上的值，V代表等值面值，那么交点坐标的计算公式如下：

P = P₁ + (V – V₁)·(P₂ – P₁)/(V₂ – V₁)

　　算法第一步：通过edgeTable表判断等值面和体素单元哪一条边相交

　　体素单元顶点状态的索引号定义规则如下：

cubeindex = 0;
if (V[0] < isolevel) cubeindex |= 1;
if (V[1] < isolevel) cubeindex |= 2;
if (V[2] < isolevel) cubeindex |= 4;
if (V[3] < isolevel) cubeindex |= 8;
if (V[4] < isolevel) cubeindex |= 16;
if (V[5] < isolevel) cubeindex |= 32;
if (V[6] < isolevel) cubeindex |= 64;
if (V[7] < isolevel) cubeindex |= 128;

以上图所示为例，仅顶点3标记为“1”，其他顶点标记为“0”，那么体素单元的顶点状态为0000 1000或者8，通过查找表得到edgeTable[8] = 1000 0000 1100，意味着体素单元的边2，3，11和等值面相交，然后通过线性插值计算各个交点的位置。

算法第二步：通过triTable表生成对应三角面片的组成情况

　　还是以上图所示为例，通过查找表得到triTable[8] = {3, 11, 2, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1}，意味着该种顶点状态可以生成三角面片(3, 11, 2)，代表三角面片的3个顶点为边3，11，2和等值面相交的交点。

　　经过上述步骤之后，我们可以得到等值面的点面信息。为了进一步完善显示效果，需要调整顶点法向。假设顶点(i, j, k)上的值为f(i, j, k)，采用中心差分方法可以计算该点处的梯度矢量：

对G进行归一化，得到顶点(i, j, k)上的单位法向量，然后对体素单元上8个顶点的法向量进行线性插值就可得到三角面片各个顶点的显示法向量。

参考：http://graphics.stanford.edu/~mdfisher/MarchingCubes.html

Marching Cube的问题

当然最初的Marching Cube 有很多问题，例如拓扑连接二义性，一种状态可以有多种连接关系

而且Marching Cube的效率不是特别高，需要借助分层结构和并行计算。
而且Marching Cube生成面片的大小与六面体的大小相关，过大则会导致模型模糊，细节消失，过小会导致面片的数目过多。

但是从1987年提出Marching Cube至今，已经对其有了很多的改进和优化算法，在处理时间，减少内存开销，分辨率方面都有很大的优化。

图像生成模型 Stable Diffusion|CVPR ’22 Oral

项目地址：https://ommer-lab.com/research/latent-diffusion-models/

试玩： https://huggingface.co/spaces/stabilityai/stable-diffusion

High-Resolution Image Synthesis with Latent Diffusion Models

Stable Diffusion 是一个“文本到图像”的人工智能模型。近日，Stable AI 公司向公众开放了它的预训练模型权重。当输入一个文字描述时，Stable Diffusion 可以生成 512×512 像素的图像，这些图像如相片般真实，反映了文字描述的场景。

这个项目先是经历了早期的代码发布，而后又向研究界有限制地发布了模型权重，现在模型权重已经向公众开放。对于最新版本，任何人都可以在为普通消费者设计的硬件上下载和使用 Stable Diffusion。该模型不仅支持文本到图像的生成，而且还支持图像到图像的风格转换和放大。与之一同发布的还有 DreamStudio 测试版，这是一个用于该模型的 API 和 Web 用户界面。

Stable AI 公司表示：

“Stable Diffusion 是一个文本到图像的模型，它将使数十亿人在几秒钟内创造出令人惊叹的艺术。它在速度和质量上的突破意味着它可以在消费者级的 GPU 上运行。这将允许研究人员和公众在一系列条件下运行它，并使图像生成普及化。我们期待着有围绕这个模型和其他模型的开放生态系统出现，以真正探索潜伏空间的边界。”

Latent Diffusion 模型（LDM）是 Stable Diffusion 模型建立的一种图像生成方法。LDM 通过在潜伏表示空间(latent representation space)中迭代“去噪”输入来创建图像，然后将表示解码为完整的图像，这与其他著名的图像合成技术，如生成对抗网络（GAN）和 DALL-E 采用的自动回归方法不同。最近的 IEEE/CVF 计算机视觉和模式识别会议（CVPR）上有一篇关于 LDM 的论文，它是由慕尼黑路德维希-马克西米利安大学的机器视觉和学习研究小组创建的。今年早些时候，InfoQ 也报道的另一个基于扩散的图片生成 AI 是谷歌的 Imagen 模型。

Stable Diffusion 可以支持众多的操作。与 DALL-E 类似，它可以生成一个高质量的图像，并使其完全符合所需图像的文字描述。我们也可以使用一个直观的草图和所需图像的文字描述，从而创建一个看起来很真实的图像。类似的“图像到图像”的能力可以在 Meta AI 的 Make-A-Scene 模型中找到，该模型刚发布不久。

一些人公开分享了 Stable Diffusion 创建的照片的例子，Stable AI 的首席开发人员 Katherine Crowson 也在 Twitter 上分享了许多照片。毫无疑问，基于人工智能的图片合成技术将对艺术家和艺术界产生影响，这令一些观察家感到担忧。值得注意的是，在 Stable Diffusion 发布的同一周，一幅由人工智能生成的作品在科罗拉多州博览会的艺术竞赛中获得了最高荣誉。

Stable Diffusion 的源代码可以在 GitHub 上查阅。

试玩地址： https://huggingface.co/spaces/stabilityai/stable-diffusion

Contribution

Diffusion model是一种likelihood-based的模型，相比GAN可以取得更好的生成效果。然而该模型是一种自回归模型，需要反复迭代计算，因而训练和推理都十分昂贵。本文提出一种diffusion的过程改为在latent space上做的方法，从而大大减少计算复杂度，同时也能达到十分不错的生成效果。（ “democratizing” research on DMs），在unconditional image synthesis, inpainting, super-resolution都能表现不错~
相比于其它进行压缩的方法，本文的方法可以生成更细致的图像，并且在高分辨率（风景图之类的，最高达10242px都无压力）的生成也表现得很好。
提出了cross-attention的方法来实现多模态训练，使得class-condition, text-to-image, layout-to-image也可以实现。

方法We condition LDMs either via concatenation or by a
more general cross-attention mechanism.

整体框架如图，先训练好一个AutoEncoder（包括一个encoder和decoder）。因此，我们可以利用encoder压缩后的数据做diffusion操作，再用decoder恢复即可。

Autoencoder训练： L1/L2loss来作为重建损失，用GAN来做对抗攻击？，用KL loss来把latent space拉到正态分布，防止搜索空间过大。
用了encoder降维后，就可以使用latent space diffusion了~ 具体扩散过程其实没有变，只不过现在扩散和重建的目标为latent space的向量了。Diffusion model具体实现为 time-conditional UNet。

为了引入conditioning的信息，提出了domain specific encoder τθ(y)不同模态的（比如text, class, image…）转成中间表达(intermediate representation)，再利用cross-attention来嵌入到UNet中去。

Experiments

展示一些可用的任务：

layout-to-image 输入bounding box输出图像。
text-to-image输入文本，输出图像。

输入landscape输出高分辨率的风景图。

超分辨率

inpainting （图像修复/编辑）

效率对比。大概时间上缩短为1/3~ 并且，FID的值更小。

扩散模型是风口！2022 剑桥 AI 全景报告出炉！

作者 | 黄楠、施方圆

转自 | AI科技评论

近日，剑桥大学的2022年 AI 全景报告（《State of AI Report 》）出炉！

报告汇总和聚焦了过去一年里 AI 行业中炙手可热的事件，援引数据来自知名科技公司和研究小组，由投资者 Nathan Benaich 和 Ian Hogarth 编写，从研究、产业、政策、安全、预测五个维度出发，对最新的 AI 发展现状和未来预期进行深度分析。

以下是报告重点介绍：

1 扩散模型火热、模型开源提速

从研究领域来看，今年 AI 发展呈现五大趋势：基于文本到图像的生成能力，扩散模型（Diffusion Models）席卷计算机视觉世界

扩散模型是深度生成模型中新的 SOTA，在一些基准测试中，其图像生成能力超越了 GAN，是当前文本生成图像最火热的模型，并逐渐扩大到文本生成、文本转音频、文本转视频以及分子设计等领域。

今年4月，OpenAI 发布 DALL-E 2，只需要给到寥寥几句文本指示就可以生成全新的图像，刚亮相就在图像生成和图像处理领域引发极大的关注度。不久，谷歌也紧接着推出的 Imagen，基于大型 Transformer 语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力，将文本生成图像的逼真度和语言理解提到了新高度。

而真正将生成式 AI 推向创作高潮的，是 Stability.Ai 在8月份公开发布的 Stable Diffusion 模型，只需输入几行文字描述，几秒钟后，AI 便能生成一幅幻彩斑斓的画作。

可以看到，目前 Stability.ai 和 Midjourney 等公司所创建的文本转图像模型，已经可以跟发展成熟的 AI 实验室的产品相媲美，其中，Midjourney 采用了订阅制的收费模式已经盈利，Stability 的模型则是开源的。

此外，基于扩散的文本到视频生成的研究也从今年4月左右就展开了。

9月下旬，Meta 发布“Make-a-Video”，宣布了从文本到视频生成的 DELL-E 时刻早于预期，文本转视频的扩散模型首次在业界引起轰动。不到一周后，谷歌也发布了两个模型：基于扩散模型的 Imagen 和非扩散模型的 Phenaki，后者能够通过附加提示动态来调整视频生成。AI for science，聚焦塑料回收、核聚变反应堆控制和天然产物发现等更多科学问题

在 AI for science 研究中，今年有不少突出的工作。

其中，DeepMind 与悉尼大学、牛津大学合作，将 AI 模型应用到数学领域的拓扑和表示论猜想，提出了一种新的算法，通过研究纽结的结构，发现数学在不同领域中的隐藏联系，该研究发表在《自然》杂志上。

一年前，DeepMind 发布 AlphaFold2，以原子水平的准确度预测了三分之二的蛋白质结构，并与 EMBL-EBI 共同发布蛋白质结构数据库 AlphaFold DB。

到了今年7月28日，DeepMind 宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构，扩大超过 200 倍，可用于植物、细菌、动物和其他生物的蛋白质预测结构，极大地提升了人们对于生物学的理解。

在塑料回收方面，来自 UT Austin 的研究人员设计了一种能够降解 PET 的酶（PET 是一种占全球固体废物12%的塑料），称为 PET 水解酶（ FAST‑PETase），能够在一周内几乎完全降解51种不同产品，并且还可以从回收的单体中重新合成 PET FAST‑PETase。

标度法则重新聚焦数据：模型标度并不是全部都需要的，朝单一模型发展，其核心在于数据

对于通用多任务、多模式模型的尝试，可以追溯到谷歌此前提到的“一个模型来学习”。

此前有研究发现，LLMs 可实现让机器人通过自然语言对每个步骤的解释来完成各种任务，但由于对机器人所处环境和现实能力缺乏认知，LLMs 的解释时常会出现无法被理解的情况。随着 PaLM-SayCan 的出现，这一问题也已经得到解决。

DeepMind 推出的 Gato 将这项工作带到了另一个层次，通过一个1.2B参数转换器，可以实现在机器人、模拟环境、视觉和语言中执行数百项任务。

此外，Transformer 作为一种解码器架构，当前其影响力已经超出 NLP，在计算机视觉上也发挥着重要作用，正在成为真正的跨模态产品。

社区驱动的大型模型开源速度加快，集合模式可以参与同大型实验室的竞争

OpenAI、DeepMind 旗下有多个模型已被开源社区实现、克隆和改进，进度远超预期。

图注：社区驱动的 GPT 等开源

尽管 AI 研究将越来越集中于少数大型实验室，但随着计算成本和访问权限的降低，因此也出现了最先进的研究在更小、以前不为人知的实验室得到提出等情况，同时，这些新的独立研究实验室也在迅速开源。受神经科学的启发，AI 研究方法向认知科学的方向发展

数据显示，自2010年以来，中国机构撰写的 AI 论文数量是美国的4.5倍，远远超过美国、印度、英国和德国的总和。

同时，中国的论文更关注与监控相关的任务，包括对象检测、跟踪、场景理解、动作和说话者识别等。

2 AI 初创公司投资放缓新贵 AI 半导体初创公司与英伟达相比是否有作为？

报告显示，英伟达的芯片在 AI 研究论文中最受欢迎， GPU 的使用率是 ASIC 的131倍，是 Graphcore 、 Habana 、 Cerebras 、 SambaNova 和 Cambricon 的芯片总和的90倍，是谷歌 TPU 的78倍，是 FPGA 的 23 倍。

招聘冻结和 AI 实验室解散，促使许多初创公司从 DeepMind 和 OpenAI 等巨头中诞生

DeepMind 和 OpenAI 的校友各自开花，组建了许多新的初创公司，分别研究不同领域的 AI 技术，如：AGI 、人工智能安全、生物技术、金融科技、能源、开发工具和机器人技术。

最新 AI 技术被大型科技公司和初创公司转化为商业开发人员工具

OpenAI 的 Codex 迅速从 2021 年 7 月的研究演变为 2022 年 6 月的开放商业化，微软的 GitHub Copilot 现在以每月 10 美元到每年 100 美元。亚马逊在 2022 年 6 月发布了 CodeWhisperer 预览版。谷歌透露，其内部正在使用以 ML 驱动的代码完成工具，也许几年内会出现在浏览器 IDE 中。同时，拥有 100 多万用户的 Tabnine 筹集了 1500 万美元，承诺有望实现准确的多行代码填写。人工智能加快药物研发，促进医疗产业发展

人工智能药物发现公司在临床试验中拥有 18 项资产，高于 2020 年的 0 项。

另外，由于放射科医生的短缺和成影数量的增加，通过评估X光片针对疾病变得更有挑战性。因此立陶宛初创公司 Oxipit 创建了一个名叫 ChestLink 的计算机视觉系统，该系统可以自动报告没有异常的胸部 X 光片，就无需放射科医生来检查，这是业界首个基于计算机视觉的诊断自主认证。大学是孕育人工智能公司的温床

目前，大学是人工智能公司重要的资源来源，包括 Databricks 、 Snorkel 、 SambaNova 、 Exscientia 等。在英国有 4.3% 的人工智能公司是大学拆分出来的，是所有英国公司的 0.03% ，人工智能是能够拆分的代表性行业之一，通常这需要高昂的代价，技术转让办公室（TTOs）通常就拆分交易条款进行谈判。

随着市场的扩大，对AI初创公司的投资速度在放缓

与去年相比， 2022 年预计使用AI的公司融资额将减少36%，但仍有望超过 2020 年的水平，这与全球所有 Start-up 阶段和 Scale-up 阶段的公司投资相当。

VC 投资的下降在 1 亿以上的轮次中最明显，而投资规模较小的轮次预计到 2022 年底全球将达到 309 亿美元，与 2021 年的水平相当。

综合公共企业价值（EV）已经下降到 2020 年的水平。同时，私营企业的估值不断增长，综合企业价值已经达到 2.2 万亿美元，比去年增长 16% 。

目前美国的AI独角兽公司数量领先，其次是中国和英国。美国已经创造了 292 家 AI 独角兽公司，企业价值合计 4.6 万亿美元，中国创造了 69 家 AI 独角兽公司，企业价值合计 1.4 万亿美元，英国创造了 24 家 AI 独角兽公司，企业价值合计 2070 亿美元。

尽管对于美国 AI 初创公司的投资大幅度下降，但它们仍然占全球人工智能总投资的一半以上。

企业软件是全球投资最多的类别，而机器人技术占据了 AI 风险投资的最大份额。

尽管 IPO 和 SPAC IPO 的数量急剧下降，但 AI 公司的收购数量可能会超出 2021 年的水平。

3 对未来一年的预测

在2021年的报告中，曾对2022年 AI 的发展情况做出了8项预测，其中已实现 Transformers 在游戏中超过人类表现，这主要得益于 DeepMind 的 Gato 模型可实现对未来状态和动作的预测，日内瓦大学提出的 IRIS 模型则解决了 Atari 环境下的任务。

未实现的预测中提到，Graphcore、Cerebras、SambaNova、Groq、Mythic 中至少有一家被大型科技公司或者半导体公司收购，在今年也没有实现；ASML 的市值当前仅为1650亿美元，距预期中的5000亿美元还存在很大差距；JAX 框架的使用仍然占 Papers With Code 每月回购的不到1%，未达到预测中的5%

还有一些往年的预测在今年实现了，其中，美国 CHIPS 法案在今年禁止接收方在中国扩大业务，原预测中英伟达最终未能完成对 Arm 的收购、该交易也于今年正式取消。在 AI 初创公司方面，Helsing（德国）在今年筹集了1亿美元的A轮融资。

而对于一直备受关注的 AI 治理问题，2019年预测至少有一家主流 AI 公司会对治理及管理模式作出实质性的调整，Anthropic 也在今年成立、作为公益性公司活动。

报告中也提出了对未来12个月的9项预测，分别是：

DeepMind 训练了一个10B参数的多模态 RL 模型，比 Gato 大一个数量级
英伟达宣布与一家专注于 AGI 的组织建立战略关系
SOTA LM 在比 Chinchilla 多10倍的数据点上进行训练，证明数据集缩放与参数缩放
生成音频工具的出现，到2023年9月吸引超过10万名开发人员
GAFAM 向 AGI 或开源 AI 公司（例如 OpenAI）投资超过10亿美元
面对英伟达的主导地位，半导体初创公司面临现实困境，一家备受瞩目的初创公司被关闭，以低于其最近估值的50%的价格下跌或收购
一项像 Biosafety 实验室这样监管 AGI 实验室的提案得到英、美或欧盟政治家的支持
超过1亿美元将在明年投资于专门的 AI 对齐组织
一个用户生成内容方（如 Reddit）与一家生产 AI 模型的初创公司（如 OpenAI）协商商业解决方案，以对其用户生成内容的语料库进行培训

定义