Few-Shot Learning (FSL): 小样本学习简介及其应用

摘自: https://research.aimultiple.com/few-shot-learning/

论文：A Survey on Few-Shot Learning： https://arxiv.org/abs/1904.05046

wss介绍视频：https://www.youtube.com/c/ShusenWang

课件：https://github.com/wangshusen/DeepLearning

如果手机需要成千上万张照片来训练才能进行人脸识别解锁，这是很不友好的。在机器学习应用领域，小样本学习(Few-shot Learning)（在刚刚描述的情况下称为单样本学习(one-shot learning)）是一个热门话题，它能够基于少量的训练样本去预测。本文将讨论以下几个方面：

什么是少样本学习（FSL）？
它为什么如此重要？
少样本学习有哪些应用？
它是如何工作的？
少样本学习和零样本学习有什么区别？
少样本学习有哪些不同的方法？
它是如何在 Python 中实现的？
机器学习的未来

case：以相似度函数来进行图片分类：

训练：可以在大规模数据集中学习不同类别的相似性，使得同一类的相似度高，不同类别相似度低。

测试：输入query（测试图片）和 surport set（带标签的图片，要进行比较的不同类别的数据集不等于训练集）目的就是要让模型识别query和 surport set 中那个更相似。

1. 什么是小样本学习？

小样本学习(Few-shot learning, FSL)，在少数资料中也被称为low-shot learning(LSL)。小样本学习是一种训练数据集包含有限信息的机器学习问题。

对于机器学习应用来说，通常的做法是提供尽可能多的数据。这是因为在大多数机器学习应用中，输入更多的数据训练能使模型的预测效果更好。然而，小样本学习的目标是使用数量较少的训练集来构建准确的机器学习模型。由于输入数据的维度是一个决定资源消耗成本(如，时间成本，计算成本等)的因素，我们可以通过使用小样本学习来降低数据分析/机器学习消耗成本。

2. 小样本学习为什么重要？

类似人的学习方式：人在看过少量例子后就可以认出手写字符之间的不同。然而，计算机需要大量的数据去“分类”它看到的东西，并识别出手写字符之间的不同。小样本学习是一种test base的方法，我们期望它能像人一样从少量的样本中学习。
稀有样本学习：小样本学习能用于稀有样本的学习。例如，当对动物图片进行分类时，用小样本学习训练的机器学习模型，在只得到少量的先验信息后，可以正确地对稀有样本的图像进行分类。
降低数据收集和计算成本：由于小样本学习仅需要少量的数据来训练模型，消除了数据收集和标记相关的高成本。训练数据量少意味着训练数据集的维数低，这可以显着降低计算成本。

3. 小样本学习(Few-shot Learning)和零样本学习(Zero-shot Learning)的区别

小样本学习的目的是在有少量训练数据的情况下能获得准确分类测试样本的模型。零样本学习的目的是预测训练数据集中没有出现过的类别。零样本学习和小样本学习有很多共同的应用，例如：

图像分类(image classification)
语义分割(semantic segmentation)
图像生成(image generation)
目标检测(object detection)
自然语言处理(natural language processing)

还有一种叫单样本学习(one-shot learning)的，它经常会和零样本学习混在一起。单样本学习是小样本学习问题的一个特例，它的目的是从一个训练样本或图片中学习到有关物体类别的信息。单样本学习的一个例子是，智能手机中使用的人脸识别技术。

4. 小样本学习的方法

关于相似性的先验知识：机器学习模型在训练数据（可以是在大规模数据集）中学习模式(patterns)，这些模式倾向于分离不同的类，即使是没有见过的数据。传统机器学习模型不能分出没有在训练数据集中出现过的类。然而，对于小样本学习技术，它能使机器学习模型对没有在训练集中出现的类别进行分类。
- 二分类判别
1. 孪生网络(Siamese Networks)。 Python实现代码：https://github.com/tensorfreitas/Siamese-Networks-for-One-Shot-Learning
1. 三胞胎网络(Triplet Networks)。 Python实现代码：https://github.com/asparagus/triplet-net
- 多分类判别
1. 匹配网络(Matching Networks)。 Python实现代码：https://github.com/schatty/matching-networks-tf
2. 原形网络(Prototypical Network)。 Python实现代码：https://github.com/jakesnell/prototypical-networks
3. 关系网络(Relation Networks)。 Python实现代码：https://github.com/mesnico/RelationNetworks-CLEVR
关于学习的先验知识：机器学习模型利用先验知识约束学习算法，从少量的样本中选择泛化良好的参数。
- 在小样本学习中用于超参数调整的技术有：
1. MAML(Model-agnostic Meta-learning)。 Python实现代码：https://github.com/cbfinn/maml
2. FOMAML(First-order Model-agnostic Meta-learning)。 Python实现代码：https://github.com/samringer/FOMAML/blob/master/SineWave.ipynb
3. Reptile。 Python实现代码：https://github.com/openai/supervised-reptile
- 学习更新规则也可以使小数据集获得良好性能：
1. LSTMs。 Python实现代码：https://github.com/twitter/meta-learning-lstm
2. 强化学习(Reinforcement learning)。 Python实现代码：https://github.com/dennybritz/reinforcement-learning
3. Optimization rules。 Python实现代码：https://github.com/mogolola/neural_optimizer_search
- 序列方法使用整个数据集和测试示例，并预测测试样本标签的值：
1. Memory-augmented NN。 Python实现代码：https://github.com/hmishra2250/NTM-One-Shot-TF
2. SNAIL。 Python实现代码：https://github.com/sagelywizard/snail
关于数据的先验知识：机器学习模型利用了关于数据的结构和可变性的先验知识，这使得可以从很少的例子中构建可行的模型。
- 生成模型：
1. Pen-stroke models。Python实现代码：https://github.com/brendenlake/omniglot
2. Neural statistician。Python实现代码：https://github.com/conormdurkan/neural-statistician
- 合成新的训练集样本:
1. Analogies (Facebook AI Research)。Python实现代码：https://github.com/facebookresearch/low-shot-shrink-hallucinate
2. End-to-end。Python实现代码：https://github.com/yjxiong/temporal-segment-networks

5. 小样本学习的应用

5.1 计算机视觉：计算机视觉探索如何从数字图像或视频中获得高级理解。小样本学习在计算机视觉中主要用于处理以下问题：

字符识别-Character recognition。NIPS 2016：Learning feed-forward one-shot learners
图像分类-Image classification。ICML 2017：Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
物体识别-Object recognition。NIPS*
其他图像应用：
- 图像检索-image retrieval。NIPS**
- 目标跟踪-object tracking。NIPS***
- 图像中特定物体计数-specific object counting in images。ECCV
- 场景位置识别-scene location recognition。IEEE
- 手势识别-gesture recognition。Oxford
- part labeling。IEEE*
- 图像生成-image generation。NIPS****
- 三维物体的形状视图重建-shape view reconstruction for 3D objects。ICLR
- 图像描述-image captioning。Association for Computing Machinery
视频应用：
- 视频分类-video classification。ECCV*
- 动作预测-motion predicion。ECCV**
- 行为检测-action localization。IEEE**
- 行人再识别-person re-identification。IEEE***
- 事件检测-event detection。British Machine Vision Conference

5.2 自然语言处理：小样本学习使自然语言处理应用程序能够用很少的文本数据样本来完成任务。例如：

句法分析-parsing。Association for Computational Linguistics
翻译-translation。ICLR
句子填空-sentence completion。Google
短文本的情感分类-sentiment classification from short reviews。NAACL
对话系统的用户意图分类-user intent classification for dialog systems。IBM Research
刑事指控预测-criminal charge prediction。代码：https://github.com/thunlp/attribute_charge。Association for Computer Linguistics
单词相似度任务-word similarity tasks。Association for Computer Linguistics*
多标签文本分类-multi-label text classification。Association for Computer Linguistics**

5.3 机器人：为了让机器人的行为更像人类，它们应该能够从少量的示例中归纳出信息。因此，小样本学习在训练机器人完成特定任务中扮演了一个关键角色，例如：

通过模仿一个动作来学习该动作-learning a movement by imitating a single demonstration。IEEE****
从少量示例中学习操作动作-learning manipulation actions from a few demonstrations。IEEE*****
视觉导航-visual navigation。PMLR
连续控制-continuous control。NIPS*****

5.4 声信号处理：包含有关声音信息的数据可以通过声信号处理进行分析，小样本在该方向的应用有：

从用户少量的音频样本中克隆声音(voice cloneing)，如导航app中的声音、Siri等。
变声-voice conversion
不同语言之前的声音转换

5.5 其它应用：

医学应用(如，few-shot drug discovery)。
单样本结构搜索-one-shot architecture search：通过一次训练超网(超网是几个Internet Protocol (IP)网络或子网的组合，组成一个具有单一无分类域间路由(CIDR)前缀的网络)来寻找体系结构。
数学应用
- 曲线拟合-curve-fitting
- 理解数字类推，通过逻辑推理(logic reasoning)来执行计算

6. Python实现

Pytorch – Torchmeta：一个用于小样本分类和回归问题的库，可以作为多个问题的基线。
FewRel：一个大规模的小样本关系提取数据集，包含了100+关系和很多已标注的跨领域的实例。
Meta Transfer Learning：这个库包含了基于元迁移学习的小样本学习的TensorFlow和PyTorch实现。
Few Shot：纯净、易读、有测试代码的小样本学习研究复现库。
Few-Shot Object Detection (FsDet)：包含基于小样本的物体检测“Simple Few-Shot Object Detection”的官方实现。
Prototypical Networks on the Omniglot Dataset： “Prototypical Networks for Few-shot Learning” 的Pytorch实现。

机器学习的未来

IBM研究表明，机器学习在未来将围绕以下领域发展：

经典机器学习：一次处理一个数据集、一个任务和一个繁重训练的问题
基于小样本的机器学习：处理大量的离线训练，然后在类似的任务上轻松学习
发展中的机器学习：持续学习各种任务。

🤗 Huggingface Transformers

Huggingface Transformers 是基于一个开源基于 transformer 模型结构提供的预训练语言库，它支持 Pytorch，Tensorflow2.0，并且支持两个框架的相互转换。框架支持了最新的各种NLP预训练语言模型，使用者可以很快速的进行模型的调用，并且支持模型further pretraining 和下游任务fine-tuning。

paper: https://arxiv.org/pdf/1910.03771.pdf （EMNLP Best Demo 2020）
github: https://github.com/huggingface/transformers
官方教程: https://huggingface.co/transformers

该库是使用 BERT 等预训练模型的最常用的库，甚至超过了google等开源的源代码。它的设计原则保证了它支持各种不同的预训练模型，并且有统一的合理的规范。使用者可以很方便的进行模型的下载，以及使用。同时，它支持用户自己上传自己的预训练模型到Model Hub中，提供其他用户使用。对于NLP从业者，可以使用这个库，很方便地进行自然语言理解（NLU）和自然语言生成（NLG）任务的SOTA模型使用。

特色：

超级简单，快速上手
适合于所有人 – NLP研究员，NLP应用人员，教育工作者
NLU/NLG SOTA 模型支持
减少预训练成本，提供了30+预训练模型，100+语言 – 支持Pytorch 与 Tensorflow2.0 转换。
以下为部分整合的预训练语言模型, ref: Transformers Github：

🤗 Transformers 提供了数以千计的预训练模型，支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。

🤗 Transformers 提供了便于快速下载和使用的API，让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。同时，每个定义的 Python 模块均完全独立，方便修改和快速研究实验。

🤗 Transformers 支持三个最热门的深度学习库： Jax, PyTorch and TensorFlow — 并与之无缝整合。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。

在线演示

你可以直接在模型页面上测试大多数 model hub 上的模型。我们也提供了私有模型托管、模型版本管理以及推理API。

这里是一些例子：

快速上手

我们为快速使用模型提供了 pipeline （流水线）API。流水线聚合了预训练模型和对应的文本预处理。下面是一个快速使用流水线去判断正负面情绪的例子：

>>> from transformers import pipeline

# 使用情绪分析流水线
>>> classifier = pipeline('sentiment-analysis')
>>> classifier('We are very happy to introduce pipeline to the transformers repository.')
[{'label': 'POSITIVE', 'score': 0.9996980428695679}]

第二行代码下载并缓存了流水线使用的预训练模型，而第三行代码则在给定的文本上进行了评估。这里的答案“正面” (positive) 具有 99 的置信度。

许多的 NLP 任务都有开箱即用的预训练流水线。比如说，我们可以轻松的从给定文本中抽取问题答案：

>>> from transformers import pipeline

# 使用问答流水线
>>> question_answerer = pipeline('question-answering')
>>> question_answerer({
...     'question': 'What is the name of the repository ?',
...     'context': 'Pipeline has been included in the huggingface/transformers repository'
... })
{'score': 0.30970096588134766, 'start': 34, 'end': 58, 'answer': 'huggingface/transformers'}

除了给出答案，预训练模型还给出了对应的置信度分数、答案在词符化 (tokenized) 后的文本中开始和结束的位置。你可以从这个教程了解更多流水线API支持的任务。

要在你的任务上下载和使用任意预训练模型也很简单，只需三行代码。这里是 PyTorch 版的示例：

>>> from transformers import AutoTokenizer, AutoModel

>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
>>> model = AutoModel.from_pretrained("bert-base-uncased")

>>> inputs = tokenizer("Hello world!", return_tensors="pt")
>>> outputs = model(**inputs)

这里是等效的 TensorFlow 代码：

>>> from transformers import AutoTokenizer, TFAutoModel

>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
>>> model = TFAutoModel.from_pretrained("bert-base-uncased")

>>> inputs = tokenizer("Hello world!", return_tensors="tf")
>>> outputs = model(**inputs)

词符化器 (tokenizer) 为所有的预训练模型提供了预处理，并可以直接对单个字符串进行调用（比如上面的例子）或对列表 (list) 调用。它会输出一个你可以在下游代码里使用或直接通过 ** 解包表达式传给模型的词典 (dict)。

模型本身是一个常规的 Pytorch nn.Module 或 TensorFlow tf.keras.Model（取决于你的后端），可以常规方式使用。这个教程解释了如何将这样的模型整合到经典的 PyTorch 或 TensorFlow 训练循环中，或是如何使用我们的 Trainer 训练器）API 来在一个新的数据集上快速微调。

为什么要用 transformers？

便于使用的先进模型：
- NLU 和 NLG 上表现优越
- 对教学和实践友好且低门槛
- 高级抽象，只需了解三个类
- 对所有模型统一的API
更低计算开销，更少的碳排放：
- 研究人员可以分享亿训练的模型而非次次从头开始训练
- 工程师可以减少计算用时和生产环境开销
- 数十种模型架构、两千多个预训练模型、100多种语言支持
对于模型生命周期的每一个部分都面面俱到：
- 训练先进的模型，只需 3 行代码
- 模型在不同深度学习框架间任意转移，随你心意
- 为训练、评估和生产选择最适合的框架，衔接无缝
为你的需求轻松定制专属模型和用例：
- 我们为每种模型架构提供了多个用例来复现原论文结果
- 模型内部结构保持透明一致
- 模型文件可单独使用，方便魔改和快速实验

什么情况下我不该用 transformers？

本库并不是模块化的神经网络工具箱。模型文件中的代码特意呈若璞玉，未经额外抽象封装，以便研究人员快速迭代魔改而不致溺于抽象和文件跳转之中。
Trainer API 并非兼容任何模型，只为本库之模型优化。若是在寻找适用于通用机器学习的训练循环实现，请另觅他库。
尽管我们已尽力而为，examples 目录中的脚本也仅为用例而已。对于你的特定问题，它们并不一定开箱即用，可能需要改几行代码以适之。

了解更多

章节	描述
文档	完整的 API 文档和教程
任务总结	🤗 Transformers 支持的任务
预处理教程	使用 `Tokenizer` 来为模型准备数据
训练和微调	在 PyTorch/TensorFlow 的训练循环或 `Trainer` API 中使用 🤗 Transformers 提供的模型
快速上手：微调和用例脚本	为各种任务提供的用例脚本
模型分享和上传	和社区上传和分享你微调的模型
迁移	从 `pytorch-transformers` 或 `pytorch-pretrained-bert` 迁移到 🤗 Transformers

Transformers model hub

Transformers model hub 提供了不同的预训练语言模型，包含了常见的Robert/BERT/XLNET/以及BART 等，几乎所有的最新模型都可以在上面找到。用户可以很方便地对模型进行调用，只需要一个模型的名字，就可以获取模型文件。

model = AutoModel.from_pretrained(model_name)

设计原则 Design Principles

Transformers 的设计是为了：

研究者可以进行拓展
单个modeling的文件，直接在一个文件中就可以修改模型所需要的所有部分，最小化的模块设计。
算法工程师可以轻松使用 – 可以使用 pipeline 直接调用，获取开箱即用的任务体验，例如情感分析的任务等。可以使用trainers 进行训练，支持fp16，分布式等
工业实践中可以快速部署且鲁棒性良好
CPU/GPU/TPU支持，可以进行优化，支持torchscript 静态图，支持ONNX格式

库设计 Library Design

transformers 库包含了机器学习相关的主要三个部分：数据处理process data, 模型应用 apply a model, 和做出预测make predictions。分别对应的如下三个模块：Tokenizer，Transformers，以及 Head。

Tokenizers 分词器，支持不同的分词。主要作用是将输入进行分词化后，并转化为相应模型需要的embedding。

Tokenizer 类支持从预训练模型中进行加载或者直接手动配置。这些类存储了 token 到 id 的字典，并且可以对输入进行分词，和decode。huggingface transformers 已经提供了如下图的相关tokenizer 分词器。用户也可以很轻松的对tokenizer 里的特殊字符进行更换，例如CLS/SEP。或者是对Tokenizer模型的字典进行大小修改等。

Tokenizer 提供了很多有用的方法，例如padding，truncating，用户可以很方便的对其进行使用。

Transformer transformers 指的是各种基于transformer结构的预训练语言模型，例如BERT，GPT等。它将输入的sparse的序列，转化为上下文感知的的 contextual embedding。

encoder 模型的计算图通常就是对模型输入进行一系列的 self-attention 操作，然后得到最后的encoder的输出。通常情况下，每个模型都是在一个文件中被定义完成的，这样方便用户进行更改和拓展。

针对不同的模型结构，都采用相同的API，这使得用户可以快速地使用不同的其他模型。transformers 提供一系列的Auto classes，使得快速进行模型切换非常方便。

model = AutoModel.from_pretrained(model_name)

Head 不同于attention的head，这边的 head 指的是下游任务的输出层，它将模型的contextual embedding 转化为特定任务的预测值，包含如下的不同的head：
- Pretraining Head
  - Casual Language Modeling（普通自回归的语言模型）：GPT， GPT-2，CTRL
  - Masked Language Modeling（掩码语言模型）：BERT， RoBERTa
  - Permuted Language Modeling（乱序重排语言模型）：XLNet
- Fine-tuning Head
  - Language Modeling：语言模型训练，预测下一个词。主要用于文本生成
  - Sequence Classification：文本分类任务，情感分析任务
  - Question Answering：机器阅读理解任务，QA
  - Token Classification：token级别的分类，主要用于命名实体识别（NER）任务，句法解析Tagging任务
  - Multiple Choice：多选任务，主要是文本选择任务
  - Masked LM：掩码预测，随机mask一个token，预测该 token 是什么词，用于预训练
  - Conditional Generation：条件生成任务，主要用于翻译以及摘要任务。

这些模型的head，是在模型文件集中上，包装的另外一个类，它提供了额外的输出层，loss函数等。这些层的命名规范也很一致，采用的是： XXXForSequenceClassification

其中 XXX 是模型的下游任务(ﬁne-tuning) 或者与训练 pretraining 任务。一些head，例如条件生成（conditional generation），支持额外的功能，像是sampling and beam search。

下图解释了每个head 的输入和输出以及数据集。

下面的代码展示了如何使用 transformers 进行下游的文本分类任务：

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

Huggingface Transformer 使用方法（教程）

Transformers提供了数以千计针对于各种任务的预训练模型模型，开发者可以根据自身的需要，选择模型进行训练或微调，也可阅读api文档和源码，快速开发新模型。

0、Setup

1）安装一个非常轻量级的 Transformers

!pip install transformers

然后

import transformers

2）建议安装开发版本，几乎带有所有用例需要的依赖项

!pip install transformers[sentencepiece]

一、模型简介 Transformer models

1. pipelines 简单的小例子

Transformers 库中最基本的对象是pipeline()函数。它将模型与其必要的预处理和后处理步骤连接起来，使我们能够直接输入任何文本并获得答案：

当第一次运行的时候，它会下载预训练模型和分词器(tokenizer)并且缓存下来。

from transformers import pipeline

classifier = pipeline("sentiment-analysis")  # 情感分析
classifier("I've been waiting for a HuggingFace course my whole life.")

# 输出
# [{'label': 'POSITIVE', 'score': 0.9598047137260437}]

也可以传几句话：

classifier(
    ["I've been waiting for a HuggingFace course my whole life.", "I hate this so much!"]
)

# 输出
'''
[{'label': 'POSITIVE', 'score': 0.9598047137260437},
 {'label': 'NEGATIVE', 'score': 0.9994558095932007}]
'''

目前可用的一些pipeline 有：

feature-extraction 特征提取：把一段文字用一个向量来表示
fill-mask 填词：把一段文字的某些部分mask住，然后让模型填空
ner 命名实体识别：识别文字中出现的人名地名的命名实体
question-answering 问答：给定一段文本以及针对它的一个问题，从文本中抽取答案
sentiment-analysis 情感分析：一段文本是正面还是负面的情感倾向
summarization 摘要：根据一段长文本中生成简短的摘要
text-generation文本生成：给定一段文本，让模型补充后面的内容
translation 翻译：把一种语言的文字翻译成另一种语言
zero-shot-classification

这些pipeline的具体例子可见：Transformer models – Hugging Face Course

2. 各种任务的代表模型

二、使用 Using Transformers

1. Pipeline 背后的流程

在接收文本后，通常有三步：Tokenizer、Model、Post-Processing。

1）Tokenizer

与其他神经网络一样，Transformer 模型不能直接处理原始文本，故使用分词器进行预处理。使用AutoTokenizer类及其from_pretrained()方法。

from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

若要指定我们想要返回的张量类型（PyTorch、TensorFlow 或普通 NumPy），我们使用return_tensors参数

raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

PyTorch 张量的结果：

输出本身是一个包含两个键的字典，input_ids和attention_mask。

{
    'input_ids': tensor([
        [  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172, 2607,  2026,  2878,  2166,  1012,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   999,   102,     0,     0,     0,     0,     0,     0,     0,     0]
    ]), 
    'attention_mask': tensor([
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
    ])
}

2）Model

Transformers 提供了一个AutoModel类，它也有一个from_pretrained()方法：

from transformers import AutoModel

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)

如果我们将预处理过的输入提供给我们的模型，我们可以看到：

outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

# 输出 
# torch.Size([2, 16, 768])

Transformers 中有许多不同的架构可用，每一种架构都围绕着处理特定任务而设计，清单：

*Model (retrieve the hidden states)
*ForCausalLM
*ForMaskedLM
*ForMultipleChoice
*ForQuestionAnswering
*ForSequenceClassification
*ForTokenClassification
and others

3）Post-Processing

模型最后一层输出的原始非标准化分数。要转换为概率，它们需要经过一个SoftMax层（所有 Transformers 模型都输出 logits，因为用于训练的损耗函数一般会将最后的激活函数(如SoftMax)与实际损耗函数(如交叉熵)融合。

import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

2. Models

1）创建Transformer

from transformers import BertConfig, BertModel

# Building the config
config = BertConfig()

# Building the model from the config
model = BertModel(config)

2）不同的加载方式

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased")

3）保存模型

model.save_pretrained("directory_on_my_computer")

4）使用Transformer model

sequences = ["Hello!", "Cool.", "Nice!"]
encoded_sequences = [
    [101, 7592, 999, 102],
    [101, 4658, 1012, 102],
    [101, 3835, 999, 102],
]

import torch

model_inputs = torch.tensor(encoded_sequences)

3. Tokenizers

1）Loading and saving

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
tokenizer("Using a Transformer network is simple")

# 输出
'''
{'input_ids': [101, 7993, 170, 11303, 1200, 2443, 1110, 3014, 102],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
'''

# 保存
tokenizer.save_pretrained("directory_on_my_computer")

2）Tokenization

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens) # 输出 : ['Using', 'a', 'transform', '##er', 'network', 'is', 'simple']

#  从token 到输入 ID
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids) # 输出：[7993, 170, 11303, 1200, 2443, 1110, 3014]

3） Decoding

decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string) # 输出：'Using a Transformer network is simple'

4. 处理多个序列 Handling multiple sequences

1) 模型需要一批输入 Models expect a batch of inputs

将数字列表转换为张量并将其发送到模型：

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)

input_ids = torch.tensor([ids])
print("Input IDs:", input_ids)

output = model(input_ids)
print("Logits:", output.logits)

# 输出
'''
Input IDs: [[ 1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,  2607, 2026,  2878,  2166,  1012]]
Logits: [[-2.7276,  2.8789]]
'''

2) 填充输入 Padding the inputs

model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence1_ids = [[200, 200, 200]]
sequence2_ids = [[200, 200]]
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)
print(model(torch.tensor(batched_ids)).logits)

# 输出
'''
tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)
tensor([[ 1.5694, -1.3895],
        [ 1.3373, -1.2163]], grad_fn=<AddmmBackward>)
'''

5. 总结 Putting it all together

我们已经探索了分词器的工作原理，并研究了分词 tokenizers、转换为输入 ID conversion to input IDs、填充 padding、截断 truncation和注意力掩码 attention masks。Transformers API 可以通过高级函数为我们处理所有这些。

from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

model_inputs = tokenizer(sequence)

# 可以标记单个序列
sequence = "I've been waiting for a HuggingFace course my whole life."
model_inputs = tokenizer(sequence)

# 还可以一次处理多个序列
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]
model_inputs = tokenizer(sequences)

# 可以根据几个目标进行填充
# Will pad the sequences up to the maximum sequence length
model_inputs = tokenizer(sequences, padding="longest")

# Will pad the sequences up to the model max length
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, padding="max_length")

# Will pad the sequences up to the specified max length
model_inputs = tokenizer(sequences, padding="max_length", max_length=8)

# 还可以截断序列
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# Will truncate the sequences that are longer than the model max length
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, truncation=True)

# Will truncate the sequences that are longer than the specified max length
model_inputs = tokenizer(sequences, max_length=8, truncation=True)

# 可以处理到特定框架张量的转换，然后可以将其直接发送到模型。
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# Returns PyTorch tensors
model_inputs = tokenizer(sequences, padding=True, return_tensors="pt")

# Returns TensorFlow tensors
model_inputs = tokenizer(sequences, padding=True, return_tensors="tf")

# Returns NumPy arrays
model_inputs = tokenizer(sequences, padding=True, return_tensors="np")

Special tokens

分词器在开头添加特殊词[CLS]，在结尾添加特殊词[SEP]。

sequence = "I've been waiting for a HuggingFace course my whole life."

model_inputs = tokenizer(sequence)
print(model_inputs["input_ids"])

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

# 输出
'''
[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102]
[1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012]
'''

print(tokenizer.decode(model_inputs["input_ids"]))
print(tokenizer.decode(ids))

# 输出
'''
"[CLS] i've been waiting for a huggingface course my whole life. [SEP]"
"i've been waiting for a huggingface course my whole life."
'''

# 总结：从分词器到模型
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")
output = model(**tokens)

Huggingface Transformers库学习笔记（二）：使用Transformers(上)（Using Transformers Part 1）： https://blog.csdn.net/u011426236/article/details/115460564

Bash 脚本入门

# Bash 脚本入门

脚本（script）就是包含一系列命令的一个文本文件。Shell 读取这个文件，依次执行里面的所有命令，就好像这些命令直接输入到命令行一样。所有能够在命令行完成的任务，都能够用脚本完成。

脚本的好处是可以重复使用，也可以指定在特定场合自动调用，比如系统启动或关闭时自动执行脚本。

Shebang 行

脚本的第一行通常是指定解释器，即这个脚本必须通过什么解释器执行。这一行以#!字符开头，这个字符称为 Shebang，所以这一行就叫做 Shebang 行。

#!后面就是脚本解释器的位置，Bash 脚本的解释器一般是/bin/sh或/bin/bash。

#!/bin/sh
# 或者
#!/bin/bash

#!与脚本解释器之间有没有空格，都是可以的。

如果 Bash 解释器不放在目录/bin，脚本就无法执行了。为了保险，可以写成下面这样。

#!/usr/bin/env bash

上面命令使用env命令（这个命令总是在/usr/bin目录），返回 Bash 可执行文件的位置。env命令的详细介绍，请看后文。

Shebang 行不是必需的，但是建议加上这行。如果缺少该行，就需要手动将脚本传给解释器。举例来说，脚本是script.sh，有 Shebang 行的时候，可以直接调用执行。

$ ./script.sh

上面例子中，script.sh是脚本文件名。脚本通常使用.sh后缀名，不过这不是必需的。

如果没有 Shebang 行，就只能手动将脚本传给解释器来执行。

$ /bin/sh ./script.sh
# 或者
$ bash ./script.sh

执行权限和路径

前面说过，只要指定了 Shebang 行的脚本，可以直接执行。这有一个前提条件，就是脚本需要有执行权限。可以使用下面的命令，赋予脚本执行权限。

# 给所有用户执行权限
$ chmod +x script.sh

# 给所有用户读权限和执行权限
$ chmod +rx script.sh
# 或者
$ chmod 755 script.sh

# 只给脚本拥有者读权限和执行权限
$ chmod u+rx script.sh

脚本的权限通常设为755（拥有者有所有权限，其他人有读和执行权限）或者700（只有拥有者可以执行）。

除了执行权限，脚本调用时，一般需要指定脚本的路径（比如path/script.sh）。如果将脚本放在环境变量$PATH指定的目录中，就不需要指定路径了。因为 Bash 会自动到这些目录中，寻找是否存在同名的可执行文件。

建议在主目录新建一个~/bin子目录，专门存放可执行脚本，然后把~/bin加入$PATH。

export PATH=$PATH:~/bin

上面命令改变环境变量$PATH，将~/bin添加到$PATH的末尾。可以将这一行加到~/.bashrc文件里面，然后重新加载一次.bashrc，这个配置就可以生效了。

$ source ~/.bashrc

以后不管在什么目录，直接输入脚本文件名，脚本就会执行。

$ script.sh

上面命令没有指定脚本路径，因为script.sh在$PATH指定的目录中。

env 命令

env命令总是指向/usr/bin/env文件，或者说，这个二进制文件总是在目录/usr/bin。

#!/usr/bin/env NAME这个语法的意思是，让 Shell 查找$PATH环境变量里面第一个匹配的NAME。如果你不知道某个命令的具体路径，或者希望兼容其他用户的机器，这样的写法就很有用。

/usr/bin/env bash的意思就是，返回bash可执行文件的位置，前提是bash的路径是在$PATH里面。其他脚本文件也可以使用这个命令。比如 Node.js 脚本的 Shebang 行，可以写成下面这样。

#!/usr/bin/env node

env命令的参数如下。

-i, --ignore-environment：不带环境变量启动。
-u, --unset=NAME：从环境变量中删除一个变量。
--help：显示帮助。
--version：输出版本信息。

下面是一个例子，新建一个不带任何环境变量的 Shell。

$ env -i /bin/sh

注释

Bash 脚本中，#表示注释，可以放在行首，也可以放在行尾。

# 本行是注释
echo 'Hello World!'

echo 'Hello World!' # 井号后面的部分也是注释

建议在脚本开头，使用注释说明当前脚本的作用，这样有利于日后的维护。

脚本参数

调用脚本的时候，脚本文件名后面可以带有参数。

$ script.sh word1 word2 word3

上面例子中，script.sh是一个脚本文件，word1、word2和word3是三个参数。

脚本文件内部，可以使用特殊变量，引用这些参数。

$0：脚本文件名，即script.sh。
$1~$9：对应脚本的第一个参数到第九个参数。
$#：参数的总数。
$@：全部的参数，参数之间使用空格分隔。
$*：全部的参数，参数之间使用变量$IFS值的第一个字符分隔，默认为空格，但是可以自定义。

如果脚本的参数多于9个，那么第10个参数可以用${10}的形式引用，以此类推。

注意，如果命令是command -o foo bar，那么-o是$1，foo是$2，bar是$3。

下面是一个脚本内部读取命令行参数的例子。

#!/bin/bash
# script.sh

echo "全部参数：" $@
echo "命令行参数数量：" $#
echo '$0 = ' $0
echo '$1 = ' $1
echo '$2 = ' $2
echo '$3 = ' $3

执行结果如下。

$ ./script.sh a b c
全部参数：a b c
命令行参数数量：3
$0 =  script.sh
$1 =  a
$2 =  b
$3 =  c

用户可以输入任意数量的参数，利用for循环，可以读取每一个参数。

#!/bin/bash

for i in "$@"; do
  echo $i
done

上面例子中，$@返回一个全部参数的列表，然后使用for循环遍历。

如果多个参数放在双引号里面，视为一个参数。

$ ./script.sh "a b"

上面例子中，Bash 会认为"a b"是一个参数，$1会返回a b。注意，返回时不包括双引号。

shift 命令

shift命令可以改变脚本参数，每次执行都会移除脚本当前的第一个参数（$1），使得后面的参数向前一位，即$2变成$1、$3变成$2、$4变成$3，以此类推。

while循环结合shift命令，也可以读取每一个参数。

#!/bin/bash

echo "一共输入了 $# 个参数"

while [ "$1" != "" ]; do
  echo "剩下 $# 个参数"
  echo "参数：$1"
  shift
done

上面例子中，shift命令每次移除当前第一个参数，从而通过while循环遍历所有参数。

shift命令可以接受一个整数作为参数，指定所要移除的参数个数，默认为1。

shift 3

上面的命令移除前三个参数，原来的$4变成$1。

getopts 命令

getopts命令用在脚本内部，可以解析复杂的脚本命令行参数，通常与while循环一起使用，取出脚本所有的带有前置连词线（-）的参数。

getopts optstring name

它带有两个参数。第一个参数optstring是字符串，给出脚本所有的连词线参数。比如，某个脚本可以有三个配置项参数-l、-h、-a，其中只有-a可以带有参数值，而-l和-h是开关参数，那么getopts的第一个参数写成lha:，顺序不重要。注意，a后面有一个冒号，表示该参数带有参数值，getopts规定带有参数值的配置项参数，后面必须带有一个冒号（:）。getopts的第二个参数name是一个变量名，用来保存当前取到的配置项参数，即l、h或a。

下面是一个例子。

while getopts 'lha:' OPTION; do
  case "$OPTION" in
    l)
      echo "linuxconfig"
      ;;

    h)
      echo "h stands for h"
      ;;

    a)
      avalue="$OPTARG"
      echo "The value provided is $OPTARG"
      ;;
    ?)
      echo "script usage: $(basename $0) [-l] [-h] [-a somevalue]" >&2
      exit 1
      ;;
  esac
done
shift "$(($OPTIND - 1))"

上面例子中，while循环不断执行getopts 'lha:' OPTION命令，每次执行就会读取一个连词线参数（以及对应的参数值），然后进入循环体。变量OPTION保存的是，当前处理的那一个连词线参数（即l、h或a）。如果用户输入了没有指定的参数（比如-x），那么OPTION等于?。循环体内使用case判断，处理这四种不同的情况。

如果某个连词线参数带有参数值，比如-a foo，那么处理a参数的时候，环境变量$OPTARG保存的就是参数值。

注意，只要遇到不带连词线的参数，getopts就会执行失败，从而退出while循环。比如，getopts可以解析command -l foo，但不可以解析command foo -l。另外，多个连词线参数写在一起的形式，比如command -lh，getopts也可以正确处理。

变量$OPTIND在getopts开始执行前是1，然后每次执行就会加1。等到退出while循环，就意味着连词线参数全部处理完毕。这时，$OPTIND - 1就是已经处理的连词线参数个数，使用shift命令将这些参数移除，保证后面的代码可以用$1、$2等处理命令的主参数。

配置项参数终止符 `--`

-和--开头的参数，会被 Bash 当作配置项解释。但是，有时它们不是配置项，而是实体参数的一部分，比如文件名叫做-f或--file。

$ cat -f
$ cat --file

上面命令的原意是输出文件-f和--file的内容，但是会被 Bash 当作配置项解释。

这时就可以使用配置项参数终止符--，它的作用是告诉 Bash，在它后面的参数开头的-和--不是配置项，只能当作实体参数解释。

$ cat -- -f
$ cat -- --file

上面命令可以正确展示文件-f和--file的内容，因为它们放在--的后面，开头的-和--就不再当作配置项解释了。

如果要确保某个变量不会被当作配置项解释，就要在它前面放上参数终止符--。

$ ls -- $myPath

上面示例中，--强制变量$myPath只能当作实体参数（即路径名）解释。如果变量不是路径名，就会报错。

$ myPath="-l"
$ ls -- $myPath
ls: 无法访问'-l': 没有那个文件或目录

上面例子中，变量myPath的值为-l，不是路径。但是，--强制$myPath只能作为路径解释，导致报错“不存在该路径”。

下面是另一个实际的例子，如果想在文件里面搜索--hello，这时也要使用参数终止符--。

$ grep -- "--hello" example.txt

上面命令在example.txt文件里面，搜索字符串--hello。这个字符串是--开头，如果不用参数终止符，grep命令就会把--hello当作配置项参数，从而报错。

exit 命令

exit命令用于终止当前脚本的执行，并向 Shell 返回一个退出值。

$ exit

上面命令中止当前脚本，将最后一条命令的退出状态，作为整个脚本的退出状态。

exit命令后面可以跟参数，该参数就是退出状态。

# 退出值为0（成功）
$ exit 0

# 退出值为1（失败）
$ exit 1

退出时，脚本会返回一个退出值。脚本的退出值，0表示正常，1表示发生错误，2表示用法不对，126表示不是可执行脚本，127表示命令没有发现。如果脚本被信号N终止，则退出值为128 + N。简单来说，只要退出值非0，就认为执行出错。

下面是一个例子。

if [ $(id -u) != "0" ]; then
  echo "根用户才能执行当前脚本"
  exit 1
fi

上面的例子中，id -u命令返回用户的 ID，一旦用户的 ID 不等于0（根用户的 ID），脚本就会退出，并且退出码为1，表示运行失败。

exit与return命令的差别是，return命令是函数的退出，并返回一个值给调用者，脚本依然执行。exit是整个脚本的退出，如果在函数之中调用exit，则退出函数，并终止脚本执行。

命令执行结果

命令执行结束后，会有一个返回值。0表示执行成功，非0（通常是1）表示执行失败。环境变量$?可以读取前一个命令的返回值。

利用这一点，可以在脚本中对命令执行结果进行判断。

cd /path/to/somewhere
if [ "$?" = "0" ]; then
  rm *
else
  echo "无法切换目录！" 1>&2
  exit 1
fi

上面例子中，cd /path/to/somewhere这个命令如果执行成功（返回值等于0），就删除该目录里面的文件，否则退出脚本，整个脚本的返回值变为1，表示执行失败。

由于if可以直接判断命令的执行结果，执行相应的操作，上面的脚本可以改写成下面的样子。

if cd /path/to/somewhere; then
  rm *
else
  echo "Could not change directory! Aborting." 1>&2
  exit 1
fi

更简洁的写法是利用两个逻辑运算符&&（且）和||（或）。

# 第一步执行成功，才会执行第二步
cd /path/to/somewhere && rm *

# 第一步执行失败，才会执行第二步
cd /path/to/somewhere || exit 1

source 命令

source命令用于执行一个脚本，通常用于重新加载一个配置文件。

$ source .bashrc

source命令最大的特点是在当前 Shell 执行脚本，不像直接执行脚本时，会新建一个子 Shell。所以，source命令执行脚本时，不需要export变量。

#!/bin/bash
# test.sh
echo $foo

上面脚本输出$foo变量的值。

# 当前 Shell 新建一个变量 foo
$ foo=1

# 打印输出 1
$ source test.sh
1

# 打印输出空字符串
$ bash test.sh

上面例子中，当前 Shell 的变量foo并没有export，所以直接执行无法读取，但是source执行可以读取。

source命令的另一个用途，是在脚本内部加载外部库。

#!/bin/bash

source ./lib.sh

function_from_lib

上面脚本在内部使用source命令加载了一个外部库，然后就可以在脚本里面，使用这个外部库定义的函数。

source有一个简写形式，可以使用一个点（.）来表示。

$ . .bashrc

别名，alias 命令

alias命令用来为一个命令指定别名，这样更便于记忆。下面是alias的格式。

alias NAME=DEFINITION

上面命令中，NAME是别名的名称，DEFINITION是别名对应的原始命令。注意，等号两侧不能有空格，否则会报错。

一个常见的例子是为grep命令起一个search的别名。

alias search=grep

alias也可以用来为长命令指定一个更短的别名。下面是通过别名定义一个today的命令。

$ alias today='date +"%A, %B %-d, %Y"'
$ today
星期一, 一月 6, 2020

有时为了防止误删除文件，可以指定rm命令的别名。

$ alias rm='rm -i'

上面命令指定rm命令是rm -i，每次删除文件之前，都会让用户确认。

alias定义的别名也可以接受参数，参数会直接传入原始命令。

$ alias echo='echo It says: '
$ echo hello world
It says: hello world

上面例子中，别名定义了echo命令的前两个参数，等同于修改了echo命令的默认行为。

指定别名以后，就可以像使用其他命令一样使用别名。一般来说，都会把常用的别名写在~/.bashrc的末尾。另外，只能为命令定义别名，为其他部分（比如很长的路径）定义别名是无效的。

直接调用alias命令，可以显示所有别名。

$ alias

unalias命令可以解除别名。

$ unalias lt

参考链接

How to use getopts to parse a script options, Egidio Docile

SwinIR:图像恢复

cvpr2021: https://arxiv.org/abs/2108.10257

代码：https://github.com/JingyunLiang/SwinIR

本文提出了一个基于Swin Transformer的用于图像恢复的强基线模型SwinIR，在图像超分辨率、去噪等任务上表现SOTA！

图像恢复是一个长期存在的低级视觉问题，旨在从低质量图像（例如，缩小、噪声和压缩图像）中恢复高质量图像.虽然最先进的图像恢复方法基于卷积神经网络，但很少有人尝试使用 Transformer，它们在high-level视觉任务中表现出令人印象深刻的性能。

在本文中，我们提出了一种基于 Swin Transformer 的强大基线模型 SwinIR 用于图像恢复。SwinIR由浅层特征提取、深层特征提取和高质量图像重建三部分组成。特别是，深度特征提取模块由几个残差 Swin Transformer 块 (RSTB) 组成，每个残差块都有几个 Swin Transformer 层和一个残差连接。我们对三个具有代表性的任务进行了实验：图像超分辨率（包括经典、轻量级和真实世界的图像超分辨率）、图像去噪（包括灰度和彩色图像去噪）和 JPEG 压缩伪影减少。实验结果表明，SwinIR 在不同任务上的表现优于最先进的方法高达 0.14 ∼ 0.45dB, 而参数的总数可以减少高达 67%.

网络结构：（感觉其实没啥创新点，就是用了swin block + 残差结构，但效果却挺好）

Shallow and deep feature extraction：3 ×3 convolutional layer

HQ Image Reconstruction：sub-pixel convolution layer or single
convolution layer

消融Ablation Study

实验结果

实验结果表明，SwinIR 在不同任务上的性能优于最先进的方法高达 0.14∼0.45dB，而参数总数最多可减少 67%。

作者多了很多实验：

SR:Classical image SR Lightweight image SR 和Real-world image SR

JPEG compression artifact reduction

Image Denoising

结果：

看点

近年来，深度学习在很多领域取得了进展，其中包括视频超分辨率任务。本文是第一个也是唯一一个视频超分方向的综述，主要看点如下：

1）回顾了基于深度学习的视频超分技术的研究进展；
2）提出了一种基于深度学习的视频超分分类方法，利用不同处理帧间信息的方式进行分类；
3）总结了SOTA方法在一些公共基准数据集上的性能；
4）分析了视频超分任务的一些前景和挑战；

分类

多篇研究表明，帧间信息的利用对视频超分的性能有很大影响。正确、充分地利用这些信息可以提高超分的最终结果。因此，根据帧间信息的利用方式——是否对齐，将现有方法分为两大类：对齐方法和非对齐方法，如下图所示：

总结

到目前为止，已经有了许多的视频超分算法。下图总结了近年来基于深度学习的视频超分方法的特点。其中MEMC表示运动估计和补偿方法，DC表示可变形卷积方法，3D Conv表示3D卷积方法，RCNN表示循环卷积神经网络方法。

趋势和挑战

尽管基于深度学习的视频超分方法已经取得了很大的进展，但是仍然存在一些挑战。

轻量级超分模型

基于深度学习的视频超分辨率方法虽然具有很高的性能，但由于模型参数庞大，需要大量的计算和存储资源，训练时间长，在实际问题中难以有效部署。随着移动设备在现代生活中的流行，人们期望将模型应用到这些设备上。如何设计和实现一种高性能、轻量级的超分算法，以满足实际应用的需要是一个挑战。

模型的可解释性

深度神经网络通常被认为是黑箱。也就是说，不管模型表现如何，我们也无法知道模型学到了什么真正的信息。在现有的视频超分模型中，卷积神经网络如何恢复低分辨率视频序列还没有一个理论解释。随着对其解释的深入研究，包括视频和图像超分方法在内的超分算法的性能可能会有很大的提高。

大尺度超分辨率

对于视频超分任务，现有的工作主要集中在放大倍数为4的情况下。更具挑战性的尺度（如×8、×16）很少被探索。随着高分辨率（如4K、8K）显示设备的普及，大尺度的超分有待进一步研究。显然，随着尺度的增大，视频序列中未知信息的预测和恢复会变得越来越困难。这可能导致算法的性能下降，削弱模型的鲁棒性。因此，如何开发稳定的深度学习算法来实现更大规模的视频超分辨率仍然是一个重要的问题。

更合理、更恰当的视频降质过程

在现有的研究中，LR视频的退化通常由两种方法得到。一种是使用插值（如双三次插值）直接对HR视频进行下采样。另一种是对HR视频进行高斯模糊，然后对视频序列进行降采样。虽然这两种方法在理论上都有很好的表现，但在实践中却总是表现不佳。真实世界的退化过程是非常复杂的，并且在真实世界的问题中包含了大量的不确定性，模糊和插值对问题的建模是不够的。因此，在构建LR视频时，应该从理论上建立与实际情况相一致的退化模型，以缩小研究与实践之间的差距。大多数最先进的视频超分辨率方法都是有监督学习。由于降质过程是复杂的和HR/LR对获取是比较难获取的。或许无监督的超分方法可能会称为解决这个问题的一个方法。

更有效的场景变换算法

现有的视频超分方法很少涉及场景变化的视频。实际上，一个视频序列通常有许多不同的场景。在研究这类视频的超分问题时，必须在不改变场景的情况下将其分割成多个片段，并分别进行处理。这可能会导致大量的计算和计算时长。因此，能够处理场景变化的深度学习方法对于实际应用是必要的。

更合理的视频质量评价标准

评价超分辨率结果质量的标准主要有PSNR和SSIM。然而，它们的值并不能反映视频质量对人的感知。也就是说，即使视频的PSNR值很高，视频对人类来说也不一定是舒服的。因此，需要开发出符合人类感知的新的视频评价标准。虽然提出了一些评价标准，但仍需要更多能被广泛接受的标准。

利用帧间信息的更有效方法

视频超分的一个重要特征是利用帧间信息。它的有效利用直接影响着模型的性能。尽管本文提出了许多方法，但仍存在一些不足。例如，三维卷积和非局部模运算量大，光流估计的精度无法保证等。因此，有效利用帧间信息的方法值得进一步研究。

BasicVSR|视频超分算法

视频超分====”钞“能力，没几张显卡真玩不了。

paper: https://arxiv.org/abs/2012.0218

该文是南洋理工&腾讯PCG、CUHK-SenseTime联合实验室、中科院深圳先进技术研究院2020年提出的一种视频超分方案BasicVSR。在多个数据集上、在两种退化方式上，所提BasicVSR与IconVSR均超越已有视频超分方案，特别的，在UDM10数据集上取得了高达0.68dB的性能提升。

Video Super-Resolution on MSU Video Super Resolution Benchmark：

截至2022，该方法仍是sota方法。

正如作者所说，BasicVSR及其扩展IconVSR可以作为未来VSR方法的强大基线！！！

Abstract

由于需要利用额外的时序信息，视频超分往往比图像超分包含更多的模块，这就导致了各式各样的复杂结构。

该文作者对视频超分进行了梳理并重新审查了视频超分的四个基本模块：Propagation, Alignment, Aggregation以及Upsampling。通过复用现有方案的模块并添加微小改动，作者提出了一种简单方案：BasicVSR，它在推理速度、复原质量方面取得了引人注目的提升。

作者对BasicVSR进行了系统的分析，解释了性能提升的原因所在，同时也讨论了其局限性。在BasicVSR的基础上，作者进一步提出了“信息寄存(information-refile)”与“耦合传播(coupled propagation)”两种机制促进信息集成。所提BasicVSR及其改进IconVSR将视频超分的性能进行了更进一步的提升，可以作为视频超分领域的一个更强的基准。

Introduction

作者对现有各式各样的VSR方案按照各个模块的功能(propagation, alignment, aggregation, upsampling)进行了拆分，相关总结见下表。

Propagation：在这里特指信息的流动，比如局部信息，单向信息流动，双向信息流动；
Alignment：在这里特指对齐的类型以及有无；
Aggregation：在这里指的是对齐特征的集成方式；
Upsampling：在这里指的是上采样过程所采用的方案，基本都是Pixel-Shuffle。

在上述四个功能单元中，Propagation和Alignment对性能和效率影响最大。双线传播有助于最大化的进行信息汇集，光流方案有助于进行相邻帧特征对齐。通过简单的上述模块组合所得的BasicVSR即取得了超越SOTA的指标与速度(指标提升0.61dB，推理速度快了24倍)。

什么是光流法？光流是一种用于描述图像运动的技术。它通常应用于它们之间具有小时间步长的一系列图像，例如视频帧。光流计算图像中点的速度，并估计点可能在下一个图像序列中的位置。

光流是由物体或照相机的运动引起的两个连续帧之间图像物体的视运动的模式。它是2D向量场，其中每个向量都是位移向量，表示点从第一帧到第二帧的运动。考虑下面的图片，它显示了一个球连续5帧运动。箭头显示其位移向量。光流在以下领域具有许多应用： – 运动的结构 – 视频压缩 – 视频稳定…光流基于以下几个假设进行工作： 1. 在连续的帧之间，对象的像素强度不变。 2. 相邻像素具有相似的运动。

在BasicVSR的基础上，作者提出了如下两种新颖的扩展得到了IconVSR。

信息寄存，它采用了额外的模块提取从稀疏选择帧(比如关键帧)中提取特征，然后插入到主网络用于特征改善。
耦合传播，它促进了前向与反向传播分支中的信息交换。

这两个模块不仅可以降低误差累积问题，同时可以获取更完整的时序信息以生成更高质量的特征，进而得到更好的重建结果。得益于上述两种设计，IconVSR以0.31dB指标提升超过了BasicVSR。

Method

上图给出了BasicVSR的架构示意图。在这里我们先对BasicVSR转给你所涉及到的几个功能性模块进行一些简单的介绍。

Propagation

Propagation 是VSR中最具影响力的模块，它特指信息的利用方式。现有的传播机制可以分为一下三大类：

Local Propagation: 滑动窗口的方法(比如RBPN，TGA，EDVR)采用局部窗口内的多帧LR图像作为输入并进行中间帧的重建。这种设计方式约束了信息范围，进而影响了模型的性能。下图给出了不同信息范围下的模型性能对比，可以看到：(1)全局信息的利用具有更佳性能;(2) 片段的两端性能差异非常大，说明了长序列累积信息(即全局信息)的重要性。

Unidirectional：已有单向传播方案(比如RLSP、RSDN、RRN、FRVSR)采用了从第一帧到最后一帧的单向传播的方式，这种方式导致了不同帧接受的信息是不平衡的，比如第一帧只会从自身接受信息，而最后一帧则可以接受整个序列的信息。下图给出了单向传播与双向传播的性能差异对比。可以看到：(1)在早期，单向传播方案的PSNR指标严重低于双向传播方案；(2)整体来看，单向传播方案的指标要比双向传播的方案低0.5dB。

Bidirectional：上述两种信息传播方案的弊端可以通过双向传播方案解决。BasicVSR采用了经典的双向传播机制，给定输入图像及其近邻帧，相应的特征传播分别描述为和

Alignment

空间对齐在VSR中起着非常重要的作用，它负责将高度相关的的图像/特征进行对齐并送入到后续的集成模块。主流VSR方案可以分别以下三大类：

Without Alignment: 现有的递归方案(比如RLSP、BRCN、RSDN、RRN)通常不进行对齐，非对齐的特征直接进行集成导致了次优的性能。作者在实验中发现：不添加对齐会导致1.19dB的指标下降，也就是说对齐是非常有必要。
Image Alignment：早期的TOFlow采用光流在图像层面进行对齐，已有研究表明：相比图像层面对齐，特征层面的对齐可以取得显著的性能提升。
Feature Alignment: 作者采用了类似TOFlow的光流方案，并用于特征对齐，对齐后的特征融入到后的残差模块中。这里采用的特征对齐可以描述如下：

Aggregation and Upsampling

BasicVSR采用了非常基本的模块(残差模块以及PixelShuffle)用于特征集成与上采样，假设中间特征表示,这里的特征集成与上采样模块描述如下：

总而言之，BasicVSR采用了双向传播机制、特征层面的光流对齐、concate进行特征集成，pixelshuffle进行上采样。

IconVSR

以BasicVSR作为骨干，作者引入了两种新颖的单元以消除传播过程中的误差累积促进时序信息集成。

Information-Refil：不精确的对齐会导致误差累积问题，尤其是该文所采用的长期传播方案。为消除上述问题，作者提出了信息寄存机制，见下图。

它采用了额外的特征提取器提取关键帧与近邻帧的特征，所提取的特征将于对齐特征通过卷积进行融合。

Coupled Propagation: 在双向传播中，特征经由相反的方向进行独立处理。作者对此添加了耦合传播机制，使得两者产生关联

Experiments

训练数据：REDS和Vimeo90K；测试数据：REDS4、REDSval4、Vid4、UDM10、Vimeo90K-T。数据退化方式BI和BD。

SpyNet用于光流估计，EDVR-M用于特征提取，Adam优化器，Cosine学习率机制，特征提取与光流部分的学习率为，其他部分的学习率为。总计训练300K，特征提取与光流的权值在前5000次冻结。Batch=8，LR的大小为,Cb损失。

下表给出了所提方案与其他视频超分方案在不同退化方式、不同测试集上的指标、推理速度以及参数量的对比。

从上表可以看到：

BasicVSR以全面优势超过了现有视频超分方案，在UDM10数据集上，以0.61dB超过了RSDN且具有相当的参数量、更快的速度；
IconVSR可以进一步提升BasicVSR的指标高达0.31dB。

Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

论文标题：Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

github： https://github.com/leftthomas/ESPCN

2016年的文章。在此之前使用CNN进行SR的方法都是将LR图像先用一个single filter（通常是bicubic）upscale至HR的尺寸，再进行reconstruction的。所有SR的操作都再HR空间进行。　　而本文提出在LR空间进行特征提取。并引入sub-pixel convolution layer用于学习一组upscaling filter，用这些针对特征图训练得到的更复杂的filter代替手工bicubic filter。可以降低计算成本，实现实时SR。直接将LR图像输入一个l层的CNN中，之后通过一层sub-pixel卷积层upscaleLR特征图生成对应的HR图像。

这篇论文提出了一种亚像素卷积的方法来对图像进行超分辨率重建，速度特别快。虽然论文里面称提出的方法为亚像素卷积(sub-pixel convolution)，但是实际上并不涉及到卷积运算，是一种高效、快速、无参的像素重排列的上采样方式。由于很快，直接用在视频超分中也可以做到实时。其在Tensorflow中的实现称为depthtospace ,在Pytorch中的实现为PixelShuffle。

这种上采样的方式很多时候都成为了上采样的首选，经常用在图像重建领域，如后续有在降噪领域中的FFDNet。

论文的主要创新点为：

1. 只在模型末端进行上采样，可以使得在低分辨率空间保留更多的纹理区域，在视频超分中也可以做到实时。
2.模块末端直接使用亚像素卷积的方式来进行上采样，相比于显示的将LR插值到HR，这种上采样方式可以学习到更好、更为复杂的方式，可以获得更好的重建效果。

可以看到，相比于其他的一些超分算法，这里实际上只改动了最后的上采样方式。在模型倒数第二层学习对应的通道数( r2c )的卷积，其中c为最终的通道数，如输出是RGB图，则c为3，如输出是灰度图或者Y通道的图，则c为1；r为需要进行的上采样倍数，为正整数倍，不同的上采样倍数只需要调整这一层卷积的通道数即可。

由于带计算的操作都是在低分辨率空间中进行的，所以速度相对会快很多。

这里给出的示例为r=3,c=1，即单通道图的3倍上采样图。结合超像素的思想来看，以第一张特征图进行的3×3宫格的像素重排列，行优先地按顺序将不同深度的特征依次重排列到宫格上。

这里给出的示例图是简单场景，像素重排列的方式为：

从公式可以看出，对于多通道的图，以通道数作为一个整体，即将特征图通道数中连续的c个通道作为一个整体，再然后进行像素重排列，得到多通道的上采样图。

论文的核心创新点就在于这里的像素重排列的方式。

整体的效果上来说，也是非常的惊人。从模型的角度上而言，其主干模型可以采样其他SOTA的主干结构。由于上采样的差异，可以学习到更好、更复杂的上采样方式，所以最终的重建效果是要稍好于SOTA的模型的。并且由于上采样特别高效，速度非常的快。从PSNR的角度来看，ESPCN比TNRD(TNRD发表于TPAMI2015，是DnCNN的前身)稍好，但是速度却相差一个数量级左右。

结论

这篇论文提出了一种亚像素卷积层，在低分辨率空间中可以学习到更好、更复杂的上采样方式，对于不同的重建倍数，只需要对应地更改低分辨率空间中的卷积通道数，非常灵活。其最终的重建PSNR效果也是SOTA，速度上具有很巨大的优势，视频超分也能做到实时。这种上采样方式也广泛地应用于其他的重建领域中。

mmediting 中文文档

MMEditing: 多任务图像视频编辑工具箱

这是一个图像和视频编辑的工具箱，它目前包含了常见的编辑任务，比如图像修复，图像抠图，超分辨率和生成模型。在编辑图像或者视频的时候，我们往往是需要组合使用以上任务的，因此将它们整理到一个统一的框架下，方便大家使用。

基于 PyTorch 的图像&视频编辑开源工具箱, 提供修复/抠图/超分辨率/生成等任务最先进的算法。

github: https://github.com/open-mmlab/mmediting

中文文档： https://mmediting.readthedocs.io/zh_CN/latest/

目前 MMEditing 支持下列任务：

主分支代码目前支持 PyTorch 1.5 以上的版本。

MMEditing 的优势：

1. 统一的框架：我们设计了先进的框架来统一最常见的图像修复，图像抠图，超分辨率和生成模型这几个任务。用户可以在一个框架中方便地调用不同的算法和模型。

2. 灵活的模块化设计：用户能够基于这套框架灵活地增加新的功能和算法。

3. 丰富的模型和文档：下图中展示了我们支持的算法数目，要知道其中有不少算法是首次有完整的复现哦~我们也完善了文档（文档覆盖率高达90%以上）和入门材料，方便用户上手。

4. 高效的实现：MMEditing所有的训练包括 GAN 的对抗训练都是基于高效的分布式训练框架部署的，对于一些基础的操作单元，我们也相应地进行了优化。

主要特性

模块化设计MMEditing 将编辑框架分解为不同的组件，并且可以通过组合不同的模块轻松地构建自定义的编辑器模型。
支持多种编辑任务MMEditing 支持修复、抠图、超分辨率、生成等多种主流编辑任务。
SOTAMMEditing 提供修复/抠图/超分辨率/生成等任务最先进的算法。

需要注意的是 MMSR 已作为 MMEditing 的一部分并入本仓库。 MMEditing 缜密地设计新的框架并将其精心实现，希望能够为您带来更好的体验。

安装

MMEditing 依赖 PyTorch 和 MMCV，以下是安装的简要步骤。

步骤 1. 依照官方教程安装PyTorch

步骤 2. 使用 MIM 安装 MMCV

pip3 install openmim
mim install mmcv-full

步骤 3. 从源码安装 MMEditing

git clone https://github.com/open-mmlab/mmediting.git
cd mmediting
pip3 install -e .

模型库

支持的算法:图像修复

Global&Local (ToG’2017)
DeepFillv1 (CVPR’2018)
PConv (ECCV’2018)
DeepFillv2 (CVPR’2019)
AOT-GAN (TVCG’2021)

图像抠图

DIM (CVPR’2017)
IndexNet (ICCV’2019)
GCA (AAAI’2020)

图像超分辨率

SRCNN (TPAMI’2015)
SRResNet&SRGAN (CVPR’2016)
EDSR (CVPR’2017)
ESRGAN (ECCV’2018)
RDN (CVPR’2018)
DIC (CVPR’2020)
TTSR (CVPR’2020)
GLEAN (CVPR’2021)
LIIF (CVPR’2021)

视频超分辨率

EDVR (CVPR’2019)
TOF (IJCV’2019)
TDAN (CVPR’2020)
BasicVSR (CVPR’2021)
IconVSR (CVPR’2021)
BasicVSR++ (CVPR’2022)
RealBasicVSR (CVPR’2022)

图像生成

CycleGAN (ICCV’2017)
pix2pix (CVPR’2017)

视频插帧

TOFlow (IJCV’2019)
CAIN (AAAI’2020)
FLAVR (CVPR’2021)

请参考模型库了解详情。

Super-Resolution 超分辨率

超分辨率（简称超分），是将低分辨率图像放大到高分辨率图像，如下图，一只小狒狒经过 SR网络后，可以得到放大，变成一只“大”狒狒。

随着深度学习的兴起，早在2014年，香港中文大学多媒体实验室就提出了首个使用卷积神经网络解决超分辨率的模型——SRCNN。作为图像超分辨率工作，SRCNN 对后续计算机视觉的底层算法研究产生了重要影响。后续，各种各样的网络结构如雨后春笋般地冒了出来，比如VDSR，EDSR，SRResNet 等等; 还有追求视觉效果的 SRGAN, ESRGAN。

MMEditing把一些基本的超分算法，比如 SRCNN，EDSR，SResNet，SRGAN还有视频的 EDVR 算法都包括进去。之前 OpenMMLab 中的 MMSR 也有类似的功能，相比之下，MMEditing 使用了更好的框架设计，用上了 MMCV 和 MMDetection 在发展过程中的经验积淀。整个 MM 系列都采用了类似的框架，只要掌握了一种，就能够轻而易举地掌握其他任务的代码库。

Inpainting修复

Inpainting（图像修复）是图像编辑领域里面一项基础的任务，其主要目标是修复图像中的受损（污染）区域。如下图中，左边是原图，中间是受损区域示意图，你可以去除图像中的不想要的人物，或者是图像中杂乱的不规则的受损区域。然后经过 Inpainting 修复算法就得到最右边的图啦。

Inpainting 作为一项基础任务，现如今已经被广泛的应用到各种各样的场景，比如面部修复，背景填充以及视频编辑中。

之前传统的 Patch-Matching 算法可以通过图中已知区域的纹理来快速填补当前受损区域。随着深度学习的发展，越来越多的工作利用深度神经网络实现更好的图像修复效果。深度图像修复领域中，有许多经典的开创性的工作像 Global&Local、Partial Conv 以及 DeepFill 系列，他们作为深度图像修复的经典模型被广泛地应用到后来的研究工作当中。可是这些方法都没有官方的 PyTorch 实现，为了方便大家更好的研究和深入了解这些模型，我们在 MMEditing 中集成了这些算法的训练和测试功能。同时，我们对其中一些重要的模块进行了代码上的优化，以使其更加符合 PyTorch 的风格，甚至是更快的 GPU 计算，从而能够有更好的训练速度。

Matting抠像

抠像（Matting）问题是一个在计算机视觉研究领域有重要价值的研究课题，其在工业界也有非常重要的应用。

抠像是将前景从图片或者视频中与背景分离开来的问题，比如下图中，输入是左图，一位超级可爱的小姐姐在秀丽的风景前中，我们希望得到右边的小姐姐的抠像结果（b）。它和 segmentation分割的不同之处在于，matting 需要得到更精准的边缘（如头发）以及与背景的组合系数。

为了降低求解的难度，一种最常见的方式是引入用户输入的 trimap（如下图），来对图片进行简单的三分类。其中,图中的黑色为背景，白色为前景，灰色为未知区域。给定 trimap 后，我们只需要求解未知区域的抠图结果，这大大降低了求解的难度。

在 MMEditing 中，我们首次完整复现了 DIM（Deep Image Matting）在原论文中的性能。除此之外，MMEditing 还包含当前开源 Matting 模型中性能最好的 GCA Matting 模型，以及速度最快的 IndexNet Matting。

Generation生成模型

Generation，中文含义为“生成”。所谓生成，不同于其他图像编辑的任务，旨在创造新的图像。我们试图通过深度学习的方式，让神经网络成为创造者，产生新的信息。生成任务一般分为两种，非条件（unconditional）和条件（conditional）的生成。所谓非条件生成，主要是从潜在空间（latent space）中的噪声（noise）往图像域（image domain）进行转换，并试图近似相关边缘概率分布，产生逼真的图像；所谓条件生成，主要是从一个图像域映射到潜在空间，并进一步转换到另一个图像域。目前的MMEditing主要支持后者，即从一个图像域映射到另一个图像域，如分割的mask转换到真实图像、马转换到斑马等。后者的条件生成也更加符合目前图像编辑的主题。

而目前 MMEditing 支持的条件图像生成，又可以分为两种不同的设定。其中一种生成模型的训练数据中，包含成对的训练数据，被称为“成对图像到图像转换（paired image-to-image translation）”。这种设定一般生成任务的难度比较低，但对数据本身的要求比较高，生成效果一般比较良好。最经典的成对图像到图像转换的方法，名为 pix2pix。它也是图像到图像转换领域开山鼻祖的文章，因此我们在这个版本中首先考虑对它进行实现，获得了与作者官方实现一致的结果。

另一种生成模型的训练数据中，仅包含非成对的训练数据，被称为“非成对图像到图像转换（unpaired image-to-image translation）”。这种设定一般对数据要求较低，很容易构建两个明确的图像域，但生成难度较大，生成效果会略微降低。提出非成对图像到图像转换问题，并首先给出解决方案（cycle-consistency）的方法，名为 CycleGAN。CycleGAN 作为最经典的非成对图像到图像转换的生成方法，我们在这个版本中同样首先考虑对它进行实现和效果对齐。

生成（Generation）任务通常比较困难，但向人们展示出了惊人的效果和广阔的研究前景。在未来 MMEditing 代码库的版本中，我们会考虑加入更多不同的生成设定，以及多种生成方法，让我们的代码库更加全面、丰富、强大。

AlphaFold2蛋白质结构预测

摘自机器学习算法工程师

科学界已知的几乎所有蛋白质结构，都在这里了。蛋白质是生命的基础构件，它们由氨基酸链组成，折叠成不同的复杂形状。蛋白质的功能通常由其 3D 结构决定。如果我们了解蛋白质的折叠方式，就可以开始探索它们是如何工作的，并尝试改变它们的功能。尽管 DNA 提供了制造氨基酸链的指令，但预测它们如何相互作用以形成蛋白质的 3D 结构是一个巨大的挑战。
一年前，DeepMind 发布了 AlphaFold2，以原子水平的准确度预测了 2/3 的蛋白质结构，并与 EMBL-EBI 共同发布了开放可搜索的蛋白质结构数据库 AlphaFold DB，与世界共同分享这一技术。
7 月 28 日，DeepMind 宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构，扩大超过 200 倍，这一进展将极大地提升人们对于生物学的理解。
几乎涵盖所有已知蛋白质
「你可以认为它基本涵盖了所有蛋白质结构。包括植物、细菌、动物和许多其他生物的预测结构，这为 AlphaFold 开辟了巨大的新机会，可以对环保、粮食安全和被忽视疾病等重要问题产生影响，」DeepMind 创始人、首席执行官杰米斯 · 哈萨比斯在介绍 AlphaFold DB 这次扩展时说道。

这一更新包括植物、细菌、动物和其他生物的蛋白质预测结构。

这一更新意味着蛋白质数据库 UniProt 都将带有蛋白质预测结构（UniProt 是一个全面的，高质量的，免费使用的蛋白质序列与功能信息数据库，它还包含了大量来自研究文献的关于蛋白的生物学功能信息）。研究者可以通过 Google Cloud Public Datasets 批量下载，让世界各地的科学家更容易访问 AlphaFold。
斯克里普斯转化研究所创始人 Eric Topol 表示：「AlphaFold 是生命科学领域独一无二的重大进步，展示了 AI 的力量。过去确定蛋白质的 3D 结构需要数月或数年，现在只需几秒钟。AlphaFold 已经加速并实现了大规模发现，包括破解核孔复合体的结构。新的蛋白质结构不断增加，几乎照亮了整个蛋白质宇宙，我们可以期待每天都有更多的生物谜团被解开。」
AlphaFold 的影响
自发布至今，AlphaFold 已产生令人难以置信的影响。它是 DeepMind 构建的最复杂的人工智能系统，需要多项关键创新，并已应用到多种下游任务中。
AlphaFold2 可以在原子精度上准确地预测蛋白质的结构，它不仅为生物学中 50 年来的重大挑战提供了解决方案，也证明了：人工智能可以极大地加速科学发现，进而推动人类进步，这一点意义重大。
DeepMind 已经开源了 AlphaFold 的代码，并在《自然》杂志上发表了两篇深度论文，引用量已超过 4000。此外，DeepMind 还与 EMBL-EBI 合作设计了一种帮助生物学家使用 AlphaFold 的工具，并共同发布了 AlphaFold DB。
在发布 AlphaFold 之前，DeepMind 征求了 30 多名生物学研究专家的意见，使得他们以最大化潜在利益和最小化潜在风险的方式与世界分享 AlphaFold 。

迄今为止，来自 190 个国家 / 地区的超过 500000 名研究人员访问了 AlphaFold DB，查看了超过 200 万个结构。一些免费提供的蛋白质结构也已集成到其他公共数据集中，例如 Ensembl、UniProt 和 OpenTargets，被数百万用户访问。

在与其他机构合作时，DeepMind 优先考虑那些最具积极社会效益的应用，重点关注那些资金不足或被忽视的计划。
拼凑核孔复合体
在最新一期《科学》杂志特刊上，几个研究团队描述了 AlphaFold 帮助拼凑核孔复合体——生物学中最具挑战性的难题之一。这个巨大的结构由数百个蛋白质部分组成，控制着进出细胞核的一切。

人们通过使用现有的实验方法揭示它的轮廓，结合 AlphaFold 预测完成和解释其中不清楚的区域，最终揭示了它的微妙结构。《科学》将其称为实验结构生物学的胜利，这种新研究方式现在正成为实验室的常规做法，开启了新的科学研究道路。
结构搜索工具
Foldseek、Dali 等结构搜索工具允许用户非常快速地搜索与给定蛋白质相似的结构。这将是为实际有用的蛋白质（例如分解塑料的蛋白质）挖掘大型序列数据集的第一步，它可以提供有关蛋白质功能的线索。
对人类健康的影响
AlphaFold 已经对人类健康产生了重大而直接的影响。与欧洲人类遗传学会的合作证明 AlphaFold 对于解开罕见遗传疾病的原因至关重要。此外，AlphaFold 还通过更好地了解新发现的可能成为药物靶点的蛋白质，帮助科学家更快地找到与其结合的潜在药物来加速药物发现。
参考内容：https://www.science.org/doi/10.1126/science.add2210https://www.theverge.com/2022/7/28/23280743/deepmind-alphafold-protein-database-alphabethttps://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universehttps://www.nature.com/articles/d41586-022-02083-2

YOLOv7-Pose 基于YOLOv7的关键点模型

目前人体姿态估计总体分为Top-down和Bottom-up两种，与目标检测不同，无论是基于热力图或是基于检测器处理的关键点检测算法，都较为依赖计算资源，推理耗时略长，今年出现了以YOLO为基线的关键点检测器。玩过目标检测的童鞋都知道YOLO以及各种变种目前算是工业落地较多的一类检测器，其简单的设计思想，长期活跃的社区生态，使其始终占据着较高的话题度。

【演变】

在ECCV 2022和CVPRW 2022会议上，YoLo-Pose和KaPao（下称为yolo-like-pose）都基于流行的YOLO目标检测框架提出一种新颖的无热力图的方法，类似于很久以前谷歌使用回归计算关键点的思想，yolo-like-pose一不使用检测器进行二阶处理，二部使用热力图拼接，虽然是一种暴力回归关键点的检测算法，但在处理速度上具有一定优势。

kapao

去年11月，滑铁卢大学率先提出了 KaPao：Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation，基于YOLOv5进行关键点检测，该文章目前已被ECCV 2022接收，该算法所取得的性能如下：

paper：https://arxiv.org/abs/2111.08557

code：https://github.com/wmcnally/kapao

yolov5-pose

今年4月，yolo-pose也挂在了arvix，在论文中，通过调研发现 HeatMap 的方式普遍使用L1 Loss。然而，L1损失并不一定适合获得最佳的OKS。且由于HeatMap是概率图，因此在基于纯HeatMap的方法中不可能使用OKS作为loss，只有当回归到关键点位置时，OKS才能被用作损失函数。因此，yolo-pose使用oks loss作为关键点的损失

相关代码在https://github.com/TexasInstruments/edgeai-yolov5/blob/yolo-pose/utils/loss.py也可见到：

if self.kpt_label:
                    #Direct kpt prediction
                    pkpt_x = ps[:, 6::3] * 2. – 0.5
                    pkpt_y = ps[:, 7::3] * 2. – 0.5
                    pkpt_score = ps[:, 8::3]
                    #mask
                    kpt_mask = (tkpt[i][:, 0::2] != 0)
                    lkptv += self.BCEcls(pkpt_score, kpt_mask.float())
                    #l2 distance based loss
                    #lkpt += (((pkpt-tkpt[i])*kpt_mask)**2).mean()  #Try to make this loss based on distance instead of ordinary difference
                    #oks based loss
                    d = (pkpt_x-tkpt[i][:,0::2])**2 + (pkpt_y-tkpt[i][:,1::2])**2
                    s = torch.prod(tbox[i][:,-2:], dim=1, keepdim=True)
                    kpt_loss_factor = (torch.sum(kpt_mask != 0) + torch.sum(kpt_mask == 0))/torch.sum(kpt_mask != 0)
                    lkpt += kpt_loss_factor*((1 – torch.exp(-d/(s*(4*sigmas**2)+1e-9)))*kpt_mask).mean()

yolov7-pose

上个星期，YOLOv7的作者也放出了关于人体关键点检测的模型，该模型基于YOLOv7-w6

目前作者提供了.pt文件和推理测试的脚本，有兴趣的童靴可以去看看，本文的重点更偏向于对yolov7-pose.pt进行onnx文件的抽取和推理。

【yolov7-pose + onnxruntime】

首先下载好官方的预训练模型，使用提供的脚本进行推理：

% weigths = torch.load('weights/yolov7-w6-pose.pt')
% image = cv2.imread('sample/pose.jpeg')
!python pose.py

一、yolov7-w6 VS yolov7-w6-pose：

首先看下yolov7-w6使用的检测头

二、修改export脚本

如果直接使用export脚本进行onnx的抽取一定报错，在上一节我们已经看到pose.pt模型使用的检测头为IKeypoint，那么脚本需要进行相应更改：在export.py的这个位置插入：

 # 原代码:
    for k, m in model.named_modules():
        m._non_persistent_buffers_set = set()  # pytorch 1.6.0 compatibility
        if isinstance(m, models.common.Conv):  # assign export-friendly activations
            if isinstance(m.act, nn.Hardswish):
                m.act = Hardswish()
            elif isinstance(m.act, nn.SiLU):
                m.act = SiLU()
     model.model[-1].export = not opt.grid  # set Detect() layer grid export
                
    # 修改代码:
    for k, m in model.named_modules():
        m._non_persistent_buffers_set = set()  # pytorch 1.6.0 compatibility
        if isinstance(m, models.common.Conv):  # assign export-friendly activations
            if isinstance(m.act, nn.Hardswish):
                m.act = Hardswish()
            elif isinstance(m.act, nn.SiLU):
                m.act = SiLU()
        elif isinstance(m, models.yolo.IKeypoint):
            m.forward = m.forward_keypoint  # assign forward (optional)
            # 此处切换检测头
    model.model[-1].export = not opt.grid  # set Detect() layer grid export

forward_keypoint在原始的yolov7 repo源码中有，作者已经封装好，但估计是还没打算开放使用。

使用以下命令进行抽取：python export.py –weights ‘weights/yolov7-w6-pose.pt’ –img-size 960 –simplify True

三、onnxruntime推理

onnxruntime推理代码：

import onnxruntime
import matplotlib.pyplot as plt
import torch
import cv2
from torchvision import transforms
import numpy as np
from utils.datasets import letterbox
from utils.general import non_max_suppression_kpt
from utils.plots import output_to_keypoint, plot_skeleton_kpts

device = torch.device("cpu")

image = cv2.imread('sample/pose.jpeg')
image = letterbox(image, 960, stride=64, auto=True)[0]
image_ = image.copy()
image = transforms.ToTensor()(image)
image = torch.tensor(np.array([image.numpy()]))

print(image.shape)
sess = onnxruntime.InferenceSession('weights/yolov7-w6-pose.onnx')
out = sess.run(['output'], {'images': image.numpy()})[0]
out = torch.from_numpy(out)

output = non_max_suppression_kpt(out, 0.25, 0.65, nc=1, nkpt=17, kpt_label=True)
output = output_to_keypoint(output)
nimg = image[0].permute(1, 2, 0) * 255
nimg = nimg.cpu().numpy().astype(np.uint8)
nimg = cv2.cvtColor(nimg, cv2.COLOR_RGB2BGR)
for idx in range(output.shape[0]):
    plot_skeleton_kpts(nimg, output[idx, 7:].T, 3)

# matplotlib inline
plt.figure(figsize=(8, 8))
plt.axis('off')
plt.imshow(nimg)
plt.show()
plt.savefig("tmp")

推理效果几乎无损，但耗时会缩短一倍左右，另外有几个点：

image = letterbox(image, 960, stride=64, auto=True)[0] 中stride指的是最大步长，yolov7-w6和yolov5s下采样多了一步，导致在8，16，32的基础上多了64的下采样步长
output = non_max_suppression_kpt(out, 0.25, 0.65, nc=1, nkpt=17, kpt_label=True) ，nc 和 kpt_label 等信息在netron打印模型文件时可以看到
所得到的onnx相比原半精度模型大了将近三倍，后续排查原因
yolov7-w6-pose极度吃显存，推理一张960×960的图像，需要2-4G的显存，训练更难以想象