Skip to content

Commit c5a6f31

Browse files
Mira190github-actions[bot]
authored andcommitted
chore(docs): sync doc metadata [skip ci]
1 parent b8e5a59 commit c5a6f31

3 files changed

Lines changed: 42 additions & 8 deletions

File tree

app/docs/ai/multimodal/RQVAE/index.mdx

Lines changed: 2 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -1,16 +1,16 @@
11
---
22
title: RQ-VAE学习笔记
33
description: 学习RQ-VAE时的心得
4+
docId: pqplmwaj5o5aszydqo1drzrj
45
---
56

6-
77
## RQ-VAE(残差量化变分自动编码器)
88

99
### 背景与提出动机
1010

1111
**VQ-VAE 的局限**:向量量化变分自编码器(VQ-VAE)在高保真生成任务中引入离散潜变量,通过码本(codebook)将连续潜向量离散化。然而,当我们希望缩短离散编码序列(例如将高分辨率图像表示为更少的代码)时,传统 VQ-VAE 面临率失真权衡的挑战。具体而言,若减少量化后特征图的空间尺寸(即更少的位置代码),则需要指数级扩大码本大小以维持重建质量。过大的码本不仅模型参数剧增,还容易出现码本崩溃问题。
1212

13-
**残差量化的引入**:为了解决上述问题,研究者提出了残差量化变分自动编码器(RQ-VAE)。其核心思想是用多级残差向量量化代替单次量化:在给定固定码本大小的前提下,递归量化编码器输出的残差,从粗到细逐步逼近原始表示。通过这种 Residual Quantization(残差量化,缩写RQ),无需扩充码本也能精确近似高维特征。换言之,RQ-VAE 通过组合多层码字极大扩展了表示能力:若每层码本大小为 *K*、层数为 *L*,则组合空间相当于一个大小为 $K^L$ 的超大码本,但参数量却远低于直接训练如此巨大码本。这种方式既保留了重建质量又缩短了代码序列长度,为高分辨率图像等数据的生成提供了新方案。
13+
**残差量化的引入**:为了解决上述问题,研究者提出了残差量化变分自动编码器(RQ-VAE)。其核心思想是用多级残差向量量化代替单次量化:在给定固定码本大小的前提下,递归量化编码器输出的残差,从粗到细逐步逼近原始表示。通过这种 Residual Quantization(残差量化,缩写RQ),无需扩充码本也能精确近似高维特征。换言之,RQ-VAE 通过组合多层码字极大扩展了表示能力:若每层码本大小为 _K_、层数为 _L_,则组合空间相当于一个大小为 $K^L$ 的超大码本,但参数量却远低于直接训练如此巨大码本。这种方式既保留了重建质量又缩短了代码序列长度,为高分辨率图像等数据的生成提供了新方案。
1414

1515
**应用背景**:RQ-VAE 的提出最初旨在改进自回归图像生成的效率和质量。在高分辨率图像自回归模型中,表示图像的离散代码序列过长会导致生成过程缓慢且计算成本高。RQ-VAE 可以在保持图像细节的同时显著减少代码序列长度(例如将256×256图像压缩为仅8×8=64个位置的代码)。这一点对于加速自回归 Transformer 的建模非常关键。此外,残差量化思想也在音频编码和推荐检索等领域兴起,将连续信号离散化为多层语义代码以便高效处理。总之,RQ-VAE 的动机在于克服单级量化的瓶颈,实现更高压缩率与重建质量兼顾的离散表示学习。
1616

@@ -116,6 +116,3 @@ VQ-VAE-2 是对 VQ-VAE 的层次拓展,由 DeepMind 提出,用于更好地
116116
### 总结
117117

118118
RQ-VAE 将残差量化与变分自编码器思想相结合,成功实现了高压缩比且保真度高的离散表示学习。它通过多级码本的粗到细量化,克服了传统 VQ-VAE 在码本容量和序列长度上的两难困境,实现了离散潜代码的层次表示。这种方法在图像、音频、文本等多领域的应用中取得了显著成果,不仅提高了生成模型的效果和效率,也为跨模态表示、生成式检索等新兴任务提供了有力工具。
119-
120-
121-

app/docs/ai/multimodal/VQVAE/index.mdx

Lines changed: 4 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,7 @@
11
---
22
title: VQ-VAE学习笔记
33
description: 学习VQ-VAE时的心得
4+
docId: otfiks0uz3aue1bdvlyqmj3e
45
---
56

67
## VQ-VAE(向量量化变分自编码器)
@@ -56,9 +57,11 @@ VQ-VAE 的训练目标由三部分损失项组成,各自针对模型的不同
5657
#### 总损失
5758

5859
总的训练损失就是上述三部分之和:
60+
5961
$$
6062
L_\text{VQ-VAE}  =  L_\text{reconstruction}+L_\text{codebook}+L_\text{commitment}
6163
$$
64+
6265
其中重构损失影响编码器和解码器的更新,代码簿损失只更新代码簿参数,承诺损失则只作用于编码器输出。需要注意的是,在 VQ-VAE 中我们假设隐变量符合均匀分布的先验(即任何代码出现的概率相等),因此对应的 KL 散度项为常数,不随模型参数变化,在训练时通常被忽略不计。这意味着,与传统VAE不同,VQ-VAE的目标函数中没有显式的KL正则项,模型复杂度的约束主要由离散瓶颈和承诺损失来实现。
6366

6467
### 缺陷及改进
@@ -116,6 +119,6 @@ VQ-VAE 提供了一种将数据压缩到离散表示的强大手段,因而在
116119

117120
VQ-VAE-2 是对原始VQ-VAE的改进版本,由DeepMind团队在2019年提出。VQ-VAE-2 的核心思想是在模型中引入多层次的离散隐空间:它采用分层编码器-解码器结构,先提取高等级的粗粒度离散表示,再提取低等级的细粒度离散表示,从上到下逐级生成图像。这样做的好处是顶层的离散code可以捕捉全局概况(如图像的大致布局),底层code捕捉局部细节,从而提高生成图像的一致性和细节质量。此外,VQ-VAE-2 引入了一种基于 PixelCNN 的强先验模型:它在最高层离散代码上训练PixelCNN(或PixelSnail)来建模代码分布,并在下层生成时逐级条件采样。凭借分层表征和强先验,VQ-VAE-2 能生成高保真且多样的图像样本,显著优于一层结构的VQ-VAE。一些公开实验表明,VQ-VAE-2 可以在Imagenet这样的数据集上生成接近真实分辨率($256\times256$或更高)的图像,其感知质量可与GAN等方法相媲美。这确立了离散VAE在大型图像生成任务中的地位。同时,VQ-VAE-2 在训练技术上也做了改进,例如使用EMA更新码本(上文提及)来替代代码簿损失,进一步缓解了训练不稳定和code collapse问题。可以说,VQ-VAE-2 的出现证明了离散潜变量模型在复杂生成任务上的可行性和优越性。
118121

119-
#### 结合 Transformer 等自回归模型
122+
#### 结合 Transformer 等自回归模型
120123

121124
近几年,随着Transformer在生成建模上的成功,将 VQ-VAE 与 Transformer 结合成为了热门趋势。基本思路是利用 VQ-VAE 将高维数据(如图像、音频)转换成离散 token 序列,然后用 Transformer(如GPT)在这些 token 上学习分布,用于生成新样本。这种“两段式”模型中,VQ-VAE负责学习离散表示,Transformer负责在离散空间里做序列预测。典型的例子就是 OpenAI 的 DALL·E:它先训练一个VQ-VAE将图像映射为离散码,再训练一个大规模Transformer以文本描述为条件来自回归地生成图像代码序列,最后通过VQ-VAE的解码器得到图像。DALL·E 的成功展示了该思路在多模态生成上的强大威力。同样,前述的 Jukebox 使用了层级VQ-VAE压缩音乐、Transformer生成音乐codes,实现了长时音乐的生成。将Transformer引入离散空间具有几个显著优点:Transformer强大的长程依赖建模能力可以充分发挥,离散token使得输出空间有限且利于概率估计,从而生成质量和样本多样性都显著提升。实践证明,VQ-VAE 与 Transformer 是天然契合的组合:前者提供表示能力,后者提供建模能力,两者结合几乎可以扩展生成模型到任意复杂的数据分布。只要有足够的算力和数据支撑,这种方法能够在图像、音频、文本等领域生成极其高质量的内容。目前,许多最前沿的生成模型都采用了这种范式(例如把 VQ-VAE 或其变种作为编码器,Transformer作为主生成器)。可以预见,在未来相当长一段时间内,VQ-VAE+Transformer 的架构仍将是生成建模领域的重要工具,离散表示学习也会持续为多模态AI的发展提供支持

generated/doc-contributors.json

Lines changed: 36 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -1,8 +1,8 @@
11
{
22
"repo": "InvolutionHell/involutionhell.github.io",
3-
"generatedAt": "2025-10-10T04:10:07.309Z",
3+
"generatedAt": "2025-10-11T02:13:32.441Z",
44
"docsDir": "app/docs",
5-
"totalDocs": 100,
5+
"totalDocs": 102,
66
"results": [
77
{
88
"docId": "ue27z7z95yzw3lhhfj7nit1c",
@@ -1174,6 +1174,23 @@
11741174
}
11751175
]
11761176
},
1177+
{
1178+
"docId": "pqplmwaj5o5aszydqo1drzrj",
1179+
"path": "app/docs/ai/multimodal/RQVAE/index.mdx",
1180+
"contributorStats": {
1181+
"188854497": 1
1182+
},
1183+
"contributors": [
1184+
{
1185+
"githubId": "188854497",
1186+
"contributions": 1,
1187+
"lastContributedAt": "2025-10-10T13:41:00.000Z",
1188+
"login": "0dysseus13",
1189+
"avatarUrl": "https://avatars.githubusercontent.com/u/188854497?v=4",
1190+
"htmlUrl": "https://github.com/0dysseus13"
1191+
}
1192+
]
1193+
},
11771194
{
11781195
"docId": "k6cgwcc28l9iap5s5oyjbjwo",
11791196
"path": "app/docs/ai/multimodal/VAE/index.mdx",
@@ -1252,6 +1269,23 @@
12521269
}
12531270
]
12541271
},
1272+
{
1273+
"docId": "otfiks0uz3aue1bdvlyqmj3e",
1274+
"path": "app/docs/ai/multimodal/VQVAE/index.mdx",
1275+
"contributorStats": {
1276+
"188854497": 1
1277+
},
1278+
"contributors": [
1279+
{
1280+
"githubId": "188854497",
1281+
"contributions": 1,
1282+
"lastContributedAt": "2025-10-10T13:41:00.000Z",
1283+
"login": "0dysseus13",
1284+
"avatarUrl": "https://avatars.githubusercontent.com/u/188854497?v=4",
1285+
"htmlUrl": "https://github.com/0dysseus13"
1286+
}
1287+
]
1288+
},
12551289
{
12561290
"docId": "as876rdhtmpnyyeclxt226s1",
12571291
"path": "app/docs/ai/recommender-systems/recommender-roadmap.mdx",

0 commit comments

Comments
 (0)