chore(docs): sync doc metadata [skip ci]

Mira190 · github-actions[bot] · commit c5a6f31349b0 · 2025-10-11T02:13:33.000Z
diff --git a/app/docs/ai/multimodal/RQVAE/index.mdx b/app/docs/ai/multimodal/RQVAE/index.mdx
@@ -1,16 +1,16 @@
 ---
 title: RQ-VAE学习笔记
 description: 学习RQ-VAE时的心得
+docId: pqplmwaj5o5aszydqo1drzrj
 ---
 
-
 ## RQ-VAE（残差量化变分自动编码器）
 
 ### 背景与提出动机
 
 **VQ-VAE 的局限**：向量量化变分自编码器（VQ-VAE）在高保真生成任务中引入离散潜变量，通过码本（codebook）将连续潜向量离散化。然而，当我们希望缩短离散编码序列（例如将高分辨率图像表示为更少的代码）时，传统 VQ-VAE 面临率失真权衡的挑战。具体而言，若减少量化后特征图的空间尺寸（即更少的位置代码），则需要指数级扩大码本大小以维持重建质量。过大的码本不仅模型参数剧增，还容易出现码本崩溃问题。
 
-**残差量化的引入**：为了解决上述问题，研究者提出了残差量化变分自动编码器（RQ-VAE）。其核心思想是用多级残差向量量化代替单次量化：在给定固定码本大小的前提下，递归量化编码器输出的残差，从粗到细逐步逼近原始表示。通过这种 Residual Quantization（残差量化，缩写RQ），无需扩充码本也能精确近似高维特征。换言之，RQ-VAE 通过组合多层码字极大扩展了表示能力：若每层码本大小为 *K*、层数为 *L*，则组合空间相当于一个大小为 $K^L$ 的超大码本，但参数量却远低于直接训练如此巨大码本。这种方式既保留了重建质量又缩短了代码序列长度，为高分辨率图像等数据的生成提供了新方案。
+**残差量化的引入**：为了解决上述问题，研究者提出了残差量化变分自动编码器（RQ-VAE）。其核心思想是用多级残差向量量化代替单次量化：在给定固定码本大小的前提下，递归量化编码器输出的残差，从粗到细逐步逼近原始表示。通过这种 Residual Quantization（残差量化，缩写RQ），无需扩充码本也能精确近似高维特征。换言之，RQ-VAE 通过组合多层码字极大扩展了表示能力：若每层码本大小为 _K_、层数为 _L_，则组合空间相当于一个大小为 $K^L$ 的超大码本，但参数量却远低于直接训练如此巨大码本。这种方式既保留了重建质量又缩短了代码序列长度，为高分辨率图像等数据的生成提供了新方案。
 
 **应用背景**：RQ-VAE 的提出最初旨在改进自回归图像生成的效率和质量。在高分辨率图像自回归模型中，表示图像的离散代码序列过长会导致生成过程缓慢且计算成本高。RQ-VAE 可以在保持图像细节的同时显著减少代码序列长度（例如将256×256图像压缩为仅8×8=64个位置的代码）。这一点对于加速自回归 Transformer 的建模非常关键。此外，残差量化思想也在音频编码和推荐检索等领域兴起，将连续信号离散化为多层语义代码以便高效处理。总之，RQ-VAE 的动机在于克服单级量化的瓶颈，实现更高压缩率与重建质量兼顾的离散表示学习。
 
@@ -116,6 +116,3 @@ VQ-VAE-2 是对 VQ-VAE 的层次拓展，由 DeepMind 提出，用于更好地
 ### 总结
 
 RQ-VAE 将残差量化与变分自编码器思想相结合，成功实现了高压缩比且保真度高的离散表示学习。它通过多级码本的粗到细量化，克服了传统 VQ-VAE 在码本容量和序列长度上的两难困境，实现了离散潜代码的层次表示。这种方法在图像、音频、文本等多领域的应用中取得了显著成果，不仅提高了生成模型的效果和效率，也为跨模态表示、生成式检索等新兴任务提供了有力工具。
-
-
-
diff --git a/app/docs/ai/multimodal/VQVAE/index.mdx b/app/docs/ai/multimodal/VQVAE/index.mdx
@@ -1,6 +1,7 @@
 ---
 title: VQ-VAE学习笔记
 description: 学习VQ-VAE时的心得
+docId: otfiks0uz3aue1bdvlyqmj3e
 ---
 
 ## VQ-VAE（向量量化变分自编码器）
@@ -56,9 +57,11 @@ VQ-VAE 的训练目标由三部分损失项组成，各自针对模型的不同
 #### 总损失
 
 总的训练损失就是上述三部分之和：
+
 $$
 L_\text{VQ-VAE}  =  L_\text{reconstruction}+L_\text{codebook}+L_\text{commitment}
 $$
+
 其中重构损失影响编码器和解码器的更新，代码簿损失只更新代码簿参数，承诺损失则只作用于编码器输出。需要注意的是，在 VQ-VAE 中我们假设隐变量符合均匀分布的先验（即任何代码出现的概率相等），因此对应的 KL 散度项为常数，不随模型参数变化，在训练时通常被忽略不计。这意味着，与传统VAE不同，VQ-VAE的目标函数中没有显式的KL正则项，模型复杂度的约束主要由离散瓶颈和承诺损失来实现。
 
 ### 缺陷及改进
@@ -116,6 +119,6 @@ VQ-VAE 提供了一种将数据压缩到离散表示的强大手段，因而在
 
 VQ-VAE-2 是对原始VQ-VAE的改进版本，由DeepMind团队在2019年提出。VQ-VAE-2 的核心思想是在模型中引入多层次的离散隐空间：它采用分层编码器-解码器结构，先提取高等级的粗粒度离散表示，再提取低等级的细粒度离散表示，从上到下逐级生成图像。这样做的好处是顶层的离散code可以捕捉全局概况（如图像的大致布局），底层code捕捉局部细节，从而提高生成图像的一致性和细节质量。此外，VQ-VAE-2 引入了一种基于 PixelCNN 的强先验模型：它在最高层离散代码上训练PixelCNN（或PixelSnail）来建模代码分布，并在下层生成时逐级条件采样。凭借分层表征和强先验，VQ-VAE-2 能生成高保真且多样的图像样本，显著优于一层结构的VQ-VAE。一些公开实验表明，VQ-VAE-2 可以在Imagenet这样的数据集上生成接近真实分辨率（$256\times256$或更高）的图像，其感知质量可与GAN等方法相媲美。这确立了离散VAE在大型图像生成任务中的地位。同时，VQ-VAE-2 在训练技术上也做了改进，例如使用EMA更新码本（上文提及）来替代代码簿损失，进一步缓解了训练不稳定和code collapse问题。可以说，VQ-VAE-2 的出现证明了离散潜变量模型在复杂生成任务上的可行性和优越性。
 
-#### 结合 Transformer 等自回归模型 
+#### 结合 Transformer 等自回归模型
 
 近几年，随着Transformer在生成建模上的成功，将 VQ-VAE 与 Transformer 结合成为了热门趋势。基本思路是利用 VQ-VAE 将高维数据（如图像、音频）转换成离散 token 序列，然后用 Transformer（如GPT）在这些 token 上学习分布，用于生成新样本。这种“两段式”模型中，VQ-VAE负责学习离散表示，Transformer负责在离散空间里做序列预测。典型的例子就是 OpenAI 的 DALL·E：它先训练一个VQ-VAE将图像映射为离散码，再训练一个大规模Transformer以文本描述为条件来自回归地生成图像代码序列，最后通过VQ-VAE的解码器得到图像。DALL·E 的成功展示了该思路在多模态生成上的强大威力。同样，前述的 Jukebox 使用了层级VQ-VAE压缩音乐、Transformer生成音乐codes，实现了长时音乐的生成。将Transformer引入离散空间具有几个显著优点：Transformer强大的长程依赖建模能力可以充分发挥，离散token使得输出空间有限且利于概率估计，从而生成质量和样本多样性都显著提升。实践证明，VQ-VAE 与 Transformer 是天然契合的组合：前者提供表示能力，后者提供建模能力，两者结合几乎可以扩展生成模型到任意复杂的数据分布。只要有足够的算力和数据支撑，这种方法能够在图像、音频、文本等领域生成极其高质量的内容。目前，许多最前沿的生成模型都采用了这种范式（例如把 VQ-VAE 或其变种作为编码器，Transformer作为主生成器)。可以预见，在未来相当长一段时间内，VQ-VAE+Transformer 的架构仍将是生成建模领域的重要工具，离散表示学习也会持续为多模态AI的发展提供支持
diff --git a/generated/doc-contributors.json b/generated/doc-contributors.json
@@ -1,8 +1,8 @@
 {
   "repo": "InvolutionHell/involutionhell.github.io",
-  "generatedAt": "2025-10-10T04:10:07.309Z",
+  "generatedAt": "2025-10-11T02:13:32.441Z",
   "docsDir": "app/docs",
-  "totalDocs": 100,
+  "totalDocs": 102,
   "results": [
     {
       "docId": "ue27z7z95yzw3lhhfj7nit1c",
@@ -1174,6 +1174,23 @@
         }
       ]
     },
+    {
+      "docId": "pqplmwaj5o5aszydqo1drzrj",
+      "path": "app/docs/ai/multimodal/RQVAE/index.mdx",
+      "contributorStats": {
+        "188854497": 1
+      },
+      "contributors": [
+        {
+          "githubId": "188854497",
+          "contributions": 1,
+          "lastContributedAt": "2025-10-10T13:41:00.000Z",
+          "login": "0dysseus13",
+          "avatarUrl": "https://avatars.githubusercontent.com/u/188854497?v=4",
+          "htmlUrl": "https://github.com/0dysseus13"
+        }
+      ]
+    },
     {
       "docId": "k6cgwcc28l9iap5s5oyjbjwo",
       "path": "app/docs/ai/multimodal/VAE/index.mdx",
@@ -1252,6 +1269,23 @@
         }
       ]
     },
+    {
+      "docId": "otfiks0uz3aue1bdvlyqmj3e",
+      "path": "app/docs/ai/multimodal/VQVAE/index.mdx",
+      "contributorStats": {
+        "188854497": 1
+      },
+      "contributors": [
+        {
+          "githubId": "188854497",
+          "contributions": 1,
+          "lastContributedAt": "2025-10-10T13:41:00.000Z",
+          "login": "0dysseus13",
+          "avatarUrl": "https://avatars.githubusercontent.com/u/188854497?v=4",
+          "htmlUrl": "https://github.com/0dysseus13"
+        }
+      ]
+    },
     {
       "docId": "as876rdhtmpnyyeclxt226s1",
       "path": "app/docs/ai/recommender-systems/recommender-roadmap.mdx",