wdndev · XihWang · Apr 20, 2025
diff --git a/02.大语言模型架构/5.token及模型参数/5.token及模型参数.md b/02.大语言模型架构/5.token及模型参数/5.token及模型参数.md
@@ -110,7 +110,7 @@ Taylor在训练Galactica模型时候认为他之所以用4 epochs能提高训练
 
 #### 6.5 多样的训练目标可以减轻多Epoch下降吗？
 
-目前大语言模型的训练目标有很多，例如预测下一个单词是神什么的生成式目标，也有把单词masked之后用来判断是什么单词的判别式目标。**如果语言模型的训练目标多样化，那么实际上更加可能受到多epoch带来的性能损失**。
+目前大语言模型的训练目标有很多，例如预测下一个单词是什么的生成式目标，也有把单词masked之后用来判断是什么单词的判别式目标。**如果语言模型的训练目标多样化，那么实际上更加可能受到多epoch带来的性能损失**。
 
 例如，UL2这种模型就不适合多Epoch的训练，MLM这种模型受到的影响反而更小。