From 44e68a26b28cc05bbb59012398718fce724817d8 Mon Sep 17 00:00:00 2001
From: Glycogen W <109408857+XihWang@users.noreply.github.com>
Date: Sun, 20 Apr 2025 11:41:04 +0800
Subject: [PATCH] =?UTF-8?q?Update=205.token=E5=8F=8A=E6=A8=A1=E5=9E=8B?=
 =?UTF-8?q?=E5=8F=82=E6=95=B0.md?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

错别字
---
 ...\217\212\346\250\241\345\236\213\345\217\202\346\225\260.md" | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260.md" "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260.md"
index 9c38145..4f127db 100644
--- "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260.md"
+++ "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260/5.token\345\217\212\346\250\241\345\236\213\345\217\202\346\225\260.md"
@@ -110,7 +110,7 @@ Taylor在训练Galactica模型时候认为他之所以用4 epochs能提高训练
 
 #### 6.5 多样的训练目标可以减轻多Epoch下降吗？
 
-目前大语言模型的训练目标有很多，例如预测下一个单词是神什么的生成式目标，也有把单词masked之后用来判断是什么单词的判别式目标。**如果语言模型的训练目标多样化，那么实际上更加可能受到多epoch带来的性能损失**。
+目前大语言模型的训练目标有很多，例如预测下一个单词是什么的生成式目标，也有把单词masked之后用来判断是什么单词的判别式目标。**如果语言模型的训练目标多样化，那么实际上更加可能受到多epoch带来的性能损失**。
 
 例如，UL2这种模型就不适合多Epoch的训练，MLM这种模型受到的影响反而更小。