fix typo
Browse files
README.md
CHANGED
@@ -14,7 +14,7 @@ DiffLlama-1Bは、フルスクラッチで約100Bトークン事前学習を行
|
|
14 |
- **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
|
15 |
- **パラメータ数**: 10億(1B)パラメータ。
|
16 |
- **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
|
17 |
-
- **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2
|
18 |
|
19 |
## 学習データ
|
20 |
|
|
|
14 |
- **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
|
15 |
- **パラメータ数**: 10億(1B)パラメータ。
|
16 |
- **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
|
17 |
+
- **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に\(つまり実質200Bトークン学習している\)。実装は[こちら](https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py)
|
18 |
|
19 |
## 学習データ
|
20 |
|