kajuma commited on
Commit
5584e54
·
verified ·
1 Parent(s): e56d014
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -14,7 +14,7 @@ DiffLlama-1Bは、フルスクラッチで約100Bトークン事前学習を行
14
  - **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
15
  - **パラメータ数**: 10億(1B)パラメータ。
16
  - **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
17
- - **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に\(つまり実質200Bトークン学習している\)。実装は[こちら](https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py)
18
 
19
  ## 学習データ
20
 
 
14
  - **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
15
  - **パラメータ数**: 10億(1B)パラメータ。
16
  - **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
17
+ - **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に\(つまり実質200Bトークン学習している\)。実装は[こちら](https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py)
18
 
19
  ## 学習データ
20