kajuma
/

DiffLlama-1B

Text Generation

Model card Files Files and versions Community

kajuma commited on 11 days ago

Commit

5584e54

·

verified ·

1 Parent(s): e56d014

fix typo

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ DiffLlama-1Bは、フルスクラッチで約100Bトークン事前学習を行
 - **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
 - **パラメータ数**: 10億（1B）パラメータ。
 - **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
-- **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に\（つまり実質200Bトークン学習している\）。実装は[こちら](https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py)
 ## 学習データ

 - **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
 - **パラメータ数**: 10億（1B）パラメータ。
 - **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
+- **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に\(つまり実質200Bトークン学習している\)。実装は[こちら](https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py)
 ## 学習データ