allenai
/

OLMo-2-1124-7B-DPO-Preview

Text Generation

Inference Endpoints

Model card Files Files and versions Community

hamishivi commited on Nov 26, 2024

Commit

965eb40

·

verified ·

1 Parent(s): bb6eb15

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -97,9 +97,9 @@ TODO
 Note we use a length-normalized variant of DPO for training.
 DPO:
-- **Learning Rate**: 8E-7 (7B), 7.5E-06 (13B)
 - **Beta**: 5
-- **Effective Batch Size:** 128 (7B), 128 (13B)
 - **Max. Sequence Length:** 2048
 - **Learning Rate Schedule:** Linear
 - **LR Warmup Ratio:** 0.1

 Note we use a length-normalized variant of DPO for training.
 DPO:
+- **Learning Rate**: 8E-7 (7B, 13B)
 - **Beta**: 5
+- **Effective Batch Size:** 128 (7B, 13B)
 - **Max. Sequence Length:** 2048
 - **Learning Rate Schedule:** Linear
 - **LR Warmup Ratio:** 0.1