ll922
/

Qwen2.5-0.5B-Instruct-Align-Anything-DPO

Model card Files Files and versions Community

ll922 commited on 8 days ago

Commit

85d95d6

·

verified ·

1 Parent(s): 49a77d0

Update README.md

Files changed (1) hide show

README.md +5 -1

README.md CHANGED Viewed

@@ -4,4 +4,8 @@ datasets:
 - PKU-Alignment/align-anything
 base_model:
 - Qwen/Qwen2.5-0.5B-Instruct
----

 - PKU-Alignment/align-anything
 base_model:
 - Qwen/Qwen2.5-0.5B-Instruct
+---
+DPO training is performed using the [Align-Anything](https://github.com/PKU-Alignment/align-anything) framework, with the *PKU-Alignment/align-anything* text-to-text dataset.
+DPO training report: https://api.wandb.ai/links/nlp-amct/uifw66p5