JayHyeon
/

Qwen_0.5-ultrainteract_IRPO_5e-7-1ep_0.5bdpo_lambda

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Community

JayHyeon commited on Mar 29

Commit

e68b7c6

·

verified ·

1 Parent(s): e326246

End of training

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -1,5 +1,6 @@
 ---
 base_model: JayHyeon/Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep
 library_name: transformers
 model_name: Qwen_0.5-ultrainteract_IRPO_5e-7-1ep_0.5bdpo_lambda
 tags:
@@ -11,7 +12,7 @@ licence: license
 # Model Card for Qwen_0.5-ultrainteract_IRPO_5e-7-1ep_0.5bdpo_lambda
-This model is a fine-tuned version of [JayHyeon/Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep](https://huggingface.co/JayHyeon/Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 base_model: JayHyeon/Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep
+datasets: JayHyeon/trl_ultrainteract-pair
 library_name: transformers
 model_name: Qwen_0.5-ultrainteract_IRPO_5e-7-1ep_0.5bdpo_lambda
 tags:
 # Model Card for Qwen_0.5-ultrainteract_IRPO_5e-7-1ep_0.5bdpo_lambda
+This model is a fine-tuned version of [JayHyeon/Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep](https://huggingface.co/JayHyeon/Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep) on the [JayHyeon/trl_ultrainteract-pair](https://huggingface.co/datasets/JayHyeon/trl_ultrainteract-pair) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start