InfiX-ai
/

InfiAlign-Qwen-7B-DPO

Text Generation

large-language-models

direct-preference-optimization

text-generation-inference

Model card Files Files and versions Community

sslu commited on 29 days ago

Commit

616560d

·

verified ·

1 Parent(s): 43f1c77

Update README.md

Files changed (1) hide show

README.md +11 -1

README.md CHANGED Viewed

@@ -2,6 +2,16 @@
 license: apache-2.0
 base_model:
 - Qwen/Qwen2.5-Math-7B
 ---
 # 🤖 Model Card: InfiX-ai/InfiAlign-Qwen-7B-DPO
@@ -329,4 +339,4 @@ print(response)
 ## 📌 News
 * ✅ We released model checkpoint for `InfiAlign-Qwen-7B-DPO` !
-* ✅ We released [InfiAlign-Qwen-7B-DPO-Eval-Response](https://huggingface.co/datasets/InfiX-ai/InfiAlign-Qwen-7B-DPO-Eval-Response) ! This dataset contains the detailed evaluation responses generated by our DPO model across various benchmarks.

 license: apache-2.0
 base_model:
 - Qwen/Qwen2.5-Math-7B
+language:
+- en
+pipeline_tag: text-generation
+library_name: transformers
+tags:
+- large-language-models
+- DPO
+- direct-preference-optimization
+- reasoning
+- long-CoT
 ---
 # 🤖 Model Card: InfiX-ai/InfiAlign-Qwen-7B-DPO
 ## 📌 News
 * ✅ We released model checkpoint for `InfiAlign-Qwen-7B-DPO` !
+* ✅ We released [InfiAlign-Qwen-7B-DPO-Eval-Response](https://huggingface.co/datasets/InfiX-ai/InfiAlign-Qwen-7B-DPO-Eval-Response) ! This dataset contains the detailed evaluation responses generated by our DPO model across various benchmarks.