InfiX-ai
/

InfiAlign-Qwen-7B-DPO

Text Generation

large-language-models

direct-preference-optimization

text-generation-inference

Model card Files Files and versions Community

sslu commited on about 1 month ago

Commit

43f1c77

·

verified ·

1 Parent(s): fb5d60f

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ The InfiAlign framework offers multiple variants tailored for different alignmen
 * **[InfiAlign-Qwen-7B-SFT](https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT)**: Fine-tuned using curriculum-style instruction data.
 * **[InfiAlign-Qwen-7B-DPO](https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-DPO)**: Trained with Direct Preference Optimization (DPO) to improve reasoning alignment. **\[You are here!]**
-* **[InfiAlign-Qwen-7B-R1](https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-R1)**: Reinforcement learning variant (GRPO) for further refinement.
 ## 📋 Model Description

 * **[InfiAlign-Qwen-7B-SFT](https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT)**: Fine-tuned using curriculum-style instruction data.
 * **[InfiAlign-Qwen-7B-DPO](https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-DPO)**: Trained with Direct Preference Optimization (DPO) to improve reasoning alignment. **\[You are here!]**
+* **[InfiAlign-Qwen-7B-R1](# "Stay tuned")**: Reinforcement learning variant (GRPO) for further refinement.
 ## 📋 Model Description