ReasoningEval
/

Qwen2.5-7B-Huatuo-difficulty-SFT-RL

Model card Files Files and versions Community

Qwen2.5-7B-Huatuo-difficulty-SFT

Base Model: Qwen/Qwen2.5-7B
Training Epoches: 3
Training Objective: SFT + RL
Training Data:
- SFT Data: ReasoningEval/Huatuo-SFT-difficulty
- RL Data: ReasoningEval/Huatuo-RL

Downloads last month: 27

Safetensors

Model size

7.62B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including ReasoningEval/Qwen2.5-7B-Huatuo-difficulty-SFT-RL

Data_dimension

Models trained using data with different filtering strategies (difficulty, quality filtering) • 12 items • Updated 18 days ago