RL(GRPO)deepseek-v3-0.1b
尝试使用强化学习训练小模型,增强模型的数学解题能力,外加产生解题COT的能力。 模仿deepseek-r1-zero训练方法,训练具有推理能力的大模型。 数据集选择:https://huggingface.co/datasets/swulling/gsm8k_chinese 。 模型选择自己训练的deepseek-v3-0.1b,框架使用的是:trl
这是checkpoint-300和checkpoint-500的结果,稍微学会了回答格式:
后续的结果,格式会稍微好些
- Downloads last month
- 2
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support