RL(GRPO)deepseek-v3-0.1b

尝试使用强化学习训练小模型,增强模型的数学解题能力,外加产生解题COT的能力。 模仿deepseek-r1-zero训练方法,训练具有推理能力的大模型。 数据集选择:https://huggingface.co/datasets/swulling/gsm8k_chinese 。 模型选择自己训练的deepseek-v3-0.1b,框架使用的是:trl

这是checkpoint-300和checkpoint-500的结果,稍微学会了回答格式: 图片 图片

后续的结果,格式会稍微好些

image/png

Downloads last month
2
Safetensors
Model size
494M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train huihui1234/minids-0.1b-gsmrl