RL(GRPO)deepseek-v3-0.1b

尝试使用强化学习训练小模型，增强模型的数学解题能力，外加产生解题COT的能力。模仿deepseek-r1-zero训练方法，训练具有推理能力的大模型。数据集选择：https://huggingface.co/datasets/swulling/gsm8k_chinese 。模型选择自己训练的deepseek-v3-0.1b，框架使用的是:trl

这是checkpoint-300和checkpoint-500的结果，稍微学会了回答格式：

后续的结果，格式会稍微好些

Downloads last month: 2

Safetensors

Model size

494M params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

huihui1234
/

minids-0.1b-gsmrl

RL(GRPO)deepseek-v3-0.1b

Dataset used to train huihui1234/minids-0.1b-gsmrl