klogram
/

qwen2.5_3b_grpo

Model card Files Files and versions Community

qwen2.5_3b_grpo / README.md

klogram's picture

Update README.md

80cb0c4 verified about 2 months ago

|

history blame contribute delete

180 Bytes

	---
	datasets:
	- openai/gsm8k
	base_model:
	- Qwen/Qwen2.5-3B-Instruct
	---

	System prompt:
	```
	Respond in the following format:
	<reasoning>
	...
	</reasoning>
	<answer>
	...
	</answer>
	```