HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

GRPO / generation_config.json

HuangXinBa's picture

Upload LlamaForCausalLM

33bf48c verified 3 months ago

164 Bytes

	{
	"_from_model_config": true,
	"bos_token_id": 1,
	"eos_token_id": 2,
	"max_new_tokens": 40,
	"pad_token_id": 2,
	"transformers_version": "4.47.1"
	}