codelion
/

gemma-3-1b-it-reasoning-grpo-lora

@@ -39,8 +39,8 @@ This LoRA adapter enhances google/gemma-3-1b-it with structured reasoning capabi
 - **Training Method**: GRPO (Group Relative Policy Optimization)
 - **LoRA Rank**: 64
 - **LoRA Alpha**: 128
-- **Training Samples**: 614
-- **Thinking Tag Usage**: 0.0%
 - **Average Quality Score**: 0.00
 ## 🔧 Usage
@@ -68,7 +68,7 @@ Problem: If a train travels 120 miles in 2 hours, then increases its speed by 30
 Response:'''
 inputs = tokenizer(prompt, return_tensors="pt")
-outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.5)
 response = tokenizer.decode(outputs[0], skip_special_tokens=True)
 print(response)
 ```
@@ -131,7 +131,7 @@ The model was trained on self-generated reasoning problems across multiple domai
 ## 🔬 Evaluation
 The adapter was evaluated on diverse reasoning tasks:
-- Thinking tag usage rate: 0.0%
 - Average reasoning quality score: 0.00
 - Response comprehensiveness: 0 words average

 - **Training Method**: GRPO (Group Relative Policy Optimization)
 - **LoRA Rank**: 64
 - **LoRA Alpha**: 128
+- **Training Samples**: 107
+- **Thinking Tag Usage**: 40.0%
 - **Average Quality Score**: 0.00
 ## 🔧 Usage
 Response:'''
 inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.2)
 response = tokenizer.decode(outputs[0], skip_special_tokens=True)
 print(response)
 ```
 ## 🔬 Evaluation
 The adapter was evaluated on diverse reasoning tasks:
+- Thinking tag usage rate: 40.0%
 - Average reasoning quality score: 0.00
 - Response comprehensiveness: 0 words average