GRM - a Ray2333 Collection

Ray2333 's Collections

GRM

GRM

updated Nov 25, 2024

Generalizable Reward Models

Ray2333/GRM-llama3-8B-sftreg

Text Classification • 8B • Updated Feb 5 • 335 • 5
Ray2333/GRM-llama3-8B-distill

Text Classification • 8B • Updated Feb 5 • 485 • 6
Ray2333/GRM-Gemma-2B-sftreg

Text Classification • 3B • Updated Feb 5 • 117 • 3
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

Paper • 2406.10216 • Published Jun 14, 2024 • 2
Ray2333/GRM-Gemma-2B-rewardmodel-ft

3B • Updated Feb 5 • 3 • 1
Ray2333/GRM-Llama3-8B-rewardmodel-ft

8B • Updated Feb 5 • 246 • 1
Ray2333/GRM-llama3.2-3B-sftreg

Text Classification • 3B • Updated Feb 5 • 10 • 1
Ray2333/GRM-Gemma2-2B-sftreg

Text Classification • 3B • Updated Feb 5 • 8 • 1
Ray2333/GRM-Llama3.2-3B-rewardmodel-ft

Text Classification • 3B • Updated Apr 30 • 667 • 13
Ray2333/GRM-gemma2-2B-rewardmodel-ft

Text Classification • 3B • Updated Feb 5 • 517 • 7
Ray2333/GRM_Llama3.1_8B_rewardmodel-ft

Text Classification • 8B • Updated Feb 5 • 11 • 5