alignment-learning - a jshin49 Collection

jshin49 's Collections

multi-lingual llms

mixture-of-experts

alignment-learning

alignment-learning

updated Apr 19, 2024

Dataset Reset Policy Optimization for RLHF

Paper • 2404.08495 • Published Apr 12, 2024 • 9
ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 68