Async RLHF Paper Checkpoints

vwxyzjn 's Collections

updated Feb 5

Checkpoints for "Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models" https://arxiv.org/abs/2410.18252