Edit Models filters

Apps

Apps with no match

Inference Providers

Inference Providers with no match

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

Mixture of Experts

text-embeddings-inference

Carbon Emissions

Models

88,425

Full-text search

Active filters: trl

dshin/flan-t5-ppo-user-e-batch-size-64-use-violation

Reinforcement Learning • Updated Mar 14, 2023 • 28

dshin/flan-t5-ppo-user-e-batch-size-64

Reinforcement Learning • Updated Mar 14, 2023 • 38

trl-lib/llama-7b-se-peft

Updated Apr 6, 2023 • 4

Bearnardd/gpt2-imdb

Reinforcement Learning • Updated Apr 3, 2023 • 27

trl-lib/llama-7b-se-rl-peft

Updated Apr 14, 2023 • 103

Bearnardd/test_bearnard

Reinforcement Learning • Updated Apr 5, 2023 • 26

Bearnardd/test_beard

Reinforcement Learning • Updated Apr 4, 2023 • 26

trl-lib/llama-7b-se-rm-peft

Updated Apr 6, 2023 • 8

vincentmin/opt-125m-eli5-rl-finetune-128-8-8-1.4e-5_ada

Reinforcement Learning • Updated Apr 10, 2023

dshin/flan-t5-ppo-user-a-allenai-prosocial-dialog-testing-upload

Reinforcement Learning • Updated Apr 12, 2023 • 13

dshin/flan-t5-ppo-user-a-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 18

dshin/flan-t5-ppo-user-f-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 28

dshin/flan-t5-ppo-user-h-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 29

dshin/flan-t5-ppo-user-e-allenai-prosocial-dialog

Reinforcement Learning • Updated Apr 13, 2023 • 14

wengnews/tuning_llama_rl_checkpointsstep_9

Reinforcement Learning • Updated May 11, 2023

eurus7/working

Reinforcement Learning • Updated May 12, 2023

eurus7/ppo_trainer

Reinforcement Learning • Updated May 12, 2023

eurus7/gpt2-imdb-pos-v2

Reinforcement Learning • Updated May 12, 2023

zou00080/llama_PPO_pos_formal

Reinforcement Learning • Updated May 19, 2023 • 22

zou00080/llama_PPO_pos_informal

Reinforcement Learning • Updated May 19, 2023 • 22

zou00080/llama_PPO_neg_formal

Reinforcement Learning • Updated May 19, 2023 • 17

zou00080/llama_PPO_neg_informal

Reinforcement Learning • Updated May 19, 2023 • 21

aleph-null/thesis

Updated Jun 2, 2024 • 5

rajpabari/gflownets-rlhf

Reinforcement Learning • Updated Jun 6, 2023

mariosirt/EleutherAI-gpt-neo-125m-detoxified

Reinforcement Learning • Updated Jun 6, 2023 • 50

mariosirt/EleutherAI-gpt-neo-125m-detoxified-perspective

Reinforcement Learning • Updated Jun 11, 2023 • 15

mariosirt/gpt2-detoxified

Reinforcement Learning • Updated Jun 11, 2023 • 47

merve/peft-copy-test

Text Generation • Updated Jun 14, 2023 • 7

renyulin/gptneo125m-detoxify-ppo-0.05

Reinforcement Learning • Updated Jun 26, 2023 • 17

renyulin/llama-7b-es-ppo-adpater

Reinforcement Learning • Updated Jul 3, 2023