Edit Models filters

Inference Providers

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

Full-text search

Active filters: reinforcement-learning

mishasamin/alphazero-quoridor

Reinforcement Learning • Updated Aug 25, 2023 • 2

emredeveloper/DeepSeek-R1-Medical-COT

Reinforcement Learning • Updated Jan 29 • 8 • 21

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning • 8B • Updated Mar 26 • 8.74k • 221

LMark/ppo-LunarLander-v2

Reinforcement Learning • Updated Feb 14 • 2 • 1

Open-Reasoner-Zero/Open-Reasoner-Zero-7B

Reinforcement Learning • 8B • Updated Apr 7 • 1.14k • 33

jakegrigsby/metamon

Reinforcement Learning • Updated 12 days ago • 1

cycloneboy/CscSQL-Merge-Qwen2.5-Coder-7B-Instruct

Text Generation • 8B • Updated Jul 7 • 64 • 2

hkust-nlp/Qwen-2.5-7B-Verifier-R1-Verifier-1.5B

Reinforcement Learning • 8B • Updated May 28 • 12 • 1

Eraly-ml/TogyzkumalakRL

Reinforcement Learning • Updated Jul 21 • 9 • 1

IntelliGrow/poca-SoccerTwos

Reinforcement Learning • Updated Jun 25 • 12 • 2

ValueFX9507/Tifa-DeepsexV3-14b-GGUF-Q6

Reinforcement Learning • 15B • Updated Jul 1 • 4.3k • 25

omrisap/Qwen2.5-Math-1.5B-TreeRPO

Text Generation • 2B • Updated Jul 20 • 11 • 1

cycloneboy/SLM-SQL-Base-0.5B

Text Generation • 0.6B • Updated 24 days ago • 21 • 2

cycloneboy/SLM-SQL-0.5B

Text Generation • 0.6B • Updated 24 days ago • 19 • 1

InfiX-ai/InfiGUI-G1-3B

Image-Text-to-Text • 4B • Updated 12 days ago • 1.22k • 7

qortmdgh4141/GAS

Reinforcement Learning • Updated 1 day ago • 1

kellehod/ppo-LunarLander-v2

Reinforcement Learning • Updated about 15 hours ago • 1

ValueFX9507/Tifa-Deepsex-14b-CoT

Reinforcement Learning • 15B • Updated Feb 13 • 1.6k • 218

ThomasSimonini/ML-Agents-SnowballFight-1vs1

Reinforcement Learning • Updated Nov 30, 2021 • 4 • 10

ThomasSimonini/demo-hf-CartPole-v1

Reinforcement Learning • Updated May 3, 2023 • 3

ThomasSimonini/mlagents-snowballfight-1vs1-ppo

Reinforcement Learning • Updated Nov 22, 2021

ThomasSimonini/ppo-AntBulletEnv-v0

Reinforcement Learning • Updated Apr 7, 2022 • 15 • 1

ThomasSimonini/ppo-BreakoutNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 12 • 3

ThomasSimonini/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 28, 2023 • 5 • 14

ThomasSimonini/ppo-PongNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 6 • 1

ThomasSimonini/ppo-QbertNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 6

ThomasSimonini/ppo-SeaquestNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 3

ThomasSimonini/ppo-SpaceInvadersNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 5 • 3

ThomasSimonini/ppo-Walker2DBulletEnv-v0

Reinforcement Learning • Updated Jul 15, 2022 • 5

ThomasSimonini/stable-baselines3-ppo-LunarLander-v2

Reinforcement Learning • Updated Apr 7, 2022