Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

9,676

Full-text search

Active filters: dpo

SameedHussain/gemma-2-2b-it-Flight-Multi-Turn-V2-DPO

Text Generation • Updated Sep 12, 2024 • 2

Siddartha10/outputs_dpo

Text Generation • 0.1B • Updated Sep 12, 2024 • 2

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-HuggingFaceH4-ultrafeedback_binarized-Xlarge

Text Generation • 3B • Updated Sep 13, 2024 • 5

CharlesLi/OpenELM-1_1B-DPO-full-llama-improve-openelm

Text Generation • 1B • Updated Sep 13, 2024 • 2

maxmyn/c4ai-takehome-model-dpo

Text Generation • 0.1B • Updated Sep 15, 2024 • 3

CharlesLi/OpenELM-1_1B-DPO-full-max-4-reward

Text Generation • 1B • Updated Oct 7, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-max-12-reward

Text Generation • 1B • Updated Oct 7, 2024 • 3

DUAL-GPO/phi-2-ipo-chatml-lora-i1

Updated Sep 14, 2024 • 2

DUAL-GPO/phi-2-ipo-chatml-lora-10k-30k-i1

Updated Sep 14, 2024 • 2

DUAL-GPO/phi-2-ipo-chatml-lora-20k-40k-i1

Updated Sep 14, 2024 • 2

DUAL-GPO/phi-2-ipo-chatml-lora-30k-50k-i1

Updated Sep 14, 2024 • 2

rasyosef/phi-2-apo

Updated Sep 16, 2024 • 4

LBK95/Llama-2-7b-hf-DPO-LookAhead3_FullEval_TTree1.4_TLoop0.7_TEval0.2_Filter0.2_V2.0

Updated Sep 15, 2024 • 2

coscotuff/SLFT_Trials_2

Text Generation • 0.1B • Updated Sep 16, 2024 • 5

preethu19/tiny-chatbot-dpo

Updated Sep 15, 2024 • 4

Avinaash/a100_epoch1IPOBest

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

ravithejads/test_model_sft

Text Generation • 0.1B • Updated Sep 15, 2024

Avinaash/a100_epoch2IPOBest

Text Generation • 0.1B • Updated Sep 15, 2024 • 3

Avinaash/a100_epoch1DPOCurated

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/a100_epoch3DPOCurated

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/a100_epoch3IPOBest

Text Generation • 0.1B • Updated Sep 15, 2024 • 1

Avinaash/a100_epoch2DPOCurated

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

sarthakrw/dpo_model

Text Generation • 0.1B • Updated Sep 15, 2024 • 1

VivekChauhan06/SmolLM-FT-CoEdIT-DPO

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/beta0.3_LR_2e-05_Epoch1_DPO_CuratedDataset

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/beta0.7_LR_2e-05_Epoch1_DPO_CuratedDataset

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/beta0.9_LR_2e-05_Epoch1_DPO_CuratedDataset

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/beta1_LR_2e-05_Epoch1_DPO_CuratedDataset

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/beta1.2_LR_2e-05_Epoch1_DPO_CuratedDataset

Text Generation • 0.1B • Updated Sep 15, 2024 • 2

Avinaash/beta1.4_LR_2e-05_Epoch1_DPO_CuratedDataset

Text Generation • 0.1B • Updated Sep 15, 2024 • 2