Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

9,698

Full-text search

Active filters: dpo

DUAL-GPO/phi-2-dpo-chatml-lora-20k-40k-i1

Updated Sep 10, 2024 • 2

LBK95/Llama-2-7b-hf-DPO-LookAhead5_FullEval_TTree1.4_TLoop0.7_TEval0.2_V2.0

Updated Sep 10, 2024 • 2

Wenboz/llama3-dpo-lora

Updated Sep 20, 2024 • 2

DUAL-GPO/phi-2-dpo-chatml-lora-40k-60k-i1

Updated Sep 11, 2024 • 1

DUAL-GPO/phi-2-dpo-chatml-lora-40k-60k-i2

Updated Sep 11, 2024 • 2

NicholasCorrado/zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.01

Text Generation • 7B • Updated Sep 11, 2024 • 2

vincentlinzhu/dspv1_dpo_dspfmt

Updated Sep 11, 2024 • 2

NicholasCorrado/zephyr-7b-uf-rc-small-dpo

Text Generation • 7B • Updated Sep 11, 2024 • 2

NicholasCorrado/zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.1

Text Generation • 7B • Updated Sep 11, 2024 • 1

NicholasCorrado/zephyr-7b-uf-rlced-conifer-group-dpo-2e-alr-0.01-1e

Text Generation • 7B • Updated Sep 11, 2024 • 2

lewtun/tmp-dpo

Text Generation • 0.0B • Updated Sep 11, 2024 • 3

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-orca

Text Generation • 3B • Updated Sep 11, 2024 • 2

CharlesLi/OpenELM-1_1B-DPO-full-self-improve

Text Generation • 1B • Updated Sep 11, 2024 • 2

QinLiuNLP/llama3-sudo-dpo-instruct-5epochs-jxkey

Updated Sep 11, 2024 • 2

dmariko/SmolLM-360M-Instruct-dpo-16k

0.4B • Updated Sep 12, 2024 • 2

dmariko/SmolLM-1.7B-Instruct-dpo-15k

2B • Updated Sep 17, 2024 • 3

dmariko/SmolLM-1.7B-Instruct-dpo-16k

2B • Updated Sep 17, 2024 • 2

QinLiuNLP/llama3-sudo-dpo-instruct-100epochs-jxkey

Updated Sep 14, 2024 • 15

DUAL-GPO/phi-2-dpo-chatml-lora-40k-60k-v2-i2

Updated Sep 12, 2024 • 2

vincentlinzhu/dspv1_dpo_dspfmt_medium

Updated Sep 12, 2024 • 2

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-distilabel-math-preference

Text Generation • 3B • Updated Sep 12, 2024 • 2

vincentlinzhu/dspv1_dpo_llemmafmt_medium

Updated Sep 12, 2024 • 2

DUAL-GPO/phi-2-dpo-chatml-lora-0k-20k-i2

Updated Sep 13, 2024 • 2

LBK95/Llama-2-7b-hf-DPO-LookAhead3_FullEval_TTree1.4_TLoop0.7_TEval0.2_Filter0.2_V1.0

Updated Sep 12, 2024 • 2

Huertas97/smollm-gec-sftt-dpo

Text Generation • 0.1B • Updated Sep 12, 2024 • 2

SameedHussain/gemma-2-2b-it-Flight-Multi-Turn-V2-DPO

Text Generation • Updated Sep 12, 2024 • 2

Siddartha10/outputs_dpo

Text Generation • 0.1B • Updated Sep 12, 2024 • 2

SongTonyLi/gemma-2b-it-SFT-D1_chosen-then-DPO-D2a-HuggingFaceH4-ultrafeedback_binarized-Xlarge

Text Generation • 3B • Updated Sep 13, 2024 • 5

CharlesLi/OpenELM-1_1B-DPO-full-llama-improve-openelm

Text Generation • 1B • Updated Sep 13, 2024 • 2

maxmyn/c4ai-takehome-model-dpo

Text Generation • 0.1B • Updated Sep 15, 2024 • 3