Model Details

Llama-3.1-8B model trained with ORPO trainer.

Training Details

mlabonne/orpo-dpo-mix-40k is used for finetuning this model.

[More Information Needed]

Trained with ORPO trainer, and only first 5K rows are used for finetuning (5K out of 40K).

Safetensors

Model size

4.65B params

Tensor type

BF16

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support