metadata
language:
- da
base_model:
- meta-llama/Llama-3.1-8B-Instruct
o7
o7 er den første reasoning model trænet udelukkende på Dansk.
Modellen er trænet med GRPO (en reinforcement learning metode skabt af DeepSeek) over 8 dage på et enkelt A100.
Instruktion, ingen chat
Modellen er ikke trænet til at svare på opfølgende spørgsmål, og fungerer derfor bedst ved et spørgsmål pr. "chat".
Licens
Følger MIT for privatpersoner og organisationer der vil bruge modellen til forskning. Ved kommercielt brug skal der betales 1 kr. for en livstidslicens. Læs LICENSE.txt for den fulde licens.