metadata

language:
  - da
base_model:
  - meta-llama/Llama-3.1-8B-Instruct

o7

o7 er den første reasoning model trænet udelukkende på Dansk.

Modellen er trænet med GRPO (en reinforcement learning metode skabt af DeepSeek) over 8 dage på et enkelt A100.

Instruktion, ingen chat

Modellen er ikke trænet til at svare på opfølgende spørgsmål, og fungerer derfor bedst ved et spørgsmål pr. "chat".

Licens

Følger MIT for privatpersoner og organisationer der vil bruge modellen til forskning. Ved kommercielt brug skal der betales 1 kr. for en livstidslicens. Læs LICENSE.txt for den fulde licens.