syv.ai TTS v0.1

TTS v0.1 er vores første open source tekst-til-tale model. Den er trænet på over 1000 timers dansk lyd.

Model

Modellen er originalt en LLAMA 3.2 3B model, som er blevet trænet på 100.000 timers engelsk, og vi har efterfølgende trænet den til at tale dansk.

I det, at modellen er en LLM, så betyder det også, at der kan køres inferens på den ved hjælp af vLLM, ollama eller andre populære inferns-frameworks.

Vi anbefaler, at I kigger efter hvordan inferens er implementeret i Orpheus.

Vi søger mere tale

Ligger du inde med lyd (gerne ikke oplæst), så hører vi gerne fra dig. Vi søger specifikt normal samtale lyd.

Licens

Følger MIT for privatpersoner og organisationer der vil bruge modellen til forskning. Ved kommercielt brug skal der betales 1 kr. for en livstidslicens. Læs LICENSE.txt for den fulde licens.

Træningskonfiguration

axolotl version: 0.8.0

base_model: syvai/tts-v1-pretrained
# Automatically upload checkpoint and final model to HF
hub_model_id: syvai/tts-v1-finetuned

plugins:
  - axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_glu_activation: true
liger_fused_linear_cross_entropy: true

datasets:
  - path: syvai/zac-coral-tts
    type: 
dataset_prepared_path: last_run_prepared
val_set_size: 0.01
eval_sample_packing: False
output_dir: ./outputs/finetuned

sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true

wandb_project: orph
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:

gradient_accumulation_steps: 8
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5

bf16: auto
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true

warmup_steps: 3
evals_per_epoch: 5
saves_per_epoch: 5
weight_decay: 0.05

special_tokens:
  pad_token: <custom_token_7>

tts-v1-finetuned

This model is a fine-tuned version of syvai/tts-v1-pretrained on the syvai/zac-coral-tts dataset. It achieves the following results on the evaluation set:

Loss: 4.2860

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 4
eval_batch_size: 4
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 3
num_epochs: 3.0

Training results

Training Loss	Epoch	Step	Validation Loss
4.9492	0.0246	1	4.8478
4.7181	0.1969	8	4.5872
4.5871	0.3938	16	4.4631
4.557	0.5908	24	4.3972
4.4965	0.7877	32	4.3521
4.4697	0.9846	40	4.3258
4.4525	1.1723	48	4.3083
4.4301	1.3692	56	4.2980
4.4459	1.5662	64	4.2915
4.4382	1.7631	72	4.2893
4.4315	1.96	80	4.2866
4.4178	2.1477	88	4.2861
4.4501	2.3446	96	4.2859
4.4121	2.5415	104	4.2856
4.4164	2.7385	112	4.2859
4.4264	2.9354	120	4.2860

Framework versions

Transformers 4.51.3
Pytorch 2.6.0+cu124
Datasets 3.5.0
Tokenizers 0.21.1

syvai
/

tts-v1-finetuned

syv.ai TTS v0.1

Model

Vi søger mere tale

Licens

Træningskonfiguration

tts-v1-finetuned

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for syvai/tts-v1-finetuned

Dataset used to train syvai/tts-v1-finetuned

Space using syvai/tts-v1-finetuned 1

Evaluation results