Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

.gitattributes +1 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/best_model.pth +3 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/best_model_1546195.pth +3 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/checkpoint_1570000.pth +3 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/checkpoint_1580000.pth +3 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/config.json +215 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/events.out.tfevents.1742716482.2336b9583558.1.0 +3 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/train_gpt_xtts.py +212 -0
GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/trainer_0_log.txt +3 -0
XTTS_v2.0_original_model_files/config.json +160 -0
XTTS_v2.0_original_model_files/dvae.pth +3 -0
XTTS_v2.0_original_model_files/mel_stats.pth +3 -0
XTTS_v2.0_original_model_files/model.pth +3 -0
XTTS_v2.0_original_model_files/vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/trainer_0_log.txt filter=lfs diff=lfs merge=lfs -text

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d34291d44dcf70c64b9355ec48ef5543975a7faacb92ee962bf9cc2f01bdbc90
+size 5649899013

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/best_model_1546195.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d34291d44dcf70c64b9355ec48ef5543975a7faacb92ee962bf9cc2f01bdbc90
+size 5649899013

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/checkpoint_1570000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e17fcbcd2457073555761070dcddf95a3c04307fec9123606fb9e50022e5ddf
+size 5649899013

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/checkpoint_1580000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bfd38ad9a2c74a7a53bf8793d84045217b805e7b5ad1ae7d7caed7b5397a689
+size 5649899013

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/config.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+    "output_path": "xtts_chichewa",
+    "logger_uri": null,
+    "run_name": "GPT_XTTS_CHICHEWA_FT",
+    "project_name": "XTTS_trainer",
+    "run_description": [
+        "\n        GPT XTTS training\n        "
+    ],
+    "print_step": 50,
+    "plot_step": 100,
+    "model_param_stats": false,
+    "wandb_entity": null,
+    "dashboard_logger": "tensorboard",
+    "save_on_interrupt": true,
+    "log_model_step": 100,
+    "save_step": 10000,
+    "save_n_checkpoints": 2,
+    "save_checkpoints": true,
+    "save_all_best": false,
+    "save_best_after": 0,
+    "target_loss": null,
+    "print_eval": false,
+    "test_delay_epochs": 0,
+    "run_eval": true,
+    "run_eval_steps": null,
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "mixed_precision": true,
+    "precision": "bf16",
+    "epochs": 1000,
+    "batch_size": 1,
+    "eval_batch_size": 1,
+    "grad_clip": 0.0,
+    "scheduler_after_epoch": true,
+    "lr": 5e-06,
+    "optimizer": "AdamW",
+    "optimizer_params": {
+        "betas": [
+            0.9,
+            0.96
+        ],
+        "eps": 1e-08,
+        "weight_decay": 0.01
+    },
+    "lr_scheduler": "MultiStepLR",
+    "lr_scheduler_params": {
+        "milestones": [
+            5000,
+            150000,
+            300000
+        ],
+        "gamma": 0.5,
+        "last_epoch": -1
+    },
+    "use_grad_scaler": false,
+    "allow_tf32": false,
+    "cudnn_enable": true,
+    "cudnn_deterministic": false,
+    "cudnn_benchmark": false,
+    "training_seed": 54321,
+    "model": "xtts",
+    "num_loader_workers": 8,
+    "num_eval_loader_workers": 0,
+    "use_noise_augment": false,
+    "audio": {
+        "sample_rate": 22050,
+        "output_sample_rate": 24000,
+        "dvae_sample_rate": 22050
+    },
+    "use_phonemes": false,
+    "phonemizer": null,
+    "phoneme_language": null,
+    "compute_input_seq_cache": false,
+    "text_cleaner": null,
+    "enable_eos_bos_chars": false,
+    "test_sentences_file": "",
+    "phoneme_cache_path": null,
+    "characters": null,
+    "add_blank": false,
+    "batch_group_size": 0,
+    "loss_masking": null,
+    "min_audio_len": 1,
+    "max_audio_len": Infinity,
+    "min_text_len": 1,
+    "max_text_len": Infinity,
+    "compute_f0": false,
+    "compute_energy": false,
+    "compute_linear_spec": false,
+    "precompute_num_workers": 0,
+    "start_by_longest": false,
+    "shuffle": false,
+    "drop_last": false,
+    "datasets": [
+        {
+            "formatter": "",
+            "dataset_name": "",
+            "path": "",
+            "meta_file_train": "",
+            "ignored_speakers": null,
+            "language": "",
+            "phonemizer": "",
+            "meta_file_val": "",
+            "meta_file_attn_mask": ""
+        }
+    ],
+    "test_sentences": [
+        {
+            "text": "umene unafika kwa inu.",
+            "speaker_wav": [
+                "/app/data/clips/JOS_004_030.wav"
+            ],
+            "language": "nya"
+        },
+        {
+            "text": "tukiko adzakuwuzani zonse za ine.",
+            "speaker_wav": [
+                "/app/data/clips/JOS_004_030.wav"
+            ],
+            "language": "nya"
+        },
+        {
+            "text": "iye anachita mtendere kudzera m\u02bcmagazi ake, wokhetsedwa pa mtanda.",
+            "speaker_wav": [
+                "/app/data/clips/JOS_004_030.wav"
+            ],
+            "language": "nya"
+        }
+    ],
+    "eval_split_max_size": null,
+    "eval_split_size": 0.01,
+    "use_speaker_weighted_sampler": false,
+    "speaker_weighted_sampler_alpha": 1.0,
+    "use_language_weighted_sampler": false,
+    "language_weighted_sampler_alpha": 1.0,
+    "use_length_weighted_sampler": false,
+    "length_weighted_sampler_alpha": 1.0,
+    "model_args": {
+        "gpt_batch_size": 1,
+        "enable_redaction": false,
+        "kv_cache": true,
+        "gpt_checkpoint": "",
+        "clvp_checkpoint": null,
+        "decoder_checkpoint": null,
+        "num_chars": 255,
+        "tokenizer_file": "xtts_chichewa/XTTS_v2.0_original_model_files/vocab.json",
+        "gpt_max_audio_tokens": 605,
+        "gpt_max_text_tokens": 402,
+        "gpt_max_prompt_tokens": 70,
+        "gpt_layers": 30,
+        "gpt_n_model_channels": 1024,
+        "gpt_n_heads": 16,
+        "gpt_number_text_tokens": 8388,
+        "gpt_start_text_token": 261,
+        "gpt_stop_text_token": 0,
+        "gpt_num_audio_tokens": 1026,
+        "gpt_start_audio_token": 1024,
+        "gpt_stop_audio_token": 1025,
+        "gpt_code_stride_len": 1024,
+        "gpt_use_masking_gt_prompt_approach": true,
+        "gpt_use_perceiver_resampler": true,
+        "input_sample_rate": 22050,
+        "output_sample_rate": 24000,
+        "output_hop_length": 256,
+        "decoder_input_dim": 1024,
+        "d_vector_dim": 512,
+        "cond_d_vector_in_each_upsampling_layer": true,
+        "duration_const": 102400,
+        "min_conditioning_length": 11025,
+        "max_conditioning_length": 132300,
+        "gpt_loss_text_ce_weight": 0.01,
+        "gpt_loss_mel_ce_weight": 1.0,
+        "debug_loading_failures": true,
+        "max_wav_length": 264600,
+        "max_text_length": 300,
+        "mel_norm_file": "xtts_chichewa/XTTS_v2.0_original_model_files/mel_stats.pth",
+        "dvae_checkpoint": "xtts_chichewa/XTTS_v2.0_original_model_files/dvae.pth",
+        "xtts_checkpoint": "xtts_chichewa/XTTS_v2.0_original_model_files/model.pth",
+        "vocoder": ""
+    },
+    "model_dir": null,
+    "languages": [
+        "en",
+        "es",
+        "fr",
+        "de",
+        "it",
+        "pt",
+        "pl",
+        "tr",
+        "ru",
+        "nl",
+        "cs",
+        "ar",
+        "zh-cn",
+        "hu",
+        "ko",
+        "ja",
+        "hi",
+        "nya"
+    ],
+    "temperature": 0.75,
+    "length_penalty": 1.0,
+    "repetition_penalty": 5.0,
+    "top_k": 50,
+    "top_p": 0.85,
+    "num_gpt_outputs": 1,
+    "gpt_cond_len": 30,
+    "gpt_cond_chunk_len": 4,
+    "max_ref_len": 30,
+    "sound_norm_refs": false,
+    "optimizer_wd_only_on_weights": true,
+    "weighted_loss_attrs": {},
+    "weighted_loss_multipliers": {},
+    "github_branch": "* main"
+}

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/events.out.tfevents.1742716482.2336b9583558.1.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80ddece0f0d6e276aa65e097bf60d347ba211705b49bbb6c9f611ced4504313f
+size 32369038

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/train_gpt_xtts.py ADDED Viewed

	@@ -0,0 +1,212 @@

+import os
+from trainer import Trainer, TrainerArgs
+from TTS.config.shared_configs import BaseDatasetConfig
+from TTS.tts.datasets import load_tts_samples
+from TTS.tts.layers.xtts.trainer.gpt_trainer import GPTArgs, GPTTrainer, GPTTrainerConfig, XttsAudioConfig
+from TTS.utils.manage import ModelManager
+from math import ceil
+LANG_TO_ISO = {
+    "hausa": "ha",
+    "luo": "luo",
+    "chichewa": "nya"
+}
+subdirs = [d for d in os.listdir() if os.path.isdir(d) and d.startswith('xtts')]
+OUT_PATH = subdirs[0]
+LANG_NAME = OUT_PATH.split('_')[1]
+# Logging parameters
+RUN_NAME = f"GPT_XTTS_{LANG_NAME.upper()}_FT"
+PROJECT_NAME = "XTTS_trainer"
+DASHBOARD_LOGGER = "tensorboard"
+LOGGER_URI = None
+# Training Parameters
+OPTIMIZER_WD_ONLY_ON_WEIGHTS = True  # for multi-gpu training please make it False
+START_WITH_EVAL = True  # if True it will start with evaluation
+BATCH_SIZE = 1  # set here the batch size
+GRAD_ACUMM_STEPS = ceil(252 / BATCH_SIZE)  # set here the grad accumulation steps
+# Note: we recommend that BATCH_SIZE * GRAD_ACUMM_STEPS need to be at least 252 for more efficient training. You can increase/decrease BATCH_SIZE but then set GRAD_ACUMM_STEPS accordingly.
+# Define here the dataset that you want to use for the fine-tuning on.
+config_dataset = BaseDatasetConfig(
+    formatter="coqui",
+    dataset_name="ft_dataset",
+    path="data/",
+    meta_file_train="manifest_train.csv",
+    meta_file_val="manifest_dev.csv",
+    language=LANG_TO_ISO[LANG_NAME],
+)
+# Add here the configs of the datasets
+DATASETS_CONFIG_LIST = [config_dataset]
+# Define the path where XTTS v2.0.1 files will be downloaded
+CHECKPOINTS_OUT_PATH = os.path.join(OUT_PATH, "XTTS_v2.0_original_model_files/")
+os.makedirs(CHECKPOINTS_OUT_PATH, exist_ok=True)
+# DVAE files
+DVAE_CHECKPOINT_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/dvae.pth"
+MEL_NORM_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/mel_stats.pth"
+# Set the path to the downloaded files
+DVAE_CHECKPOINT = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(DVAE_CHECKPOINT_LINK))
+MEL_NORM_FILE = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(MEL_NORM_LINK))
+# download DVAE files if needed
+if not os.path.isfile(DVAE_CHECKPOINT) or not os.path.isfile(MEL_NORM_FILE):
+    print(" > Downloading DVAE files!")
+    ModelManager._download_model_files([MEL_NORM_LINK, DVAE_CHECKPOINT_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True)
+# Download XTTS v2.0 checkpoint if needed
+TOKENIZER_FILE_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/vocab.json"
+XTTS_CHECKPOINT_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/model.pth"
+XTTS_CONFIG_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/config.json"
+# XTTS transfer learning parameters: You we need to provide the paths of XTTS model checkpoint that you want to do the fine tuning.
+TOKENIZER_FILE = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(TOKENIZER_FILE_LINK))  # vocab.json file
+XTTS_CHECKPOINT = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(XTTS_CHECKPOINT_LINK))  # model.pth file
+XTTS_CONFIG_FILE = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(XTTS_CONFIG_LINK))  # config.json file
+# download XTTS v2.0 files if needed
+if not os.path.isfile(TOKENIZER_FILE):
+    print(" > Downloading XTTS v2.0 tokenizer!")
+    ModelManager._download_model_files(
+        [TOKENIZER_FILE_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True
+    )
+if not os.path.isfile(XTTS_CHECKPOINT):
+    print(" > Downloading XTTS v2.0 checkpoint!")
+    ModelManager._download_model_files(
+        [XTTS_CHECKPOINT_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True
+    )
+if not os.path.isfile(XTTS_CONFIG_FILE):
+    print(" > Downloading XTTS v2.0 config!")
+    ModelManager._download_model_files(
+        [XTTS_CONFIG_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True
+    )
+# load training samples
+train_samples, eval_samples = load_tts_samples(
+    DATASETS_CONFIG_LIST,
+    eval_split=True,
+)
+print(f"Train samples: {len(train_samples)}")
+print(f"Eval samples: {len(eval_samples)}")
+# get the longest text audio file to use as speaker reference
+samples_len = [len(item["text"].split(" ")) for item in train_samples]
+longest_text_idx = samples_len.index(max(samples_len))
+SPEAKER_REFERENCE = [train_samples[longest_text_idx]["audio_file"]]  # speaker reference to be used in training test sentences
+print(f"Using speaker reference: {SPEAKER_REFERENCE}")
+LANGUAGE = config_dataset.language
+HAUSA_TEST_SENTENCES = [
+    "Umarnai don zaman tsarki.",
+    "wanda kuma ya faɗa mana ƙaunar da kuke yi cikin Ruhu.",
+    "Gama mun ji labarin bangaskiyarku a cikin Yesu Kiristi da kuma ƙaunar da kuke yi saboda dukan tsarkaka."
+    ]
+LUO_TEST_SENTENCES = [
+    "jo kolosai achiel.",
+    "magoyo erokamano ni wuoro ka un gi mor.",
+    "epafra bende nonyisowa kuom hera ma roho maler osemiyou."
+    ]
+CHICHEWA_TEST_SENTENCES = [
+    "umene unafika kwa inu.",
+    "tukiko adzakuwuzani zonse za ine.",
+    "iye anachita mtendere kudzera mʼmagazi ake, wokhetsedwa pa mtanda."
+    ]
+TEST_SENTENCES = {
+    "hausa": [{"text": text, "speaker_wav": SPEAKER_REFERENCE, "language": LANGUAGE} for text in HAUSA_TEST_SENTENCES],
+    "luo": [{"text": text, "speaker_wav": SPEAKER_REFERENCE, "language": LANGUAGE} for text in LUO_TEST_SENTENCES],
+    "chichewa": [{"text": text, "speaker_wav": SPEAKER_REFERENCE, "language": LANGUAGE} for text in CHICHEWA_TEST_SENTENCES]
+    }
+def main():
+    # init args and config
+    model_args = GPTArgs(
+        max_conditioning_length=132300,  # 6 secs
+        min_conditioning_length=11025,  # 0.5 secs
+        debug_loading_failures=True,
+        max_wav_length=12*22050,  # 12 secs
+        max_text_length=300,
+        mel_norm_file=MEL_NORM_FILE,
+        dvae_checkpoint=DVAE_CHECKPOINT,
+        xtts_checkpoint=XTTS_CHECKPOINT,  # checkpoint path of the model that you want to fine-tune
+        tokenizer_file=TOKENIZER_FILE,
+        gpt_num_audio_tokens=1026,
+        gpt_start_audio_token=1024,
+        gpt_stop_audio_token=1025,
+        gpt_use_masking_gt_prompt_approach=True,
+        gpt_use_perceiver_resampler=True,
+    )
+    # define audio config
+    audio_config = XttsAudioConfig(sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000)
+    # training parameters config
+    config = GPTTrainerConfig()
+    config.load_json(XTTS_CONFIG_FILE)
+    config.mixed_precision = True
+    config.precision = "bf16"
+    config.epochs = 1000
+    config.output_path = OUT_PATH
+    config.model_args = model_args
+    config.run_name = RUN_NAME
+    config.project_name = PROJECT_NAME
+    config.run_description = """
+        GPT XTTS training
+        """,
+    config.dashboard_logger = DASHBOARD_LOGGER
+    config.logger_uri = LOGGER_URI
+    config.audio = audio_config
+    config.batch_size = BATCH_SIZE
+    config.eval_batch_size = BATCH_SIZE
+    config.num_loader_workers = 8
+    config.print_step = 50
+    config.plot_step = 100
+    config.log_model_step = 100
+    config.save_step = 10000
+    config.save_n_checkpoints = 2
+    config.save_checkpoints = True
+    config.save_best_after = 0
+    config.print_eval = False
+    # Optimizer values like tortoise, pytorch implementation with modifications to not apply WD to non-weight parameters.
+    config.optimizer = "AdamW"
+    config.optimizer_wd_only_on_weights = OPTIMIZER_WD_ONLY_ON_WEIGHTS
+    config.optimizer_params = {"betas": [0.9, 0.96], "eps": 1e-8, "weight_decay": 1e-2}
+    config.lr = 5e-06  # learning rate
+    config.lr_scheduler = "MultiStepLR"
+    config.lr_scheduler_params = {"milestones": [5000, 150000, 300000], "gamma": 0.5, "last_epoch": -1}
+    config.test_sentences=TEST_SENTENCES[LANG_NAME]
+    # init the model from config
+    model = GPTTrainer.init_from_config(config)
+    # init the trainer and 🚀
+    trainer = Trainer(
+        TrainerArgs(
+            restore_path=None,  # xtts checkpoint is restored via xtts_checkpoint key so no need of restore it using Trainer restore_path parameter
+            skip_train_epoch=False,
+            start_with_eval=START_WITH_EVAL,
+            grad_accum_steps=GRAD_ACUMM_STEPS,
+        ),
+        config,
+        output_path=OUT_PATH,
+        model=model,
+        train_samples=train_samples,
+        eval_samples=eval_samples,
+    )
+    trainer.fit()
+if __name__ == "__main__":
+    main()

GPT_XTTS_CHICHEWA_FT-March-23-2025_07+54AM-8e59ec3/trainer_0_log.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddf5ec0490c371299222ce85a5cc3d06479533e7a87e7936e54578c619a72f08
+size 11881298

XTTS_v2.0_original_model_files/config.json ADDED Viewed

	@@ -0,0 +1,160 @@

+{
+    "output_path": "output",
+    "logger_uri": null,
+    "run_name": "run",
+    "project_name": null,
+    "run_description": "\ud83d\udc38Coqui trainer run.",
+    "print_step": 25,
+    "plot_step": 100,
+    "model_param_stats": false,
+    "wandb_entity": null,
+    "dashboard_logger": "tensorboard",
+    "save_on_interrupt": true,
+    "log_model_step": null,
+    "save_step": 10000,
+    "save_n_checkpoints": 5,
+    "save_checkpoints": true,
+    "save_all_best": false,
+    "save_best_after": 10000,
+    "target_loss": null,
+    "print_eval": false,
+    "test_delay_epochs": 0,
+    "run_eval": true,
+    "run_eval_steps": null,
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "mixed_precision": false,
+    "precision": "fp16",
+    "epochs": 1000,
+    "batch_size": 32,
+    "eval_batch_size": 16,
+    "grad_clip": 0.0,
+    "scheduler_after_epoch": true,
+    "lr": 0.001,
+    "optimizer": "radam",
+    "optimizer_params": null,
+    "lr_scheduler": null,
+    "lr_scheduler_params": {},
+    "use_grad_scaler": false,
+    "allow_tf32": false,
+    "cudnn_enable": true,
+    "cudnn_deterministic": false,
+    "cudnn_benchmark": false,
+    "training_seed": 54321,
+    "model": "xtts",
+    "num_loader_workers": 0,
+    "num_eval_loader_workers": 0,
+    "use_noise_augment": false,
+    "audio": {
+        "sample_rate": 22050,
+        "output_sample_rate": 24000
+    },
+    "use_phonemes": false,
+    "phonemizer": null,
+    "phoneme_language": null,
+    "compute_input_seq_cache": false,
+    "text_cleaner": null,
+    "enable_eos_bos_chars": false,
+    "test_sentences_file": "",
+    "phoneme_cache_path": null,
+    "characters": null,
+    "add_blank": false,
+    "batch_group_size": 0,
+    "loss_masking": null,
+    "min_audio_len": 1,
+    "max_audio_len": Infinity,
+    "min_text_len": 1,
+    "max_text_len": Infinity,
+    "compute_f0": false,
+    "compute_energy": false,
+    "compute_linear_spec": false,
+    "precompute_num_workers": 0,
+    "start_by_longest": false,
+    "shuffle": false,
+    "drop_last": false,
+    "datasets": [
+        {
+            "formatter": "",
+            "dataset_name": "",
+            "path": "",
+            "meta_file_train": "",
+            "ignored_speakers": null,
+            "language": "",
+            "phonemizer": "",
+            "meta_file_val": "",
+            "meta_file_attn_mask": ""
+        }
+    ],
+    "test_sentences": [],
+    "eval_split_max_size": null,
+    "eval_split_size": 0.01,
+    "use_speaker_weighted_sampler": false,
+    "speaker_weighted_sampler_alpha": 1.0,
+    "use_language_weighted_sampler": false,
+    "language_weighted_sampler_alpha": 1.0,
+    "use_length_weighted_sampler": false,
+    "length_weighted_sampler_alpha": 1.0,
+    "model_args": {
+        "gpt_batch_size": 1,
+        "enable_redaction": false,
+        "kv_cache": true,
+        "gpt_checkpoint": null,
+        "clvp_checkpoint": null,
+        "decoder_checkpoint": null,
+        "num_chars": 255,
+        "tokenizer_file": "",
+        "gpt_max_audio_tokens": 605,
+        "gpt_max_text_tokens": 402,
+        "gpt_max_prompt_tokens": 70,
+        "gpt_layers": 30,
+        "gpt_n_model_channels": 1024,
+        "gpt_n_heads": 16,
+        "gpt_number_text_tokens": 6681,
+        "gpt_start_text_token": null,
+        "gpt_stop_text_token": null,
+        "gpt_num_audio_tokens": 1026,
+        "gpt_start_audio_token": 1024,
+        "gpt_stop_audio_token": 1025,
+        "gpt_code_stride_len": 1024,
+        "gpt_use_masking_gt_prompt_approach": true,
+        "gpt_use_perceiver_resampler": true,
+        "input_sample_rate": 22050,
+        "output_sample_rate": 24000,
+        "output_hop_length": 256,
+        "decoder_input_dim": 1024,
+        "d_vector_dim": 512,
+        "cond_d_vector_in_each_upsampling_layer": true,
+        "duration_const": 102400
+    },
+    "model_dir": null,
+    "languages": [
+        "en",
+        "es",
+        "fr",
+        "de",
+        "it",
+        "pt",
+        "pl",
+        "tr",
+        "ru",
+        "nl",
+        "cs",
+        "ar",
+        "zh-cn",
+        "hu",
+        "ko",
+        "ja",
+        "hi",
+        "nya"
+    ],
+    "temperature": 0.75,
+    "length_penalty": 1.0,
+    "repetition_penalty": 5.0,
+    "top_k": 50,
+    "top_p": 0.85,
+    "num_gpt_outputs": 1,
+    "gpt_cond_len": 30,
+    "gpt_cond_chunk_len": 4,
+    "max_ref_len": 30,
+    "sound_norm_refs": false
+}

XTTS_v2.0_original_model_files/dvae.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7c8d0fbfe32522d95070bb6e0b429ca7a67376dee05433a1bb7b2d09bfc1b93
+size 210893114

XTTS_v2.0_original_model_files/mel_stats.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f69422a8a8f344c4fca2f0c6b8d41d2151d6615b7321e48e6bb15ae949b119c
+size 1067

XTTS_v2.0_original_model_files/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7ea20001c6a0a841c77e252d8409f6a74fb423e79b3206a0771ba5989776187
+size 1867929118

XTTS_v2.0_original_model_files/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff