Spaces:

CLEAR-Global
/

TWB-Voice-TTS

Running

App Files Files Community

Alp commited on Jul 30

Commit

9502afd

1 Parent(s): 3b33912

d vectors doesn't work

Browse files

Files changed (1) hide show

app.py +23 -28

app.py CHANGED Viewed

@@ -67,44 +67,33 @@ def load_model(language):
             speakers_file = hf_hub_download(repo_id=model_repo, filename=speakers_filename)
             language_ids_file = hf_hub_download(repo_id=model_repo, filename=language_ids_filename)
-            # Update ALL paths to point to the downloaded files - this is the key fix
             config["speakers_file"] = speakers_file
             config["language_ids_file"] = language_ids_file
             config["model_args"]["speakers_file"] = speakers_file
             config["model_args"]["language_ids_file"] = language_ids_file
-            # THIS IS THE CRITICAL FIX - update d_vector_file paths
-            if "d_vector_file" in config:
-                if isinstance(config["d_vector_file"], list):
-                    config["d_vector_file"] = [speakers_file]  # Point to the same downloaded speakers file
-                else:
-                    config["d_vector_file"] = speakers_file
-            if "model_args" in config and "d_vector_file" in config["model_args"]:
-                if isinstance(config["model_args"]["d_vector_file"], list):
-                    config["model_args"]["d_vector_file"] = [speakers_file]
-                else:
-                    config["model_args"]["d_vector_file"] = speakers_file
-            # Also check for speaker_encoder paths that might reference local files
             if "model_args" in config:
                 if "speaker_encoder_config_path" in config["model_args"]:
-                    # Try to download speaker_encoder config if it exists, otherwise remove the path
-                    try:
-                        se_config_filename = os.path.basename(config["model_args"]["speaker_encoder_config_path"])
-                        se_config_file = hf_hub_download(repo_id=model_repo, filename=se_config_filename)
-                        config["model_args"]["speaker_encoder_config_path"] = se_config_file
-                    except:
-                        # If it doesn't exist, remove the path to avoid errors
-                        config["model_args"]["speaker_encoder_config_path"] = ""
                 if "speaker_encoder_model_path" in config["model_args"]:
-                    try:
-                        se_model_filename = os.path.basename(config["model_args"]["speaker_encoder_model_path"])
-                        se_model_file = hf_hub_download(repo_id=model_repo, filename=se_model_filename)
-                        config["model_args"]["speaker_encoder_model_path"] = se_model_file
-                    except:
-                        config["model_args"]["speaker_encoder_model_path"] = ""
             # Save the updated config to a temporary file
             import tempfile
@@ -112,6 +101,11 @@ def load_model(language):
             json.dump(config, temp_config, indent=2)
             temp_config.close()
             # Load TTS model with specific model and config paths
             loaded_models[language] = TTS(model_path=model_path,
                                           config_path=temp_config.name,
@@ -127,6 +121,7 @@ def load_model(language):
             return None
     return loaded_models[language]
 def update_speakers(language):
     """Update speaker dropdown based on selected language"""
     if language in MODELS:

             speakers_file = hf_hub_download(repo_id=model_repo, filename=speakers_filename)
             language_ids_file = hf_hub_download(repo_id=model_repo, filename=language_ids_filename)
+            # CRITICAL FIX: Remove problematic d_vector configurations
+            # Based on the error, the speakers.pth format is incompatible with d_vector loading
+            if "d_vector_file" in config:
+                del config["d_vector_file"]
+            if "model_args" in config and "d_vector_file" in config["model_args"]:
+                del config["model_args"]["d_vector_file"]
+            # Update the remaining paths to point to the downloaded files
             config["speakers_file"] = speakers_file
             config["language_ids_file"] = language_ids_file
             config["model_args"]["speakers_file"] = speakers_file
             config["model_args"]["language_ids_file"] = language_ids_file
+            # Set use_d_vector_file to False to avoid d_vector loading issues
+            config["use_d_vector_file"] = False
+            config["model_args"]["use_d_vector_file"] = False
+            # Ensure speaker embedding is enabled the correct way
+            config["use_speaker_embedding"] = True
+            config["model_args"]["use_speaker_embedding"] = True
+            # Remove speaker encoder paths that might cause issues
             if "model_args" in config:
                 if "speaker_encoder_config_path" in config["model_args"]:
+                    config["model_args"]["speaker_encoder_config_path"] = ""
                 if "speaker_encoder_model_path" in config["model_args"]:
+                    config["model_args"]["speaker_encoder_model_path"] = ""
             # Save the updated config to a temporary file
             import tempfile
             json.dump(config, temp_config, indent=2)
             temp_config.close()
+            print(f"Loading {language} model with config:")
+            print(f"- use_speaker_embedding: {config.get('use_speaker_embedding')}")
+            print(f"- use_d_vector_file: {config.get('use_d_vector_file')}")
+            print(f"- speakers_file: {config.get('speakers_file')}")
             # Load TTS model with specific model and config paths
             loaded_models[language] = TTS(model_path=model_path,
                                           config_path=temp_config.name,
             return None
     return loaded_models[language]
 def update_speakers(language):
     """Update speaker dropdown based on selected language"""
     if language in MODELS: