Spaces:

k2-fsa
/

text-to-speech

Running

csukuangfj commited on Oct 20, 2023

Commit

ebb01fc

1 Parent(s): 97b6152

add speed

Files changed (2) hide show

app.py CHANGED Viewed

@@ -71,10 +71,10 @@ def build_html_output(s: str, style: str = "result_item_success"):
     """
-def process(language: str, repo_id: str, text: str, sid: str):
-    logging.info(f"Input text: {text}. sid: {sid}")
     sid = int(sid)
-    tts = get_pretrained_model(repo_id)
     start = time.time()
     audio = tts.generate(text, sid=sid)
@@ -97,7 +97,7 @@ def process(language: str, repo_id: str, text: str, sid: str):
     """
     logging.info(info)
-    logging.info(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}")
     filename = str(uuid.uuid4())
     filename = f"{filename}.wav"
@@ -153,6 +153,15 @@ with demo:
                 value="0",
                 placeholder="Speaker ID. Valid only for mult-speaker model",
             )
             input_button = gr.Button("Submit")
             output_audio = gr.Audio(label="Output")
@@ -166,6 +175,7 @@ with demo:
                 model_dropdown,
                 input_text,
                 input_sid,
             ],
             outputs=[
                 output_audio,

     """
+def process(language: str, repo_id: str, text: str, sid: str, speed: float):
+    logging.info(f"Input text: {text}. sid: {sid}, speed: {speed}")
     sid = int(sid)
+    tts = get_pretrained_model(repo_id, speed)
     start = time.time()
     audio = tts.generate(text, sid=sid)
     """
     logging.info(info)
+    logging.info(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}\nspeed: {speed}")
     filename = str(uuid.uuid4())
     filename = f"{filename}.wav"
                 value="0",
                 placeholder="Speaker ID. Valid only for mult-speaker model",
             )
+            input_speed = gr.Slider(
+                minimum=0.1,
+                maximum=10,
+                value=1,
+                step=0.1,
+                label="Speed (larger->faster; smaller->slower)",
+            )
             input_button = gr.Button("Submit")
             output_audio = gr.Audio(label="Output")
                 model_dropdown,
                 input_text,
                 input_sid,
+                input_speed,
             ],
             outputs=[
                 output_audio,

model.py CHANGED Viewed

@@ -34,7 +34,7 @@ def get_file(
 @lru_cache(maxsize=10)
-def _get_vits_vctk(repo_id: str) -> sherpa_onnx.OfflineTts:
     assert repo_id == "csukuangfj/vits-vctk"
     model = get_file(
@@ -61,6 +61,7 @@ def _get_vits_vctk(repo_id: str) -> sherpa_onnx.OfflineTts:
                 model=model,
                 lexicon=lexicon,
                 tokens=tokens,
             ),
             provider="cpu",
             debug=False,
@@ -73,7 +74,7 @@ def _get_vits_vctk(repo_id: str) -> sherpa_onnx.OfflineTts:
 @lru_cache(maxsize=10)
-def _get_vits_zh_aishell3(repo_id: str) -> sherpa_onnx.OfflineTts:
     assert repo_id == "csukuangfj/vits-zh-aishell3"
     model = get_file(
@@ -100,6 +101,7 @@ def _get_vits_zh_aishell3(repo_id: str) -> sherpa_onnx.OfflineTts:
                 model=model,
                 lexicon=lexicon,
                 tokens=tokens,
             ),
             provider="cpu",
             debug=False,
@@ -112,11 +114,11 @@ def _get_vits_zh_aishell3(repo_id: str) -> sherpa_onnx.OfflineTts:
 @lru_cache(maxsize=10)
-def get_pretrained_model(repo_id: str) -> sherpa_onnx.OfflineTts:
     if repo_id in chinese_models:
-        return chinese_models[repo_id](repo_id)
     elif repo_id in english_models:
-        return english_models[repo_id](repo_id)
     else:
         raise ValueError(f"Unsupported repo_id: {repo_id}")

 @lru_cache(maxsize=10)
+def _get_vits_vctk(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
     assert repo_id == "csukuangfj/vits-vctk"
     model = get_file(
                 model=model,
                 lexicon=lexicon,
                 tokens=tokens,
+                length_scale=1.0 / speed,
             ),
             provider="cpu",
             debug=False,
 @lru_cache(maxsize=10)
+def _get_vits_zh_aishell3(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
     assert repo_id == "csukuangfj/vits-zh-aishell3"
     model = get_file(
                 model=model,
                 lexicon=lexicon,
                 tokens=tokens,
+                length_scale=1.0 / speed,
             ),
             provider="cpu",
             debug=False,
 @lru_cache(maxsize=10)
+def get_pretrained_model(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
     if repo_id in chinese_models:
+        return chinese_models[repo_id](repo_id, speed)
     elif repo_id in english_models:
+        return english_models[repo_id](repo_id, speed)
     else:
         raise ValueError(f"Unsupported repo_id: {repo_id}")