Spaces:

ASLP-lab
/

WenetSpeech-Yue-TTS

Running on Zero

App Files Files Community

gz412 commited on Aug 25

Commit

d0e12a4

1 Parent(s): 4070657

fix requirments

Browse files

Files changed (1) hide show

app.py +28 -21

app.py CHANGED Viewed

@@ -1,37 +1,45 @@
 import spaces
 import sys
-import torch
 import gradio as gr
 import opencc
 # 添加第三方库路径
 sys.path.append('third_party/Matcha-TTS')
-from cosyvoice.cli.cosyvoice import CosyVoice2
-from cosyvoice.utils.file_utils import load_wav
-from huggingface_hub import hf_hub_download
-# 繁简转换
-converter = opencc.OpenCC('s2t.json')
-# 加载模型
-cosyvoice_base = CosyVoice2(
-    'ASLP-lab/WSYue-TTS-Cosyvoice2',
-    load_jit=False, load_trt=False, load_vllm=False, fp16=False
-)
-cosyvoice_zjg = CosyVoice2(
-    'ASLP-lab/WSYue-TTS-Cosyvoice2-zjg',
-    load_jit=False, load_trt=False, load_vllm=False, fp16=False
-)
-# cosyvoice_biaobei = CosyVoice2(
-#     'pretrained_models/CosyVoice2-yue-biaobei',
-#     load_jit=False, load_trt=False, load_vllm=False, fp16=False
-# )
-@spaces.GPU
 def tts_inference(model_choice, text, prompt_audio):
     # 选择模型和默认音频
     if model_choice == "CosyVoice2-张悦楷粤语评书":
         model = cosyvoice_zjg
@@ -75,7 +83,6 @@ demo = gr.Interface(
             label="选择模型", value="CosyVoice2-base"
         ),
         gr.Textbox(lines=2, label="输入文本"),
-        # gr.Audio(source="upload", type="filepath", label="上传参考音频（仅 CosyVoice2-base 必需）")
         gr.Audio(sources=["upload"], type="filepath", label="上传参考音频（仅 CosyVoice2-base 必需）")
     ],
     outputs=[

 import spaces
 import sys
 import gradio as gr
 import opencc
+from huggingface_hub import hf_hub_download
 # 添加第三方库路径
 sys.path.append('third_party/Matcha-TTS')
+# 繁简转换
+converter = opencc.OpenCC('s2t.json')
+# ---- Lazy Import + 模型缓存 ----
+cosyvoice_base = None
+cosyvoice_zjg = None
+load_wav = None
+def load_models():
+    global cosyvoice_base, cosyvoice_zjg, load_wav
+    if cosyvoice_base is None or cosyvoice_zjg is None:
+        import torch
+        from cosyvoice.cli.cosyvoice import CosyVoice2
+        from cosyvoice.utils.file_utils import load_wav as _load_wav
+        load_wav = _load_wav
+        cosyvoice_base = CosyVoice2(
+            'ASLP-lab/WSYue-TTS-Cosyvoice2',
+            load_jit=False, load_trt=False, load_vllm=False, fp16=False
+        )
+        cosyvoice_zjg = CosyVoice2(
+            'ASLP-lab/WSYue-TTS-Cosyvoice2-zjg',
+            load_jit=False, load_trt=False, load_vllm=False, fp16=False
+        )
+    return cosyvoice_base, cosyvoice_zjg, load_wav
+@spaces.GPU
 def tts_inference(model_choice, text, prompt_audio):
+    import torch
+    cosyvoice_base, cosyvoice_zjg, load_wav = load_models()
     # 选择模型和默认音频
     if model_choice == "CosyVoice2-张悦楷粤语评书":
         model = cosyvoice_zjg
             label="选择模型", value="CosyVoice2-base"
         ),
         gr.Textbox(lines=2, label="输入文本"),
         gr.Audio(sources=["upload"], type="filepath", label="上传参考音频（仅 CosyVoice2-base 必需）")
     ],
     outputs=[