style-tts-2

Running

App Files Files Community

mrfakename commited on Nov 22, 2023

Commit

675a486

1 Parent(s): d430de8

Switch phonemizer

Browse files

Files changed (2) hide show

ljspeechimportable.py +5 -6
styletts2importable.py +8 -8

ljspeechimportable.py CHANGED Viewed

@@ -1,5 +1,4 @@
 from cached_path import cached_path
-from dp.phonemizer import Phonemizer
 import torch
@@ -68,10 +67,10 @@ def compute_style(ref_dicts):
     return reference_embeddings
 # load phonemizer
-# import phonemizer
-# global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True, with_stress=True, words_mismatch='ignore')
-phonemizer = Phonemizer.from_checkpoint(str(cached_path('https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_ipa_forward.pt')))
 config = yaml.safe_load(open(str(cached_path('hf://yl4579/StyleTTS2-LJSpeech/Models/LJSpeech/config.yml'))))
@@ -128,7 +127,7 @@ sampler = DiffusionSampler(
 def inference(text, noise, diffusion_steps=5, embedding_scale=1):
     text = text.strip()
     text = text.replace('"', '')
-    ps = phonemizer([text], lang='en_us')
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
@@ -177,7 +176,7 @@ def inference(text, noise, diffusion_steps=5, embedding_scale=1):
 def LFinference(text, s_prev, noise, alpha=0.7, diffusion_steps=5, embedding_scale=1):
   text = text.strip()
   text = text.replace('"', '')
-  ps = phonemizer([text], lang='en_us')
   ps = word_tokenize(ps[0])
   ps = ' '.join(ps)

 from cached_path import cached_path
 import torch
     return reference_embeddings
 # load phonemizer
+import phonemizer
+global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True, with_stress=True, words_mismatch='ignore')
+# phonemizer = Phonemizer.from_checkpoint(str(cached_path('https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_ipa_forward.pt')))
 config = yaml.safe_load(open(str(cached_path('hf://yl4579/StyleTTS2-LJSpeech/Models/LJSpeech/config.yml'))))
 def inference(text, noise, diffusion_steps=5, embedding_scale=1):
     text = text.strip()
     text = text.replace('"', '')
+    ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
 def LFinference(text, s_prev, noise, alpha=0.7, diffusion_steps=5, embedding_scale=1):
   text = text.strip()
   text = text.replace('"', '')
+  ps = global_phonemizer.phonemize([text])
   ps = word_tokenize(ps[0])
   ps = ' '.join(ps)

styletts2importable.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from cached_path import cached_path
-from dp.phonemizer import Phonemizer
 print("NLTK")
 import nltk
 nltk.download('punkt')
@@ -73,9 +73,9 @@ elif torch.backends.mps.is_available():
     print("MPS would be available but cannot be used rn")
     # device = 'mps'
-# global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True,  with_stress=True)
-phonemizer = Phonemizer.from_checkpoint(str(cached_path('https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_ipa_forward.pt')))
 # config = yaml.safe_load(open("Models/LibriTTS/config.yml"))
@@ -133,7 +133,7 @@ sampler = DiffusionSampler(
 def inference(text, ref_s, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1):
     text = text.strip()
-    ps = phonemizer([text], lang='en_us')
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     tokens = textclenaer(ps)
@@ -202,7 +202,7 @@ def inference(text, ref_s, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding
 def LFinference(text, s_prev, ref_s, alpha = 0.3, beta = 0.7, t = 0.7, diffusion_steps=5, embedding_scale=1):
   text = text.strip()
-  ps = phonemizer([text], lang='en_us')
   ps = word_tokenize(ps[0])
   ps = ' '.join(ps)
   ps = ps.replace('``', '"')
@@ -279,7 +279,7 @@ def LFinference(text, s_prev, ref_s, alpha = 0.3, beta = 0.7, t = 0.7, diffusion
 def STinference(text, ref_s, ref_text, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1):
     text = text.strip()
-    ps = phonemizer([text], lang='en_us')
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
@@ -288,7 +288,7 @@ def STinference(text, ref_s, ref_text, alpha = 0.3, beta = 0.7, diffusion_steps=
     tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)
     ref_text = ref_text.strip()
-    ps = phonemizer([ref_text], lang='en_us')
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)

 from cached_path import cached_path
+# from dp.phonemizer import Phonemizer
 print("NLTK")
 import nltk
 nltk.download('punkt')
     print("MPS would be available but cannot be used rn")
     # device = 'mps'
+import phonemizer
+global_phonemizer = phonemizer.backend.EspeakBackend(language='en-us', preserve_punctuation=True,  with_stress=True)
+# phonemizer = Phonemizer.from_checkpoint(str(cached_path('https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_ipa_forward.pt')))
 # config = yaml.safe_load(open("Models/LibriTTS/config.yml"))
 def inference(text, ref_s, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1):
     text = text.strip()
+    ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     tokens = textclenaer(ps)
 def LFinference(text, s_prev, ref_s, alpha = 0.3, beta = 0.7, t = 0.7, diffusion_steps=5, embedding_scale=1):
   text = text.strip()
+  ps = global_phonemizer.phonemize([text])
   ps = word_tokenize(ps[0])
   ps = ' '.join(ps)
   ps = ps.replace('``', '"')
 def STinference(text, ref_s, ref_text, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1):
     text = text.strip()
+    ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)
     ref_text = ref_text.strip()
+    ps = global_phonemizer.phonemize([ref_text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)