Spaces:

Mira1sen
/

gradio

Build error

App Files Files Community

Mira1sen commited on Jun 18, 2024

Commit

e569c5f

verified ·

1 Parent(s): 9a7fea3

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

1.wav +0 -0
11LabsTTS.py +168 -0
README.md +2 -8
api.json +12 -0
ensemble_app.py +439 -0
gradio_demo.py +13 -0
guge_api.py +32 -0
install.sh +17 -0
microsoftTTS.py +31 -0
output.mp3 +0 -0
test.mp3 +0 -0
test.py +357 -0
test2.mp3 +1 -0
test3.mp3 +0 -0
test4.mp3 +17 -0
test9.mp3 +17 -0
test99.mp3 +0 -0
try.py +33 -0
try2.py +0 -0
tts_gradio.py +255 -0

1.wav ADDED Viewed

Binary file (46.1 kB). View file

11LabsTTS.py ADDED Viewed

	@@ -0,0 +1,168 @@

+"""
+import requests
+import gradio as gr
+CHUNK_SIZE = 1024
+headers1 = {
+    "Accept": "application/json",
+    "xi-api-key": "54f884da3108725f26af02d5907d1eb4"
+}
+headers2 = {
+    "Accept": "audio/mpeg",
+    "Content-Type": "application/json",
+    "xi-api-key": "54f884da3108725f26af02d5907d1eb4"
+}
+name_list = []
+def elevenlabs_tts(text, voice_name):
+    # 获取声音列表
+    url1 = "https://api.elevenlabs.io/v1/voices"
+    response1 = requests.get(url1, headers=headers1)
+    voices = response1.json()['voices']
+    for voice in voices:
+        vid = voice['voice_id']
+        vname = voice['name']
+        label = voice['labels']
+        info = {"voice_id": vid, "name": vname, "labels": label}
+        name_list.append(info["name"])
+        if info['name'] == voice_name:
+            voice_id = info['voice_id']
+            url2 = "https://api.elevenlabs.io/v1/text-to-speech/" + voice_id
+        # print(infos)
+        # return infos
+    # 根据指定的人名合成语音
+    data = {
+        "text": text,
+        "model_id": "eleven_monolingual_v1",
+        "voice_settings": {
+            "stability": 0.5,
+            "similarity_boost": 0.5
+        }
+    }
+    response2 = requests.post(url2, json=data, headers=headers2)
+    with open('output.mp3', 'wb') as f:
+        for chunk in response2.iter_content(chunk_size=CHUNK_SIZE):
+            if chunk:
+                f.write(chunk)
+    return 'output.mp3'
+demo = gr.Interface(
+    fn = elevenlabs_tts,
+    # demo输入设置
+    inputs = [
+        gr.Dropdown(name_list, label="发音人"),
+        gr.Textbox(label="输入文本"),
+    ],
+    # demo输出设置
+    outputs = [
+        "audio",
+        "text",
+    ],
+    # demo其他设置
+    title = "Text to Speech Synthesis",
+    description = "Synthesize speech from text using Elevenlabs",
+    examples = [
+        ["Rachel", "Hello World!"],
+        ["Clyde", "This is a test."],
+        ["Domi", "Gradio is awesome!"],
+    ]
+)
+if __name__ == "__main__":
+    demo.launch(share=True, server_name='0.0.0.0', server_port=8121)
+    #print(name_list)
+"""
+import requests
+import gradio as gr
+CHUNK_SIZE = 1024
+headers1 = {
+    "Accept": "application/json",
+    "xi-api-key": "54f884da3108725f26af02d5907d1eb4"
+}
+headers2 = {
+    "Accept": "audio/mpeg",
+    "Content-Type": "application/json",
+    "xi-api-key": "54f884da3108725f26af02d5907d1eb4"
+}
+def get_voice_names():
+    url1 = "https://api.elevenlabs.io/v1/voices"
+    response1 = requests.get(url1, headers=headers1)
+    voices = response1.json()['voices']
+    names = [voice['name'] for voice in voices]
+    return names
+name_list = get_voice_names()
+def elevenlabs_tts(voice_name, text):
+    # 获取声音列表
+    url1 = "https://api.elevenlabs.io/v1/voices"
+    response1 = requests.get(url1, headers=headers1)
+    voices = response1.json()['voices']
+    #print(voice_name)
+    #print(voices)
+    for voice in voices:
+        if voice['name'] == voice_name:
+            voice_id = voice['voice_id']
+            label = voice['labels']
+            url2 = "https://api.elevenlabs.io/v1/text-to-speech/" + voice_id
+            #print(voice_id)
+            #print(label)
+            break
+    data = {
+        "text": text,
+        "model_id": "eleven_monolingual_v1",
+        "voice_settings": {
+            "stability": 0.5,
+            "similarity_boost": 0.5
+        }
+    }
+    response2 = requests.post(url2, json=data, headers=headers2)
+    with open('output.mp3', 'wb') as f:
+        for chunk in response2.iter_content(chunk_size=CHUNK_SIZE):
+            if chunk:
+                f.write(chunk)
+    return 'output.mp3', label
+demo = gr.Interface(
+    fn = elevenlabs_tts,
+    inputs = [
+        gr.Dropdown(name_list, label="发音人"),
+        gr.Textbox(label="输入文本"),
+    ],
+    outputs = [
+        "audio",
+        "text",
+    ],
+    title = "Text to Speech Synthesis",
+    description = "Synthesize speech from text using Elevenlabs",
+    examples = [
+        ["Rachel", "Hello World!"],
+        ["Clyde", "This is a test."],
+        ["Domi", "Gradio is awesome!"],
+    ]
+)
+if __name__ == "__main__":
+    demo.launch(share=True, server_name='0.0.0.0', server_port=8121)

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
 ---
-title: Gradio
-emoji: 🦀
-colorFrom: blue
-colorTo: purple
 sdk: gradio
 sdk_version: 4.36.1
-app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: gradio
+app_file: gradio_demo.py
 sdk: gradio
 sdk_version: 4.36.1
 ---

api.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "type": "service_account",
+  "project_id": "gravity-362603",
+  "private_key_id": "aa2ae4651df33c1aab0670e07e265992f943c292",
+  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvAIBADANBgkqhkiG9w0BAQEFAASCBKYwggSiAgEAAoIBAQC9VMCci15hlqhR\nv8ev+K1HNq5c309RsE0yxhRec1QsB1RYShIU0vkukbOXn5pqF0lRHasvtjpAuEVX\nXsUWrParLUdJJBsttAD9WwLBfek1cVfvTktHLyttM92V1R6ueWI0rHa0TQpVc/m0\nDjhuwCDDShRxMOdkmJ98ZT7Rpl9udw3O5tEyYkqkN8AFAtCwKsglxUFgEgHg60qr\nyAtdHm+K/wi4d1xlzvsmsr11227PFz5PYVAdpNMO5/JOopxTUp19KD8xo/pW1p1f\neDsJZc8dvwcwxei0qQ9FiFXm9rhSVkccMjsJf9PSOIRj9Q0q3Pe5HcaKB8kGRxBJ\nYQY+dM0hAgMBAAECggEAIskUjm6Iy7NLf6GVxb4R0Bi61nNs9lxHAsIj8eqMl35N\nP990DQFqKOU6MuxvCXj3zoB9+Ekp0MRKcTAHVBA5TeAGzehlWfNNjz8OdZB1rY0C\nlAQ1joGbH/g8iQ/cEEBbC8R4Fs5kzKh/Q1athaOlIVxV/yn2CaSFAOz1Kr2/oOLL\ntujyykgL69nkT4Namojh69GNIztLEQBjnrjSLXBJXYRov0FEVzA0DuI9ubV+upmS\nHEzgpHsJQCDVD/OryPH1KVN3Y1DCTdfSU3SUzOTiPv80v/H0GsZvfi/8M7rvNwgs\nZ4t+5Vs3zhOQXujT66dL7rzum2zyRcez1c6qU707tQKBgQDtC8e/au+jCKpjszuQ\nrMBhXl5BGowD5ODvLa1bB3r0V6C6uyryzXOTSnWcBiWqbv53BwQk+4LLYO/8g4MV\n3zD3EZK0L9l+UIOJbX2aHNf3fxU05zeuuREa35M93MgG+J5jAjhV3piWik8RcGtq\nQpbdNVVsVfATucGA9tH+r9YF4wKBgQDMeEUGsofjzH+PGkYWv6sxwtevBJAVqaVF\nVirT614ngGEgb1ct0lg7jRmiMTLrYwDNc3Wpel8jkfH7WNpDcrZjOv14qeVomdQa\n/3XUMdlxOxcFkJ14J6Jd4W3o/vQvPFlbUO/qH93WtotyLQW3pcQKGc0LK33UaLw1\nQFlSeJ/wKwKBgFgq4YjZBXjmaDndGHKfTo7owrYEYb+xCdjsbGZHSfxH+4h4xWi5\n8hr+vu/heXEDB7LN8USwJ93tmFWbtM4VzeiXqLFMeuD4oXQkPWts/wcXRZP/zD44\np5wPPHzt+ZheMMsysDGAMdEMcIxT/B/x1JtCkxtQe5NarBaDt2e7jydxAoGAMKh+\nZLWfuQo1YOyzuT4rk0/22+OOFlmkxvdWgdAFPAlFE97rNDBWZvWRIBPtNi79Recw\nHQDOGzzkBRiD+IEX/k1PfKORwG67FyGr/K9QO64AMIbVsn5cGVNIQKZLneISsbR1\nI5YpyKrwTF+CeM2t9Wlmbj4PV7kE8Pc7SnECPrkCgYBjzbcl+vTvfw6iy6z7iL+N\nQ+sgsUMoUymZF5xSH/iInzFDlrIZP+vJlC6eW/0Q2TZZqQU9eLUTTP9cB4XXEv45\nbvK1IlMSBeVHA3tSbpp/tNqb/YqDTyEV9AY2MMIAKyPReTUKZoRQMyOzzK03FYOk\nMbI0XZMpHoo60OECydP7Ng==\n-----END PRIVATE KEY-----\n",
+  "client_email": "[email protected]",
+  "client_id": "112160328750047841519",
+  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
+  "token_uri": "https://oauth2.googleapis.com/token",
+  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
+  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/gcp-tts-gravity%40gravity-362603.iam.gserviceaccount.com"
+}

ensemble_app.py ADDED Viewed

	@@ -0,0 +1,439 @@

+#!/usr/bin/env python3
+# -*- coding=utf8 -*-
+########################################################################
+#
+# Copyright (c) 2023 Baidu.com, Inc. All Rights Reserved
+#
+########################################################################
+"""
+Author: linxiaolong
+"""
+import warnings
+warnings.filterwarnings("ignore")
+# 外部库
+import re
+import requests
+import argparse
+import json
+import os
+import re
+import tempfile
+import librosa
+import numpy as np
+# import torch
+# from torch import no_grad, LongTensor
+import commons
+import gradio as gr
+import gradio.utils as gr_utils
+import gradio.processing_utils as gr_processing_utils
+# 内部库
+from models import SynthesizerTrn
+from text import text_to_sequence, text_to_sequence_for_test, _clean_text
+from mel_processing import spectrogram_torch
+import utils
+from text.symbols import symbols
+limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
+punct_regex = re.compile(r"[\.!\?。！？]")
+silence_duration = 200
+def split_text(text, regex):
+    """Split text into sentences by puncutations.
+    Args:
+        text: long text.
+        regex: puncutation regex.
+    Returns:
+        list of sentences.
+    """
+    sentences = re.split(regex, text)
+    puncts = re.findall(regex, text)
+    for i, sentence in enumerate(sentences):
+        if sentence == "":
+            continue
+        if i < len(puncts):
+            sentences[i] = sentences[i] + puncts[i]
+        else:
+            sentences[i] = sentences[i] + "。"
+    sentences = [i for i in sentences if i != ""]
+    return sentences
+def concat_audio(audio_list, sampling_rate=22050, silence_duration=1000):
+    """Concatenate audio files and insert silence between them.
+    Args:
+        audio_list: list of audio files.
+        sampling_rate: audio sampling rate. Defaults to 22050.
+        silence_duration: silence duration in miliseconds. Defaults to 1000.
+    Returns:
+        concatenated audio.
+    """
+    silence_samples = int(sampling_rate * silence_duration / 1000)
+    silence = np.zeros(silence_samples, dtype=np.float16)
+    audio_num = len(audio_list)
+    if audio_num < 2:
+        return audio_list[0]
+    audio_cat = audio_list[0]
+    for i in range(1, audio_num):
+        audio_cat = np.concatenate((audio_cat, silence, audio_list[i]), axis=0)
+    return audio_cat
+### 外部TTS的超参数
+microsoft_url = "https://japaneast.tts.speech.microsoft.com/cognitiveservices/v1"
+microsoft_headers = {'Content-Type': 'application/json; charset=utf-8',
+'Ocp-Apim-Subscription-Key':'1f1ef0ce53b84261be94fab81df7e628'}
+microsoft_model_list = [
+    "ja-JP-NanamiNeural",
+    "ja-JP-KeitaNeural",
+    "ja-JP-AoiNeural",
+    "ja-JP-DaichiNeural",
+    "ja-JP-MayuNeural",
+    "ja-JP-NaokiNeural",
+    "ja-JP-ShioriNeural"
+]
+google_url = "http://gbu.jp02-a30-apisix-sandbox.baidu-int.com/gbu/rest/v2/tts/voice_gq"
+google_headers = {'Content-Type': 'application/json; charset=utf-8',
+'apikey':'synclub-2383kjhjksxfv.2341gs'}
+google_model_list = [
+    "ja-JP-Neural2-B",
+    "ja-JP-Neural2-C",
+    "ja-JP-Neural2-D",
+    "ja-JP-Standard-A",
+    "ja-JP-Standard-B",
+    "ja-JP-Standard-C",
+    "ja-JP-Standard-D",
+    "ja-JP-Wavenet-A",
+    "ja-JP-Wavenet-B",
+    "ja-JP-Wavenet-C",
+    "ja-JP-Wavenet-D"
+]
+coefont_url = "http://gbu.jp02-a30-apisix-sandbox.baidu-int.com/gbu/rest/v2/tts/avatar_coe"
+coefont_headers = {'Content-Type': 'application/json; charset=utf-8',
+'apikey':'synclub-2383kjhjksxfv.2341gs'}
+coefont_id = [
+    '3f84b7b1-30fb-4677-a704-fd136515303e',
+    '9b826785-bea5-4740-b4cd-e9a286264705',
+    '7632cba3-4aca-4cee-9d15-ad1ac31f670c',
+    '2c91238a-96f9-4cb6-a69a-461ee66b0e6d',
+    '08428dee-65b6-490e-a3a3-60dfcdda889d',
+    'c88367bc-5954-426b-a1ba-a683202803c8',
+    'fb64a764-91d5-4510-bddd-70df3d62709a',
+    '5cfa1f33-bca8-4489-bcbe-701045993162',
+    '94cf7792-7c0c-4be4-88e7-c30d26ab6616',
+    '81dbd387-6ad6-4b22-93f9-4e2a0091b2fe',
+    '931a8568-039a-4cef-add7-bee71629c00e',
+    'f91a9d29-c8b4-443f-ba07-82e7e36bd20b',
+    '23c76cf0-bee0-47fa-b735-9b7bdba9f26a',
+    'cf5fdfb8-85ea-41e1-915b-257936791f17',
+    '0f7b53df-3c24-46a5-84d1-cbea39a956c0',
+    '3d499385-d331-4cbb-93c0-2057e60eddcf',
+    '18ca2f7b-97ca-486d-8f47-858965833642',
+    '33e0a2ff-5050-434c-9506-defe97e52f15',
+    '516b0f32-8b5f-48c5-b60e-38d508e2b06b',
+    'c8720caf-2d2d-4130-8831-92f61f9e25e8',
+    '710001f5-e6f5-4cc0-8ba2-e6aa6da8d807',
+    'd36f8bb1-8bd8-4e90-964a-9dbd3e374093',
+    '2157796c-fe48-4688-b7cc-7ea554edf77d',
+    '5cc0dc91-0c6a-4c50-b7d8-f3117cfe44ef',
+    'be5c5295-aba2-4055-a9da-8926da7fb5a0',
+    '76763239-af14-4c0d-9435-956f096f77dc',
+    '10d298ee-ebbf-4838-a6c5-d608f2e3c338',
+    '694cb06e-73bd-43c4-94d4-f775ad3dbb26',
+    '5cf07e7c-5b1c-4360-a8de-7c928580d4b5',
+    '76e2ba06-b23a-4bbe-8148-e30ede9001b9',
+    'c25ed97f-78f7-4e8f-b2fa-f8e29633588b',
+    'e26382ba-2ae2-4cf7-8c1b-420ab4b845d8',
+    '82c4fcf5-d0ee-4fe9-9b0d-89a65d04f290'
+ ]
+coefont_model_list = [
+    'Canel',
+    '胡麻ちゃん',
+    'バーチャル悪霊',
+    '引寄\u3000法則',
+    'にっし～☆',
+    '志水 智（Tomo Shimizu）',
+    '花撫シア-最高精度-しっかり読み上げ',
+    'UNF/UserNotFound',
+    'RoBaKu',
+    'おにもち',
+    '小菅 将太',
+    '秋月つむぎ（落ち着いたナレーション）',
+    '碧海紘斗_OhmiHiroto',
+    'ちくわぶえ',
+    'unnamed',
+    '今井瑶子(高精度。MC ナレーター 落ち着いたトーンです)',
+    '皆のお母さん',
+    '後藤邑子',
+    '田中和彦',
+    'KTNR',
+    '天渡\u3000早苗',
+    '須戸ゼロ',
+    'とり藻々',
+    '武田 祐子',
+    '【PRO】落ち着きナレーション♯畑耕平',
+    '音暖ののん Ver2.0（最高精度）',
+    'ろさちゃん-soft-v2[最高精度] ¦ Losa-chan -soft- ∀ -汎用式概念χ',
+    'パイナップル秀夫お姉さん',
+    'minamo',
+    'あさのゆき',
+    '聲華 琴音【紡】',
+    '黄琴海月【うるとら】',
+    '高橋 俊輔']
+coefont_id_model_name_dict = dict(zip(coefont_model_list, coefont_id))
+all_example = "今日は天気がいいから、一緒にハイキングに行きましょう。"
+# def audio_postprocess(self, y):
+#     """
+#     修改gr的音频后处理函数
+#     :param self:
+#     :param y:
+#     :return:
+#     """
+#     if y is None:
+#         return None
+#     if gr_utils.validate_url(y):
+#         file = gr_processing_utils.download_to_file(y, dir=self.temp_dir)
+#     elif isinstance(y, tuple):
+#         sample_rate, data = y
+#         file = tempfile.NamedTemporaryFile(
+#             suffix=".wav", dir=self.temp_dir, delete=False
+#         )
+#         gr_processing_utils.audio_to_file(sample_rate, data, file.name)
+#     else:
+#         file = gr_processing_utils.create_tmp_copy_of_file(y, dir=self.temp_dir)
+#     return gr_processing_utils.encode_url_or_file_to_base64(file.name)
+# gr.Audio.postprocess = audio_postprocess
+def get_text(text, hps):
+    """
+    :param text:
+    :param hps:
+    :param is_symbol:
+    :return:
+    """
+    # hps中没有包括symbols
+    text_norm = text_to_sequence(text, hps.data.text_cleaners)
+    # hps中有包括symbols
+    # text_norm = text_to_sequence_for_test(text, hps.symbols, hps.data.text_cleaners)
+    if hps.data.add_blank:
+        text_norm = commons.intersperse(text_norm, 0)
+    text_norm = LongTensor(text_norm)
+    return text_norm
+def create_tts_fn(model, hps):
+    """
+    :param model:
+    :param hps:
+    :param speaker_ids:
+    :return:
+    """
+    def tts_fn(text, speed, noise_scale=.667, noise_scale_w=0.8, volume=1.0):
+        """
+        :param text:
+        :param speaker:
+        :param speed:
+        :param emo:
+        :param volume:
+        :param is_symbol:
+        :return:
+        """
+        sentences = split_text(text, punct_regex)
+        audio_list = []
+        for sentence in sentences:
+            stn_tst = get_text(sentence, hps)
+            with no_grad():
+                x_tst = stn_tst.unsqueeze(0).to(device)
+                x_tst_lengths = LongTensor([stn_tst.size(0)]).to(device)
+                audio = model.infer(x_tst, x_tst_lengths, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
+                                    length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
+                audio_list.append(audio)
+            del stn_tst, x_tst, x_tst_lengths
+        audio = concat_audio(audio_list, hps.data.sampling_rate, silence_duration)
+        audio = audio * volume
+        return "Success", (hps.data.sampling_rate, audio)
+    return tts_fn
+def microsoft(text, name, style="Neural"):
+    """
+    :param text:
+    :param name:
+    :param style:
+    :return:
+    """
+    headers = {
+        'Ocp-Apim-Subscription-Key': '1f1ef0ce53b84261be94fab81df7e628',
+        'Content-Type': 'application/ssml+xml',
+        'X-Microsoft-OutputFormat': 'audio-16khz-128kbitrate-mono-mp3',
+        'User-Agent': 'curl',
+    }
+    data = ("<speak version='1.0' xml:lang='en-US'>"
+        f"<voice xml:lang='en-US' name='{name}'>" # xml:gender='Female'
+        f"{text}"
+        "</voice>"
+        "</speak>")
+    response = requests.post(
+        'https://japaneast.tts.speech.microsoft.com/cognitiveservices/v1',
+        headers=headers,
+        data=data,
+        proxies= {
+            'http': 'http://192.168.3.11:80',
+            'https': 'http://192.168.3.11:80',
+        }
+    )
+    data = {
+        "text":text,
+        "name":name,
+        "style":style,
+        "format":"mp3"}
+    audio_url = requests.get(microsoft_url, headers=microsoft_headers, json=data).json()['data']['url']
+    return "Success", audio_url
+def google(text, name):
+    """
+    :param text:
+    :param name:
+    :param style:
+    :return:
+    """
+    data = {
+        "text":text,
+        "name":name,
+        "sample_rate":16000}
+    audio_url = requests.get(google_url, headers=google_headers, json=data).json()['data']['url']
+    return "Success", audio_url
+def coefont(text, name):
+    """
+    :param text:
+    :param name:
+    :param style:
+    :return:
+    """
+    data = {
+        "text":text,
+        "coefont":coefont_id_model_name_dict[name]
+        }
+    audio_url = requests.get(coefont_url, headers=coefont_headers, json=data).json()['data']['url']
+    return "Success", audio_url
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--device', type=str, default='cuda')
+    parser.add_argument("--share", action="store_true", default=False, help="share gradio app")
+    parser.add_argument("--port", type=int, default=8080, help="port")
+    parser.add_argument('--model_info_path', type=str, default='/gluster/speech_data/info.json')
+    args = parser.parse_args()
+    device = torch.device(args.device)
+    models_tts = []
+    with open(args.model_info_path, "r", encoding="utf-8") as f:
+        models_info = json.load(f)
+    for i, info in models_info.items():
+        model_name = info["model_name"]
+        author = info["author"]
+        lang = info["lang"]
+        example = info["example"]
+        config_path = info["config_path"]
+        model_path = info["model_path"]
+        model_type = info["model_type"]
+        hps = utils.get_hparams_from_file(config_path)
+        if model_type == "vits":
+            emotion_type = None
+        elif model_type == "vits-emotion":
+            emotion_type = "embedding"
+        elif model_type == "vits-emotion-logits":
+            emotion_type = "logits"
+        model = SynthesizerTrn(
+            len(symbols),
+            hps.data.filter_length // 2 + 1,
+            hps.train.segment_size // hps.data.hop_length,
+            emotion_type=emotion_type,
+            **hps.model)
+        utils.load_checkpoint(model_path, model, None)
+        model.eval().to(device)
+        if model_type == "vits":
+            # 普通TTS
+            models_tts.append((model_name, author, lang, example, create_tts_fn(model, hps)))
+    app = gr.Blocks()
+    with app:
+        gr.Markdown("## Japanese TTS Demo")
+        with gr.Tabs():
+            with gr.TabItem("自研"):
+                with gr.Tabs():
+                    for i, (model_name, author, lang, example, tts_fn) in enumerate(models_tts):
+                        with gr.TabItem(model_name):
+                            with gr.Column():
+                                tts_input1 = gr.TextArea(label="Text", value=example)
+                                tts_input2 = gr.Slider(label="Speed", value=1.0, minimum=0.4, maximum=3, step=0.1)
+                                tts_input3 = gr.Slider(label="noise_scale", value=0.0, minimum=0.0, maximum=2, step=0.1)
+                                tts_input4 = gr.Slider(label="noise_scale_w", value=0.0,
+                                                       minimum=0.0, maximum=2, step=0.1)
+                                tts_input5 = gr.Slider(label="volume", value=1.0, minimum=0.1, maximum=4, step=0.1)
+                                tts_submit = gr.Button("Generate", variant="primary")
+                                tts_output1 = gr.Textbox(label="Output Message")
+                                tts_output2 = gr.Audio(label="Output Audio")
+                                tts_submit.click(tts_fn, [tts_input1, tts_input2, tts_input3, tts_input4, tts_input5],
+                                                 [tts_output1, tts_output2])
+            with gr.TabItem("谷歌"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(google_model_list, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(google, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+            with gr.TabItem("微软"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(microsoft_model_list, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(microsoft, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+            with gr.TabItem("coefont"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(coefont_model_list, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(coefont, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+    app.queue(concurrency_count=5).launch(show_api=False,
+                                          share=args.share,
+                                          server_name='0.0.0.0',
+                                          server_port=args.port,
+                                          show_error=True)

gradio_demo.py ADDED Viewed

	@@ -0,0 +1,13 @@

+import gradio as gr
+def greet(name):
+    return "Hello " + name + "!"
+with gr.Blocks() as demo:
+    # 设置输入组件
+    name = gr.Textbox(label="Name")
+    # 设置输出组件
+    output = gr.Textbox(label="Output Box")
+    # 设置按钮
+    greet_btn = gr.Button("Greet")
+    # 设置按钮点击事件，默认是垂直
+    greet_btn.click(fn=greet, inputs=name, outputs=output)
+demo.launch(share=True)

guge_api.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import requests
+import base64
+import json
+import os
+os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="./api.json"
+url = "https://texttospeech.googleapis.com/v1/text:synthesize"
+headers = {'Content-Type': 'application/json; charset=utf-8','Authorization': 'Bearer ya29.c.b0Aaekm1Iv0qkoIurI3LgzvNRqWE9tZRNusy9HCLT_xcpTXvdNsvYQt_9PUIXDQAvHV-b9abi-_n9Totai8fgJ7qkJ5sJszhU8bKTkP9zPJccfTkU4pCvyJxCVO1APIj7p3Hdvl9LWAIGb6aqFdz0a2dSn2mzsGKSsv0UqjlPr4M4s08HWkW8fqdE8UO98xphUTm0bEYmYFn-feWAPG5QToNi62c_4KZxveCCPhZZOtWLSPCGOj-D9z1YIHZZcdWz8mWQ5lO2WpASEroak4ohRchjSEpnJka8F3uwoY36Oms4M32d9uKYbsdNMFfS1CudzvDYXKSBkH337KZqb6o-zhFUm13Ivxlr1Zbtvv6dw0kbg_my1-p69v9tbXIsgxvgYfjMfhxgxfOX3aJxsgnU-jw0d1w5jgs70InjbZRagcrRth24Sm4wzyma40j5UodiIvI0sRxQOBUzaZ93YXZje1S_vtoxcSUl9VSrQY9rWt2uk2Ili-aIsI6rUa06McJcnSB-jQhq61z3xpoqRXVd04SMZlc1YnWxhZVYakZoRIivMwFkjRvb0SIn7x_1M880QF4IYzMOb7eVkJW2t41u5y2rWSc7rerjetWd2vRehn63vJRp0jn3lskyM5YZqqiWs4VYjqdVt7f9jy3qR2Vgn5V2hvSdrjdbkSgc1UB3fl4k-4sbjrd-M3OpO99R0I921-nMc8lBgIFum9qZ-VcWJJ-ecYZtygSXiiR6ljX6p70h6m90vVbc8bwnk7ez99mUOzhkuR8B8wb1aJd8XyzdYuqwWfMyq7U89dUju-m6dji-XeMuSSwSiueaVhsU68FXiJa_-ieZra1Saak7zjq_feg8hjZRujbh0e_YqRO4Bhf7-5F-UrO1n7XwJIzofR_uxJfgxs6MuFxfUJX87azO1I31Zty5ZSc2Q4mynq0mlQWOvhl7fr8pSJMzfQtOJW6wOc0RrW3ouIB-mWRrie46gbqF0FzSylkipZ3JasoIeO-gS_olF-YfYR5i'
+}
+text = "二月の下旬に差し掛かる頃だった。"
+data = {
+    "input":{
+        "text":text
+    },
+    "voice":{
+        "languageCode":"ja-JP",
+        "name":"ja-JP-Neural2-C",
+        "ssmlGender":"MALE"
+    },
+    "audioConfig":{
+        "audioEncoding":"MP3"
+    }
+    }
+response = requests.post(url, headers=headers, json=data)
+print(response)
+# response = response.json()
+audio = response.content
+#audio = base64.b64decode(audio)
+# The response's audio_content is binary.
+with open("test9.mp3", "wb") as out:
+    out.write(audio)

install.sh ADDED Viewed

	@@ -0,0 +1,17 @@

+#!/bin/bash
+URL=https://dl.google.com/dl/cloudsdk/channels/rapid/install_google_cloud_sdk.bash
+function download {
+  scratch="$(mktemp -d -t tmp.XXXXXXXXXX)" || exit
+  script_file="$scratch/install_google_cloud_sdk.bash"
+  echo "Downloading Google Cloud SDK install script: $URL"
+  curl -# "$URL" > "$script_file" || exit
+  chmod 775 "$script_file"
+  echo "Running install script from: $script_file"
+  "$script_file" "$@"
+}
+download "$@"

microsoftTTS.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import os
+import azure.cognitiveservices.speech as speechsdk
+speech_key = "1f1ef0ce53b84261be94fab81df7e628"
+service_region = "japaneast"
+speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
+# This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
+#speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
+audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
+# The neural multilingual voice can speak different languages based on the input text.
+speech_config.speech_synthesis_voice_name='en-US-AvaMultilingualNeural'
+speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)
+# Get text from the console and synthesize to the default speaker.
+print("Enter some text that you want to speak >")
+text = input()
+speech_synthesis_result = speech_synthesizer.speak_text_async(text).get()
+if speech_synthesis_result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
+    print("Speech synthesized for text [{}]".format(text))
+elif speech_synthesis_result.reason == speechsdk.ResultReason.Canceled:
+    cancellation_details = speech_synthesis_result.cancellation_details
+    print("Speech synthesis canceled: {}".format(cancellation_details.reason))
+    if cancellation_details.reason == speechsdk.CancellationReason.Error:
+        if cancellation_details.error_details:
+            print("Error details: {}".format(cancellation_details.error_details))
+            print("Did you set the speech resource key and region values?")

output.mp3 ADDED Viewed

Binary file (36.4 kB). View file

test.mp3 ADDED Viewed

Binary file (35.7 kB). View file

test.py ADDED Viewed

	@@ -0,0 +1,357 @@

+import warnings
+warnings.filterwarnings("ignore")
+# 外部库
+import re
+import requests
+import argparse
+import json
+import os
+import re
+import tempfile
+import librosa
+import numpy as np
+# import torch
+# from torch import no_grad, LongTensor
+# import commons
+import gradio as gr
+import gradio.utils as gr_utils
+import gradio.processing_utils as gr_processing_utils
+# 内部库
+# from models import SynthesizerTrn
+# from text import text_to_sequence, text_to_sequence_for_test, _clean_text
+# from mel_processing import spectrogram_torch
+# import utils
+# from text.symbols import symbols
+all_example = "my voice is my passport verify me."
+eleven_voice_id = [
+    "21m00Tcm4TlvDq8ikWAM",
+    "29vD33N1CtxCmqQRPOHJ",
+    "2EiwWnXFnvU5JabPnv8n",
+    "5Q0t7uMcjvnagumLfvZi",
+    "AZnzlk1XvdvUeBnXmlld",
+    "CYw3kZ02Hs0563khs1Fj",
+    "D38z5RcWu1voky8WS1ja",
+    "EXAVITQu4vr4xnSDxMaL",
+    "ErXwobaYiN019PkySvjV",
+    "GBv7mTt0atIp3Br8iCZE",
+    "IKne3meq5aSn9XLyUdCD",
+    "JBFqnCBsd6RMkjVDRZzb",
+    "LcfcDJNUP1GQjkzn1xUU",
+    "MF3mGyEYCl7XYWbV9V6O",
+    "N2lVS1w4EtoT3dr4eOWO",
+    "ODq5zmih8GrVes37Dizd",
+    "SOYHLrjzK2X1ezoPC6cr",
+    "TX3LPaxmHKxFdv7VOQHJ",
+    "ThT5KcBeYPX3keUQqHPh",
+    "TxGEqnHWrfWFTfGW9XjX",
+    "VR6AewLTigWG4xSOukaG",
+    "XB0fDUnXU5powFXDhCwa",
+    "Xb7hH8MSUJpSbSDYk0k2",
+    "XrExE9yKIg1WjnnlVkGX",
+    "ZQe5CZNOzWyzPSCn5a3c",
+    "Zlb1dXrM653N07WRdFW3",
+    "bVMeCyTHy58xNoL34h3p",
+    "flq6f7yk4E4fJM5XTYuZ",
+    "g5CIjZEefAph4nQFvHAz",
+    "iP95p4xoKVk53GoZ742B",
+    "jBpfuIE2acCO8z3wKNLl",
+    "jsCqWAovK2LkecY7zXl4",
+    "nPczCjzI2devNBz1zQrb",
+    "oWAxZDx7w5VEj9dCyTzz",
+    "onwK4e9ZLuTAKqWW03F9",
+    "pFZP5JQG7iQjIQuC4Bku",
+    "pMsXgVXv3BLzUgSXRplE",
+    "pNInz6obpgDQGcFmaJgB",
+    "piTKgcLEGmPE4e6mEKli",
+    "pqHfZKP75CvOlQylNhV4",
+    "t0jbNlBVZ17f02VDIeMI",
+    "yoZ06aMxZJJ28mfd3POQ",
+    "z9fAnlkpzviPz146aGWa",
+    "zcAOhNBS3c14rBihAFp1",
+    "zrHiDhphv9ZnVXBqCLjz",
+]
+eleven_name = [
+    "Rachel",
+    "Drew",
+    "Clyde",
+    "Paul",
+    "Domi",
+    "Dave",
+    "Fin",
+    "Sarah",
+    "Antoni",
+    "Thomas",
+    "Charlie",
+    "George",
+    "Emily",
+    "Elli",
+    "Callum",
+    "Patrick",
+    "Harry",
+    "Liam",
+    "Dorothy",
+    "Josh",
+    "Arnold",
+    "Charlotte",
+    "Alice",
+    "Matilda",
+    "James",
+    "Joseph",
+    "Jeremy",
+    "Michael",
+    "Ethan",
+    "Chris",
+    "Gigi",
+    "Freya",
+    "Brian",
+    "Grace",
+    "Daniel",
+    "Lily",
+    "Serena",
+    "Adam",
+    "Nicole",
+    "Bill",
+    "Jessie",
+    "Sam",
+    "Glinda",
+    "Giovanni",
+    "Mimi",
+]
+eleven_id_model_name_dict = dict(zip(eleven_name, eleven_voice_id))
+def openai(text, name):
+    headers = {
+        'Authorization': 'Bearer ' + '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',
+        'Content-Type': 'application/json',
+    }
+    json_data = {
+        'model': 'tts-1-hd',
+        'input': f'{text}',
+        'voice': f'{name}',
+    }
+    response = requests.post('https://api.openai.com/v1/audio/speech', headers=headers, json=json_data)
+    # Note: json_data will not be serialized by requests
+    # exactly as it was in the original request.
+    #data = '{\n    "model": "tts-1",\n    "input": "The quick brown fox jumped over the lazy dog.",\n    "voice": "alloy"\n  }'
+    #response = requests.post('https://api.openai.com/v1/audio/speech', headers=headers, data=data)
+    return "Success", response
+def elevenlabs(text,name):
+    url = f"https://api.elevenlabs.io/v1/text-to-speech/{name}"
+    CHUNK_SIZE = 1024
+    #url = "https://api.elevenlabs.io/v1/text-to-speech/<voice-id>"
+    headers = {
+    "Accept": "audio/mpeg",
+    "Content-Type": "application/json",
+    "xi-api-key": "a3391f0e3ff8472b61978dbb70ccc6fe"
+    }
+    data = {
+    "text": f"{text}",
+    "model_id": "eleven_monolingual_v1",
+    "voice_settings": {
+        "stability": 0.5,
+        "similarity_boost": 0.5
+    }
+    }
+    response = requests.post(url, json=data, headers=headers)
+    # with open('output.mp3', 'wb') as f:
+    #     for chunk in response.iter_content(chunk_size=CHUNK_SIZE):
+    #         if chunk:
+    #             f.write(chunk)
+    return "Success", response
+microsoft_model_list = [
+    "en-US-AvaMultilingualNeural"
+]
+def microsoft(text, name, style="Neural"):
+    """
+    :param text:
+    :param name:
+    :param style:
+    :return:
+    """
+    headers = {
+        'Ocp-Apim-Subscription-Key': '1f1ef0ce53b84261be94fab81df7e628',
+        'Content-Type': 'application/ssml+xml',
+        'X-Microsoft-OutputFormat': 'audio-16khz-128kbitrate-mono-mp3',
+        'User-Agent': 'curl',
+    }
+    data = ("<speak version='1.0' xml:lang='en-US'>"
+        f"<voice xml:lang='en-US' name='{name}'>" # xml:gender='Female'
+        f"{text}"
+        "</voice>"
+        "</speak>")
+    response = requests.post(
+        'https://japaneast.tts.speech.microsoft.com/cognitiveservices/v1',
+        headers=headers,
+        data=data,
+    )
+    # data = {
+    #     "text":text,
+    #     "name":name,
+    #     "style":style,
+    #     "format":"mp3"}
+    # audio_url = requests.get(microsoft_url, headers=microsoft_headers, json=data).json()['data']['url']
+    return "Success", response
+# def google(text,name):
+#     # import subprocess
+#     # command1 = subprocess.run('gcloud auth print-access-token', shell=True, capture_output=True, text=True).stdout
+#     headers = {
+#         'Authorization': 'Bearer ' + "synclub-2383kjhjksxfv.2341gs",
+#         'x-goog-user-project': 'PROJECT_ID',
+#         'Content-Type': 'application/json; charset=utf-8',
+#     }
+#     data = {
+#             "input": {
+#                 "text": f"{text}"},
+    #         "voice": {
+    #             "languageCode": "en-gb",
+    #             "name": "en-GB-Standard-A",
+    #             "ssmlGender": "FEMALE"
+    #         },
+    #         "audioConfig": {
+    #             "audioEncoding": "MP3"
+    #         }
+    # }
+    # response = requests.post('https://texttospeech.googleapis.com/v1/text:synthesize', headers=headers, data=data)
+    # return "Success", response
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--device', type=str, default='cuda')
+    parser.add_argument("--share", action="store_true", default=True, help="share gradio app")
+    parser.add_argument("--port", type=int, default=8081, help="port")
+    parser.add_argument('--model_info_path', type=str, default='/gluster/speech_data/info.json')
+    args = parser.parse_args()
+    # app = gr.Blocks()
+    # with app:
+    #     gr.Markdown("## Japanese TTS Demo")
+    #     with gr.Tabs():
+    #         with gr.TabItem("微软"):
+    #             tts_input1 = gr.TextArea(label="Text", value=all_example)
+    #             tts_input2 = gr.Dropdown(microsoft_model_list, label="name")
+    #             tts_submit = gr.Button("Generate", variant="primary")
+    #             tts_output1 = gr.Textbox(label="Output Message")
+    #             tts_output2 = gr.Audio(label="Output Audio")
+    #             tts_submit.click(microsoft, [tts_input1, tts_input2],
+    #                                 [tts_output1, tts_output2])
+    # _, audio = microsoft(all_example, 'en-US-AvaMultilingualNeural')
+    # _, audio = google(all_example,'alloy')
+    # print(audio)
+    # with open("test4.mp3", "wb") as f:
+    #     f.write(audio.content)
+    #_, audio = elevenlabs(all_example, "21m00Tcm4TlvDq8ikWAM")
+    # print(audio)
+    # with open('output.mp3', 'wb') as f:
+    #     for chunk in audio.iter_content(chunk_size=1024):
+    #         if chunk:
+    #             f.write(chunk)
+    # device = torch.device(args.device)
+    # models_tts = []
+    # with open(args.model_info_path, "r", encoding="utf-8") as f:
+    #     models_info = json.load(f)
+    # for i, info in models_info.items():
+        # model_name = info["model_name"]
+        # author = info["author"]
+        # lang = info["lang"]
+        # example = info["example"]
+        # config_path = info["config_path"]
+        # model_path = info["model_path"]
+        # model_type = info["model_type"]
+        # hps = utils.get_hparams_from_file(config_path)
+        # if model_type == "vits":
+        #     emotion_type = None
+        # elif model_type == "vits-emotion":
+        #     emotion_type = "embedding"
+        # elif model_type == "vits-emotion-logits":
+        #     emotion_type = "logits"
+        # model = SynthesizerTrn(
+        #     len(symbols),
+        #     hps.data.filter_length // 2 + 1,
+        #     hps.train.segment_size // hps.data.hop_length,
+        #     emotion_type=emotion_type,
+        #     **hps.model)
+        # utils.load_checkpoint(model_path, model, None)
+        # model.eval().to(device)
+        # if model_type == "vits":
+        #     # 普通TTS
+        #     models_tts.append((model_name, author, lang, example, create_tts_fn(model, hps)))
+    app = gr.Blocks()
+    with app:
+        gr.Markdown("## Japanese TTS Demo")
+        with gr.Tabs():
+            # with gr.TabItem("自研"):
+            #     with gr.Tabs():
+            #         for i, (model_name, author, lang, example, tts_fn) in enumerate(models_tts):
+            #             with gr.TabItem(model_name):
+            #                 with gr.Column():
+            #                     tts_input1 = gr.TextArea(label="Text", value=example)
+            #                     tts_input2 = gr.Slider(label="Speed", value=1.0, minimum=0.4, maximum=3, step=0.1)
+            #                     tts_input3 = gr.Slider(label="noise_scale", value=0.0, minimum=0.0, maximum=2, step=0.1)
+            #                     tts_input4 = gr.Slider(label="noise_scale_w", value=0.0,
+            #                                            minimum=0.0, maximum=2, step=0.1)
+            #                     tts_input5 = gr.Slider(label="volume", value=1.0, minimum=0.1, maximum=4, step=0.1)
+            #                     tts_submit = gr.Button("Generate", variant="primary")
+            #                     tts_output1 = gr.Textbox(label="Output Message")
+            #                     tts_output2 = gr.Audio(label="Output Audio")
+            #                     tts_submit.click(tts_fn, [tts_input1, tts_input2, tts_input3, tts_input4, tts_input5],
+            #                                      [tts_output1, tts_output2])
+            # with gr.TabItem("谷歌"):
+            #     tts_input1 = gr.TextArea(label="Text", value=all_example)
+            #     tts_input2 = gr.Dropdown(google_model_list, label="name")
+            #     tts_submit = gr.Button("Generate", variant="primary")
+            #     tts_output1 = gr.Textbox(label="Output Message")
+            #     tts_output2 = gr.Audio(label="Output Audio")
+            #     tts_submit.click(google, [tts_input1, tts_input2],
+            #                         [tts_output1, tts_output2])
+            with gr.TabItem("微软"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(microsoft_model_list, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(microsoft, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+            # with gr.TabItem("coefont"):
+            #     tts_input1 = gr.TextArea(label="Text", value=all_example)
+            #     tts_input2 = gr.Dropdown(coefont_model_list, label="name")
+            #     tts_submit = gr.Button("Generate", variant="primary")
+            #     tts_output1 = gr.Textbox(label="Output Message")
+            #     tts_output2 = gr.Audio(label="Output Audio")
+            #     tts_submit.click(coefont, [tts_input1, tts_input2],
+            #                         [tts_output1, tts_output2])
+    app.launch(show_api=False,
+                share=args.share,
+                server_name='0.0.0.0',
+                server_port=args.port,
+                show_error=True)

test2.mp3 ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"detail":{"status":"invalid_uid","message":"An invalid ID has been received: '<string>'. Make sure to provide a correct one."}}

test3.mp3 ADDED Viewed

Binary file (43.2 kB). View file

test4.mp3 ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "error": {
+    "code": 401,
+    "message": "Request had invalid authentication credentials. Expected OAuth 2 access token, login cookie or other valid authentication credential. See https://developers.google.com/identity/sign-in/web/devconsole-project.",
+    "status": "UNAUTHENTICATED",
+    "details": [
+      {
+        "@type": "type.googleapis.com/google.rpc.ErrorInfo",
+        "reason": "ACCESS_TOKEN_TYPE_UNSUPPORTED",
+        "metadata": {
+          "method": "google.cloud.texttospeech.v1.TextToSpeech.SynthesizeSpeech",
+          "service": "texttospeech.googleapis.com"
+        }
+      }
+    ]
+  }
+}

test9.mp3 ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "error": {
+    "code": 401,
+    "message": "Request had invalid authentication credentials. Expected OAuth 2 access token, login cookie or other valid authentication credential. See https://developers.google.com/identity/sign-in/web/devconsole-project.",
+    "status": "UNAUTHENTICATED",
+    "details": [
+      {
+        "@type": "type.googleapis.com/google.rpc.ErrorInfo",
+        "reason": "ACCESS_TOKEN_TYPE_UNSUPPORTED",
+        "metadata": {
+          "service": "texttospeech.googleapis.com",
+          "method": "google.cloud.texttospeech.v1.TextToSpeech.SynthesizeSpeech"
+        }
+      }
+    ]
+  }
+}

test99.mp3 ADDED Viewed

Binary file (43.2 kB). View file

try.py ADDED Viewed

	@@ -0,0 +1,33 @@

+import requests
+import os
+import base64
+import json
+os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="./api.json"
+url = "https://texttospeech.googleapis.com/v1/text:synthesize"
+headers = {'Content-Type': 'application/json; charset=utf-8',
+           'X-Goog-Api-Key': 'synclub-2383kjhjksxfv.2341gs' # 待补充
+          }
+text = "二月の下旬に差し掛かる頃だった。"
+data = {
+    "input":{
+        "text":text
+    },
+    "voice":{
+        "languageCode":"ja-JP",
+        "name":"ja-JP-Neural2-C",
+        "ssmlGender":"MALE"
+    },
+    "audioConfig":{
+        "audioEncoding":"MP3"
+    }
+    }
+response = requests.post(url, headers=headers, json=data)
+response = response.json()
+print(response)
+audio = response['audioContent']
+audio = base64.b64decode(audio)
+# The response's audio_content is binary.
+with open("test.mp3", "wb") as out:
+    out.write(audio)

try2.py ADDED Viewed

File without changes

tts_gradio.py ADDED Viewed

	@@ -0,0 +1,255 @@

+import warnings
+warnings.filterwarnings("ignore")
+# 外部库
+import re
+import requests
+import argparse
+import json
+import os
+import re
+import tempfile
+import librosa
+import numpy as np
+# import torch
+# from torch import no_grad, LongTensor
+# import commons
+import gradio as gr
+import gradio.utils as gr_utils
+import gradio.processing_utils as gr_processing_utils
+all_example = "my voice is my passport verify me."
+microsoft_model_list = [
+    "en-US-AvaMultilingualNeural"
+]
+openai_model_list = [
+    "alloy",
+    "echo",
+    "fable",
+    "onyx",
+    "nova",
+    "shimmer"
+]
+eleven_voice_id = [
+    "21m00Tcm4TlvDq8ikWAM",
+    "29vD33N1CtxCmqQRPOHJ",
+    "2EiwWnXFnvU5JabPnv8n",
+    "5Q0t7uMcjvnagumLfvZi",
+    "AZnzlk1XvdvUeBnXmlld",
+    "CYw3kZ02Hs0563khs1Fj",
+    "D38z5RcWu1voky8WS1ja",
+    "EXAVITQu4vr4xnSDxMaL",
+    "ErXwobaYiN019PkySvjV",
+    "GBv7mTt0atIp3Br8iCZE",
+    "IKne3meq5aSn9XLyUdCD",
+    "JBFqnCBsd6RMkjVDRZzb",
+    "LcfcDJNUP1GQjkzn1xUU",
+    "MF3mGyEYCl7XYWbV9V6O",
+    "N2lVS1w4EtoT3dr4eOWO",
+    "ODq5zmih8GrVes37Dizd",
+    "SOYHLrjzK2X1ezoPC6cr",
+    "TX3LPaxmHKxFdv7VOQHJ",
+    "ThT5KcBeYPX3keUQqHPh",
+    "TxGEqnHWrfWFTfGW9XjX",
+    "VR6AewLTigWG4xSOukaG",
+    "XB0fDUnXU5powFXDhCwa",
+    "Xb7hH8MSUJpSbSDYk0k2",
+    "XrExE9yKIg1WjnnlVkGX",
+    "ZQe5CZNOzWyzPSCn5a3c",
+    "Zlb1dXrM653N07WRdFW3",
+    "bVMeCyTHy58xNoL34h3p",
+    "flq6f7yk4E4fJM5XTYuZ",
+    "g5CIjZEefAph4nQFvHAz",
+    "iP95p4xoKVk53GoZ742B",
+    "jBpfuIE2acCO8z3wKNLl",
+    "jsCqWAovK2LkecY7zXl4",
+    "nPczCjzI2devNBz1zQrb",
+    "oWAxZDx7w5VEj9dCyTzz",
+    "onwK4e9ZLuTAKqWW03F9",
+    "pFZP5JQG7iQjIQuC4Bku",
+    "pMsXgVXv3BLzUgSXRplE",
+    "pNInz6obpgDQGcFmaJgB",
+    "piTKgcLEGmPE4e6mEKli",
+    "pqHfZKP75CvOlQylNhV4",
+    "t0jbNlBVZ17f02VDIeMI",
+    "yoZ06aMxZJJ28mfd3POQ",
+    "z9fAnlkpzviPz146aGWa",
+    "zcAOhNBS3c14rBihAFp1",
+    "zrHiDhphv9ZnVXBqCLjz",
+]
+eleven_name = [
+    "Rachel",
+    "Drew",
+    "Clyde",
+    "Paul",
+    "Domi",
+    "Dave",
+    "Fin",
+    "Sarah",
+    "Antoni",
+    "Thomas",
+    "Charlie",
+    "George",
+    "Emily",
+    "Elli",
+    "Callum",
+    "Patrick",
+    "Harry",
+    "Liam",
+    "Dorothy",
+    "Josh",
+    "Arnold",
+    "Charlotte",
+    "Alice",
+    "Matilda",
+    "James",
+    "Joseph",
+    "Jeremy",
+    "Michael",
+    "Ethan",
+    "Chris",
+    "Gigi",
+    "Freya",
+    "Brian",
+    "Grace",
+    "Daniel",
+    "Lily",
+    "Serena",
+    "Adam",
+    "Nicole",
+    "Bill",
+    "Jessie",
+    "Sam",
+    "Glinda",
+    "Giovanni",
+    "Mimi",
+]
+eleven_id_model_name_dict = dict(zip(eleven_name, eleven_voice_id))
+def openai(text, name):
+    headers = {
+        'Authorization': 'Bearer ' + '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',
+        'Content-Type': 'application/json',
+    }
+    json_data = {
+        'model': 'tts-1-hd',
+        'input': f'{text}',
+        'voice': f'{name}',
+    }
+    response = requests.post('https://api.openai.com/v1/audio/speech', headers=headers, json=json_data)
+    # Note: json_data will not be serialized by requests
+    # exactly as it was in the original request.
+    #data = '{\n    "model": "tts-1",\n    "input": "The quick brown fox jumped over the lazy dog.",\n    "voice": "alloy"\n  }'
+    #response = requests.post('https://api.openai.com/v1/audio/speech', headers=headers, data=data)
+    return "Success", response
+def elevenlabs(text,name):
+    url = f"https://api.elevenlabs.io/v1/text-to-speech/{eleven_id_model_name_dict[name]}"
+    CHUNK_SIZE = 1024
+    #url = "https://api.elevenlabs.io/v1/text-to-speech/<voice-id>"
+    headers = {
+    "Accept": "audio/mpeg",
+    "Content-Type": "application/json",
+    "xi-api-key": "a3391f0e3ff8472b61978dbb70ccc6fe"
+    }
+    data = {
+    "text": f"{text}",
+    "model_id": "eleven_monolingual_v1",
+    "voice_settings": {
+        "stability": 0.5,
+        "similarity_boost": 0.5
+    }
+    }
+    response = requests.post(url, json=data, headers=headers)
+    # with open('output.mp3', 'wb') as f:
+    #     for chunk in response.iter_content(chunk_size=CHUNK_SIZE):
+    #         if chunk:
+    #             f.write(chunk)
+    return "Success", response
+def microsoft(text, name, style="Neural"):
+    """
+    :param text:
+    :param name:
+    :param style:
+    :return:
+    """
+    headers = {
+        'Ocp-Apim-Subscription-Key': '1f1ef0ce53b84261be94fab81df7e628',
+        'Content-Type': 'application/ssml+xml',
+        'X-Microsoft-OutputFormat': 'audio-16khz-128kbitrate-mono-mp3',
+        'User-Agent': 'curl',
+    }
+    data = ("<speak version='1.0' xml:lang='en-US'>"
+        f"<voice xml:lang='en-US' name='{name}'>" # xml:gender='Female'
+        f"{text}"
+        "</voice>"
+        "</speak>")
+    response = requests.post(
+        'https://japaneast.tts.speech.microsoft.com/cognitiveservices/v1',
+        headers=headers,
+        data=data,
+    )
+    return "Success", "sss"
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--device', type=str, default='cuda')
+    parser.add_argument("--share", action="store_true", default=True, help="share gradio app")
+    parser.add_argument("--port", type=int, default=8081, help="port")
+    parser.add_argument('--model_info_path', type=str, default='/gluster/speech_data/info.json')
+    args = parser.parse_args()
+    app = gr.Blocks()
+    with app:
+        gr.Markdown("## Japanese TTS Demo")
+        with gr.Tabs():
+            with gr.TabItem("11Labs"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(eleven_name, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(elevenlabs, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+            with gr.TabItem("微软"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(microsoft_model_list, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(microsoft, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+            with gr.TabItem("openai"):
+                tts_input1 = gr.TextArea(label="Text", value=all_example)
+                tts_input2 = gr.Dropdown(openai_model_list, label="name")
+                tts_submit = gr.Button("Generate", variant="primary")
+                tts_output1 = gr.Textbox(label="Output Message")
+                tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(openai, [tts_input1, tts_input2],
+                                    [tts_output1, tts_output2])
+    app.queue(max_size=10)
+    app.launch(share=True)
+    # _, audio = openai(all_example,'alloy')
+    # print(audio)
+    # with open("test99.mp3", "wb") as f:
+    #     f.write(audio.content)