--- title: Style-BERT-VITS2 Japanese TTS (Real Model) emoji: 🎤 colorFrom: blue colorTo: purple sdk: custom app_port: 7860 language: - ja tags: - text-to-speech - japanese - style-bert-vits2 - inference-endpoints - real-model license: mit --- # Style-BERT-VITS2 Japanese Text-to-Speech (Real Model Integration) 日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。 実際の学習済みモデル(litagin/Style-Bert-VITS2-1.0-base)を統合しています。 ## 🆕 新機能 - ✅ **実際のStyle-BERT-VITS2モデル統合** - ✅ **改良された音声波形生成** - ✅ **ピッチ・速度・音量制御** - ✅ **自動モデルダウンロード** ## 使用方法 ### API Example ```python import requests url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud" headers = {"Authorization": "Bearer YOUR_HF_TOKEN"} data = { "inputs": "こんにちは、これはテストです。", "parameters": { "speaker_id": 0, "emotion": "neutral", "speed": 1.0, "pitch": 2.0, "volume": 0.8 } } response = requests.post(url, headers=headers, json=data) result = response.json() # Base64音声データを取得 audio_base64 = result[0]["audio_base64"] ``` ## 機能 - 日本語テキスト読み上げ - 複数話者対応 (0-3) - 感情表現制御 - 話速・ピッチ・音量調整 - 自然な音声波形生成 ## パラメータ - `speaker_id`: 話者ID (0-3) - `emotion`: 感情 (neutral, happy, sad, angry, etc.) - `speed`: 話速 (0.5-2.0) - `pitch`: ピッチ (-12.0 to 12.0 セミトーン) - `volume`: 音量 (0.0-2.0) - `intonation`: イントネーション (0.0-2.0) ## 技術仕様 - **ベースモデル**: litagin/Style-Bert-VITS2-1.0-base - **サンプリングレート**: 44.1kHz - **フォーマット**: WAV (16bit PCM) - **GPU加速**: NVIDIA L4 - **自動スケーリング**: Scale-to-Zero対応 ## ログ情報 レスポンスには以下の情報が含まれます: ```json { "audio_base64": "UklGRi4AAABXQVZFZm10...", "sample_rate": 44100, "duration": 2.5, "model_info": { "name": "Style-BERT-VITS2", "version": "2.0-base-JP-Extra", "model_loaded": true, "device": "cuda" } } ```