style-bert-vits2-jp / README.md
tokusan2's picture
Update README with real model integration info
dc894c8 verified
|
raw
history blame
2.28 kB
metadata
title: Style-BERT-VITS2 Japanese TTS (Real Model)
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: custom
app_port: 7860
language:
  - ja
tags:
  - text-to-speech
  - japanese
  - style-bert-vits2
  - inference-endpoints
  - real-model
license: mit

Style-BERT-VITS2 Japanese Text-to-Speech (Real Model Integration)

日本語テキスト読み上げ用のStyle-BERT-VITS2モデルです。 実際の学習済みモデル(litagin/Style-Bert-VITS2-1.0-base)を統合しています。

🆕 新機能

  • 実際のStyle-BERT-VITS2モデル統合
  • 改良された音声波形生成
  • ピッチ・速度・音量制御
  • 自動モデルダウンロード

使用方法

API Example

import requests

url = "https://j3meo1ty1iv2knlo.us-east-1.aws.endpoints.huggingface.cloud"
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}

data = {
    "inputs": "こんにちは、これはテストです。",
    "parameters": {
        "speaker_id": 0,
        "emotion": "neutral", 
        "speed": 1.0,
        "pitch": 2.0,
        "volume": 0.8
    }
}

response = requests.post(url, headers=headers, json=data)
result = response.json()

# Base64音声データを取得
audio_base64 = result[0]["audio_base64"]

機能

  • 日本語テキスト読み上げ
  • 複数話者対応 (0-3)
  • 感情表現制御
  • 話速・ピッチ・音量調整
  • 自然な音声波形生成

パラメータ

  • speaker_id: 話者ID (0-3)
  • emotion: 感情 (neutral, happy, sad, angry, etc.)
  • speed: 話速 (0.5-2.0)
  • pitch: ピッチ (-12.0 to 12.0 セミトーン)
  • volume: 音量 (0.0-2.0)
  • intonation: イントネーション (0.0-2.0)

技術仕様

  • ベースモデル: litagin/Style-Bert-VITS2-1.0-base
  • サンプリングレート: 44.1kHz
  • フォーマット: WAV (16bit PCM)
  • GPU加速: NVIDIA L4
  • 自動スケーリング: Scale-to-Zero対応

ログ情報

レスポンスには以下の情報が含まれます:

{
    "audio_base64": "UklGRi4AAABXQVZFZm10...",
    "sample_rate": 44100,
    "duration": 2.5,
    "model_info": {
        "name": "Style-BERT-VITS2",
        "version": "2.0-base-JP-Extra",
        "model_loaded": true,
        "device": "cuda"
    }
}