Spaces:

SebastianSchramm
/

cozytales-backend

Running

App Files Files Community

SebastianSchramm commited on Jul 30

Commit

ae335a4

unverified ·

1 Parent(s): 9bbae43

add endpoints for text gen and full prompt2audio

Browse files

Files changed (1) hide show

server.py +80 -29

server.py CHANGED Viewed

@@ -1,19 +1,19 @@
 import logging
-import random
-from fastapi import FastAPI
-from pydantic import BaseModel
 from fastapi.responses import FileResponse
-from fastapi import BackgroundTasks
-from starlette.requests import Request
 from kokoro import KPipeline
-import soundfile as sf
-import tempfile
-import numpy as np
-import os
-random.seed(42)
 logging.basicConfig()
 logger = logging.getLogger(__name__)
@@ -29,7 +29,7 @@ def cleanup_temp_file(file_path: str):
     try:
         os.unlink(file_path)
     except OSError:
-        pass
 def text_to_audio_chunks(text, voice="af_heart", language="a"):
@@ -41,14 +41,18 @@ def text_to_audio_chunks(text, voice="af_heart", language="a"):
 def concat_chunks(audios, samplerate=24000, silence_dur=0.3):
     # Convert PyTorch tensors to NumPy arrays
-    audio_arrays = [audio.numpy() if hasattr(audio, 'numpy') else audio for audio in audios]
     if not audio_arrays:
         return np.array([])  # Return empty array if no audio chunks
     silence = np.zeros(int(samplerate * silence_dur), dtype=audio_arrays[0].dtype)
     # Insert silence between all but last
-    chunks = sum([[chunk, silence] for chunk in audio_arrays[:-1]], []) + [audio_arrays[-1]]
     return np.concatenate(chunks)
@@ -60,14 +64,60 @@ def get_audio(text: str, language: str):
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     sf.write(tmp.name, final_audio, 24000)
     tmp.close()
-    return tmp.name
-class InputLoad(BaseModel):
     text: str
     language: str
 app = FastAPI()
@@ -76,17 +126,18 @@ def health_check():
     return {"server": "running"}
-@app.post("/answer/")
-async def receive(input_load: InputLoad, request: Request) -> FileResponse:
-    audio_path = get_audio(input_load.text, input_load.language)
-    background_tasks = BackgroundTasks()
-    background_tasks.add_task(cleanup_temp_file, audio_path)
-    return FileResponse(
-        path=audio_path,
-        media_type="audio/wav",
-        filename="generated_audio.wav",
-        background=background_tasks
-    )

+import json
 import logging
+import os
+import tempfile
+import numpy as np
+import requests
+import soundfile as sf
+from fastapi import BackgroundTasks, FastAPI
 from fastapi.responses import FileResponse
 from kokoro import KPipeline
+from pydantic import BaseModel
+from starlette.requests import Request
+OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY")
 logging.basicConfig()
 logger = logging.getLogger(__name__)
     try:
         os.unlink(file_path)
     except OSError:
+        pass
 def text_to_audio_chunks(text, voice="af_heart", language="a"):
 def concat_chunks(audios, samplerate=24000, silence_dur=0.3):
     # Convert PyTorch tensors to NumPy arrays
+    audio_arrays = [
+        audio.numpy() if hasattr(audio, "numpy") else audio for audio in audios
+    ]
     if not audio_arrays:
         return np.array([])  # Return empty array if no audio chunks
     silence = np.zeros(int(samplerate * silence_dur), dtype=audio_arrays[0].dtype)
     # Insert silence between all but last
+    chunks = sum([[chunk, silence] for chunk in audio_arrays[:-1]], []) + [
+        audio_arrays[-1]
+    ]
     return np.concatenate(chunks)
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     sf.write(tmp.name, final_audio, 24000)
     tmp.close()
+    return tmp.name
+def generate_text(prompt: str):
+    response = requests.post(
+        url="https://openrouter.ai/api/v1/chat/completions",
+        headers={
+            "Authorization": f"Bearer {OPENROUTER_API_KEY}",
+            "Content-Type": "application/json",
+            "HTTP-Referer": "Emotions API",
+            "X-Title": "Emotions API",
+        },
+        data=json.dumps(
+            {
+                "model": "google/gemma-3n-e4b-it:free",
+                "temperature": 0.0,
+                "max_tokens": 2048,
+                "top_p": 0.99,
+                "messages": [{"role": "user", "content": prompt}],
+            }
+        ),
+    )
+    response_json = response.json()
+    answer = response_json["choices"][0]["message"]["content"]
+    return answer, response_json
+def generate_audio(text: str, language: str) -> FileResponse:
+    audio_path = get_audio(text, language)
+    background_tasks = BackgroundTasks()
+    background_tasks.add_task(cleanup_temp_file, audio_path)
+    return FileResponse(
+        path=audio_path,
+        media_type="audio/wav",
+        filename="generated_audio.wav",
+        background=background_tasks,
+    )
+class InputLoadT2A(BaseModel):
     text: str
     language: str
+class InputLoadP2T(BaseModel):
+    text: str
+class ResponseLoadP2T(BaseModel):
+    text: str
 app = FastAPI()
     return {"server": "running"}
+@app.post("/genaudio/")
+async def receive(input_load: InputLoadT2A, request: Request) -> FileResponse:
+    return generate_audio(input_load.text, input_load.language)
+@app.post("/gentext/")
+async def gen_text(input_load: InputLoadP2T, request: Request) -> ResponseLoadP2T:
+    text, _ = generate_text(input_load.text)
+    return ResponseLoadP2T(text=text)
+@app.post("/genemotion/")
+async def gen_emotion(input_load: InputLoadT2A, request: Request) -> FileResponse:
+    text, _ = generate_text(input_load.text)
+    return generate_audio(text, input_load.language)