Spaces:

v-e-n-o-m
/

urdu-asr-whisper

Sleeping

App Files Files Community

v-e-n-o-m commited on Apr 13

Commit

04cf987

1 Parent(s): 8542679

Switch to whisper-medium for CPU

Browse files

Files changed (1) hide show

app.py +23 -24

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from fastapi import FastAPI, File, UploadFile, Form, HTTPException
 from transformers import pipeline
 import soundfile as sf
-import io
 import numpy as np
 import torch
 from pydub import AudioSegment
@@ -27,25 +26,25 @@ async def root():
 @app.get("/health")
 async def health():
     logger.info("Health check accessed")
-    return {"status": "ok", "model": "whisper-large-v3"}
 @app.on_event("startup")
 async def startup_event():
     print("Uvicorn started successfully")
-print("Loading Whisper-large-v3...")
 try:
     pipe = pipeline(
         "automatic-speech-recognition",
-        model="openai/whisper-large-v3",
-        torch_dtype=torch.float16,
-        device="cuda" if torch.cuda.is_available() else "cpu",
-        model_kwargs={"use_safetensors": True},
-        chunk_length_s=30  # Process 30s chunks
     )
-    print("Model loaded successfully")
 except Exception as e:
-    print(f"Model loading failed: {str(e)}")
     raise e
 @contextmanager
@@ -56,9 +55,12 @@ def temp_file(suffix):
     finally:
         os.unlink(temp.name)
-@timeout(120, use_signals=False)  # Timeout after 120s
 def transcribe_audio(audio_data, language):
-    return pipe(audio_data, generate_kwargs={"language": language, "task": "transcribe"}, batch_size=1)
 @app.post("/transcribe")
 async def transcribe(audio: UploadFile = File(...), language: str = Form(...)):
@@ -79,32 +81,29 @@ async def transcribe(audio: UploadFile = File(...), language: str = Form(...)):
             with open(temp_audio_path, "wb") as f:
                 f.write(audio_bytes)
-            # Check duration
             duration = librosa.get_duration(path=temp_audio_path)
             logger.info(f"Audio duration: {duration} seconds")
-            if duration > 300:  # 5min max
-                raise HTTPException(400, detail="Audio too long, max 300s")
             with temp_file(".wav") as temp_wav_path:
                 if ext != ".wav":
                     logger.info(f"Converting {temp_audio_path} to WAV...")
-                    try:
-                        audio_segment = AudioSegment.from_file(temp_audio_path)
-                        audio_segment = audio_segment.set_frame_rate(16000).set_channels(1)
-                        audio_segment.export(temp_wav_path, format="wav")
-                    except Exception as e:
-                        logger.error(f"Conversion failed: {str(e)}")
-                        raise HTTPException(500, detail=f"Audio conversion failed: {str(e)}")
                 else:
                     logger.info("Skipping conversion for WAV input")
                     temp_wav_path = temp_audio_path
                 audio_data, sample_rate = sf.read(temp_wav_path)
                 if len(audio_data.shape) > 1:
                     audio_data = np.mean(audio_data, axis=1)
                 if sample_rate != 16000:
-                    raise HTTPException(500, detail="Converted audio is not 16kHz")
                 logger.info("Transcribing...")
                 try:

 from fastapi import FastAPI, File, UploadFile, Form, HTTPException
 from transformers import pipeline
 import soundfile as sf
 import numpy as np
 import torch
 from pydub import AudioSegment
 @app.get("/health")
 async def health():
     logger.info("Health check accessed")
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    return {"status": "ok", "model": "whisper-medium", "device": device}
 @app.on_event("startup")
 async def startup_event():
     print("Uvicorn started successfully")
+print("Loading Whisper-medium...")
 try:
     pipe = pipeline(
         "automatic-speech-recognition",
+        model="openai/whisper-medium",
+        torch_dtype=torch.float32,
+        device="cpu",
+        model_kwargs={"use_safetensors": True}
     )
+    logger.info("Model loaded successfully")
 except Exception as e:
+    logger.error(f"Model loading failed: {str(e)}")
     raise e
 @contextmanager
     finally:
         os.unlink(temp.name)
+@timeout(30, use_signals=False)  # 30s timeout
 def transcribe_audio(audio_data, language):
+    logger.info("Starting transcription pipeline...")
+    result = pipe(audio_data, generate_kwargs={"language": language, "task": "transcribe"})
+    logger.info("Transcription pipeline completed")
+    return result
 @app.post("/transcribe")
 async def transcribe(audio: UploadFile = File(...), language: str = Form(...)):
             with open(temp_audio_path, "wb") as f:
                 f.write(audio_bytes)
             duration = librosa.get_duration(path=temp_audio_path)
             logger.info(f"Audio duration: {duration} seconds")
+            if duration > 60:
+                raise HTTPException(400, detail="Audio too long, max 60s")
             with temp_file(".wav") as temp_wav_path:
                 if ext != ".wav":
                     logger.info(f"Converting {temp_audio_path} to WAV...")
+                    audio_segment = AudioSegment.from_file(temp_audio_path)
+                    audio_segment = audio_segment.set_frame_rate(16000).set_channels(1)
+                    audio_segment.export(temp_wav_path, format="wav")
                 else:
                     logger.info("Skipping conversion for WAV input")
                     temp_wav_path = temp_audio_path
                 audio_data, sample_rate = sf.read(temp_wav_path)
+                logger.info(f"Audio data shape: {audio_data.shape}, sample rate: {sample_rate}")
                 if len(audio_data.shape) > 1:
                     audio_data = np.mean(audio_data, axis=1)
                 if sample_rate != 16000:
+                    raise HTTPException(500, detail="Audio is not 16kHz")
+                if np.max(np.abs(audio_data)) < 1e-5:
+                    raise HTTPException(400, detail="Audio is silent")
                 logger.info("Transcribing...")
                 try: