Spaces:

v-e-n-o-m
/

urdu-asr-whisper

Sleeping

App Files Files Community

v-e-n-o-m commited on 15 days ago

Commit

a34fbfb

1 Parent(s): 83b3a6a

sd

Browse files

Files changed (4) hide show

.gitattributes +2 -35
Dockerfile +21 -18
app.py +43 -31
requirements.txt +7 -7

.gitattributes CHANGED Viewed

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


1	+ *.webm filter=lfs
2	+ *.wav filter=lfs

Dockerfile CHANGED Viewed

@@ -1,23 +1,26 @@
 FROM python:3.10-slim
-# Set environment variables early
-ENV TRANSFORMERS_CACHE=/app/cache
-ENV HF_HOME=/app/cache
-ENV PYTHONUNBUFFERED=1
-WORKDIR /app
-# Install dependencies
-RUN apt-get update && apt-get install -y ffmpeg && rm -rf /var/lib/apt/lists/*
-# Create cache directory with permissions
-RUN mkdir -p /app/cache && chmod -R 777 /app/cache
-COPY requirements.txt .
-RUN pip install --no-cache-dir -r requirements.txt
 COPY app.py .
-EXPOSE 8000
-CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

 FROM python:3.10-slim
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    ffmpeg \
+    && rm -rf /var/lib/apt/lists/*
+# Install Python dependencies
+RUN pip install --no-cache-dir \
+    fastapi==0.115.2 \
+    uvicorn==0.32.0 \
+    transformers==4.46.0 \
+    torch==2.5.0 \
+    python-multipart==0.0.12 \
+    soundfile==0.12.1 \
+    numpy==1.26.4 \
+    pydub==0.25.1
+# Copy app
 COPY app.py .
+# Expose port
+EXPOSE 7860
+# Run
+CMD ["uvicorn", "app.py:app", "--host", "0.0.0.0", "--port", "7860"]

app.py CHANGED Viewed

@@ -1,50 +1,62 @@
-from fastapi import FastAPI, File, UploadFile, Form, HTTPException
 from transformers import pipeline
 import soundfile as sf
 import io
 import numpy as np
-import logging
 import torch
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
 app = FastAPI()
-try:
-    logger.info("Loading Whisper-large-v3...")
-    pipe = pipeline(
-        "automatic-speech-recognition",
-        model="openai/whisper-large-v3",
-        torch_dtype=torch.float16,
-        device="cpu",
-        model_kwargs={"cache_dir": "/app/cache"},
-    )
-    logger.info("Model loaded successfully")
-except Exception as e:
-    logger.error(f"Failed to load model: {str(e)}")
-    raise
 @app.post("/transcribe")
 async def transcribe(audio: UploadFile = File(...), language: str = Form(...)):
     try:
-        valid_languages = {"english": "en", "urdu": "ur", "arabic": "ar"}
         if language.lower() not in valid_languages:
-            raise HTTPException(status_code=400, detail="Invalid language. Use 'english', 'urdu', or 'arabic'.")
         audio_bytes = await audio.read()
-        audio_file = io.BytesIO(audio_bytes)
-        audio_data, sample_rate = sf.read(audio_file)
         if len(audio_data.shape) > 1:
             audio_data = np.mean(audio_data, axis=1)
         if sample_rate != 16000:
-            raise HTTPException(status_code=400, detail="Audio must be 16kHz.")
-        logger.info(f"Transcribing with language: {language}")
-        result = pipe(
-            audio_data,
-            generate_kwargs={"language": valid_languages[language.lower()], "task": "transcribe"},
-            return_timestamps=False,
-        )
         return {"text": result["text"]}
     except Exception as e:
-        logger.error(f"Transcription error: {str(e)}")
-        raise HTTPException(status_code=500, detail=str(e))

+from fastapi import FastAPI, File, UploadFile, Form
 from transformers import pipeline
 import soundfile as sf
 import io
 import numpy as np
 import torch
+from pydub import AudioSegment
+import tempfile
+import os
 app = FastAPI()
+print("Loading Whisper-large-v3...")
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model="openai/whisper-large-v3",  # Try "whisper-medium" if memory crashes
+    torch_dtype=torch.float16,
+    device="cuda" if torch.cuda.is_available() else "cpu",
+)
+print("Model loaded successfully")
 @app.post("/transcribe")
 async def transcribe(audio: UploadFile = File(...), language: str = Form(...)):
     try:
+        valid_languages = {"en": "en", "ur": "ur", "ar": "ar"}
         if language.lower() not in valid_languages:
+            return {"error": "Invalid language. Use 'en', 'ur', or 'ar'"}
+        # Read audio bytes
         audio_bytes = await audio.read()
+        # Convert WebM to WAV
+        with tempfile.NamedTemporaryFile(suffix=".webm", delete=False) as temp_webm:
+            temp_webm.write(audio_bytes)
+            temp_webm_path = temp_webm.name
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_wav:
+            temp_wav_path = temp_wav.name
+        audio_segment = AudioSegment.from_file(temp_webm_path)
+        audio_segment = audio_segment.set_frame_rate(16000).set_channels(1)
+        audio_segment.export(temp_wav_path, format="wav")
+        # Read WAV
+        audio_data, sample_rate = sf.read(temp_wav_path)
         if len(audio_data.shape) > 1:
             audio_data = np.mean(audio_data, axis=1)
         if sample_rate != 16000:
+            return {"error": "Converted audio is not 16kHz"}
+        # Transcribe
+        result = pipe(audio_data, generate_kwargs={"language": language.lower(), "task": "transcribe"})
         return {"text": result["text"]}
     except Exception as e:
+        return {"error": f"Audio processing failed: {str(e)}"}
+    finally:
+        # Clean up
+        if 'temp_webm_path' in locals():
+            os.unlink(temp_webm_path)
+        if 'temp_wav_path' in locals():
+            os.unlink(temp_wav_path)

requirements.txt CHANGED Viewed

@@ -1,8 +1,8 @@
-fastapi==0.103.2
-uvicorn==0.23.2
-transformers==4.38.2
-torch==2.0.1
 soundfile==0.12.1
-numpy==1.24.3
-librosa==0.10.1
-python-multipart==0.0.9

+fastapi==0.115.2
+uvicorn==0.32.0
+transformers==4.46.0
+torch==2.5.0
+python-multipart==0.0.12
 soundfile==0.12.1
+numpy==1.26.4
+pydub==0.25.1