Spaces:

Ronaldodev
/

stt-fongbe

Running

App Files Files Community

Ronaldodev commited on 18 days ago

Commit

753a150

1 Parent(s): ef4d3d8

[UPDATE] performize error log

Browse files

Files changed (1) hide show

app.py +2 -18

app.py CHANGED Viewed

@@ -7,15 +7,12 @@ from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 from huggingface_hub import login
 import logging
-# Configuration
 MODEL_NAME = "Ronaldodev/speech-to-text-fongbe"
 HF_TOKEN = os.environ.get("HF_TOKEN")
-# Variables globales
 model = None
 processor = None
-# Configuration logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -30,11 +27,9 @@ def load_model():
         if not HF_TOKEN:
             raise ValueError("HF_TOKEN non configuré dans les secrets")
-        # Login avec token privé
         login(token=HF_TOKEN)
         logger.info("✅ Authentification HF réussie")
-        # Charger le modèle et processeur
         model = AutoModelForSpeechSeq2Seq.from_pretrained(MODEL_NAME)
         processor = AutoProcessor.from_pretrained(MODEL_NAME)
@@ -49,18 +44,14 @@ def load_model():
 def transcribe(audio):
     """Fonction principale de transcription"""
-    # Vérifier si le modèle est chargé
     if model is None or processor is None:
         return "❌ Erreur: Modèle non chargé. Vérifiez les logs."
-    # Vérifier si un audio est fourni
     if audio is None:
         return "❌ Aucun fichier audio fourni"
     try:
         logger.info(f"🎵 Traitement audio: {audio}")
-        # Charger l'audio avec fallback
         try:
             waveform, sample_rate = torchaudio.load(audio)
             logger.info(f"✅ Audio chargé avec torchaudio: {sample_rate}Hz")
@@ -70,25 +61,21 @@ def transcribe(audio):
             waveform = torch.tensor(waveform).unsqueeze(0)
             logger.info(f"✅ Audio chargé avec librosa: {sample_rate}Hz")
-        # Conversion mono si nécessaire
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
             logger.info("🔄 Conversion stéréo → mono")
-        # Resampling à 16kHz si nécessaire
         if sample_rate != 16000:
             logger.info(f"🔄 Resampling {sample_rate}Hz → 16000Hz")
             resampler = torchaudio.transforms.Resample(sample_rate, 16000)
             waveform = resampler(waveform)
-        # Préparation des inputs
         inputs = processor(
             waveform.squeeze(),
             sampling_rate=16000,
             return_tensors="pt"
         )
-        # Génération de la transcription
         logger.info("🔄 Génération de la transcription...")
         with torch.no_grad():
             result = model.generate(
@@ -98,7 +85,6 @@ def transcribe(audio):
                 num_beams=1
             )
-        # Décodage
         transcription = processor.batch_decode(result, skip_special_tokens=True)[0]
         logger.info(f"✅ Transcription réussie: '{transcription}'")
@@ -110,7 +96,6 @@ def transcribe(audio):
         return error_msg
-# Charger le modèle au démarrage
 print("🚀 DÉMARRAGE API STT FONGBÉ - RONALDODEV")
 print("=" * 50)
@@ -121,7 +106,6 @@ else:
     print("❌ Erreur de chargement du modèle")
     model_status = "❌ Erreur de chargement"
-# Interface Gradio simple
 demo = gr.Interface(
     fn=transcribe,
     inputs=gr.Audio(
@@ -164,13 +148,13 @@ demo = gr.Interface(
     ```
     **Pour Flutter:** Utilisez MultipartRequest avec l'endpoint ci-dessus.
     """,
     examples=[
-        # Vous pouvez ajouter des fichiers d'exemple si vous en avez
     ],
     theme=gr.themes.Soft(),
     allow_flagging="never"
 )
-# Lancement de l'interface
 demo.launch()

 from huggingface_hub import login
 import logging
 MODEL_NAME = "Ronaldodev/speech-to-text-fongbe"
 HF_TOKEN = os.environ.get("HF_TOKEN")
 model = None
 processor = None
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
         if not HF_TOKEN:
             raise ValueError("HF_TOKEN non configuré dans les secrets")
         login(token=HF_TOKEN)
         logger.info("✅ Authentification HF réussie")
         model = AutoModelForSpeechSeq2Seq.from_pretrained(MODEL_NAME)
         processor = AutoProcessor.from_pretrained(MODEL_NAME)
 def transcribe(audio):
     """Fonction principale de transcription"""
     if model is None or processor is None:
         return "❌ Erreur: Modèle non chargé. Vérifiez les logs."
     if audio is None:
         return "❌ Aucun fichier audio fourni"
     try:
         logger.info(f"🎵 Traitement audio: {audio}")
         try:
             waveform, sample_rate = torchaudio.load(audio)
             logger.info(f"✅ Audio chargé avec torchaudio: {sample_rate}Hz")
             waveform = torch.tensor(waveform).unsqueeze(0)
             logger.info(f"✅ Audio chargé avec librosa: {sample_rate}Hz")
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
             logger.info("🔄 Conversion stéréo → mono")
         if sample_rate != 16000:
             logger.info(f"🔄 Resampling {sample_rate}Hz → 16000Hz")
             resampler = torchaudio.transforms.Resample(sample_rate, 16000)
             waveform = resampler(waveform)
         inputs = processor(
             waveform.squeeze(),
             sampling_rate=16000,
             return_tensors="pt"
         )
         logger.info("🔄 Génération de la transcription...")
         with torch.no_grad():
             result = model.generate(
                 num_beams=1
             )
         transcription = processor.batch_decode(result, skip_special_tokens=True)[0]
         logger.info(f"✅ Transcription réussie: '{transcription}'")
         return error_msg
 print("🚀 DÉMARRAGE API STT FONGBÉ - RONALDODEV")
 print("=" * 50)
     print("❌ Erreur de chargement du modèle")
     model_status = "❌ Erreur de chargement"
 demo = gr.Interface(
     fn=transcribe,
     inputs=gr.Audio(
     ```
     **Pour Flutter:** Utilisez MultipartRequest avec l'endpoint ci-dessus.
+    **L'utilisation de l'api est gratuite pour l'instant**
     """,
     examples=[
     ],
     theme=gr.themes.Soft(),
     allow_flagging="never"
 )
 demo.launch()