Spaces:

Ronaldodev
/

stt-fongbe

Running

App Files Files Community

Ronaldodev commited on Aug 30

Commit

ff30a18

1 Parent(s): 50e0de0

[ADD] app.py files

Browse files

Files changed (8) hide show

.idea/.gitignore +5 -0
.idea/inspectionProfiles/Project_Default.xml +32 -0
.idea/inspectionProfiles/profiles_settings.xml +6 -0
.idea/misc.xml +7 -0
.idea/modules.xml +8 -0
.idea/stt-fongbe.iml +8 -0
.idea/vcs.xml +7 -0
app.py +176 -0

.idea/.gitignore ADDED Viewed

	@@ -0,0 +1,5 @@

+# Default ignored files
+/shelf/
+/workspace.xml
+# Editor-based HTTP Client requests
+/httpRequests/

.idea/inspectionProfiles/Project_Default.xml ADDED Viewed

	@@ -0,0 +1,32 @@

+<component name="InspectionProjectProfileManager">
+  <profile version="1.0">
+    <option name="myName" value="Project Default" />
+    <inspection_tool class="PyPackageRequirementsInspection" enabled="true" level="WARNING" enabled_by_default="true">
+      <option name="ignoredPackages">
+        <list>
+          <option value="aiohappyeyeballs" />
+          <option value="aiohttp" />
+          <option value="aiosignal" />
+          <option value="annotated-types" />
+          <option value="anyio" />
+          <option value="attrs" />
+          <option value="click" />
+          <option value="fastapi" />
+          <option value="frozenlist" />
+          <option value="h11" />
+          <option value="idna" />
+          <option value="multidict" />
+          <option value="propcache" />
+          <option value="pydantic" />
+          <option value="pydantic_core" />
+          <option value="sniffio" />
+          <option value="starlette" />
+          <option value="typing-inspection" />
+          <option value="typing_extensions" />
+          <option value="uvicorn" />
+          <option value="yarl" />
+        </list>
+      </option>
+    </inspection_tool>
+  </profile>
+</component>

.idea/inspectionProfiles/profiles_settings.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>

.idea/misc.xml ADDED Viewed

	@@ -0,0 +1,7 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="Black">
+    <option name="sdkName" value="Python 3.11 (stt-fongbe)" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.11 (stt-fongbe)" project-jdk-type="Python SDK" />
+</project>

.idea/modules.xml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/stt-fongbe.iml" filepath="$PROJECT_DIR$/.idea/stt-fongbe.iml" />
+    </modules>
+  </component>
+</project>

.idea/stt-fongbe.iml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="Python 3.11 (stt-fongbe)" jdkType="Python SDK" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>

.idea/vcs.xml ADDED Viewed

	@@ -0,0 +1,7 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+    <mapping directory="$PROJECT_DIR$" vcs="Git" />
+  </component>
+</project>

app.py ADDED Viewed

	@@ -0,0 +1,176 @@

+import gradio as gr
+import torch
+import torchaudio
+import librosa
+import os
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+from huggingface_hub import login
+import logging
+# Configuration
+MODEL_NAME = "Ronaldodev/speech-to-text-fongbe"
+HF_TOKEN = os.environ.get("HF_TOKEN")
+# Variables globales
+model = None
+processor = None
+# Configuration logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+def load_model():
+    """Charger le modèle privé au démarrage"""
+    global model, processor
+    try:
+        logger.info("🔄 Chargement du modèle privé...")
+        if not HF_TOKEN:
+            raise ValueError("HF_TOKEN non configuré dans les secrets")
+        # Login avec token privé
+        login(token=HF_TOKEN)
+        logger.info("✅ Authentification HF réussie")
+        # Charger le modèle et processeur
+        model = AutoModelForSpeechSeq2Seq.from_pretrained(MODEL_NAME)
+        processor = AutoProcessor.from_pretrained(MODEL_NAME)
+        logger.info("✅ Modèle chargé avec succès!")
+        return True
+    except Exception as e:
+        logger.error(f"❌ Erreur chargement: {e}")
+        return False
+def transcribe(audio):
+    """Fonction principale de transcription"""
+    # Vérifier si le modèle est chargé
+    if model is None or processor is None:
+        return "❌ Erreur: Modèle non chargé. Vérifiez les logs."
+    # Vérifier si un audio est fourni
+    if audio is None:
+        return "❌ Aucun fichier audio fourni"
+    try:
+        logger.info(f"🎵 Traitement audio: {audio}")
+        # Charger l'audio avec fallback
+        try:
+            waveform, sample_rate = torchaudio.load(audio)
+            logger.info(f"✅ Audio chargé avec torchaudio: {sample_rate}Hz")
+        except Exception as e:
+            logger.warning(f"⚠️ Torchaudio échoué, essai librosa: {e}")
+            waveform, sample_rate = librosa.load(audio, sr=None)
+            waveform = torch.tensor(waveform).unsqueeze(0)
+            logger.info(f"✅ Audio chargé avec librosa: {sample_rate}Hz")
+        # Conversion mono si nécessaire
+        if waveform.shape[0] > 1:
+            waveform = waveform.mean(dim=0, keepdim=True)
+            logger.info("🔄 Conversion stéréo → mono")
+        # Resampling à 16kHz si nécessaire
+        if sample_rate != 16000:
+            logger.info(f"🔄 Resampling {sample_rate}Hz → 16000Hz")
+            resampler = torchaudio.transforms.Resample(sample_rate, 16000)
+            waveform = resampler(waveform)
+        # Préparation des inputs
+        inputs = processor(
+            waveform.squeeze(),
+            sampling_rate=16000,
+            return_tensors="pt"
+        )
+        # Génération de la transcription
+        logger.info("🔄 Génération de la transcription...")
+        with torch.no_grad():
+            result = model.generate(
+                **inputs,
+                max_length=500,
+                do_sample=False,
+                num_beams=1
+            )
+        # Décodage
+        transcription = processor.batch_decode(result, skip_special_tokens=True)[0]
+        logger.info(f"✅ Transcription réussie: '{transcription}'")
+        return transcription.strip()
+    except Exception as e:
+        error_msg = f"❌ Erreur de transcription: {str(e)}"
+        logger.error(error_msg)
+        return error_msg
+# Charger le modèle au démarrage
+print("🚀 DÉMARRAGE API STT FONGBÉ - RONALDODEV")
+print("=" * 50)
+if load_model():
+    print("✅ Modèle chargé - Interface prête!")
+    model_status = "✅ Modèle chargé et prêt"
+else:
+    print("❌ Erreur de chargement du modèle")
+    model_status = "❌ Erreur de chargement"
+# Interface Gradio simple
+demo = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(
+        sources=["upload", "microphone"],
+        type="filepath",
+        label="🎤 Uploadez un fichier ou enregistrez directement"
+    ),
+    outputs=gr.Textbox(
+        label="📝 Transcription en Fongbé",
+        placeholder="La transcription apparaîtra ici...",
+        lines=3
+    ),
+    title="🎤 API STT Fongbé - Ronaldodev",
+    description=f"""
+    **Reconnaissance vocale pour la langue Fongbé**
+    Uploadez un fichier audio (WAV, MP3, M4A) ou enregistrez directement avec votre microphone.
+    **Statut:** {model_status}
+    **Modèle:** `{MODEL_NAME}`
+    """,
+    article="""
+    ## 🔌 API pour développeurs
+    Cette interface expose automatiquement une API REST :
+    **Endpoint:** `POST /api/predict`
+    **Exemple d'utilisation:**
+    ```python
+    import requests
+    response = requests.post(
+        "https://ronaldodev-stt-fongbe.hf.space/api/predict",
+        json={"data": [audio_file_path]}
+    )
+    transcription = response.json()["data"][0]
+    ```
+    **Pour Flutter:** Utilisez MultipartRequest avec l'endpoint ci-dessus.
+    """,
+    examples=[
+        # Vous pouvez ajouter des fichiers d'exemple si vous en avez
+    ],
+    theme=gr.themes.Soft(),
+    allow_flagging="never"
+)
+# Lancement de l'interface
+demo.launch()