Spaces:

EnDevSols
/

Arabi-ASR-Gradio

Sleeping

App Files Files Community

muzammil-eds commited on Sep 5, 2024

Commit

869504a

verified ·

1 Parent(s): 83bef30

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -30

app.py CHANGED Viewed

@@ -1,32 +1,37 @@
 import gradio as gr
 import requests
-import Levenshtein
-import librosa
-import torch
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-def load_model():
-    MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
-    processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
-    model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
-    return processor, model
-processor, model = load_model()
 def transcribe_audio_hf(audio_path):
     """
-    Transcribes speech from an audio file using a pretrained Wav2Vec2 model.
     Args:
         audio_path (str): Path to the audio file.
     Returns:
-        str: The transcription of the speech in the audio file.
     """
-    speech_array, sampling_rate = librosa.load(audio_path, sr=16000)
-    input_values = processor(speech_array, sampling_rate=sampling_rate, return_tensors="pt", padding=True).input_values
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0].strip()
     return transcription
 def levenshtein_similarity(transcription1, transcription2):
@@ -38,6 +43,7 @@ def levenshtein_similarity(transcription1, transcription2):
     Returns:
         float: A normalized similarity score between 0 and 1, where 1 indicates identical transcriptions.
     """
     distance = Levenshtein.distance(transcription1, transcription2)
     max_len = max(len(transcription1), len(transcription2))
     return 1 - distance / max_len  # Normalize to get similarity score
@@ -67,19 +73,20 @@ def perform_testing(original_audio, user_audio):
 # Gradio Interface
 with gr.Blocks() as app:
-    gr.Markdown("# Audio Transcription and Similarity Checker")
-    original_audio_upload = gr.Audio(label="Upload Original Audio", type="filepath")
-    user_audio_upload = gr.Audio(label="Upload User Audio", type="filepath")
-    upload_button = gr.Button("Perform Testing")
-    output_original_transcription = gr.Markdown()
-    output_user_transcription = gr.Markdown()
-    output_similarity_score = gr.Markdown()
-    upload_button.click(
-        perform_testing,
-        inputs=[original_audio_upload, user_audio_upload],
-        outputs=[output_original_transcription, output_user_transcription, output_similarity_score]
-    )
 app.launch()

 import gradio as gr
 import requests
+import os
+# API information for Hugging Face Inference API
+API_URL = "https://api-inference.huggingface.co/models/jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
+# Fetch the API token from Hugging Face Secrets
+hf_api_token = os.getenv("HF_API_TOKEN")
+headers = {"Authorization": f"Bearer {hf_api_token}"}
+def query(filename):
+    """
+    Queries the Hugging Face API to transcribe audio from a file.
+    Args:
+        filename (str): Path to the audio file.
+    Returns:
+        dict: The response from the Hugging Face API with transcription.
+    """
+    with open(filename, "rb") as f:
+        data = f.read()
+    response = requests.post(API_URL, headers=headers, data=data)
+    return response.json()
 def transcribe_audio_hf(audio_path):
     """
+    Transcribes the audio using the Hugging Face Inference API.
     Args:
         audio_path (str): Path to the audio file.
     Returns:
+        str: The transcription from the API.
     """
+    result = query(audio_path)
+    transcription = result.get('text', '').strip()
     return transcription
 def levenshtein_similarity(transcription1, transcription2):
     Returns:
         float: A normalized similarity score between 0 and 1, where 1 indicates identical transcriptions.
     """
+    import Levenshtein
     distance = Levenshtein.distance(transcription1, transcription2)
     max_len = max(len(transcription1), len(transcription2))
     return 1 - distance / max_len  # Normalize to get similarity score
 # Gradio Interface
 with gr.Blocks() as app:
+    gr.Markdown("# Audio Transcription and Similarity Checker using Hugging Face Inference API")
+    with gr.Tab("Upload"):
+        original_audio_upload = gr.Audio(label="Upload Original Audio", type="filepath")
+        user_audio_upload = gr.Audio(label="Upload User Audio", type="filepath")
+        upload_button = gr.Button("Perform Testing")
+        output_original_transcription = gr.Markdown()
+        output_user_transcription = gr.Markdown()
+        output_similarity_score = gr.Markdown()
+        upload_button.click(
+            perform_testing,
+            inputs=[original_audio_upload, user_audio_upload],
+            outputs=[output_original_transcription, output_user_transcription, output_similarity_score]
+        )
 app.launch()