Spaces:

Lguyogiro
/

Anishinaabemowin-ASR

Sleeping

Lguyogiro commited on Dec 14, 2024

Commit

819cd84

1 Parent(s): e678dfe

fix buggy inference

Files changed (2) hide show

asr.py CHANGED Viewed

@@ -2,6 +2,7 @@ from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torchaudio
 import torch
 import os
 hf_token = os.getenv("HUGGING_FACE_HUB_TOKEN")
@@ -18,12 +19,23 @@ def load_model():
 def inference(processor, model, audio_path):
-    arr, rate = read_audio_data(audio_path)
-    inputs = processor(arr.squeeze().numpy(), sampling_rate=16_000, return_tensors="pt")
     with torch.no_grad():
-        outputs = model(**inputs).logits
-    ids = torch.argmax(outputs, dim=-1)[0]
-    transcription = processor.decode(ids)
     return transcription

 import torchaudio
 import torch
 import os
+import librosa
 hf_token = os.getenv("HUGGING_FACE_HUB_TOKEN")
 def inference(processor, model, audio_path):
+    audio, sampling_rate = librosa.load(audio_path, sr=16000)  # Ensure the correct sampling rate
+    inputs = processor(audio, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
     with torch.no_grad():
+        logits = model(inputs.input_values).logits
+    # Decode predicted tokens
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+    #arr, rate = read_audio_data(audio_path)
+    #inputs = processor(arr.squeeze().numpy(), sampling_rate=16_000, return_tensors="pt")
+    #with torch.no_grad():
+    #    outputs = model(**inputs).logits
+    #ids = torch.argmax(outputs, dim=-1)[0]
+    #transcription = processor.decode(ids)
     return transcription

requirements.txt CHANGED Viewed

@@ -4,3 +4,4 @@ torch
 torchaudio
 streamlit_webrtc
 audio_recorder_streamlit

 torchaudio
 streamlit_webrtc
 audio_recorder_streamlit
+librosa