Spaces:

romas-458
/

acr

Sleeping

App Files Files Community

roman commited on May 29, 2024

Commit

f9a3e58

1 Parent(s): 186a3b7

try new approach

Browse files

Files changed (1) hide show

app.py +21 -48

app.py CHANGED Viewed

@@ -1,61 +1,34 @@
 import streamlit as st
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
-import tempfile
-from pydub import AudioSegment
-import numpy as np
-import torch
-# Load the processor and model
-@st.cache_resource
-def load_model_and_processor():
-    processor = AutoProcessor.from_pretrained("arampacha/whisper-large-uk-2")
-    model = AutoModelForSpeechSeq2Seq.from_pretrained("arampacha/whisper-large-uk-2")
-    return processor, model
-st.title("Voice Recognition App using Whisper")
-st.write("Upload an audio file and the Whisper model will transcribe it to text.")
-# Load the processor and model
-processor, model = load_model_and_processor()
-st.write("Model loaded successfully.")
-# File uploader for audio file
-uploaded_file = st.file_uploader("Choose an audio file", type=["wav", "mp3", "m4a"])
 if uploaded_file is not None:
-    # Save the uploaded file temporarily
-    with tempfile.NamedTemporaryFile(delete=False) as temp_file:
-        temp_file.write(uploaded_file.read())
-        temp_file_path = temp_file.name
-    # Convert audio file to WAV format if necessary
-    audio = AudioSegment.from_file(temp_file_path)
-    temp_wav_path = tempfile.mktemp(suffix=".wav")
-    audio.export(temp_wav_path, format="wav")
-    st.audio(uploaded_file, format="audio/wav")
-    st.write("Transcribing audio...")
-    # Read the audio file
-    audio_input = AudioSegment.from_file(temp_wav_path).set_frame_rate(16000).set_channels(1)
-    audio_input = np.array(audio_input.get_array_of_samples(), dtype=np.float32)
-    # Normalize audio
-    audio_input = (audio_input - np.mean(audio_input)) / np.std(audio_input)
-    audio_input = torch.tensor(audio_input).unsqueeze(0)
-    # Process the audio
-    input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features
-    # Generate transcription
-    with torch.no_grad():
-        predicted_ids = model.generate(input_features)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-    st.write("Transcription:")
-    st.write(transcription)

 import streamlit as st
+import librosa
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+uploaded_file = st.file_uploader("上传文件", type="wav")
+processor = AutoProcessor.from_pretrained("Yehor/whisper-small-ukrainian")
+model = AutoModelForSpeechSeq2Seq.from_pretrained("Yehor/whisper-small-ukrainian")
+def map_to_pred(file_path):
+    # load audio file
+    audio, _ = librosa.load(file_path)
+    # preprocess audio and generate standard
+    input_features = processor([audio], return_tensors="pt", sampling_rate=16_000).input_features
+    generated_ids = model.generate(inputs=input_features)
+    transcription = processor.batch_decode(generated_ids, normalize=True, skip_special_tokens=True)
+    text = processor.tokenizer._normalize(transcription[0])
+    return text
 if uploaded_file is not None:
+    # convert file object to file path
+    file_path = './temp.wav'
+    with open(file_path, 'wb') as f:
+        f.write(uploaded_file.getbuffer())
+    text = map_to_pred(file_path)
+    # display results
+    st.write('Input audio:', uploaded_file.name)
+    st.write('Predicted standard:', text)