Spaces:

satyamr196
/

ASR-FairBench-Server

Running

App Files Files Community

satyamr196 commited on May 12

Commit

30b7603

1 Parent(s): f82f487

added generate transcript fxn

Browse files

Files changed (3) hide show

ASR_Server.py +172 -0
requirements.txt +15 -0
test.csv +0 -0

ASR_Server.py CHANGED Viewed

@@ -1,4 +1,174 @@
 from flask import Flask, jsonify
 app = Flask(__name__)
@@ -25,6 +195,8 @@ def asr_models():
         "Fairseq S2T",
         "ESPnet"
     ]
     return jsonify({"asr_models": models})
 # if __name__ == "__main__":

 from flask import Flask, jsonify
+from datasets import load_dataset, Audio
+import pandas as pd
+import os
+# Load dataset without decoding audio (required!)
+dataset = load_dataset("satyamr196/asr_fairness_audio", split="train")
+# dataset = dataset.with_format("python", decode_audio=False)
+dataset = dataset.cast_column("audio", Audio(decode=False))
+print("    ___    ")
+csv_path = "test.csv"
+df = pd.read_csv(csv_path)
+print(f"CSV Loaded with {len(df)} rows")
+# def generateTranscript(ASR_model, dataset, csv_path, output_dir="./"):
+#     import os
+#     import time
+#     import pandas as pd
+#     import librosa
+#     import tqdm
+#     from transformers import pipeline
+#     os.makedirs(output_dir, exist_ok=True)
+#     # output_csv_path = os.path.join(output_dir, f"test_with_{ASR_model.replace('/', '_')}.csv")
+#     output_csv_path = os.path.join(output_dir, f"test_with_{ASR_model}.csv")
+#     if os.path.exists(output_csv_path):
+#         print(f"Transcript already exists for model {ASR_model}. Skipping transcription.")
+#         return
+#     # Load metadata CSV
+#     df = pd.read_csv(csv_path)
+#     print(f"CSV Loaded with {len(df)} rows")
+#     # Prepare
+#     df[df.columns[0]] = df[df.columns[0]].str.strip().str.lower()
+#     filename_column = df.columns[0]
+#     transcripts = []
+#     rtfx_score = []
+#     # Load ASR model
+#     pipe = pipeline("automatic-speech-recognition", model=ASR_model)
+#     # Create a map of dataset samples by file name (assumes filename is in dataset)
+#     dataset_map = {
+#         sample["audio"]["path"].split("/")[-1].lower(): sample for sample in dataset
+#     }
+#     for idx, row in tqdm.tqdm(df.iterrows(), total=len(df)):
+#         filename = row[filename_column].strip().lower() + ".wav"
+#         if filename in dataset_map:
+#             sample = dataset_map[filename]
+#             try:
+#                 audio_array = sample["audio"]["array"]
+#                 sample_rate = sample["audio"]["sampling_rate"]
+#                 start_time = time.time()
+#                 result = pipe({"array": audio_array, "sampling_rate": sample_rate})
+#                 end_time = time.time()
+#                 transcript = result["text"]
+#                 duration = librosa.get_duration(y=audio_array, sr=sample_rate)
+#                 rtfx = (end_time - start_time) / duration if duration > 0 else 0
+#                 transcripts.append(transcript)
+#                 rtfx_score.append(rtfx)
+#                 print(f"✅ {filename}: RTFX = {rtfx:.2f}")
+#             except Exception as e:
+#                 print(f"❌ Error with {filename}: {e}")
+#                 transcripts.append("")
+#                 rtfx_score.append(0)
+#         else:
+#             print(f"⚠️ File not in dataset: {filename}")
+#             transcripts.append("")
+#             rtfx_score.append(0)
+#     # Append to original DataFrame
+#     df['transcript'] = transcripts
+#     df['rtfx'] = rtfx_score
+#     df.to_csv(output_csv_path, index=False)
+#     print(f"✅ Transcripts saved to {output_csv_path}")
+def generateTranscript(ASR_model, dataset, csv_path, output_dir="./"):
+    import os
+    import time
+    import tqdm
+    import pandas as pd
+    import soundfile as sf
+    from transformers import pipeline
+    output_csv_path = os.path.join("./", f"test_with_{ASR_model}.csv")
+    # Check if transcript already exists
+    if os.path.exists(output_csv_path):
+        print(f"Transcript already exists for model {ASR_model}. Skipping transcription.")
+        return
+    # Load CSV
+    df = pd.read_csv(csv_path)
+    print(f"CSV Loaded with {len(df)} rows")
+    # Initialize ASR pipeline
+    pipe = pipeline("automatic-speech-recognition", model=ASR_model, device=-1)
+    print("Device set to use CPU")
+    # Column with filenames in the CSV
+    filename_column = df.columns[0]
+    df[filename_column] = df[filename_column].str.strip().str.lower()
+    # Build map from filename -> dataset sample (without decoding audio)
+    print("Creating dataset map from filenames...")
+    # dataset = dataset.with_format("python", decode_audio=False)
+    dataset_map = {
+        os.path.basename(sample["audio"]["path"]).lower(): sample
+        for sample in dataset
+    }
+    transcripts = []
+    rtfx_score = []
+    for idx, row in tqdm.tqdm(df.iterrows(), total=len(df)):
+        filename = row[filename_column] + ".wav"
+        if filename in dataset_map:
+            sample = dataset_map[filename]
+            try:
+                # Decode audio only when needed
+                file_path = sample["audio"]["path"]
+                audio_array, sample_rate = sf.read(file_path)
+                start_time = time.time()
+                result = pipe({"array": audio_array, "sampling_rate": sample_rate})
+                end_time = time.time()
+                transcript = result["text"]
+                duration = len(audio_array) / sample_rate
+                rtfx = (end_time - start_time) / duration if duration > 0 else 0
+                transcripts.append(transcript)
+                rtfx_score.append(rtfx)
+                print(f"✅ {filename}: RTFX = {rtfx:.2f}")
+            except Exception as e:
+                print(f"❌ Error with {filename}: {e}")
+                transcripts.append("")
+                rtfx_score.append(0)
+        else:
+            print(f"❌ File not found in dataset: {filename}")
+            transcripts.append("")
+            rtfx_score.append(0)
+    # Save results
+    df["transcript"] = transcripts
+    df["rtfx"] = rtfx_score
+    os.makedirs(output_dir, exist_ok=True)
+    # Create the directory if it doesn't exist
+    output_dir = os.path.dirname(os.path.join(output_dir, f"test_with_{ASR_model}.csv")) # Get the directory path
+    if not os.path.exists(output_dir):  # Check if directory exists
+        os.makedirs(output_dir)  # Create directory if it doesn't exist
+        print(f"Created directory: {output_dir}")
+    df.to_csv(output_csv_path, index=False)
+    print(f"\n📄 Transcripts saved to: {output_csv_path}")
 app = Flask(__name__)
         "Fairseq S2T",
         "ESPnet"
     ]
+    generateTranscript("openai/whisper-base", dataset, csv_path, output_dir="./") ;
+    # print("Transcript generation completed.")
     return jsonify({"asr_models": models})
 # if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -1,2 +1,17 @@
 flask
 gunicorn

 flask
 gunicorn
+soundfile>=0.10.3
+librosa
+transformers
+datasets
+torch
+pydub
+jiwer
+statsmodels
+matplotlib
+seaborn
+flask
+pymongo
+flask-cors
+pandas
+tqdm

test.csv ADDED Viewed

The diff for this file is too large to render. See raw diff