Spaces:

satyamr196
/

ASR-FairBench-Server

Running

App Files Files Community

satyamr196 commited on May 15

Commit

fdc104d

1 Parent(s): 90d2e58

1) added model id sanitization i.e. removing invaid character as per hugging face \

Browse files

2) Added proper validation using huggingface_hub model_info to check if requested model is available on hugging face

Files changed (3) hide show

ASR_Server.py +15 -3
requirements.txt +2 -1
utils/model_validity.py +16 -0

ASR_Server.py CHANGED Viewed

@@ -3,11 +3,13 @@ from flask_cors import CORS
 from datasets import load_dataset, Audio
 import pandas as pd
 import os
 import threading
 from dotenv import load_dotenv
 from utils.load_csv import upload_csv, download_csv
 from utils.generate_results import generateResults
 from utils.generate_box_plot import box_plot_data
 # Set the cache directory for Hugging Face datasets
 os.environ["HF_HOME"] = "/tmp/huggingface"
@@ -132,8 +134,14 @@ def generateTranscript(ASR_model):
     df["transcript"] = transcripts
     df["rtfx"] = rtfx_score
-    job_status["running"] = False
-    job_status["message"] = "Transcription completed."
     # df.to_csv(csv_result, index=False)
     upload_csv(df, csv_transcript)
     print(f"\n📄 Transcripts saved to: {csv_transcript}")
@@ -187,10 +195,14 @@ def get_status():
 @app.route('/api', methods=['GET'])
 def api():
     model = request.args.get('ASR_model', default="", type=str)
     csv_transcript = f'test_with_{model.replace("/","_")}.csv'
     csv_result = f'test_with_{model.replace("/","_")}_WER.csv'
     if not model:
-        return jsonify({'error': 'ASR_model parameter is required'}), 400  # Return 400 if model is missing
     elif (download_csv(csv_transcript) is not None):
         # Load the CSV file from the Hugging Face Hub
         Results = generateResults(model)

 from datasets import load_dataset, Audio
 import pandas as pd
 import os
+import re
 import threading
 from dotenv import load_dotenv
 from utils.load_csv import upload_csv, download_csv
 from utils.generate_results import generateResults
 from utils.generate_box_plot import box_plot_data
+from utils.model_validity import is_valid_asr_model
 # Set the cache directory for Hugging Face datasets
 os.environ["HF_HOME"] = "/tmp/huggingface"
     df["transcript"] = transcripts
     df["rtfx"] = rtfx_score
+    job_status.update({
+        "running": False,
+        "model": None,
+        "completed": None,
+        "%_completed" : None,
+        "message": "No Transcription in progress",
+        "total": None
+    })
     # df.to_csv(csv_result, index=False)
     upload_csv(df, csv_transcript)
     print(f"\n📄 Transcripts saved to: {csv_transcript}")
 @app.route('/api', methods=['GET'])
 def api():
     model = request.args.get('ASR_model', default="", type=str)
+    # model = re.sub(r"\s+", "", model)
+    model = re.sub(r"[^a-zA-Z0-9/_\-.]", "", model) # sanitize the model ID
     csv_transcript = f'test_with_{model.replace("/","_")}.csv'
     csv_result = f'test_with_{model.replace("/","_")}_WER.csv'
     if not model:
+        return jsonify({'error': 'ASR_model parameter is required'})
+    elif not is_valid_asr_model(model):
+        return jsonify({'message': 'Invalid ASR model ID, please check if your model is available on Hugging Face'}), 400  # Return 400 if model is invalid
     elif (download_csv(csv_transcript) is not None):
         # Load the CSV file from the Hugging Face Hub
         Results = generateResults(model)

requirements.txt CHANGED Viewed

@@ -15,4 +15,5 @@ pymongo
 flask-cors
 pandas
 tqdm
-dotenv

 flask-cors
 pandas
 tqdm
+dotenv
+huggingface_hub

utils/model_validity.py ADDED Viewed

	@@ -0,0 +1,16 @@

+from huggingface_hub import model_info
+from huggingface_hub.utils import RepositoryNotFoundError
+import re
+def is_valid_asr_model(model_id: str) -> bool:
+    try:
+        model_id = re.sub(r"[^a-zA-Z0-9/_\-.]", "", model_id)  # Sanitize the model ID
+        info = model_info(model_id)
+        # Optionally check if it's an ASR model (i.e., "automatic-speech-recognition" in the tags)
+        return "automatic-speech-recognition" in info.tags
+    except RepositoryNotFoundError:
+        return False
+# Test examples
+# print(is_valid_asr_model("facebook/hubert-large-ls960-ft"))     # True
+# print(is_valid_asr_model("facebook/hubert-largeXX-ls960-ft"))   # False