Spaces:

silma-ai
/

Arabic-LLM-Broad-Leaderboard

Running

App Files Files Community

karimouda commited on Apr 21

Commit

42d6492

1 Parent(s): 5202df9

Fix UI loading

Browse files

Files changed (4) hide show

app.py +4 -4
src/display/utils.py +9 -7
src/leaderboard/read_evals.py +29 -27
src/submission/submit.py +1 -1

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 from gradio_leaderboard import Leaderboard, ColumnFilter, SelectColumns
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
-from huggingface_hub import snapshot_download
 from src.about import (
     CITATION_BUTTON_LABEL,
@@ -19,10 +19,10 @@ from src.display.utils import (
     EVAL_COLS,
     EVAL_TYPES,
     AutoEvalColumn,
-    ModelType,
     fields,
-    WeightType,
-    Precision
 )
 from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.populate import get_evaluation_queue_df, get_leaderboard_df

 from gradio_leaderboard import Leaderboard, ColumnFilter, SelectColumns
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
+#from huggingface_hub import snapshot_download
 from src.about import (
     CITATION_BUTTON_LABEL,
     EVAL_COLS,
     EVAL_TYPES,
     AutoEvalColumn,
+   # ModelType,
     fields,
+    #WeightType,
+    #Precision
 )
 from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.populate import get_evaluation_queue_df, get_leaderboard_df

src/display/utils.py CHANGED Viewed

@@ -31,14 +31,14 @@ for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
@@ -60,8 +60,10 @@ class ModelDetails:
     display_name: str = ""
     symbol: str = "" # emoji
 class ModelType(Enum):
     PT = ModelDetails(name="pretrained", symbol="🟢")
     FT = ModelDetails(name="fine-tuned", symbol="🔶")
     IFT = ModelDetails(name="instruction-tuned", symbol="⭕")
@@ -99,7 +101,7 @@ class Precision(Enum):
         if precision in ["torch.bfloat16", "bfloat16"]:
             return Precision.bfloat16
         return Precision.Unknown
 # Column selection
 COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]

     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
+#auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
+#auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+#auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
+#auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
+#auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
     display_name: str = ""
     symbol: str = "" # emoji
+"""
 class ModelType(Enum):
     PT = ModelDetails(name="pretrained", symbol="🟢")
     FT = ModelDetails(name="fine-tuned", symbol="🔶")
     IFT = ModelDetails(name="instruction-tuned", symbol="⭕")
         if precision in ["torch.bfloat16", "bfloat16"]:
             return Precision.bfloat16
         return Precision.Unknown
+"""
 # Column selection
 COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]

src/leaderboard/read_evals.py CHANGED Viewed

@@ -8,7 +8,7 @@ import dateutil
 import numpy as np
 from src.display.formatting import make_clickable_model
-from src.display.utils import AutoEvalColumn, ModelType, Tasks, Precision, WeightType
 from src.submission.check_validity import is_model_on_hub
@@ -20,12 +20,13 @@ class EvalResult:
     full_model: str # org/model (path on hub)
     org: str
     model: str
-    revision: str # commit hash, "" if main
     results: dict
-    precision: Precision = Precision.Unknown
-    model_type: ModelType = ModelType.Unknown # Pretrained, fine tuned, ...
-    weight_type: WeightType = WeightType.Original # Original or Adapter
-    architecture: str = "Unknown"
     license: str = "?"
     likes: int = 0
     num_params: int = 0
@@ -41,54 +42,55 @@ class EvalResult:
         config = data.get("config")
         # Precision
-        precision = Precision.from_str(config.get("model_dtype"))
         # Get model and org
-        org_and_model = config.get("model_name", config.get("model_args", None))
         org_and_model = org_and_model.split("/", 1)
         if len(org_and_model) == 1:
             org = None
             model = org_and_model[0]
-            result_key = f"{model}_{precision.value.name}"
         else:
             org = org_and_model[0]
             model = org_and_model[1]
-            result_key = f"{org}_{model}_{precision.value.name}"
         full_model = "/".join(org_and_model)
         still_on_hub, _, model_config = is_model_on_hub(
             full_model, config.get("model_sha", "main"), trust_remote_code=True, test_tokenizer=False
         )
-        ##make still_on_hub always true for now:
-        still_on_hub = True
         architecture = "?"
         if model_config is not None:
             architectures = getattr(model_config, "architectures", None)
             if architectures:
                 architecture = ";".join(architectures)
         # Extract results available in this file (some results are split in several files)
         results = {}
         results_obj = data.get("results")
         print(results_obj)
-        results["average"] = results_obj.get("average").get("score")
-        results["speed"] = results_obj.get("speed").get("spq")
-        results["contamination"] = results_obj.get("contamination").get("score")
         return self(
             eval_name=result_key,
             full_model=full_model,
             org=org,
             model=model,
             results=results,
-            precision=precision,
             revision= config.get("model_sha", ""),
             still_on_hub=still_on_hub,
-            architecture=architecture
         )
     def update_with_request_file(self, requests_path):
@@ -98,8 +100,8 @@ class EvalResult:
             with open(request_file, "r") as f:
                 request = json.load(f)
-            self.model_type = ModelType.from_str(request.get("model_type", ""))
-            self.weight_type = WeightType[request.get("weight_type", "Original")]
             self.license = request.get("license", "?")
             self.likes = request.get("likes", 0)
             self.num_params = request.get("params", 0)
@@ -112,13 +114,13 @@ class EvalResult:
         average = self.results["average"]
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
-            AutoEvalColumn.precision.name: self.precision.value.name,
-            AutoEvalColumn.model_type.name: self.model_type.value.name,
-            AutoEvalColumn.model_type_symbol.name: self.model_type.value.symbol,
-            AutoEvalColumn.weight_type.name: self.weight_type.value.name,
-            AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
-            AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.average.name: average,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
@@ -149,7 +151,7 @@ def get_request_file_for_model(requests_path, model_name, precision):
             req_content = json.load(f)
             if (
                 req_content["status"] in ["FINISHED"]
-                and req_content["precision"] == precision.split(".")[-1]
             ):
                 request_file = tmp_request_file
     return request_file

 import numpy as np
 from src.display.formatting import make_clickable_model
+from src.display.utils import AutoEvalColumn, Tasks#, ModelType, Precision, WeightType
 from src.submission.check_validity import is_model_on_hub
     full_model: str # org/model (path on hub)
     org: str
     model: str
+    #revision: str # commit hash, "" if main
     results: dict
+    #precision: Precision = Precision.Unknown
+    #model_type: ModelType = ModelType.Unknown # Pretrained, fine tuned, ...
+    model_source: str = "" # HF, private, ...
+    #weight_type: WeightType = WeightType.Original # Original or Adapter
+    #architecture: str = "Unknown"
     license: str = "?"
     likes: int = 0
     num_params: int = 0
         config = data.get("config")
         # Precision
+        #precision = Precision.from_str(config.get("model_dtype"))
         # Get model and org
+        org_and_model = config.get("model", config.get("model_args", None))
+        print("******* org_and_model **********", config)
         org_and_model = org_and_model.split("/", 1)
         if len(org_and_model) == 1:
             org = None
             model = org_and_model[0]
+            result_key = f"{model}"#_{precision.value.name}
         else:
             org = org_and_model[0]
             model = org_and_model[1]
+            result_key = f"{org}_{model}"#_{precision.value.name}
         full_model = "/".join(org_and_model)
         still_on_hub, _, model_config = is_model_on_hub(
             full_model, config.get("model_sha", "main"), trust_remote_code=True, test_tokenizer=False
         )
+        """
         architecture = "?"
         if model_config is not None:
             architectures = getattr(model_config, "architectures", None)
             if architectures:
                 architecture = ";".join(architectures)
+        """
         # Extract results available in this file (some results are split in several files)
         results = {}
         results_obj = data.get("results")
         print(results_obj)
+        results["average_score"] = results_obj.get("average_score")
+        results["speed"] = results_obj.get("speed")
+        results["contamination_score"] = results_obj.get("contamination_score")
         return self(
             eval_name=result_key,
             full_model=full_model,
             org=org,
             model=model,
+            model_source=config.get("model_source", ""),
             results=results,
+            #precision=precision,
             revision= config.get("model_sha", ""),
             still_on_hub=still_on_hub,
+            #architecture=architecture
         )
     def update_with_request_file(self, requests_path):
             with open(request_file, "r") as f:
                 request = json.load(f)
+            #self.model_type = ModelType.from_str(request.get("model_type", ""))
+            #self.weight_type = WeightType[request.get("weight_type", "Original")]
             self.license = request.get("license", "?")
             self.likes = request.get("likes", 0)
             self.num_params = request.get("params", 0)
         average = self.results["average"]
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
+            #AutoEvalColumn.precision.name: self.precision.value.name,
+            AutoEvalColumn.model_source.name: self.model_source.value.name,
+            #AutoEvalColumn.model_type_symbol.name: self.model_type.value.symbol,
+            #AutoEvalColumn.weight_type.name: self.weight_type.value.name,
+            #AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
+            #AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.average.name: average,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             req_content = json.load(f)
             if (
                 req_content["status"] in ["FINISHED"]
+                #and req_content["precision"] == precision.split(".")[-1]
             ):
                 request_file = tmp_request_file
     return request_file

src/submission/submit.py CHANGED Viewed

@@ -172,5 +172,5 @@ def add_new_eval(
     return styled_message(
-        "Thank you for submitting your request! It has been placed in the evaluation queue. Please allow up to 15 minutes for the model to appear in the PENDING list"
     )

     return styled_message(
+        "Thank you for submitting your request! It has been placed in the evaluation queue. You can except the eval to be completed in 1 hour."
     )