Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Paused

sh1gechan commited on Aug 7, 2024

Commit

6d1c2ae

verified ·

1 Parent(s): 167f442

Update src/leaderboard/read_evals.py

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -109,6 +109,7 @@ class EvalResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
@@ -118,15 +119,16 @@ class EvalResult:
             AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:
-            task_value = task.value
-            data_dict[task_value.col_name] = self.results[task_value.benchmark]
         return data_dict
@@ -185,7 +187,6 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
     results = []
     for v in eval_results.values():
-        print("v", v)
         try:
             v.to_dict() # we test if the dict version is complete
             results.append(v)

     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
+        average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
             AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
+            AutoEvalColumn.average.name: average,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
+        print("Tasks", Tasks)
         for task in Tasks:
+            data_dict[task.value.col_name] = self.results[task.value.benchmark]
         return data_dict
     results = []
     for v in eval_results.values():
         try:
             v.to_dict() # we test if the dict version is complete
             results.append(v)