Spaces:

alexandrainst
/

radial-plot-generator

Running

saattrupdan commited on 17 days ago

Commit

637c71d

1 Parent(s): 4a4e1c1

fix: Use all datasets from a task, use ranks instead of log_ranks

Files changed (1) hide show

app.py CHANGED Viewed

@@ -647,8 +647,8 @@ def produce_radial_plot(
                         best_scores = scores
                 ranks.append(rank)
-            log_ranks = np.log(ranks)
-            scores = 1 - (log_ranks / log_ranks.max())
             for model_id, score in zip(model_ids_sorted, scores):
                 all_rank_scores[task][language][model_id] = score
     logger.info("Successfully computed rank scores.")
@@ -786,15 +786,22 @@ def fetch_results() -> dict[Language, pd.DataFrame]:
                     for test_score_dict in raw_results
                 ]
                 if dataset.task in data_dict[model_name]:
-                    data_dict[model_name][dataset.task].append(scores)
                 else:
-                    data_dict[model_name][dataset.task] = [scores]
         results_df = pd.DataFrame(data_dict).T.map(
             lambda lists_or_nan:
-                list(it.chain(lists_or_nan))
-                if lists_or_nan == lists_or_nan
                 else lists_or_nan
-        ).dropna().map(lambda lst: lst[0])
         results_dfs[language] = results_df
     logger.info("Successfully fetched results from ScandEval benchmark.")

                         best_scores = scores
                 ranks.append(rank)
+            ranks = np.asarray(ranks)
+            scores = 1 - (ranks / ranks.max())
             for model_id, score in zip(model_ids_sorted, scores):
                 all_rank_scores[task][language][model_id] = score
     logger.info("Successfully computed rank scores.")
                     for test_score_dict in raw_results
                 ]
                 if dataset.task in data_dict[model_name]:
+                    data_dict[model_name][dataset.task][dataset] = scores
                 else:
+                    data_dict[model_name][dataset.task] = {dataset: scores}
+        # Compute the task scores as the mean of the scores for each dataset
+        for model_name, task_dict in data_dict.items():
+            for task, dataset_dict in task_dict.items():
+                values = np.asarray(list(dataset_dict.values())).mean(axis=0)
+                data_dict[model_name][task] = values
         results_df = pd.DataFrame(data_dict).T.map(
             lambda lists_or_nan:
+                list(it.chain(*lists_or_nan))
+                if isinstance(lists_or_nan, list)
                 else lists_or_nan
+        ).dropna()
         results_dfs[language] = results_df
     logger.info("Successfully fetched results from ScandEval benchmark.")