Spaces:

LLM360
/

de-arena

Running

yzabc007 commited on Oct 8, 2024

Commit

826f447

1 Parent(s): bbcf980

Update space

Files changed (2) hide show

src/display/utils.py CHANGED Viewed

@@ -51,7 +51,7 @@ auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model", ColumnContent, field(default_factory=lambda: ColumnContent("Model", "markdown", True, never_hidden=True))])
-auto_eval_column_dict.append(["license", ColumnContent, field(default_factory=lambda: ColumnContent("Hub License", "str", False))])
 # new columns
 for domain in Domains:
@@ -59,7 +59,8 @@ for domain in Domains:
 auto_eval_column_dict.append(["organization", ColumnContent, field(default_factory=lambda: ColumnContent("Organization", "str", False))])
 auto_eval_column_dict.append(["knowledge_cutoff", ColumnContent, field(default_factory=lambda: ColumnContent("Knowledge cutoff", "str", False))])
-auto_eval_column_dict.append(["score", ColumnContent, field(default_factory=lambda: ColumnContent("Score", "number", True))])
 auto_eval_column_dict.append(["rank", ColumnContent, field(default_factory=lambda: ColumnContent("Rank", "number", True))])

 # Init
 auto_eval_column_dict.append(["model", ColumnContent, field(default_factory=lambda: ColumnContent("Model", "markdown", True, never_hidden=True))])
+auto_eval_column_dict.append(["license", ColumnContent, field(default_factory=lambda: ColumnContent("License", "str", False))])
 # new columns
 for domain in Domains:
 auto_eval_column_dict.append(["organization", ColumnContent, field(default_factory=lambda: ColumnContent("Organization", "str", False))])
 auto_eval_column_dict.append(["knowledge_cutoff", ColumnContent, field(default_factory=lambda: ColumnContent("Knowledge cutoff", "str", False))])
+auto_eval_column_dict.append(["score", ColumnContent, field(default_factory=lambda: ColumnContent("Average Score", "number", True))])
+auto_eval_column_dict.append(["score_sd", ColumnContent, field(default_factory=lambda: ColumnContent("Score SD", "number", True))])
 auto_eval_column_dict.append(["rank", ColumnContent, field(default_factory=lambda: ColumnContent("Rank", "number", True))])

src/leaderboard/read_evals.py CHANGED Viewed

@@ -63,6 +63,7 @@ class ModelResult:
             AutoEvalColumn.rank.name: None, # placeholder for the rank
             AutoEvalColumn.model.name: self.model,
             AutoEvalColumn.score.name: self.results[Domains.dim0.value.dimension],
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.organization.name: self.org,
             AutoEvalColumn.knowledge_cutoff.name: self.knowledge_cutoff,
@@ -82,8 +83,8 @@ class ModelResult:
         # for task in Tasks:
         #     data_dict[task.value.col_name] = self.results[task.value.benchmark]
-        for domain in Domains:
-            data_dict[domain.value.col_name] = self.results[domain.value.dimension]
         return data_dict

             AutoEvalColumn.rank.name: None, # placeholder for the rank
             AutoEvalColumn.model.name: self.model,
             AutoEvalColumn.score.name: self.results[Domains.dim0.value.dimension],
+            AutoEvalColumn.score_sd.name: None, # placeholder for the score sd
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.organization.name: self.org,
             AutoEvalColumn.knowledge_cutoff.name: self.knowledge_cutoff,
         # for task in Tasks:
         #     data_dict[task.value.col_name] = self.results[task.value.benchmark]
+        # for domain in Domains:
+        #     data_dict[domain.value.col_name] = self.results[domain.value.dimension]
         return data_dict