LiveBench

Runtime error

App Files Files Community

pufanyi commited on Jul 14, 2024

Commit

09c7b10

1 Parent(s): 95e674a

Refactor init_leaderboard function to handle multiple subsets and improve column selection and hiding

Browse files

Files changed (3) hide show

app.py +15 -25
src/display/utils.py +1 -0
src/populate.py +3 -1

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ from gradio_leaderboard import Leaderboard, ColumnFilter, SelectColumns
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import snapshot_download
 from src.about import (
     CITATION_BUTTON_LABEL,
@@ -67,37 +68,26 @@ except Exception:
 LEADERBOARD_DF = get_leaderboard_df(RESULTS_REPO)
-def init_leaderboard(dataframes):
     if dataframes is None or not dataframes:
         raise ValueError("Leaderboard data is empty or None.")
-    def create_leaderboard(df):
-        return Leaderboard(
-            value=df,
-            datatype=[c.type for c in fields(AutoEvalColumn)],
-            select_columns=SelectColumns(
-                default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
-                cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
-                label="Select Columns to Display:",
-            ),
-            search_columns=[AutoEvalColumn.model.name],
-            hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-            filter_columns=[],
-            interactive=False,
-        )
-    subset_names = list(dataframes.keys())
-    selected_subset = gr.Dropdown(choices=subset_names, label="Select Dataset Subset", value=subset_names[0])
-    leaderboard = gr.Dynamic(create_leaderboard, inputs=[selected_subset], outputs="output")
-    selected_subset.change(
-        fn=lambda x: create_leaderboard(dataframes[x]),
-        inputs=[selected_subset],
-        outputs=leaderboard
     )
-    return leaderboard
 demo = gr.Blocks(css=custom_css)
 with demo:
     gr.HTML(TITLE)

 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import snapshot_download
+# from fastchat.serve.monitor.monitor import build_leaderboard_tab, build_basic_stats_tab, basic_component_values, leader_component_values
 from src.about import (
     CITATION_BUTTON_LABEL,
 LEADERBOARD_DF = get_leaderboard_df(RESULTS_REPO)
+def init_leaderboard(dataframes, subsets):
     if dataframes is None or not dataframes:
         raise ValueError("Leaderboard data is empty or None.")
+    selected_subset = gr.Dropdown(choices=subsets, label="Select Dataset Subset", value=subsets[0])
+    return Leaderboard(
+        value=dataframes,
+        datatype=[c.type for c in fields(AutoEvalColumn)],
+        select_columns=SelectColumns(
+            default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
+            cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
+            label="Select Columns to Display:",
+        ),
+        search_columns=[AutoEvalColumn.model.name],
+        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
+        filter_columns=[],
+        interactive=False,
     )
 demo = gr.Blocks(css=custom_css)
 with demo:
     gr.HTML(TITLE)

src/display/utils.py CHANGED Viewed

@@ -33,6 +33,7 @@ auto_eval_column_dict.append(
 auto_eval_column_dict.append(["Overall", ColumnContent, ColumnContent("Total", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 auto_eval_column_dict.append(["Overall", ColumnContent, ColumnContent("Total", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
+auto_eval_column_dict.append(["Dataset Version", ColumnContent, ColumnContent("Dataset Version", "str", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

src/populate.py CHANGED Viewed

@@ -18,5 +18,7 @@ def get_leaderboard_df(results_repo):
         subset_df = subset_df.sort_values(by="Total", ascending=False)
         subset_df = subset_df.round(2)  # Round all numeric columns to two decimal places
         print(subset_df)
         subset_dfs[subset] = subset_df
-    return subset_dfs

         subset_df = subset_df.sort_values(by="Total", ascending=False)
         subset_df = subset_df.round(2)  # Round all numeric columns to two decimal places
         print(subset_df)
+        subset_df["Dataset Version"] = [subset] * len(subset_df)
         subset_dfs[subset] = subset_df
+    df = pd.concat(subset_dfs.values())
+    return df, subset_dfs.keys()