Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

hysts HF Staff commited on Oct 25, 2024

Commit

a44a96e

1 Parent(s): 1d28680

Add graph for average scores

Browse files

Files changed (1) hide show

app.py +42 -0

app.py CHANGED Viewed

@@ -328,6 +328,39 @@ def plot_size_vs_score(df: pd.DataFrame, hidden_df: pd.DataFrame) -> go.Figure:
     return fig
 SELECT_ALL_BUTTON_LABEL = "Select All"
 SELECT_ALL_BUTTON_LABEL_JA = "全選択"
 SELECT_NONE_BUTTON_LABEL = "Select None"
@@ -458,6 +491,7 @@ with gr.Blocks() as demo_leaderboard:
     )
     graph_size_vs_score = gr.Plot(label="Model size vs. Average score")
     # Dummy leaderboard for handling the case when the user uses backspace key
     hidden_leaderboard_table_for_search = gr.Dataframe(
@@ -526,6 +560,14 @@ with gr.Blocks() as demo_leaderboard:
         queue=False,
     )
     # Check query parameter once at startup and update search bar + hidden component
     demo_leaderboard.load(fn=load_query, outputs=[search_bar, hidden_search_bar])

     return fig
+def plot_average_scores(df: pd.DataFrame, hidden_df: pd.DataFrame) -> go.Figure:
+    df2 = hidden_df.iloc[df.index]
+    df2 = df2[["model_name_for_query"] + [column for column in df.columns if column.startswith("AVG ")]]
+    df2 = df2.rename(columns={"model_name_for_query": "Model"})
+    df2 = df2.rename(
+        columns={
+            column: column.replace("AVG (", "").replace(")", "") for column in df2.columns if column.startswith("AVG ")
+        }
+    )
+    df2 = df2.set_index("Model").astype(float)
+    fig = go.Figure()
+    for i, (name, row) in enumerate(df2.iterrows()):
+        visible = True if i < 3 else "legendonly"  # Display only the first 3 models
+        fig.add_trace(
+            go.Scatterpolar(
+                r=row.values,
+                theta=row.index,
+                fill="toself",
+                name=name,
+                hovertemplate="%{theta}: %{r}",
+                visible=visible,
+            )
+        )
+    fig.update_layout(
+        polar={
+            "radialaxis": {"range": [0, 1]},
+        },
+        showlegend=True,
+    )
+    return fig
 SELECT_ALL_BUTTON_LABEL = "Select All"
 SELECT_ALL_BUTTON_LABEL_JA = "全選択"
 SELECT_NONE_BUTTON_LABEL = "Select None"
     )
     graph_size_vs_score = gr.Plot(label="Model size vs. Average score")
+    graph_average_scores = gr.Plot(label="Model Performance across Task Categories")
     # Dummy leaderboard for handling the case when the user uses backspace key
     hidden_leaderboard_table_for_search = gr.Dataframe(
         queue=False,
     )
+    leaderboard_table.change(
+        fn=plot_average_scores,
+        inputs=[leaderboard_table, hidden_leaderboard_table_for_search],
+        outputs=graph_average_scores,
+        api_name=False,
+        queue=False,
+    )
     # Check query parameter once at startup and update search bar + hidden component
     demo_leaderboard.load(fn=load_query, outputs=[search_bar, hidden_search_bar])