evalita_llm_leaderboard

Running

App Files Files Community

rzanoli commited on Aug 21

Commit

c8225f5

1 Parent(s): 67324c2

Add charts

Browse files

Files changed (1) hide show

app.py +73 -0

app.py CHANGED Viewed

@@ -11,6 +11,71 @@ from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REP
 from src.populate import get_evaluation_queue_df, get_leaderboard_df
 from src.submission.submit import add_new_eval
 import random
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_MULTIPLECHOICE = {
@@ -79,6 +144,9 @@ def update_task_leaderboard(dataframe, default_selection=None, hidden_columns=No
     sorted_dataframe = dataframe.sort_values(by="Combined Performance", ascending=False)
     #print(sorted_dataframe['Combined Performance'])
     field_list = fields(AutoEvalColumn)
@@ -178,6 +246,11 @@ with demo:
                 hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]]
             )
         # About tab
         with gr.TabItem("📝 About"):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

 from src.populate import get_evaluation_queue_df, get_leaderboard_df
 from src.submission.submit import add_new_eval
 import random
+import matplotlib.pyplot as plt
+import re
+import plotly.express as px
+import plotly.graph_objects as go
+def line_chart(dataframe):
+    # Separiamo i dati in base a IS_FS
+    df_true = dataframe[dataframe['IS_FS'] == True]
+    df_false = dataframe[dataframe['IS_FS'] == False]
+    # Estrai valori x, y e labels per True e False
+    x_true = df_true['#Params (B)'].tolist()
+    y_true = df_true['Avg. Combined Performance ⬆️'].tolist()
+    labels_true = [
+        re.search(r'>([^<>/]+/[^<>]+)<', m).group(1).split('/')[-1]
+        for m in df_true['Model'].tolist()
+    ]
+    x_false = df_false['#Params (B)'].tolist()
+    y_false = df_false['Avg. Combined Performance ⬆️'].tolist()
+    labels_false = [
+        re.search(r'>([^<>/]+/[^<>]+)<', m).group(1).split('/')[-1]
+        for m in df_false['Model'].tolist()
+    ]
+    fig = go.Figure()
+    # Punti IS_FS=True
+    fig.add_trace(go.Scatter(
+        x=x_true,
+        y=y_true,
+        mode='markers',  # solo marker, niente testo
+        name='5-Few-Shot',
+        marker=dict(color='red', size=10),
+        hovertemplate='<b>%{customdata}</b><br>#Params: %{x}<br>Performance: %{y}<extra></extra>',
+        customdata=labels_true  # tutte le informazioni sul hover
+    ))
+    # Punti IS_FS=False
+    fig.add_trace(go.Scatter(
+        x=x_false,
+        y=y_false,
+        mode='markers',
+        name='0-Shot',
+        marker=dict(color='blue', size=10),
+        hovertemplate='<b>%{customdata}</b><br>#Params: %{x}<br>Performance: %{y}<extra></extra>',
+        customdata=labels_false
+    ))
+    fig.update_layout(
+        title="Avg. Combined Performance vs #Params",
+        xaxis_title="#Params (B)",
+        yaxis_title="Avg. Combined Performance ⬆️",
+        template="plotly_white",
+        hovermode="closest",
+        dragmode=False
+    )
+    # Disabilita lo zoom e altri controlli
+    fig.update_xaxes(fixedrange=True, rangeslider_visible=False)
+    fig.update_yaxes(fixedrange=True)
+    return fig
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_MULTIPLECHOICE = {
     sorted_dataframe = dataframe.sort_values(by="Combined Performance", ascending=False)
+    pd.set_option('display.max_colwidth', None)
+    #print("========================", dataframe['Model'])
     #print(sorted_dataframe['Combined Performance'])
     field_list = fields(AutoEvalColumn)
                 hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]]
             )
+        with gr.TabItem("Charts"):
+            #gr.Plot(value=line_chart(LEADERBOARD_DF), label="Andamento di esempio")
+            #gr.Plot(value=line_chart_interactive_test(), label="Andamento interattivo")
+            gr.Plot(value=line_chart(LEADERBOARD_DF))
         # About tab
         with gr.TabItem("📝 About"):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")