Spaces:

juancauma
/

rome-leaderboard

Runtime error

App Files Files Community

juancauma commited on Mar 17

Commit

91c704c

1 Parent(s): 9375c76

reverse the update, it broke everything

Browse files

Files changed (2) hide show

app.py +38 -193
requirements.txt +1 -2

app.py CHANGED Viewed

@@ -3,8 +3,6 @@ import pandas as pd
 import json
 import os
 from glob import glob
-import plotly.express as px
-import plotly.graph_objects as go
 def load_model_results():
     """Load all model results from JSON files in the submissions directory."""
@@ -34,63 +32,15 @@ def load_model_results():
     return results
-def create_metrics_plot(df):
-    """Create a radar chart for the top 5 models."""
-    top_5_df = df.head(5)
-    metrics = ['Conversation Consistency', 'Backend Consistency', 'Policy Completeness']
-    fig = go.Figure()
-    for _, row in top_5_df.iterrows():
-        fig.add_trace(go.Scatterpolar(
-            r=[row[metric] for metric in metrics],
-            theta=metrics,
-            name=row['Model'],
-            fill='toself'
-        ))
-    fig.update_layout(
-        polar=dict(
-            radialaxis=dict(
-                visible=True,
-                range=[0, 1]
-            )),
-        showlegend=True,
-        title="Top 5 Models Performance Comparison"
-    )
-    return fig
-def create_bar_chart(df):
-    """Create a bar chart comparing average scores."""
-    fig = px.bar(
-        df,
-        x='Model',
-        y='Average Score',
-        color='Average Score',
-        title="Model Performance Comparison",
-        color_continuous_scale='viridis'
-    )
-    fig.update_layout(
-        xaxis_tickangle=-45,
-        height=400
-    )
-    return fig
-def create_leaderboard(sort_by="Average Score", ascending=False):
-    """
-    Create and format the leaderboard DataFrame.
-    Args:
-        sort_by (str): Column to sort by
-        ascending (bool): Sort in ascending order if True, descending if False
-    """
     results = load_model_results()
     if not results:
-        empty_df = pd.DataFrame(columns=[
-            "Rank", "Model", "Average Score", "Conversation Consistency",
-            "Backend Consistency", "Policy Completeness",
-            "Total Dialogues", "Total Turns", "Judge Model", "Judge Client"
         ])
-        return empty_df, None, None
     df = pd.DataFrame(results)
     df = df.rename(columns={
@@ -104,158 +54,53 @@ def create_leaderboard(sort_by="Average Score", ascending=False):
         'judge_client': 'Judge Client'
     })
-    # Calculate average score
-    score_columns = ['Conversation Consistency', 'Backend Consistency', 'Policy Completeness']
-    df['Average Score'] = df[score_columns].mean(axis=1)
     # Round floating point numbers to 4 decimal places
-    float_columns = score_columns + ['Average Score']
     df[float_columns] = df[float_columns].round(4)
-    # Sort by specified column
-    df = df.sort_values(sort_by, ascending=ascending)
-    # Add rank column
-    df.insert(0, 'Rank', range(1, len(df) + 1))
-    # Reorder columns
-    columns = ['Rank', 'Model', 'Average Score'] + score_columns + [
-        'Total Dialogues', 'Total Turns', 'Judge Model', 'Judge Client'
-    ]
-    df = df[columns]
-    # Create visualizations
-    radar_chart = create_metrics_plot(df)
-    bar_chart = create_bar_chart(df)
-    return df, radar_chart, bar_chart
-def sort_leaderboard(sort_column):
-    """Sort the leaderboard by the specified column."""
-    current_sort = getattr(sort_leaderboard, 'current_sort', None)
-    current_ascending = getattr(sort_leaderboard, 'current_ascending', False)
-    if current_sort == sort_column:
-        sort_leaderboard.current_ascending = not current_ascending
-    else:
-        sort_leaderboard.current_ascending = False
-    sort_leaderboard.current_sort = sort_column
-    return create_leaderboard(sort_column, sort_leaderboard.current_ascending)
-with gr.Blocks(
-    title="Rome Leaderboard",
-    theme=gr.themes.Soft(
-        primary_hue="blue",
-        secondary_hue="indigo",
-    ),
-    css="""
-    .container {
-        max-width: 1200px;
-        margin: auto;
-    }
-    .title {
-        text-align: center;
-        margin-bottom: 1rem;
-    }
-    .metrics-description {
-        background-color: #f8f9fa;
-        padding: 1rem;
-        border-radius: 8px;
-        margin: 1rem 0;
-    }
-    .footer {
-        text-align: center;
-        margin-top: 2rem;
-        padding: 1rem;
-        background-color: #f8f9fa;
-        border-radius: 8px;
-    }
-    .visualization {
-        margin: 1rem 0;
-        padding: 1rem;
-        background-color: white;
-        border-radius: 8px;
-        box-shadow: 0 2px 4px rgba(0,0,0,0.1);
-    }
-    """
-) as demo:
-    with gr.Column(elem_classes="container"):
-        gr.Markdown("# 🏆 Rome Model Evaluation Leaderboard", elem_classes="title")
-        with gr.Box(elem_classes="metrics-description"):
-            gr.Markdown("""
-            ### Evaluation Metrics
-            This leaderboard displays model performance across multiple evaluation metrics:
-            - **Conversation Consistency**: Measures the consistency in model conversations
-            - **Backend Consistency**: Evaluates backend interaction consistency
-            - **Policy Completeness**: Assesses completion of policy requirements
-            Models are ranked by their average score across these metrics. Click on any column header to sort by that metric.
-            The **Average Score** column shows the mean of all performance metrics.
-            """)
-        with gr.Row():
-            with gr.Column():
-                radar_plot = gr.Plot(label="Top 5 Models Comparison", elem_classes="visualization")
-            with gr.Column():
-                bar_plot = gr.Plot(label="Overall Performance", elem_classes="visualization")
-        with gr.Row():
-            leaderboard_display = gr.DataFrame(
-                headers=[
-                    "Rank", "Model", "Average Score", "Conversation Consistency",
-                    "Backend Consistency", "Policy Completeness", "Total Dialogues",
-                    "Total Turns", "Judge Model", "Judge Client"
-                ],
-                datatype=["number", "str", "number", "number", "number", "number",
-                         "number", "number", "str", "str"],
-                label="Model Rankings",
-                interactive=False,
-                wrap=True,
-                elem_classes="leaderboard"
-            )
-        with gr.Row(equal_height=True):
-            refresh_btn = gr.Button("🔄 Refresh Leaderboard", size="lg", variant="primary")
-            sort_options = gr.Dropdown(
-                choices=[
-                    "Average Score", "Conversation Consistency",
-                    "Backend Consistency", "Policy Completeness",
-                    "Total Dialogues", "Total Turns"
-                ],
-                value="Average Score",
-                label="Sort by",
-                interactive=True,
-                container=True
-            )
-        with gr.Box(elem_classes="footer"):
-            gr.Markdown("""
-            ### About the Leaderboard
-            This leaderboard is updated automatically when new model evaluations are submitted.
-            Refresh the page to see the latest results.
-            """)
-    # Handle sorting
-    sort_options.change(
-        fn=sort_leaderboard,
-        inputs=[sort_options],
-        outputs=[leaderboard_display, radar_plot, bar_plot]
     )
-    # Handle refresh
     refresh_btn.click(
-        fn=lambda: create_leaderboard(sort_options.value),
         inputs=None,
-        outputs=[leaderboard_display, radar_plot, bar_plot]
     )
     # Display initial leaderboard
     demo.load(
         fn=create_leaderboard,
         inputs=None,
-        outputs=[leaderboard_display, radar_plot, bar_plot]
     )
 if __name__ == "__main__":

 import json
 import os
 from glob import glob
 def load_model_results():
     """Load all model results from JSON files in the submissions directory."""
     return results
+def create_leaderboard():
+    """Create and format the leaderboard DataFrame."""
     results = load_model_results()
     if not results:
+        return pd.DataFrame(columns=[
+            "Model", "Conversation Consistency", "Backend Consistency",
+            "Policy Completeness", "Total Dialogues", "Total Turns",
+            "Judge Model", "Judge Client"
         ])
     df = pd.DataFrame(results)
     df = df.rename(columns={
         'judge_client': 'Judge Client'
     })
+    # Sort by average of the three main metrics
+    df['Average Score'] = df[['Conversation Consistency', 'Backend Consistency', 'Policy Completeness']].mean(axis=1)
+    df = df.sort_values('Average Score', ascending=False)
     # Round floating point numbers to 4 decimal places
+    float_columns = ['Conversation Consistency', 'Backend Consistency', 'Policy Completeness', 'Average Score']
     df[float_columns] = df[float_columns].round(4)
+    # Reorder columns to put Average Score after the main metrics
+    columns = ['Model', 'Conversation Consistency', 'Backend Consistency', 'Policy Completeness',
+              'Average Score', 'Total Dialogues', 'Total Turns', 'Judge Model', 'Judge Client']
+    return df[columns]
+with gr.Blocks(title="Rome Leaderboard") as demo:
+    gr.Markdown("# 🏆 Rome Model Evaluation Leaderboard")
+    gr.Markdown("""
+    This leaderboard displays model performance across multiple evaluation metrics:
+    - **Conversation Consistency**: Measures the consistency in model conversations
+    - **Backend Consistency**: Evaluates backend interaction consistency
+    - **Policy Completeness**: Assesses completion of policy requirements
+    Models are ranked by their average score across these metrics.
+    """)
+    leaderboard_display = gr.DataFrame(
+        headers=[
+            "Model", "Conversation Consistency", "Backend Consistency",
+            "Policy Completeness", "Average Score", "Total Dialogues",
+            "Total Turns", "Judge Model", "Judge Client"
+        ],
+        datatype=["str", "number", "number", "number", "number",
+                 "number", "number", "str", "str"],
+        label="Model Rankings"
     )
+    refresh_btn = gr.Button("🔄 Refresh Leaderboard")
     refresh_btn.click(
+        fn=create_leaderboard,
         inputs=None,
+        outputs=leaderboard_display
     )
     # Display initial leaderboard
     demo.load(
         fn=create_leaderboard,
         inputs=None,
+        outputs=leaderboard_display
     )
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -1,3 +1,2 @@
 gradio>=4.0.0
-pandas>=2.0.0
-plotly>=5.18.0


1	gradio>=4.0.0
2	+ pandas>=2.0.0