Spaces:

amu-cai
/

cameo-leaderboard

Running

App Files Files Community

iwonachristop commited on May 14

Commit

17b190b

1 Parent(s): 7e588e5

Add application file

Browse files

Files changed (1) hide show

app.py +120 -0

app.py ADDED Viewed

	@@ -0,0 +1,120 @@

+import gradio as gr
+from gradio_leaderboard import Leaderboard
+from pathlib import Path
+import pandas as pd
+from collections import defaultdict
+abs_path = Path(__file__).parent
+def overall_leaderboard(df: pd.DataFrame, sort_column: str = "f1_macro"):
+    df = df[df["language"] == "all"]
+    df = df[["model", "temperature", "f1_macro", "weighted_f1", "accuracy"]]
+    df = df.sort_values(by=sort_column, ascending=False)
+    df.insert(0, "Rank", range(1, len(df) + 1))
+    df["temperature"] = df["temperature"].round(1)
+    for col in ["f1_macro", "weighted_f1", "accuracy"]:
+        df[col] = df[col].round(4)
+    return df
+def build_lang_dict(df: pd.DataFrame):
+    lang_data = defaultdict(lambda: defaultdict(dict))
+    for row in df.itertuples():
+        for metric in ["f1_macro", "weighted_f1", "accuracy"]:
+            key = f"{row.language}.{metric}"
+            lang_data[row.model][row.temperature][key] = getattr(row, metric)
+    return lang_data
+def build_ds_dict(df: pd.DataFrame):
+    ds_data = defaultdict(lambda: defaultdict(dict))
+    for row in df.itertuples():
+        for metric in ["f1_macro", "weighted_f1", "accuracy"]:
+            key = f"{row.dataset}.{metric}"
+            ds_data[row.model][row.temperature][key] = getattr(row, metric)
+    return ds_data
+def build_emo_dict(df: pd.DataFrame):
+    df = df[df["language"] == "all"]
+    emo_data = defaultdict(lambda: defaultdict(dict))
+    emotions = df.iloc[0].metrics_per_label.keys() - ["accuracy", "macro avg", "weighted avg"]
+    for row in df.itertuples():
+        for emotion in emotions:
+            emo_data[row.model][row.temperature][emotion] = row.metrics_per_label[emotion].get("f1-score")
+        emo_data[row.model][row.temperature]["all"] = row.f1_macro
+    return emo_data
+def leaderboard_per_group(lang_dict, metric: str = "f1_macro"):
+    df = []
+    for model, inner in lang_dict.items():
+        for temperature, metrics in inner.items():
+            entry = {"model": model, "temperature": temperature}
+            for k, v in metrics.items():
+                if metric in k:
+                    entry[k.split(".")[0]] = v
+                elif "." not in k:
+                    entry[k] = v
+            df.append(entry)
+    df = pd.DataFrame(df)
+    df["temperature"] = df["temperature"].round(1)
+    for col in df.columns.difference(["model", "temperature"]):
+        df[col] = df[col].round(4)
+    df = df[["model", "temperature", "all"] + sorted(df.columns.difference(["model", "temperature", "all"]))]
+    df = df.sort_values(by="all", ascending=False)
+    df.insert(0, "Rank", range(1, len(df) + 1))
+    return df
+def app():
+    with gr.Blocks() as demo:
+        gr.Markdown("# 🏆 Leaderboard Viewer")
+        with gr.Tabs():
+            with gr.Tab("Overall Results"):
+                overall_table = gr.Dataframe()
+            with gr.Tab("Results per Language"):
+                lang_table = gr.Dataframe()
+            with gr.Tab("Results per Dataset"):
+                dataset_table = gr.Dataframe()
+            with gr.Tab("Results per Emotion"):
+                emotion_table = gr.Dataframe()
+        df_state = gr.State()
+        def update_leaderboards(select_lang_metric="f1_macro", select_ds_metric="f1_macro"):
+            df = pd.read_json(str(abs_path / "results.jsonl"), lines=True)
+            lang_dict = build_lang_dict(df)
+            ds_dict = build_ds_dict(df)
+            emo_dict = build_emo_dict(df)
+            overall = overall_leaderboard(df)
+            by_lang = leaderboard_per_group(lang_dict, metric=select_lang_metric)
+            by_dataset = leaderboard_per_group(ds_dict, metric=select_ds_metric)
+            by_emotion = leaderboard_per_group(emo_dict)
+            return overall, by_lang, by_dataset, by_emotion, "Loaded successfully.", df
+        demo.load(
+            update_leaderboards,
+            inputs=[],
+            outputs=[overall_table, lang_table, dataset_table, emotion_table, df_state]
+        )
+    return demo
+if __name__ == "__main__":
+    demo = app()
+    demo.launch()