Spaces:

Salesforce
/

crm_llm_leaderboard

Running

App Files Files Community

yibum commited on Jun 17, 2024

Commit

c6ea0a2

1 Parent(s): 375e6bf

update metric area filter

Browse files

Files changed (2) hide show

app.py +23 -0
src/populate.py +0 -4

app.py CHANGED Viewed

@@ -24,6 +24,7 @@ def update_table(
     use_case_area_query: list,
     use_case_query: list,
     use_case_type_query: list,
 ):
     filtered_df = filter_llm_func(hidden_df, llm_query)
     filtered_df = filter_llm_provider_func(filtered_df, llm_provider_query)
@@ -34,7 +35,24 @@ def update_table(
     filtered_df = filter_use_case_area_func(filtered_df, use_case_area_query)
     filtered_df = filter_use_case_func(filtered_df, use_case_query)
     filtered_df = filter_use_case_type_func(filtered_df, use_case_type_query)
     df = select_columns(filtered_df, columns)
     return df.style.map(highlight_cost_band_low, props="background-color: #b3d5a4")
@@ -60,6 +78,7 @@ def init_leaderboard_df(
     use_case_area_query: list,
     use_case_query: list,
     use_case_type_query: list,
 ):
     # Applying the style function
@@ -74,6 +93,7 @@ def init_leaderboard_df(
         use_case_area_query,
         use_case_query,
         use_case_type_query,
     )
@@ -232,6 +252,7 @@ with demo:
                     filter_use_case_area.value,
                     filter_use_case.value,
                     filter_use_case_type.value,
                 ),
                 headers=[c.name for c in fields(AutoEvalColumn) if c.never_hidden] + shown_columns.value,
                 datatype=TYPES,
@@ -256,6 +277,7 @@ with demo:
                 filter_use_case_area,
                 filter_use_case,
                 filter_use_case_type,
             ]:
                 selector.change(
                     update_table,
@@ -269,6 +291,7 @@ with demo:
                         filter_use_case_area,
                         filter_use_case,
                         filter_use_case_type,
                     ],
                     leaderboard_table,
                     queue=True,

     use_case_area_query: list,
     use_case_query: list,
     use_case_type_query: list,
+    metric_area_query: list,
 ):
     filtered_df = filter_llm_func(hidden_df, llm_query)
     filtered_df = filter_llm_provider_func(filtered_df, llm_provider_query)
     filtered_df = filter_use_case_area_func(filtered_df, use_case_area_query)
     filtered_df = filter_use_case_func(filtered_df, use_case_query)
     filtered_df = filter_use_case_type_func(filtered_df, use_case_type_query)
+    # Filtering by metric area
+    metric_area_maps = {
+        "Cost": ["Cost Band"],
+        "Accuracy": ["Accuracy", "Instruction Following", "Conciseness", "Completeness", "Factuality"],
+        "Speed (Latency)": ["Response Time (Sec)", "Mean Output Tokens"],
+        "Trust & Safety": ["Trust & Safety", "Safety", "Privacy", "Truthfulness", "CRM Bias"],
+    }
+    all_metric_cols = []
+    for area in metric_area_maps:
+        all_metric_cols = all_metric_cols + metric_area_maps[area]
+    columns_to_keep = list(set(columns).difference(set(all_metric_cols)))
+    for area in metric_area_query:
+        columns_to_keep = columns_to_keep + metric_area_maps[area]
+    columns = list(set(columns).intersection(set(columns_to_keep)))
     df = select_columns(filtered_df, columns)
     return df.style.map(highlight_cost_band_low, props="background-color: #b3d5a4")
     use_case_area_query: list,
     use_case_query: list,
     use_case_type_query: list,
+    metric_area_query: list,
 ):
     # Applying the style function
         use_case_area_query,
         use_case_query,
         use_case_type_query,
+        metric_area_query,
     )
                     filter_use_case_area.value,
                     filter_use_case.value,
                     filter_use_case_type.value,
+                    filter_metric_area.value,
                 ),
                 headers=[c.name for c in fields(AutoEvalColumn) if c.never_hidden] + shown_columns.value,
                 datatype=TYPES,
                 filter_use_case_area,
                 filter_use_case,
                 filter_use_case_type,
+                filter_metric_area,
             ]:
                 selector.change(
                     update_table,
                         filter_use_case_area,
                         filter_use_case,
                         filter_use_case_type,
+                        filter_metric_area,
                     ],
                     leaderboard_table,
                     queue=True,

src/populate.py CHANGED Viewed

@@ -21,8 +21,6 @@ def get_leaderboard_df_crm(
         on="Use Case Name",
     )
-    ref_df = leaderboard_accuracy_df[["Model Name", "LLM Provider"]].drop_duplicates()
     leaderboard_cost_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_latency_cost.csv"))
     leaderboard_cost_df = leaderboard_cost_df[~leaderboard_cost_df["Model Name"].isin(sf_finetuned_models)]
     leaderboard_accuracy_df = leaderboard_accuracy_df.join(
@@ -61,8 +59,6 @@ def get_leaderboard_df_crm(
         on=["Model Name"],
     )
-    leaderboard_ts_df = leaderboard_ts_df.join(ref_df.set_index("Model Name"), on="Model Name")
     leaderboard_accuracy_df = leaderboard_accuracy_df.sort_values(
         by=[AutoEvalColumn.accuracy_metric_average.name], ascending=False
     )

         on="Use Case Name",
     )
     leaderboard_cost_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_latency_cost.csv"))
     leaderboard_cost_df = leaderboard_cost_df[~leaderboard_cost_df["Model Name"].isin(sf_finetuned_models)]
     leaderboard_accuracy_df = leaderboard_accuracy_df.join(
         on=["Model Name"],
     )
     leaderboard_accuracy_df = leaderboard_accuracy_df.sort_values(
         by=[AutoEvalColumn.accuracy_metric_average.name], ascending=False
     )