Spaces:

visionLMsftw
/

VLMVibeEval

Running

Use real results dataset

by sergiopaniego HF Staff - opened 9 days ago

←

Files changed (2) hide show

app.py CHANGED Viewed

@@ -6,11 +6,11 @@ from data_utils import *
 from datasets import load_dataset
-# Dummy
 ds = load_dataset("visionLMsftw/vibe-testing-samples", split="train")
-models = get_model_names()
 evaluation_data = get_evaluation_data(ds)
-responses = get_responses()
 with gr.Blocks(theme=gr.themes.Soft()) as demo:

 from datasets import load_dataset
 ds = load_dataset("visionLMsftw/vibe-testing-samples", split="train")
 evaluation_data = get_evaluation_data(ds)
+ds_results = load_dataset("visionLMsftw/vibe-testing-results", split="train")
+models = get_model_names(ds_results)
+responses = get_responses(ds_results)
 with gr.Blocks(theme=gr.themes.Soft()) as demo:

data_utils.py CHANGED Viewed

@@ -29,19 +29,19 @@ def get_evaluation_data(ds):
             })
     return evaluation_data
-def get_model_names():
-    models = ["Qwen2.5-VL", "gemma-3"]
     return models
-def get_responses():
-    responses = {
-        "Qwen2.5-VL": {
-            0: "Laws of the Universe - Toro y Moi",
-            1: "Smile, have a nice day!",
-        },
-        "gemma-3": {
-            0: "Houdini - Dua Lipa",
-            1: "Smile, you're on camera!"
-        },
-    }
     return responses

             })
     return evaluation_data
+def get_model_names(ds_results):
+    models = list(set(ds_results['model_id']))
     return models
+def get_responses(ds_results):
+    responses = {}
+    for model in set(ds_results['model_id']):
+        model_responses = [
+            row["model_response"]
+            for row in ds_results
+            if row["model_id"] == model
+        ]
+        responses[model] = {i: resp for i, resp in enumerate(model_responses)}
     return responses