Spaces:

OpenEvals
/

open_benchmark_index

Running

App Files Files Community

Linker1907 commited on 9 days ago

Commit

2e5b82a

1 Parent(s): 8964485

add mascot and starred bench from lighteval metatdata

Browse files

Files changed (1) hide show

app.py +13 -47

app.py CHANGED Viewed

@@ -17,23 +17,6 @@ registry = Registry(custom_tasks=None, load_multilingual=True)
 modules_data = registry.get_tasks_dump()
-star_benchmarks = [
-    "aime",
-    "mmlu_pro",
-    "gpqa",
-    "hle",
-    "arc_agi_2",
-    "ifbench",
-    "ifeval",
-    "live code bench",
-    "math 500",
-    "mix_eval",
-    "musr",
-    "simpleqa",
-    "MMLU pro"
-]
 @dataclass
 class TaskDoc:
     module: str
@@ -44,6 +27,7 @@ class TaskDoc:
     dataset: str | None
     name: str | None = None
     task_names: list[str] = field(default_factory=list)
 def _module_to_github_path(module: str) -> str:
@@ -70,6 +54,7 @@ def index_tasks() -> tuple[list[TaskDoc], list[str], list[str]]:
         tgs = [t.lower() for t in docstring.get("tags", [])]
         paper = docstring.get("paper", "").strip() or None
         name = docstring.get("name", "").strip() or None
         # Convert dataset array to comma-separated string
         dataset_list = docstring.get("dataset", [])
@@ -93,7 +78,8 @@ def index_tasks() -> tuple[list[TaskDoc], list[str], list[str]]:
             paper=paper,
             dataset=dataset,
             name=name,
-            task_names=task_names
         ))
     languages_sorted = [
@@ -112,33 +98,6 @@ def normalize_name_for_matching(name: str) -> str:
     return re.sub(r"[_\s:]+", "", name.lower())
-def is_starred_benchmark(td: TaskDoc) -> bool:
-    """Check if task is a starred benchmark."""
-    module_parts = td.module.split(".")
-    base_no_ext = module_parts[-1] if module_parts else ""
-    fallback_name = module_parts[-2] if base_no_ext == "main" and len(module_parts) >= 2 else base_no_ext
-    task_name_raw = (td.name or "").lower().strip()
-    task_name_display = (td.name or fallback_name).replace("_", " ").lower().strip()
-    normalized_task_display = normalize_name_for_matching(task_name_display)
-    normalized_module = normalize_name_for_matching(base_no_ext)
-    normalized_name = normalize_name_for_matching(task_name_raw)
-    normalized_dataset = normalize_name_for_matching(td.dataset or "")
-    for star_name in star_benchmarks:
-        normalized_star = normalize_name_for_matching(star_name)
-        if (normalized_star == normalized_task_display or
-            normalized_star == normalized_module or
-            normalized_star == normalized_name or
-            normalized_star in normalized_task_display or
-            normalized_star in normalized_module or
-            (normalized_dataset and normalized_star in normalized_dataset) or
-            star_name.lower() in task_name_display or
-            star_name.lower() in base_no_ext.lower()):
-            return True
-    return False
 def filter_tasks(languages: list[str], tags: list[str], search: str) -> list[TaskDoc]:
     """Filter tasks by languages, tags, and search query."""
     selected_langs = [lang.lower() for lang in (languages or [])]
@@ -157,7 +116,7 @@ def filter_tasks(languages: list[str], tags: list[str], search: str) -> list[Tas
                 continue
         out.append(td)
-    out.sort(key=lambda td: (not is_starred_benchmark(td), (td.name or td.module).lower()))
     return out
@@ -240,7 +199,7 @@ def render_cards(tasks: list[TaskDoc]) -> str:
             if len(datasets) > 6:
                 dataset_links.append(f'<span class="dataset-more">+{len(datasets) - 6} more</span>')
         dataset_html = " ".join(dataset_links) if dataset_links else ""
-        star_icon = "⭐ " if is_starred_benchmark(t) else ""
         # Display evaluation task names (max 3 visible, with dropdown for more)
         # Group task names by prefix to collapse shared prefixes
@@ -697,6 +656,13 @@ with gr.Blocks(title="Lighteval Tasks Explorer", css=custom_css) as demo:
                 show_tags_filters = gr.Checkbox(label="Show tag checkboxes", value=False)
                 tag_dd = gr.CheckboxGroup(choices=ALL_TAGS, value=[], visible=False)
             gr.Markdown("Tip: use the filters and search together. Results update live.")
         with gr.Column(scale=5):
             cards = gr.HTML()

 modules_data = registry.get_tasks_dump()
 @dataclass
 class TaskDoc:
     module: str
     dataset: str | None
     name: str | None = None
     task_names: list[str] = field(default_factory=list)
+    starred: bool = False
 def _module_to_github_path(module: str) -> str:
         tgs = [t.lower() for t in docstring.get("tags", [])]
         paper = docstring.get("paper", "").strip() or None
         name = docstring.get("name", "").strip() or None
+        starred = docstring.get("starred", False)
         # Convert dataset array to comma-separated string
         dataset_list = docstring.get("dataset", [])
             paper=paper,
             dataset=dataset,
             name=name,
+            task_names=task_names,
+            starred=starred
         ))
     languages_sorted = [
     return re.sub(r"[_\s:]+", "", name.lower())
 def filter_tasks(languages: list[str], tags: list[str], search: str) -> list[TaskDoc]:
     """Filter tasks by languages, tags, and search query."""
     selected_langs = [lang.lower() for lang in (languages or [])]
                 continue
         out.append(td)
+    out.sort(key=lambda td: (not td.starred, (td.name or td.module).lower()))
     return out
             if len(datasets) > 6:
                 dataset_links.append(f'<span class="dataset-more">+{len(datasets) - 6} more</span>')
         dataset_html = " ".join(dataset_links) if dataset_links else ""
+        star_icon = "⭐ " if t.starred else ""
         # Display evaluation task names (max 3 visible, with dropdown for more)
         # Group task names by prefix to collapse shared prefixes
                 show_tags_filters = gr.Checkbox(label="Show tag checkboxes", value=False)
                 tag_dd = gr.CheckboxGroup(choices=ALL_TAGS, value=[], visible=False)
             gr.Markdown("Tip: use the filters and search together. Results update live.")
+            gr.Image(
+                value="measuring_model_size.png",
+                label="",
+                show_label=False,
+                container=False,
+                show_download_button=False
+            )
         with gr.Column(scale=5):
             cards = gr.HTML()