Spaces:

smol-course
/

leaderboard

Running

App Files Files Community

burtenshaw commited on Sep 4

Commit

1c7c01e

1 Parent(s): b5eec3d

update app to use lighteval format

Browse files

Files changed (2) hide show

app.py +40 -8
docs.md +8 -1

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ from datasets import load_dataset
 abs_path = Path(__file__).parent
 submissions = json.load(open(abs_path / "submissions.json"))
-TASKS = ["mmlu"]
 TYPES = [
     "markdown",
     "markdown",
@@ -21,14 +21,45 @@ COLUMNS = ["User", "Model Name", "MMLU", "Average ⬆️", "Results"]
 WIDTHS = ["25%", "25%", "15%", "15%", "10%"]
 def load_submissions():
     leaderboard = []
     for submission in submissions["submissions"]:
         ds = load_dataset(submission["results-dataset"], "results")
-        ds = ds.filter(lambda x: x["task"] in TASKS)
-        all_accuracy = []
         leaderboard_row = {}
@@ -40,11 +71,12 @@ def load_submissions():
             f"[{submission['model_name']}](https://huggingface.co/{submission['model_name']})"
         )
-        for result in ds["train"]:
-            leaderboard_row[result["task"]] = result["accuracy"]
-            all_accuracy.append(result["accuracy"])
-        leaderboard_row["Average ⬆️"] = sum(all_accuracy) / len(all_accuracy)
         leaderboard_row["results-dataset"] = (
             f"[🔗](https://huggingface.co/datasets/{submission['results-dataset']})"

 abs_path = Path(__file__).parent
 submissions = json.load(open(abs_path / "submissions.json"))
+TASKS = [("gsm8k", "lighteval|gsm8k|0", "extractive_match")]
 TYPES = [
     "markdown",
     "markdown",
 WIDTHS = ["25%", "25%", "15%", "15%", "10%"]
+def load_results(dataset):
+    results = []
+    try:
+        output = dataset["latest"]["results"]
+        output = output[-1]
+    except KeyError as e:
+        raise ValueError("Cannot find 'latest' key in the dataset")
+    try:
+        output = json.loads(output)
+    except ValueError as e:
+        raise ValueError("Cannot parse the output as JSON")
+    for name, task, metric in TASKS:
+        try:
+            output = output[task]
+        except KeyError as e:
+            raise ValueError(f"Cannot find '{task}' key in the dataset")
+        try:
+            output = (name, output[metric])
+        except KeyError as e:
+            raise ValueError("Cannot find 'extractive_match' key in the dataset")
+        results.append(output)
+    return results
 def load_submissions():
     leaderboard = []
     for submission in submissions["submissions"]:
         ds = load_dataset(submission["results-dataset"], "results")
+        try:
+            results = load_results(ds)
+        except ValueError as e:
+            raise ValueError(f"Cannot load results for {ds['results-dataset']}") from e
         leaderboard_row = {}
             f"[{submission['model_name']}](https://huggingface.co/{submission['model_name']})"
         )
+        for name, result in results:
+            leaderboard_row[name] = result
+        leaderboard_row["Average ⬆️"] = sum(result for _, result in results) / len(
+            results
+        )
         leaderboard_row["results-dataset"] = (
             f"[🔗](https://huggingface.co/datasets/{submission['results-dataset']})"

docs.md CHANGED Viewed

@@ -65,7 +65,14 @@ Open a pull request on the [leaderboard space](https://huggingface.co/spaces/smo
 ```json
 {
     "submissions": [
         ... # existing submissions
         {

 ```json
 {
     "submissions": [
+        {
+            "username": "HuggingFaceTB",
+            "model_name": "SmolLM3-3B",
+            "chapter": "1",
+            "submission_date": "2025-09-02",
+            "results-dataset": "smol-course/details_HuggingFaceTB__SmolLM3-3B_private"
+        },
         ... # existing submissions
         {