leaderboard

Runtime error

nan commited on May 10, 2024

Commit

a0c2cea

1 Parent(s): 2edd122

fix: fix bug in loading more data

Files changed (3) hide show

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ from src.about import (
 from src.display.css_html_js import custom_css
 from src.leaderboard.read_evals import get_raw_eval_results, get_leaderboard_df
-from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from utils import update_table, update_metric, update_table_long_doc, upload_file, get_default_cols
 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, metric_list

 from src.display.css_html_js import custom_css
 from src.leaderboard.read_evals import get_raw_eval_results, get_leaderboard_df
+from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from utils import update_table, update_metric, update_table_long_doc, upload_file, get_default_cols
 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, metric_list

src/envs.py CHANGED Viewed

@@ -16,7 +16,6 @@ RESULTS_REPO = f"{OWNER}/results"
 CACHE_PATH = os.getenv("HF_HOME", ".")
 # Local caches
-EVAL_REQUESTS_PATH = "/Users/nanwang/Codes/huggingface/nan/leaderboard/toys/toydata/requests"  # os.path.join(CACHE_PATH, "eval-queue")
-EVAL_RESULTS_PATH = "/Users/nanwang/Codes/huggingface/nan/leaderboard/toys/toydata/results"  #os.path.join(CACHE_PATH, "eval-results")
 API = HfApi(token=TOKEN)

 CACHE_PATH = os.getenv("HF_HOME", ".")
 # Local caches
+EVAL_RESULTS_PATH = "/Users/nanwang/Codes/huggingface/nan/results/demo-leaderboard"  #os.path.join(CACHE_PATH, "eval-results")
 API = HfApi(token=TOKEN)

src/leaderboard/read_evals.py CHANGED Viewed

@@ -92,7 +92,7 @@ class FullEvalResult:
             results[eval_result.eval_name][COL_NAME_RETRIEVAL_MODEL] = self.retrieval_model
             results[eval_result.eval_name][COL_NAME_RERANKING_MODEL] = self.reranking_model
-            print(f'result loaded: {eval_result.eval_name}')
             for result in eval_result.results:
                 # add result for each domain, language, and dataset
                 domain = result["domain"]
@@ -127,7 +127,11 @@ def get_raw_eval_results(results_path: str) -> List[FullEvalResult]:
     eval_results = {}
     for model_result_filepath in model_result_filepaths:
         # create evaluation results
-        eval_result = FullEvalResult.init_from_json_file(model_result_filepath)
         print(f'file loaded: {model_result_filepath}')
         eval_name = eval_result.eval_name
         eval_results[eval_name] = eval_result

             results[eval_result.eval_name][COL_NAME_RETRIEVAL_MODEL] = self.retrieval_model
             results[eval_result.eval_name][COL_NAME_RERANKING_MODEL] = self.reranking_model
+            # print(f'result loaded: {eval_result.eval_name}')
             for result in eval_result.results:
                 # add result for each domain, language, and dataset
                 domain = result["domain"]
     eval_results = {}
     for model_result_filepath in model_result_filepaths:
         # create evaluation results
+        try:
+            eval_result = FullEvalResult.init_from_json_file(model_result_filepath)
+        except UnicodeDecodeError as e:
+            print(f"loading file failed. {model_result_filepath}")
+            continue
         print(f'file loaded: {model_result_filepath}')
         eval_name = eval_result.eval_name
         eval_results[eval_name] = eval_result