polish_medical_leaderboard

Restarting on CPU Upgrade

djstrong commited on Sep 12, 2024

Commit

cc79ab2

1 Parent(s): 0598762

remove in progress models

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -444,7 +444,8 @@ def get_raw_eval_results(results_path: str, requests_path: str, metadata) -> lis
     missing_results_for_task = {}
     missing_metadata = []
     for_run=[]
-    for v in eval_results.values():
         r = v.to_dict()
         in_progress=False
         for task in Tasks:
@@ -464,11 +465,15 @@ def get_raw_eval_results(results_path: str, requests_path: str, metadata) -> lis
                         # print(f'sbatch start.sh "bash eval_model_task_bs1.sh {r["n_shot"]} {task.value.benchmark} {v.full_model}"')
         if in_progress:
             v.model = '🚧' + v.model
         if r[AutoEvalColumn.lang.name] is None or r[AutoEvalColumn.lang.name] == "?":
             missing_metadata.append(f"{v.full_model}")
         all_models.append((v.full_model, v.num_params, v.still_on_hub))
     results = []
     for v in eval_results.values():
         try:

     missing_results_for_task = {}
     missing_metadata = []
     for_run=[]
+    in_progress_models = []
+    for k,v in eval_results.items():
         r = v.to_dict()
         in_progress=False
         for task in Tasks:
                         # print(f'sbatch start.sh "bash eval_model_task_bs1.sh {r["n_shot"]} {task.value.benchmark} {v.full_model}"')
         if in_progress:
             v.model = '🚧' + v.model
+            in_progress_models.append(k)
         if r[AutoEvalColumn.lang.name] is None or r[AutoEvalColumn.lang.name] == "?":
             missing_metadata.append(f"{v.full_model}")
         all_models.append((v.full_model, v.num_params, v.still_on_hub))
+    for k in in_progress_models:
+        del eval_results[k]
     results = []
     for v in eval_results.values():
         try: