Spaces:

upstage
/

open-ko-llm-leaderboard

Restarting on CPU Upgrade

Sean Cho commited on Sep 14, 2023

Commit

6313532

•

1 Parent(s): 150c99b

comment out evaluation fields not ready

Files changed (3) hide show

app.py CHANGED Viewed

@@ -77,8 +77,9 @@ BENCHMARK_COLS = [
         AutoEvalColumn.hellaswag,
         AutoEvalColumn.mmlu,
         AutoEvalColumn.truthfulqa,
-        AutoEvalColumn.commongen,
-        AutoEvalColumn.ethicalverification,
     ]
 ]

         AutoEvalColumn.hellaswag,
         AutoEvalColumn.mmlu,
         AutoEvalColumn.truthfulqa,
+        # TODO: Uncomment when we have results for these
+        # AutoEvalColumn.commongen,
+        # AutoEvalColumn.ethicalverification,
     ]
 ]

src/display_models/read_results.py CHANGED Viewed

@@ -9,14 +9,15 @@ import numpy as np
 from src.display_models.utils import AutoEvalColumn, make_clickable_model
 METRICS = ["acc_norm", "acc_norm", "acc", "mc2"]
-BENCHMARKS = ["ko_arc_challenge", "ko_hellaswag", "ko_mmlu", "ko_truthfulqa:mc", "ko_commongen", "ethicalverification"]
 BENCH_TO_NAME = {
     "ko_arc_challenge": AutoEvalColumn.arc.name,
     "ko_hellaswag": AutoEvalColumn.hellaswag.name,
     "ko_mmlu": AutoEvalColumn.mmlu.name,
-    "ko_truthfulqa:mc": AutoEvalColumn.truthfulqa.name,
-    "ko_commongen": AutoEvalColumn.commongen.name,
-    "ethicalverification": AutoEvalColumn.ethicalverification.name,
 }

 from src.display_models.utils import AutoEvalColumn, make_clickable_model
 METRICS = ["acc_norm", "acc_norm", "acc", "mc2"]
+BENCHMARKS = ["ko_arc_challenge", "ko_hellaswag", "ko_mmlu", "ko_truthfulqa_mc"] #, "ko_commongen", "ethicalverification"]
 BENCH_TO_NAME = {
     "ko_arc_challenge": AutoEvalColumn.arc.name,
     "ko_hellaswag": AutoEvalColumn.hellaswag.name,
     "ko_mmlu": AutoEvalColumn.mmlu.name,
+    "ko_truthfulqa_mc": AutoEvalColumn.truthfulqa.name,
+    # TODO: Uncomment when we have results for these
+    # "ko_commongen": AutoEvalColumn.commongen.name,
+    # "ethicalverification": AutoEvalColumn.ethicalverification.name,
 }

src/display_models/utils.py CHANGED Viewed

@@ -29,8 +29,9 @@ class AutoEvalColumn:  # Auto evals column
     hellaswag = ColumnContent("Ko-HellaSwag", "number", True)
     mmlu = ColumnContent("Ko-MMLU", "number", True)
     truthfulqa = ColumnContent("Ko-TruthfulQA", "number", True)
-    commongen = ColumnContent("Ko-CommonGen", "number", True)
-    ethicalverification = ColumnContent("EthicalVerification", "number", True)
     model_type = ColumnContent("Type", "str", False)
     precision = ColumnContent("Precision", "str", False)  # , True)
     license = ColumnContent("Hub License", "str", False)

     hellaswag = ColumnContent("Ko-HellaSwag", "number", True)
     mmlu = ColumnContent("Ko-MMLU", "number", True)
     truthfulqa = ColumnContent("Ko-TruthfulQA", "number", True)
+    # TODO: Uncomment when we have results for these
+    # commongen = ColumnContent("Ko-CommonGen", "number", True)
+    # ethicalverification = ColumnContent("EthicalVerification", "number", True)
     model_type = ColumnContent("Type", "str", False)
     precision = ColumnContent("Precision", "str", False)  # , True)
     license = ColumnContent("Hub License", "str", False)