Spaces:
Running
Running
{"method": "react", "model": "qwen2.5-7b-instruct", "ss_easy": 0.1, "ss_medium": 0.18571428571428572, "ss_hard": 0.09166666666666666, "ms_easy": 0.175, "ms_medium": 0.10714285714285714, "ms_hard": 0.058333333333333334, "overall": 0.11911764705882352} | |
{"method": "reflexion", "model": "qwen2.5-7b-instruct", "ss_easy": 0.0875, "ss_medium": 0.25, "ss_hard": 0.11666666666666667, "ms_easy": 0.3, "ms_medium": 0.15714285714285714, "ms_hard": 0.041666666666666664, "overall": 0.15735294117647058} | |
{"method": "seeker", "model": "qwen2.5-7b-instruct", "ss_easy": 0.075, "ss_medium": 0.2571428571428571, "ss_hard": 0.125, "ms_easy": 0.1875, "ms_medium": 0.2, "ms_hard": 0.058333333333333334, "overall": 0.15735294117647058} | |
{"method": "react", "model": "qwen2.5-14b-instruct", "ss_easy": 0.0875, "ss_medium": 0.32142857142857145, "ss_hard": 0.15, "ms_easy": 0.275, "ms_medium": 0.22857142857142856, "ms_hard": 0.05, "overall": 0.19117647058823528} | |
{"method": "reflexion", "model": "qwen2.5-14b-instruct", "ss_easy": 0.1375, "ss_medium": 0.34285714285714286, "ss_hard": 0.15, "ms_easy": 0.3625, "ms_medium": 0.22857142857142856, "ms_hard": 0.058333333333333334, "overall": 0.21323529411764705} | |
{"method": "seeker", "model": "qwen2.5-14b-instruct", "ss_easy": 0.0875, "ss_medium": 0.4142857142857143, "ss_hard": 0.23333333333333334, "ms_easy": 0.3, "ms_medium": 0.22857142857142856, "ms_hard": 0.1, "overall": 0.23676470588235293} | |
{"method": "react", "model": "qwen2.5-32b-instruct", "ss_easy": 0.1, "ss_medium": 0.35714285714285715, "ss_hard": 0.16666666666666666, "ms_easy": 0.3625, "ms_medium": 0.18571428571428572, "ms_hard": 0.08333333333333333, "overall": 0.21029411764705883} | |
{"method": "reflexion", "model": "qwen2.5-32b-instruct", "ss_easy": 0.075, "ss_medium": 0.32857142857142857, "ss_hard": 0.16666666666666666, "ms_easy": 0.3125, "ms_medium": 0.22857142857142856, "ms_hard": 0.058333333333333334, "overall": 0.2} | |
{"method": "seeker", "model": "qwen2.5-32b-instruct", "ss_easy": 0.1125, "ss_medium": 0.34285714285714286, "ss_hard": 0.225, "ms_easy": 0.275, "ms_medium": 0.24285714285714285, "ms_hard": 0.1, "overall": 0.2235294117647059} | |
{"method": "react", "model": "qwen2.5-72b-instruct", "ss_easy": 0.125, "ss_medium": 0.38571428571428573, "ss_hard": 0.2, "ms_easy": 0.45, "ms_medium": 0.3142857142857143, "ms_hard": 0.1, "overall": 0.2647058823529412} | |
{"method": "reflexion", "model": "qwen2.5-72b-instruct", "ss_easy": 0.1375, "ss_medium": 0.44285714285714284, "ss_hard": 0.2833333333333333, "ms_easy": 0.3625, "ms_medium": 0.25, "ms_hard": 0.125, "overall": 0.2735294117647059} | |
{"method": "seeker", "model": "qwen2.5-72b-instruct", "ss_easy": 0.15, "ss_medium": 0.4857142857142857, "ss_hard": 0.25833333333333336, "ms_easy": 0.35, "ms_medium": 0.29285714285714287, "ms_hard": 0.15, "overall": 0.2911764705882353} | |
{"method": "react", "model": "qwen-plus", "ss_easy": 0.1375, "ss_medium": 0.4, "ss_hard": 0.24166666666666667, "ms_easy": 0.475, "ms_medium": 0.3, "ms_hard": 0.15, "overall": 0.2852941176470588} | |
{"method": "reflexion", "model": "qwen-plus", "ss_easy": 0.1, "ss_medium": 0.4857142857142857, "ss_hard": 0.2833333333333333, "ms_easy": 0.35, "ms_medium": 0.2785714285714286, "ms_hard": 0.14166666666666666, "overall": 0.2852941176470588} | |
{"method": "seeker", "model": "qwen-plus", "ss_easy": 0.1375, "ss_medium": 0.4714285714285714, "ss_hard": 0.3, "ms_easy": 0.35, "ms_medium": 0.2714285714285714, "ms_hard": 0.15, "overall": 0.2897058823529412} | |
{"method": "react", "model": "gpt-4o", "ss_easy": 0.1125, "ss_medium": 0.45, "ss_hard": 0.3, "ms_easy": 0.325, "ms_medium": 0.30714285714285716, "ms_hard": 0.15, "overall": 0.2867647058823529} | |
{"method": "reflexion", "model": "gpt-4o", "ss_easy": 0.1375, "ss_medium": 0.5142857142857142, "ss_hard": 0.30833333333333335, "ms_easy": 0.35, "ms_medium": 0.2714285714285714, "ms_hard": 0.16666666666666666, "overall": 0.3029411764705882} | |
{"method": "seeker", "model": "gpt-4o", "ss_easy": 0.1, "ss_medium": 0.5, "ss_hard": 0.3, "ms_easy": 0.475, "ms_medium": 0.34285714285714286, "ms_hard": 0.15833333333333333, "overall": 0.3220588235294118} |