Update README.md
Browse files
README.md
CHANGED
@@ -35,7 +35,7 @@ cd llama-3.1-chinese-8b-it-dpo
|
|
35 |
|
36 |
C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
|
37 |
|
38 |
-
| C-Eval
|
39 |
| ---------- | ------- | ------------- | ---- | --------------- | ---------- | ----- |
|
40 |
| 原生LLaMA3.1模型 | 24.1 | 23.5 | 23.9 | 25.3 | 24.6 | 22.7 |
|
41 |
| 我们的LLaMA3.1模型 | 44.7 | 32.9 | 41.8 | 52.7 | 42.0 | 44.5 |
|
@@ -43,7 +43,7 @@ C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的
|
|
43 |
#### Cmmlu
|
44 |
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
|
45 |
|
46 |
-
| CMMLU
|
47 |
| ---------- | ------- | ----- | --------------- | ---------- | ----- |
|
48 |
| 原生LLaMA3.1模型 | 25.3 | 26.04 | 25.19 | 25.79 | 25.26 |
|
49 |
| 我们的LLaMA3.1模型 | 46.54 | 39.31 | 47.21 | 47.41 | 51.34 |
|
|
|
35 |
|
36 |
C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
|
37 |
|
38 |
+
| C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
|
39 |
| ---------- | ------- | ------------- | ---- | --------------- | ---------- | ----- |
|
40 |
| 原生LLaMA3.1模型 | 24.1 | 23.5 | 23.9 | 25.3 | 24.6 | 22.7 |
|
41 |
| 我们的LLaMA3.1模型 | 44.7 | 32.9 | 41.8 | 52.7 | 42.0 | 44.5 |
|
|
|
43 |
#### Cmmlu
|
44 |
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
|
45 |
|
46 |
+
| CMMLU | Average | STEM | Social Sciences | Humanities | Other |
|
47 |
| ---------- | ------- | ----- | --------------- | ---------- | ----- |
|
48 |
| 原生LLaMA3.1模型 | 25.3 | 26.04 | 25.19 | 25.79 | 25.26 |
|
49 |
| 我们的LLaMA3.1模型 | 46.54 | 39.31 | 47.21 | 47.41 | 51.34 |
|