sherlor commited on
Commit
c331ecb
·
verified ·
1 Parent(s): dc74e05

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -2
README.md CHANGED
@@ -35,7 +35,7 @@ cd llama-3.1-chinese-8b-it-dpo
35
 
36
  C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
37
 
38
- | C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
39
  | ---------- | ------- | ------------- | ---- | --------------- | ---------- | ----- |
40
  | 原生LLaMA3.1模型 | 24.1 | 23.5 | 23.9 | 25.3 | 24.6 | 22.7 |
41
  | 我们的LLaMA3.1模型 | 44.7 | 32.9 | 41.8 | 52.7 | 42.0 | 44.5 |
@@ -43,7 +43,7 @@ C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的
43
  #### Cmmlu
44
  CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
45
 
46
- | CMMLU | Average | STEM | Social Sciences | Humanities | Other |
47
  | ---------- | ------- | ----- | --------------- | ---------- | ----- |
48
  | 原生LLaMA3.1模型 | 25.3 | 26.04 | 25.19 | 25.79 | 25.26 |
49
  | 我们的LLaMA3.1模型 | 46.54 | 39.31 | 47.21 | 47.41 | 51.34 |
 
35
 
36
  C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
37
 
38
+ | C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
39
  | ---------- | ------- | ------------- | ---- | --------------- | ---------- | ----- |
40
  | 原生LLaMA3.1模型 | 24.1 | 23.5 | 23.9 | 25.3 | 24.6 | 22.7 |
41
  | 我们的LLaMA3.1模型 | 44.7 | 32.9 | 41.8 | 52.7 | 42.0 | 44.5 |
 
43
  #### Cmmlu
44
  CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
45
 
46
+ | CMMLU | Average | STEM | Social Sciences | Humanities | Other |
47
  | ---------- | ------- | ----- | --------------- | ---------- | ----- |
48
  | 原生LLaMA3.1模型 | 25.3 | 26.04 | 25.19 | 25.79 | 25.26 |
49
  | 我们的LLaMA3.1模型 | 46.54 | 39.31 | 47.21 | 47.41 | 51.34 |