Upload README.md with huggingface_hub
Browse files
README.md
CHANGED
@@ -11,11 +11,11 @@ LLAMA-3.1系列模型于2024年7月24日发布,是Meta公司迄今为止规模
|
|
11 |
|
12 |
#### 模型特点
|
13 |
|
14 |
-
基础模型:基于开源的llama3.1-8b-instruct
|
15 |
|
16 |
-
|
17 |
|
18 |
-
DPO
|
19 |
|
20 |
|
21 |
|
@@ -35,16 +35,16 @@ cd llama-3.1-chinese-8b-it-dpo
|
|
35 |
|
36 |
C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
|
37 |
|
38 |
-
| C-Eval
|
39 |
-
|
|
40 |
| 原生LLaMA3.1模型 | 24.1 | 23.5 | 23.9 | 25.3 | 24.6 | 22.7 |
|
41 |
| 我们的LLaMA3.1模型 | 44.7 | 32.9 | 41.8 | 52.7 | 42.0 | 44.5 |
|
42 |
|
43 |
#### Cmmlu
|
44 |
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
|
45 |
|
46 |
-
| CMMLU
|
47 |
-
|
|
48 |
| 原生LLaMA3.1模型 | 25.3 | 26.04 | 25.19 | 25.79 | 25.26 |
|
49 |
| 我们的LLaMA3.1模型 | 46.54 | 39.31 | 47.21 | 47.41 | 51.34 |
|
50 |
|
@@ -73,18 +73,3 @@ DPO数据集:
|
|
73 |
|
74 |
|
75 |
|
76 |
-
Sft图像:
|
77 |
-
|
78 |
-
![img](README.assets/clip_image002.gif)
|
79 |
-
|
80 |
-
![img](README.assets/clip_image004.gif)
|
81 |
-
|
82 |
-
Dpo:
|
83 |
-
|
84 |
-
Training loss:
|
85 |
-
|
86 |
-
![img](README.assets/clip_image006.gif)
|
87 |
-
|
88 |
-
Training rewards:
|
89 |
-
|
90 |
-
![img](README.assets/clip_image008.gif)
|
|
|
11 |
|
12 |
#### 模型特点
|
13 |
|
14 |
+
基础模型:基于开源的llama3.1-8b-instruct,这是一个经过指令微调的大型语言基础模型。
|
15 |
|
16 |
+
指令微调:通过大量高质量中文数据集进行指令微调,提升模型在中文处理上的表现。
|
17 |
|
18 |
+
DPO对齐:采用直接偏好对齐技术,进一步优化模型在特定任务上的性能。
|
19 |
|
20 |
|
21 |
|
|
|
35 |
|
36 |
C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
|
37 |
|
38 |
+
| C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
|
39 |
+
| ------ | ------- | ------------- | ---- | --------------- | ---------- | ----- |
|
40 |
| 原生LLaMA3.1模型 | 24.1 | 23.5 | 23.9 | 25.3 | 24.6 | 22.7 |
|
41 |
| 我们的LLaMA3.1模型 | 44.7 | 32.9 | 41.8 | 52.7 | 42.0 | 44.5 |
|
42 |
|
43 |
#### Cmmlu
|
44 |
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
|
45 |
|
46 |
+
| CMMLU | Average | STEM | Social Sciences | Humanities | Other |
|
47 |
+
| ------ | ------- | ----- | --------------- | ---------- | ----- |
|
48 |
| 原生LLaMA3.1模型 | 25.3 | 26.04 | 25.19 | 25.79 | 25.26 |
|
49 |
| 我们的LLaMA3.1模型 | 46.54 | 39.31 | 47.21 | 47.41 | 51.34 |
|
50 |
|
|
|
73 |
|
74 |
|
75 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|