update
Browse files
README.md
CHANGED
@@ -6,6 +6,7 @@ language:
|
|
6 |
- en
|
7 |
---
|
8 |
## 模型介绍
|
|
|
9 |
- 使用模型:LLaMA3-8B
|
10 |
- 使用数据集:mlabonne/orpo-dpo-mix-40k(共有数据44245条数据,仅使用了其中10000条数据)
|
11 |
- 使用显卡:RTX 4090,24G
|
@@ -25,4 +26,4 @@ print(pipeline("Hey how are you doing today?"))
|
|
25 |
```
|
26 |
## 未完待续
|
27 |
- 使用的显卡显存不足,每个批次的数据量较少,训练中loss图上急剧震荡。后续再更多更大显存显卡上进行更大批处理数量上进行多轮训练
|
28 |
-
-
|
|
|
6 |
- en
|
7 |
---
|
8 |
## 模型介绍
|
9 |
+
- 目标:通过ORPO技术对模型进行训练,以期达到以往指令微调加基于人类反馈的强化学习的效果
|
10 |
- 使用模型:LLaMA3-8B
|
11 |
- 使用数据集:mlabonne/orpo-dpo-mix-40k(共有数据44245条数据,仅使用了其中10000条数据)
|
12 |
- 使用显卡:RTX 4090,24G
|
|
|
26 |
```
|
27 |
## 未完待续
|
28 |
- 使用的显卡显存不足,每个批次的数据量较少,训练中loss图上急剧震荡。后续再更多更大显存显卡上进行更大批处理数量上进行多轮训练
|
29 |
+
- 使用上述配置在全数据上训练3epoch需要72小时,实际实践使用其中随机选取的10000条数据训练1epoch
|