snowfly
/

llama3-8B-ORPO

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

snowfly commited on Jun 15, 2024

Commit

59e28c7

·

verified ·

1 Parent(s): 4cd3097

update

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -6,6 +6,7 @@ language:
 - en
 ---
 ## 模型介绍
 - 使用模型：LLaMA3-8B
 - 使用数据集：mlabonne/orpo-dpo-mix-40k（共有数据44245条数据，仅使用了其中10000条数据）
 - 使用显卡：RTX 4090，24G
@@ -25,4 +26,4 @@ print(pipeline("Hey how are you doing today?"))
 ```
 ## 未完待续
 - 使用的显卡显存不足，每个批次的数据量较少，训练中loss图上急剧震荡。后续再更多更大显存显卡上进行更大批处理数量上进行多轮训练
-- 使用上述配置训练3epoch需要72小时，实际实践使用1epoch

 - en
 ---
 ## 模型介绍
+- 目标：通过ORPO技术对模型进行训练，以期达到以往指令微调加基于人类反馈的强化学习的效果
 - 使用模型：LLaMA3-8B
 - 使用数据集：mlabonne/orpo-dpo-mix-40k（共有数据44245条数据，仅使用了其中10000条数据）
 - 使用显卡：RTX 4090，24G
 ```
 ## 未完待续
 - 使用的显卡显存不足，每个批次的数据量较少，训练中loss图上急剧震荡。后续再更多更大显存显卡上进行更大批处理数量上进行多轮训练
+- 使用上述配置在全数据上训练3epoch需要72小时，实际实践使用其中随机选取的10000条数据训练1epoch