End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -2,9 +2,15 @@
 license: other
 base_model: lewtun/gemma-7b-sft-full-ultrachat-v0
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: gemma-7b-dpo-full-ultrafeedback-beta-0.01
   results: []
@@ -15,17 +21,17 @@ should probably proofread and complete it, then remove this comment. -->
 # gemma-7b-dpo-full-ultrafeedback-beta-0.01
-This model is a fine-tuned version of [lewtun/gemma-7b-sft-full-ultrachat-v0](https://huggingface.co/lewtun/gemma-7b-sft-full-ultrachat-v0) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4718
-- Rewards/chosen: -0.8508
-- Rewards/rejected: -2.1538
-- Rewards/accuracies: 0.7817
-- Rewards/margins: 1.3030
-- Logps/rejected: -1100.8470
-- Logps/chosen: -990.8950
-- Logits/rejected: 89.1600
-- Logits/chosen: 104.0108
 ## Model description

 license: other
 base_model: lewtun/gemma-7b-sft-full-ultrachat-v0
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: gemma-7b-dpo-full-ultrafeedback-beta-0.01
   results: []
 # gemma-7b-dpo-full-ultrafeedback-beta-0.01
+This model is a fine-tuned version of [lewtun/gemma-7b-sft-full-ultrachat-v0](https://huggingface.co/lewtun/gemma-7b-sft-full-ultrachat-v0) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4698
+- Rewards/chosen: -1.0027
+- Rewards/rejected: -2.3339
+- Rewards/accuracies: 0.7698
+- Rewards/margins: 1.3312
+- Logps/rejected: -1118.8601
+- Logps/chosen: -1006.0907
+- Logits/rejected: 90.6424
+- Logits/chosen: 105.6680
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 1.0,
     "train_loss": 0.5152078939433867,
     "train_runtime": 5321.4428,
     "train_samples": 61135,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 105.66804504394531,
+    "eval_logits/rejected": 90.64244842529297,
+    "eval_logps/chosen": -1006.0906982421875,
+    "eval_logps/rejected": -1118.860107421875,
+    "eval_loss": 0.4697866141796112,
+    "eval_rewards/accuracies": 0.7698412537574768,
+    "eval_rewards/chosen": -1.0027239322662354,
+    "eval_rewards/margins": 1.331162929534912,
+    "eval_rewards/rejected": -2.3338871002197266,
+    "eval_runtime": 99.7367,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 20.053,
+    "eval_steps_per_second": 0.632,
     "train_loss": 0.5152078939433867,
     "train_runtime": 5321.4428,
     "train_samples": 61135,

config.json CHANGED Viewed

@@ -23,6 +23,6 @@
   "rope_theta": 10000.0,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
-  "use_cache": false,
   "vocab_size": 256000
 }

   "rope_theta": 10000.0,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
+  "use_cache": true,
   "vocab_size": 256000
 }

eval_results.json ADDED Viewed

+{
+    "epoch": 1.0,
+    "eval_logits/chosen": 105.66804504394531,
+    "eval_logits/rejected": 90.64244842529297,
+    "eval_logps/chosen": -1006.0906982421875,
+    "eval_logps/rejected": -1118.860107421875,
+    "eval_loss": 0.4697866141796112,
+    "eval_rewards/accuracies": 0.7698412537574768,
+    "eval_rewards/chosen": -1.0027239322662354,
+    "eval_rewards/margins": 1.331162929534912,
+    "eval_rewards/rejected": -2.3338871002197266,
+    "eval_runtime": 99.7367,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 20.053,
+    "eval_steps_per_second": 0.632
+}

runs/Feb29_22-08-46_ip-26-0-161-178/events.out.tfevents.1709250301.ip-26-0-161-178.1167714.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:abfeaa521320fc947f52f41d6c5253ccfdb16306502e73f4da83153405c3b303
+size 828