mlfoundations-dev
/

gemma-simpo-reproduction

@@ -3,6 +3,8 @@ library_name: transformers
 license: gemma
 base_model: google/gemma-2-9b-it
 tags:
 - trl
 - dpo
 - llama-factory
@@ -18,7 +20,17 @@ should probably proofread and complete it, then remove this comment. -->
 # gemma-simpo-reproduction
-This model is a fine-tuned version of [google/gemma-2-9b-it](https://huggingface.co/google/gemma-2-9b-it) on an unknown dataset.
 ## Model description

 license: gemma
 base_model: google/gemma-2-9b-it
 tags:
+- llama-factory
+- full
 - trl
 - dpo
 - llama-factory
 # gemma-simpo-reproduction
+This model is a fine-tuned version of [google/gemma-2-9b-it](https://huggingface.co/google/gemma-2-9b-it) on the mlfoundations-dev/gemma2-ultrafeedback-armorm dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.0558
+- Rewards/chosen: -17.0597
+- Rewards/rejected: -21.9498
+- Rewards/accuracies: 0.7584
+- Rewards/margins: 4.8901
+- Logps/rejected: -2.1950
+- Logps/chosen: -1.7060
+- Logits/rejected: -18.1137
+- Logits/chosen: -18.2041
 ## Model description

all_results.json CHANGED Viewed

@@ -9,12 +9,12 @@
     "eval_rewards/chosen": -17.05968475341797,
     "eval_rewards/margins": 4.890104293823242,
     "eval_rewards/rejected": -21.949787139892578,
-    "eval_runtime": 2126.294,
-    "eval_samples_per_second": 1.401,
-    "eval_steps_per_second": 0.35,
     "total_flos": 227674672136192.0,
     "train_loss": 0.0,
-    "train_runtime": 1.6273,
-    "train_samples_per_second": 34774.982,
-    "train_steps_per_second": 271.612
 }

     "eval_rewards/chosen": -17.05968475341797,
     "eval_rewards/margins": 4.890104293823242,
     "eval_rewards/rejected": -21.949787139892578,
+    "eval_runtime": 703.5263,
+    "eval_samples_per_second": 4.234,
+    "eval_steps_per_second": 1.059,
     "total_flos": 227674672136192.0,
     "train_loss": 0.0,
+    "train_runtime": 1.3679,
+    "train_samples_per_second": 41370.599,
+    "train_steps_per_second": 323.128
 }

eval_results.json CHANGED Viewed

@@ -9,7 +9,7 @@
     "eval_rewards/chosen": -17.05968475341797,
     "eval_rewards/margins": 4.890104293823242,
     "eval_rewards/rejected": -21.949787139892578,
-    "eval_runtime": 2126.294,
-    "eval_samples_per_second": 1.401,
-    "eval_steps_per_second": 0.35
 }

     "eval_rewards/chosen": -17.05968475341797,
     "eval_rewards/margins": 4.890104293823242,
     "eval_rewards/rejected": -21.949787139892578,
+    "eval_runtime": 703.5263,
+    "eval_samples_per_second": 4.234,
+    "eval_steps_per_second": 1.059
 }

train_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 0.9997172745264349,
     "total_flos": 227674672136192.0,
     "train_loss": 0.0,
-    "train_runtime": 1.6273,
-    "train_samples_per_second": 34774.982,
-    "train_steps_per_second": 271.612
 }

     "epoch": 0.9997172745264349,
     "total_flos": 227674672136192.0,
     "train_loss": 0.0,
+    "train_runtime": 1.3679,
+    "train_samples_per_second": 41370.599,
+    "train_steps_per_second": 323.128
 }

trainer_state.json CHANGED Viewed

@@ -6643,9 +6643,9 @@
       "step": 442,
       "total_flos": 227674672136192.0,
       "train_loss": 0.0,
-      "train_runtime": 1.6273,
-      "train_samples_per_second": 34774.982,
-      "train_steps_per_second": 271.612
     }
   ],
   "logging_steps": 1,

       "step": 442,
       "total_flos": 227674672136192.0,
       "train_loss": 0.0,
+      "train_runtime": 1.3679,
+      "train_samples_per_second": 41370.599,
+      "train_steps_per_second": 323.128
     }
   ],
   "logging_steps": 1,