5wiothfs 5.6

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +2 -152

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01526417c034d18e2cfcdf730aea5425a2578aed652ba30c516159f411ca16a5
 size 18900240

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cd287bba5fde8fc753916b1d432058128613e0bcfc071316ad6378d8a26508e
 size 18900240

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc6743779b6a95aa39cfa21eb4180047acc5099f52d15563917ad0be3f66b7b5
 size 37910458

 version https://git-lfs.github.com/spec/v1
+oid sha256:74d28b77057f2ce067f3506293bc8da387c9a97b206dccc88b87d9cb314b5e32
 size 37910458

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3838d83f7726f0c86c7838cad1ec5e5096386a76705b0e3ebf79216139e847d0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1dcb1c05f8406763f478190e5dde325c77e4a5fb69a17c7b42d79ed2e579e6e
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.795204913192394,
   "eval_steps": 2000,
-  "global_step": 5700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8439,156 +8439,6 @@
       "rewards/margins": 0.27365249395370483,
       "rewards/rejected": 0.5168629884719849,
       "step": 5600
-    },
-    {
-      "epoch": 1.7668595724577774,
-      "grad_norm": 2.46875,
-      "learning_rate": 3.4943208086663183e-06,
-      "logits/chosen": -0.4847659170627594,
-      "logits/rejected": -0.33793026208877563,
-      "logps/chosen": -197.34933471679688,
-      "logps/rejected": -174.9829559326172,
-      "loss": 0.646,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.7014733552932739,
-      "rewards/margins": 0.12839707732200623,
-      "rewards/rejected": 0.5730762481689453,
-      "step": 5610
-    },
-    {
-      "epoch": 1.7700090547616236,
-      "grad_norm": 3.578125,
-      "learning_rate": 3.4894823245512986e-06,
-      "logits/chosen": -0.506749153137207,
-      "logits/rejected": -0.45556968450546265,
-      "logps/chosen": -197.71902465820312,
-      "logps/rejected": -186.50241088867188,
-      "loss": 0.6803,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.7117626070976257,
-      "rewards/margins": 0.06737571209669113,
-      "rewards/rejected": 0.644386887550354,
-      "step": 5620
-    },
-    {
-      "epoch": 1.7731585370654699,
-      "grad_norm": 2.578125,
-      "learning_rate": 3.484639441627448e-06,
-      "logits/chosen": -0.5070594549179077,
-      "logits/rejected": -0.3329693078994751,
-      "logps/chosen": -220.60986328125,
-      "logps/rejected": -183.98416137695312,
-      "loss": 0.6042,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.7875211834907532,
-      "rewards/margins": 0.2286391705274582,
-      "rewards/rejected": 0.5588821172714233,
-      "step": 5630
-    },
-    {
-      "epoch": 1.7763080193693161,
-      "grad_norm": 2.546875,
-      "learning_rate": 3.4797921814241196e-06,
-      "logits/chosen": -0.48938584327697754,
-      "logits/rejected": -0.37643399834632874,
-      "logps/chosen": -194.7692413330078,
-      "logps/rejected": -171.0836944580078,
-      "loss": 0.6345,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.7208179235458374,
-      "rewards/margins": 0.17952939867973328,
-      "rewards/rejected": 0.5412884950637817,
-      "step": 5640
-    },
-    {
-      "epoch": 1.7794575016731624,
-      "grad_norm": 2.71875,
-      "learning_rate": 3.4749405654901297e-06,
-      "logits/chosen": -0.5021311044692993,
-      "logits/rejected": -0.3592470586299896,
-      "logps/chosen": -203.04798889160156,
-      "logps/rejected": -170.28916931152344,
-      "loss": 0.6468,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.7304830551147461,
-      "rewards/margins": 0.14200101792812347,
-      "rewards/rejected": 0.5884820222854614,
-      "step": 5650
-    },
-    {
-      "epoch": 1.7826069839770087,
-      "grad_norm": 1.8125,
-      "learning_rate": 3.470084615393655e-06,
-      "logits/chosen": -0.5099314451217651,
-      "logits/rejected": -0.36777496337890625,
-      "logps/chosen": -188.96286010742188,
-      "logps/rejected": -158.13487243652344,
-      "loss": 0.5854,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": 0.7638787031173706,
-      "rewards/margins": 0.25533777475357056,
-      "rewards/rejected": 0.5085408687591553,
-      "step": 5660
-    },
-    {
-      "epoch": 1.785756466280855,
-      "grad_norm": 2.71875,
-      "learning_rate": 3.4652243527221423e-06,
-      "logits/chosen": -0.4756031632423401,
-      "logits/rejected": -0.44920986890792847,
-      "logps/chosen": -185.1388397216797,
-      "logps/rejected": -172.55137634277344,
-      "loss": 0.6583,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.7094627618789673,
-      "rewards/margins": 0.13025884330272675,
-      "rewards/rejected": 0.5792039036750793,
-      "step": 5670
-    },
-    {
-      "epoch": 1.7889059485847014,
-      "grad_norm": 3.171875,
-      "learning_rate": 3.460359799082209e-06,
-      "logits/chosen": -0.47689515352249146,
-      "logits/rejected": -0.34241801500320435,
-      "logps/chosen": -204.8109588623047,
-      "logps/rejected": -166.13514709472656,
-      "loss": 0.615,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.7595565915107727,
-      "rewards/margins": 0.21238622069358826,
-      "rewards/rejected": 0.5471702814102173,
-      "step": 5680
-    },
-    {
-      "epoch": 1.7920554308885477,
-      "grad_norm": 3.765625,
-      "learning_rate": 3.4554909760995485e-06,
-      "logits/chosen": -0.5418170094490051,
-      "logits/rejected": -0.41362690925598145,
-      "logps/chosen": -187.98043823242188,
-      "logps/rejected": -167.5854034423828,
-      "loss": 0.6338,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.7204712629318237,
-      "rewards/margins": 0.1737706959247589,
-      "rewards/rejected": 0.5467005968093872,
-      "step": 5690
-    },
-    {
-      "epoch": 1.795204913192394,
-      "grad_norm": 3.3125,
-      "learning_rate": 3.450617905418834e-06,
-      "logits/chosen": -0.442087322473526,
-      "logits/rejected": -0.3480719029903412,
-      "logps/chosen": -205.0787353515625,
-      "logps/rejected": -176.585693359375,
-      "loss": 0.6078,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.7968889474868774,
-      "rewards/margins": 0.2236328423023224,
-      "rewards/rejected": 0.5732561349868774,
-      "step": 5700
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.763710090153931,
   "eval_steps": 2000,
+  "global_step": 5600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.27365249395370483,
       "rewards/rejected": 0.5168629884719849,
       "step": 5600
     }
   ],
   "logging_steps": 10,