dpo_5wiothfs 5.9

Browse files

Files changed (4) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +452 -2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cd287bba5fde8fc753916b1d432058128613e0bcfc071316ad6378d8a26508e
 size 18900240

 version https://git-lfs.github.com/spec/v1
+oid sha256:9527902bd6aeaf0355fc706a007b7e21ee1a936860b8d1b9bd19824385fc4972
 size 18900240

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74d28b77057f2ce067f3506293bc8da387c9a97b206dccc88b87d9cb314b5e32
 size 37910458

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7dfe12af6d9861c0b41c1b9ca0e7b6f45d90828d79882df00f0e054a2f011d0
 size 37910458

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1dcb1c05f8406763f478190e5dde325c77e4a5fb69a17c7b42d79ed2e579e6e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0b908a911ffc3dc212618df71c6aa766b5d758bf18eb427c2dcfb767a1b2cba
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.763710090153931,
   "eval_steps": 2000,
-  "global_step": 5600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8439,6 +8439,456 @@
       "rewards/margins": 0.27365249395370483,
       "rewards/rejected": 0.5168629884719849,
       "step": 5600
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.85819455926932,
   "eval_steps": 2000,
+  "global_step": 5900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.27365249395370483,
       "rewards/rejected": 0.5168629884719849,
       "step": 5600
+    },
+    {
+      "epoch": 1.7668595724577774,
+      "grad_norm": 2.46875,
+      "learning_rate": 3.4943208086663183e-06,
+      "logits/chosen": -0.4847659170627594,
+      "logits/rejected": -0.33793026208877563,
+      "logps/chosen": -197.34933471679688,
+      "logps/rejected": -174.9829559326172,
+      "loss": 0.646,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.7014733552932739,
+      "rewards/margins": 0.12839707732200623,
+      "rewards/rejected": 0.5730762481689453,
+      "step": 5610
+    },
+    {
+      "epoch": 1.7700090547616236,
+      "grad_norm": 3.578125,
+      "learning_rate": 3.4894823245512986e-06,
+      "logits/chosen": -0.506749153137207,
+      "logits/rejected": -0.45556968450546265,
+      "logps/chosen": -197.71902465820312,
+      "logps/rejected": -186.50241088867188,
+      "loss": 0.6803,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.7117626070976257,
+      "rewards/margins": 0.06737571209669113,
+      "rewards/rejected": 0.644386887550354,
+      "step": 5620
+    },
+    {
+      "epoch": 1.7731585370654699,
+      "grad_norm": 2.578125,
+      "learning_rate": 3.484639441627448e-06,
+      "logits/chosen": -0.5070594549179077,
+      "logits/rejected": -0.3329693078994751,
+      "logps/chosen": -220.60986328125,
+      "logps/rejected": -183.98416137695312,
+      "loss": 0.6042,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.7875211834907532,
+      "rewards/margins": 0.2286391705274582,
+      "rewards/rejected": 0.5588821172714233,
+      "step": 5630
+    },
+    {
+      "epoch": 1.7763080193693161,
+      "grad_norm": 2.546875,
+      "learning_rate": 3.4797921814241196e-06,
+      "logits/chosen": -0.48938584327697754,
+      "logits/rejected": -0.37643399834632874,
+      "logps/chosen": -194.7692413330078,
+      "logps/rejected": -171.0836944580078,
+      "loss": 0.6345,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.7208179235458374,
+      "rewards/margins": 0.17952939867973328,
+      "rewards/rejected": 0.5412884950637817,
+      "step": 5640
+    },
+    {
+      "epoch": 1.7794575016731624,
+      "grad_norm": 2.71875,
+      "learning_rate": 3.4749405654901297e-06,
+      "logits/chosen": -0.5021311044692993,
+      "logits/rejected": -0.3592470586299896,
+      "logps/chosen": -203.04798889160156,
+      "logps/rejected": -170.28916931152344,
+      "loss": 0.6468,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.7304830551147461,
+      "rewards/margins": 0.14200101792812347,
+      "rewards/rejected": 0.5884820222854614,
+      "step": 5650
+    },
+    {
+      "epoch": 1.7826069839770087,
+      "grad_norm": 1.8125,
+      "learning_rate": 3.470084615393655e-06,
+      "logits/chosen": -0.5099314451217651,
+      "logits/rejected": -0.36777496337890625,
+      "logps/chosen": -188.96286010742188,
+      "logps/rejected": -158.13487243652344,
+      "loss": 0.5854,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 0.7638787031173706,
+      "rewards/margins": 0.25533777475357056,
+      "rewards/rejected": 0.5085408687591553,
+      "step": 5660
+    },
+    {
+      "epoch": 1.785756466280855,
+      "grad_norm": 2.71875,
+      "learning_rate": 3.4652243527221423e-06,
+      "logits/chosen": -0.4756031632423401,
+      "logits/rejected": -0.44920986890792847,
+      "logps/chosen": -185.1388397216797,
+      "logps/rejected": -172.55137634277344,
+      "loss": 0.6583,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.7094627618789673,
+      "rewards/margins": 0.13025884330272675,
+      "rewards/rejected": 0.5792039036750793,
+      "step": 5670
+    },
+    {
+      "epoch": 1.7889059485847014,
+      "grad_norm": 3.171875,
+      "learning_rate": 3.460359799082209e-06,
+      "logits/chosen": -0.47689515352249146,
+      "logits/rejected": -0.34241801500320435,
+      "logps/chosen": -204.8109588623047,
+      "logps/rejected": -166.13514709472656,
+      "loss": 0.615,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.7595565915107727,
+      "rewards/margins": 0.21238622069358826,
+      "rewards/rejected": 0.5471702814102173,
+      "step": 5680
+    },
+    {
+      "epoch": 1.7920554308885477,
+      "grad_norm": 3.765625,
+      "learning_rate": 3.4554909760995485e-06,
+      "logits/chosen": -0.5418170094490051,
+      "logits/rejected": -0.41362690925598145,
+      "logps/chosen": -187.98043823242188,
+      "logps/rejected": -167.5854034423828,
+      "loss": 0.6338,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.7204712629318237,
+      "rewards/margins": 0.1737706959247589,
+      "rewards/rejected": 0.5467005968093872,
+      "step": 5690
+    },
+    {
+      "epoch": 1.795204913192394,
+      "grad_norm": 3.3125,
+      "learning_rate": 3.450617905418834e-06,
+      "logits/chosen": -0.442087322473526,
+      "logits/rejected": -0.3480719029903412,
+      "logps/chosen": -205.0787353515625,
+      "logps/rejected": -176.585693359375,
+      "loss": 0.6078,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.7968889474868774,
+      "rewards/margins": 0.2236328423023224,
+      "rewards/rejected": 0.5732561349868774,
+      "step": 5700
+    },
+    {
+      "epoch": 1.7983543954962404,
+      "grad_norm": 3.125,
+      "learning_rate": 3.4457406087036233e-06,
+      "logits/chosen": -0.4669428765773773,
+      "logits/rejected": -0.379183828830719,
+      "logps/chosen": -183.84532165527344,
+      "logps/rejected": -169.44937133789062,
+      "loss": 0.6755,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.6309347748756409,
+      "rewards/margins": 0.07157482206821442,
+      "rewards/rejected": 0.5593599081039429,
+      "step": 5710
+    },
+    {
+      "epoch": 1.8015038778000867,
+      "grad_norm": 2.984375,
+      "learning_rate": 3.4408591076362585e-06,
+      "logits/chosen": -0.5323187112808228,
+      "logits/rejected": -0.45780545473098755,
+      "logps/chosen": -205.9134521484375,
+      "logps/rejected": -180.65916442871094,
+      "loss": 0.6566,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.7317408323287964,
+      "rewards/margins": 0.11702696233987808,
+      "rewards/rejected": 0.6147138476371765,
+      "step": 5720
+    },
+    {
+      "epoch": 1.804653360103933,
+      "grad_norm": 2.859375,
+      "learning_rate": 3.435973423917774e-06,
+      "logits/chosen": -0.48551005125045776,
+      "logits/rejected": -0.40477806329727173,
+      "logps/chosen": -195.50228881835938,
+      "logps/rejected": -173.91912841796875,
+      "loss": 0.6842,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.7036144137382507,
+      "rewards/margins": 0.06239970773458481,
+      "rewards/rejected": 0.6412147283554077,
+      "step": 5730
+    },
+    {
+      "epoch": 1.8078028424077792,
+      "grad_norm": 2.40625,
+      "learning_rate": 3.4310835792677995e-06,
+      "logits/chosen": -0.4431411623954773,
+      "logits/rejected": -0.3337770104408264,
+      "logps/chosen": -198.4442138671875,
+      "logps/rejected": -162.93258666992188,
+      "loss": 0.6348,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.6712988018989563,
+      "rewards/margins": 0.1662341058254242,
+      "rewards/rejected": 0.5050647854804993,
+      "step": 5740
+    },
+    {
+      "epoch": 1.8109523247116255,
+      "grad_norm": 3.015625,
+      "learning_rate": 3.4261895954244613e-06,
+      "logits/chosen": -0.4226387143135071,
+      "logits/rejected": -0.3787776827812195,
+      "logps/chosen": -173.4969024658203,
+      "logps/rejected": -161.3011932373047,
+      "loss": 0.6435,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.6374837160110474,
+      "rewards/margins": 0.13156263530254364,
+      "rewards/rejected": 0.5059210658073425,
+      "step": 5750
+    },
+    {
+      "epoch": 1.8141018070154717,
+      "grad_norm": 3.09375,
+      "learning_rate": 3.4212914941442866e-06,
+      "logits/chosen": -0.48183003067970276,
+      "logits/rejected": -0.3869970142841339,
+      "logps/chosen": -199.9102020263672,
+      "logps/rejected": -183.46273803710938,
+      "loss": 0.6739,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": 0.7144922614097595,
+      "rewards/margins": 0.07754186540842056,
+      "rewards/rejected": 0.6369503736495972,
+      "step": 5760
+    },
+    {
+      "epoch": 1.817251289319318,
+      "grad_norm": 2.796875,
+      "learning_rate": 3.416389297202107e-06,
+      "logits/chosen": -0.435200035572052,
+      "logits/rejected": -0.273305743932724,
+      "logps/chosen": -200.13018798828125,
+      "logps/rejected": -172.42526245117188,
+      "loss": 0.6273,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.7225381135940552,
+      "rewards/margins": 0.19170936942100525,
+      "rewards/rejected": 0.5308286547660828,
+      "step": 5770
+    },
+    {
+      "epoch": 1.8204007716231645,
+      "grad_norm": 3.203125,
+      "learning_rate": 3.4114830263909615e-06,
+      "logits/chosen": -0.488565593957901,
+      "logits/rejected": -0.3196925222873688,
+      "logps/chosen": -203.71237182617188,
+      "logps/rejected": -175.8201141357422,
+      "loss": 0.6425,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.6835566759109497,
+      "rewards/margins": 0.13755542039871216,
+      "rewards/rejected": 0.5460013151168823,
+      "step": 5780
+    },
+    {
+      "epoch": 1.8235502539270108,
+      "grad_norm": 2.84375,
+      "learning_rate": 3.4065727035220013e-06,
+      "logits/chosen": -0.48802971839904785,
+      "logits/rejected": -0.401599645614624,
+      "logps/chosen": -203.4430694580078,
+      "logps/rejected": -178.24978637695312,
+      "loss": 0.6509,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.7013251185417175,
+      "rewards/margins": 0.12661480903625488,
+      "rewards/rejected": 0.5747103095054626,
+      "step": 5790
+    },
+    {
+      "epoch": 1.826699736230857,
+      "grad_norm": 3.15625,
+      "learning_rate": 3.4016583504243892e-06,
+      "logits/chosen": -0.39509814977645874,
+      "logits/rejected": -0.3049541115760803,
+      "logps/chosen": -193.34628295898438,
+      "logps/rejected": -168.88990783691406,
+      "loss": 0.6467,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.6939215660095215,
+      "rewards/margins": 0.13865116238594055,
+      "rewards/rejected": 0.5552703738212585,
+      "step": 5800
+    },
+    {
+      "epoch": 1.8298492185347035,
+      "grad_norm": 2.609375,
+      "learning_rate": 3.3967399889452056e-06,
+      "logits/chosen": -0.5302572250366211,
+      "logits/rejected": -0.42114171385765076,
+      "logps/chosen": -187.310791015625,
+      "logps/rejected": -158.18551635742188,
+      "loss": 0.62,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.6706022024154663,
+      "rewards/margins": 0.18203167617321014,
+      "rewards/rejected": 0.48857051134109497,
+      "step": 5810
+    },
+    {
+      "epoch": 1.8329987008385498,
+      "grad_norm": 2.359375,
+      "learning_rate": 3.3918176409493498e-06,
+      "logits/chosen": -0.4302283227443695,
+      "logits/rejected": -0.3126838207244873,
+      "logps/chosen": -207.9413604736328,
+      "logps/rejected": -186.14862060546875,
+      "loss": 0.6106,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.8021620512008667,
+      "rewards/margins": 0.22595825791358948,
+      "rewards/rejected": 0.5762038826942444,
+      "step": 5820
+    },
+    {
+      "epoch": 1.836148183142396,
+      "grad_norm": 3.15625,
+      "learning_rate": 3.3868913283194445e-06,
+      "logits/chosen": -0.4245404303073883,
+      "logits/rejected": -0.3099447190761566,
+      "logps/chosen": -215.6573486328125,
+      "logps/rejected": -180.88473510742188,
+      "loss": 0.6243,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.8092790842056274,
+      "rewards/margins": 0.21156442165374756,
+      "rewards/rejected": 0.5977145433425903,
+      "step": 5830
+    },
+    {
+      "epoch": 1.8392976654462423,
+      "grad_norm": 2.203125,
+      "learning_rate": 3.381961072955737e-06,
+      "logits/chosen": -0.4956479072570801,
+      "logits/rejected": -0.4022194743156433,
+      "logps/chosen": -181.72386169433594,
+      "logps/rejected": -157.3038330078125,
+      "loss": 0.6444,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.6013648509979248,
+      "rewards/margins": 0.13577811419963837,
+      "rewards/rejected": 0.46558675169944763,
+      "step": 5840
+    },
+    {
+      "epoch": 1.8424471477500886,
+      "grad_norm": 2.828125,
+      "learning_rate": 3.3770268967760026e-06,
+      "logits/chosen": -0.4699929356575012,
+      "logits/rejected": -0.38960105180740356,
+      "logps/chosen": -190.84512329101562,
+      "logps/rejected": -165.31561279296875,
+      "loss": 0.6521,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.7368890047073364,
+      "rewards/margins": 0.1246052160859108,
+      "rewards/rejected": 0.6122837662696838,
+      "step": 5850
+    },
+    {
+      "epoch": 1.8455966300539348,
+      "grad_norm": 3.640625,
+      "learning_rate": 3.372088821715446e-06,
+      "logits/chosen": -0.5164574384689331,
+      "logits/rejected": -0.40460482239723206,
+      "logps/chosen": -215.09130859375,
+      "logps/rejected": -181.18551635742188,
+      "loss": 0.6583,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.7538167238235474,
+      "rewards/margins": 0.11776645481586456,
+      "rewards/rejected": 0.636050283908844,
+      "step": 5860
+    },
+    {
+      "epoch": 1.848746112357781,
+      "grad_norm": 2.65625,
+      "learning_rate": 3.3671468697266048e-06,
+      "logits/chosen": -0.486356645822525,
+      "logits/rejected": -0.45697417855262756,
+      "logps/chosen": -189.52955627441406,
+      "logps/rejected": -172.86190795898438,
+      "loss": 0.6822,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.6347873210906982,
+      "rewards/margins": 0.054320335388183594,
+      "rewards/rejected": 0.5804670453071594,
+      "step": 5870
+    },
+    {
+      "epoch": 1.8518955946616273,
+      "grad_norm": 3.375,
+      "learning_rate": 3.3622010627792513e-06,
+      "logits/chosen": -0.5492820143699646,
+      "logits/rejected": -0.38086193799972534,
+      "logps/chosen": -194.9511260986328,
+      "logps/rejected": -161.57528686523438,
+      "loss": 0.6699,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.6926398873329163,
+      "rewards/margins": 0.09596933424472809,
+      "rewards/rejected": 0.5966705083847046,
+      "step": 5880
+    },
+    {
+      "epoch": 1.8550450769654738,
+      "grad_norm": 2.84375,
+      "learning_rate": 3.3572514228602977e-06,
+      "logits/chosen": -0.4424726366996765,
+      "logits/rejected": -0.35579612851142883,
+      "logps/chosen": -196.1681671142578,
+      "logps/rejected": -165.40811157226562,
+      "loss": 0.6129,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.7343538999557495,
+      "rewards/margins": 0.21051523089408875,
+      "rewards/rejected": 0.5238386392593384,
+      "step": 5890
+    },
+    {
+      "epoch": 1.85819455926932,
+      "grad_norm": 2.96875,
+      "learning_rate": 3.3522979719736923e-06,
+      "logits/chosen": -0.4300655722618103,
+      "logits/rejected": -0.23585304617881775,
+      "logps/chosen": -209.92355346679688,
+      "logps/rejected": -173.3553924560547,
+      "loss": 0.639,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.7228736877441406,
+      "rewards/margins": 0.16360947489738464,
+      "rewards/rejected": 0.5592643022537231,
+      "step": 5900
     }
   ],
   "logging_steps": 10,