cat-searcher commited on Jul 17, 2024

Commit

1a8f4ed

verified ·

1 Parent(s): c52f2b9

Training in progress, epoch 8, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step1777/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1777/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +287 -2

last-checkpoint/global_step1777/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8396550322b4e5b4b248b3598bbd612faf1fa0c5ec2263b91351b58d2ba6952a
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6758aacbace36eabc0e4345305942e2e83f6723c45f46b208d8cd0ee5af70eda
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:563d893311f93f922464265e39a4485a399038fc2e0efcb1c1d66325071fb85b
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea1cc6ab202a983deb94fa9cb07564d7a48cf8206762ab91af259355e0edfe53
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fe1dae4d2a047cd117a16e7741262e6b1f2c690ec0bc3ed4b2a053ec1b2806b
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90f7c18ec1fef487b9877248fac51b28d61d68af11a1fc503a4618502cfb4351
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:064b00e29d06a308d96db35ae527cdea3075421480545e44a2d07675a1115fa0
+size 2506176112

last-checkpoint/global_step1777/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9711cb2e001c562b5182d857e9e4f2bd198074c71345145a59801f3faac5a30
+size 2506176112

last-checkpoint/global_step1777/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66a17f2748e0bf3a44e1eab236c57b741dfee963ce1997c03a9689ee0b8108ae
+size 85570

last-checkpoint/global_step1777/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af2eb59000d01d77dae6afc2546735ca79ac1991df6a3a6f884f898192208e53
+size 85506

last-checkpoint/global_step1777/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:376a8bbbe87d667a215c3706defabaf7ebe278616df6331e686b97721c8c3419
+size 85506

last-checkpoint/global_step1777/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58007c191c01ab6ebb4123e973b76acca0b2e62aea4d42bc9e4f4b51b617cb0f
+size 85506

last-checkpoint/global_step1777/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c27c952002e84236152e3f78661d14b975ebf305403311acad0ce73378b70aa2
+size 85506

last-checkpoint/global_step1777/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f62c6ac1739dfb92af138a4fc3a2f3c6715a75287f68e525d1754abbba8e1a57
+size 85506

last-checkpoint/global_step1777/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a45608a3414ad4258d01c2326f2238358551e58f5db9632e92aeb80934a65627
+size 85506

last-checkpoint/global_step1777/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0306d65d9d07722ebfb6b2eb4d41ef08e69a70e64d0d995f29f8611a6959b1fb
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1580~~


1	+ global_step1777

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d4c8b92632023613bca2cbaab82aff2bfc0f1b7c62aab671b9cfd3d8f06b448
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:09b755aaa0de9a9d7be5dd7cc1cf82ccedd0ac145120aec2032a624323902370
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c27030d235bb5b6be6f9fb6111ad0d2904a9ae1dbba3911f671ef6abf0b238
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef4f1316aa95047dba9bf5e25ec454561d74e6768f37069512a5b410ac5fb8ad
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ee195ebde9bf012f945f068f133e7fe22fef5450c496607e3ef11cc2034a186
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae9162e03c562553a5d9d13120f544d3c47ea71bb39aa44e18253675e17ed4a4
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf0fe1a3315d60b197207c5cb249d0ce4f9ce6d7585e696276d9ffbcb5379893
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4809456871b3a40c8db7e0926a9db11b01149a1d483fb29b16fc69dabaf36c6f
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01c5bd6eae04542162b3e94245555bd81312524066bc01d0ebbfc4fd8554240e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bb6bcf25ff148b74eea7dd4895fc42e9433538fff5d75f0d2ae6cb0c2fdadf0
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45b74942c68b00d657cfce186b0eeb4aa8f52efa04b114803b605fee8de45972
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f00ea04cd1a52c539d9cc948ac8a04676d6b99702acd09149565f781806f63f
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd66dd2ba958fc9929441817d8154abbd929c0aa9cd66ff3171965bdaaf5d78
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5571fb2fc1b413792b01ac691c759786855573992bab1d14875faccdaf8c881e
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89eeedefdd62514d0130acc330a5c08e9774c95d38c60997905cfd65fc54b710
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:59019ba23ead9c15851cb4349397254458ce50ea3c2987090404f4f3842c6d8f
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f43ced939100082608f57561a10e1888e69210c80675068db530c5815889910e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:45fdffda57fda4a555da7a5de6fc6ec7324e0dae048b92519af6c4f6a1bc7412
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d8d6ee244d99525e7004ae3f02d44ae63082d81fbbab7306f641ac6aeeb736f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:62fb2c13e63aba83c4505fae1639f79a33853d8f1bebe20cecb73bf53c8e7c46
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4222d0b9fadaea1c2825a6be6146f638b45462a966591dbc095e76b291c3b43f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e16985aaf4cce287f446385c2d8f7c8409907ca0803309b7f28917440fa9de11
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 100,
-  "global_step": 1580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2392,6 +2392,291 @@
       "rewards/margins": 0.42148295044898987,
       "rewards/rejected": -0.2844696640968323,
       "step": 1580
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.99746835443038,
   "eval_steps": 100,
+  "global_step": 1777,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.42148295044898987,
       "rewards/rejected": -0.2844696640968323,
       "step": 1580
+    },
+    {
+      "epoch": 8.050632911392405,
+      "grad_norm": 1502727.0577222395,
+      "learning_rate": 3.064869946725164e-07,
+      "logits/chosen": -2.0656542778015137,
+      "logits/rejected": -1.5985521078109741,
+      "logps/chosen": -84.60444641113281,
+      "logps/rejected": -520.1857299804688,
+      "loss": 24723.275,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1492975652217865,
+      "rewards/margins": 0.4404692053794861,
+      "rewards/rejected": -0.2911716103553772,
+      "step": 1590
+    },
+    {
+      "epoch": 8.10126582278481,
+      "grad_norm": 838369.9468876831,
+      "learning_rate": 3.049200877467878e-07,
+      "logits/chosen": -1.758178949356079,
+      "logits/rejected": -0.7727742791175842,
+      "logps/chosen": -83.45867919921875,
+      "logps/rejected": -530.3883666992188,
+      "loss": 25817.0203,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.14538443088531494,
+      "rewards/margins": 0.45367687940597534,
+      "rewards/rejected": -0.3082924485206604,
+      "step": 1600
+    },
+    {
+      "epoch": 8.151898734177216,
+      "grad_norm": 1012852.54550217,
+      "learning_rate": 3.0335318082105923e-07,
+      "logits/chosen": -2.217496156692505,
+      "logits/rejected": -2.0143866539001465,
+      "logps/chosen": -100.38580322265625,
+      "logps/rejected": -549.8438720703125,
+      "loss": 25090.8891,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.13634233176708221,
+      "rewards/margins": 0.44348135590553284,
+      "rewards/rejected": -0.30713900923728943,
+      "step": 1610
+    },
+    {
+      "epoch": 8.20253164556962,
+      "grad_norm": 1056784.1797241461,
+      "learning_rate": 3.0178627389533064e-07,
+      "logits/chosen": -1.1953948736190796,
+      "logits/rejected": -0.2751680910587311,
+      "logps/chosen": -89.64523315429688,
+      "logps/rejected": -510.4059143066406,
+      "loss": 24456.725,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.14029642939567566,
+      "rewards/margins": 0.4281511902809143,
+      "rewards/rejected": -0.28785476088523865,
+      "step": 1620
+    },
+    {
+      "epoch": 8.253164556962025,
+      "grad_norm": 1147595.1251004518,
+      "learning_rate": 3.00219366969602e-07,
+      "logits/chosen": -2.550518035888672,
+      "logits/rejected": -2.5027434825897217,
+      "logps/chosen": -76.6513442993164,
+      "logps/rejected": -524.4201049804688,
+      "loss": 23486.5594,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.15493164956569672,
+      "rewards/margins": 0.44891220331192017,
+      "rewards/rejected": -0.29398053884506226,
+      "step": 1630
+    },
+    {
+      "epoch": 8.30379746835443,
+      "grad_norm": 1390175.0732444616,
+      "learning_rate": 2.986524600438734e-07,
+      "logits/chosen": -0.059876419603824615,
+      "logits/rejected": 0.00422248849645257,
+      "logps/chosen": -74.77996063232422,
+      "logps/rejected": -544.7862548828125,
+      "loss": 24176.6094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.151381716132164,
+      "rewards/margins": 0.4694734215736389,
+      "rewards/rejected": -0.3180916905403137,
+      "step": 1640
+    },
+    {
+      "epoch": 8.354430379746836,
+      "grad_norm": 1846159.1203677754,
+      "learning_rate": 2.970855531181448e-07,
+      "logits/chosen": -3.206434726715088,
+      "logits/rejected": -2.6545357704162598,
+      "logps/chosen": -79.13458251953125,
+      "logps/rejected": -529.1912841796875,
+      "loss": 25560.5344,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.14862783253192902,
+      "rewards/margins": 0.4489147663116455,
+      "rewards/rejected": -0.3002868890762329,
+      "step": 1650
+    },
+    {
+      "epoch": 8.405063291139241,
+      "grad_norm": 1294602.7153889702,
+      "learning_rate": 2.955186461924162e-07,
+      "logits/chosen": -1.0581172704696655,
+      "logits/rejected": -0.6744507551193237,
+      "logps/chosen": -78.69017028808594,
+      "logps/rejected": -526.4840087890625,
+      "loss": 25549.9125,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.14595063030719757,
+      "rewards/margins": 0.44837069511413574,
+      "rewards/rejected": -0.302420049905777,
+      "step": 1660
+    },
+    {
+      "epoch": 8.455696202531646,
+      "grad_norm": 1653521.5239311927,
+      "learning_rate": 2.9395173926668755e-07,
+      "logits/chosen": -0.9036309123039246,
+      "logits/rejected": -0.16554176807403564,
+      "logps/chosen": -83.71012878417969,
+      "logps/rejected": -525.7719116210938,
+      "loss": 25089.5516,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.14826878905296326,
+      "rewards/margins": 0.4438709616661072,
+      "rewards/rejected": -0.2956022024154663,
+      "step": 1670
+    },
+    {
+      "epoch": 8.50632911392405,
+      "grad_norm": 1371497.4089594388,
+      "learning_rate": 2.9238483234095896e-07,
+      "logits/chosen": -1.423182725906372,
+      "logits/rejected": -1.0717556476593018,
+      "logps/chosen": -89.4638671875,
+      "logps/rejected": -577.1199340820312,
+      "loss": 24558.0953,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.15898647904396057,
+      "rewards/margins": 0.48913446068763733,
+      "rewards/rejected": -0.330147922039032,
+      "step": 1680
+    },
+    {
+      "epoch": 8.556962025316455,
+      "grad_norm": 1476867.0955964676,
+      "learning_rate": 2.908179254152303e-07,
+      "logits/chosen": -3.2004425525665283,
+      "logits/rejected": -2.7161200046539307,
+      "logps/chosen": -86.7264633178711,
+      "logps/rejected": -543.3889770507812,
+      "loss": 26642.4781,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1485292911529541,
+      "rewards/margins": 0.4551934599876404,
+      "rewards/rejected": -0.3066641688346863,
+      "step": 1690
+    },
+    {
+      "epoch": 8.60759493670886,
+      "grad_norm": 1134090.4892000444,
+      "learning_rate": 2.8925101848950173e-07,
+      "logits/chosen": -0.274528443813324,
+      "logits/rejected": 0.4862538278102875,
+      "logps/chosen": -79.16570281982422,
+      "logps/rejected": -513.53173828125,
+      "loss": 23741.9938,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.15034614503383636,
+      "rewards/margins": 0.43597039580345154,
+      "rewards/rejected": -0.28562426567077637,
+      "step": 1700
+    },
+    {
+      "epoch": 8.658227848101266,
+      "grad_norm": 1314089.2981008843,
+      "learning_rate": 2.876841115637731e-07,
+      "logits/chosen": 0.6013806462287903,
+      "logits/rejected": 1.2335985898971558,
+      "logps/chosen": -90.46197509765625,
+      "logps/rejected": -551.8345947265625,
+      "loss": 24216.4281,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1541350781917572,
+      "rewards/margins": 0.47102633118629456,
+      "rewards/rejected": -0.3168913424015045,
+      "step": 1710
+    },
+    {
+      "epoch": 8.708860759493671,
+      "grad_norm": 1622019.967143891,
+      "learning_rate": 2.861172046380445e-07,
+      "logits/chosen": 0.2407432496547699,
+      "logits/rejected": 0.4264713227748871,
+      "logps/chosen": -93.0431900024414,
+      "logps/rejected": -564.0677490234375,
+      "loss": 23649.3016,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.147947758436203,
+      "rewards/margins": 0.4662678837776184,
+      "rewards/rejected": -0.3183201253414154,
+      "step": 1720
+    },
+    {
+      "epoch": 8.759493670886076,
+      "grad_norm": 1520791.345848389,
+      "learning_rate": 2.8455029771231586e-07,
+      "logits/chosen": 0.6626393795013428,
+      "logits/rejected": 0.7864507436752319,
+      "logps/chosen": -94.95128631591797,
+      "logps/rejected": -540.1358642578125,
+      "loss": 25224.3125,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.14551883935928345,
+      "rewards/margins": 0.4529417157173157,
+      "rewards/rejected": -0.3074227571487427,
+      "step": 1730
+    },
+    {
+      "epoch": 8.810126582278482,
+      "grad_norm": 1625465.2135884068,
+      "learning_rate": 2.8298339078658727e-07,
+      "logits/chosen": -0.07786345481872559,
+      "logits/rejected": -0.031427524983882904,
+      "logps/chosen": -90.72882843017578,
+      "logps/rejected": -539.1676025390625,
+      "loss": 24133.7531,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.15023007988929749,
+      "rewards/margins": 0.4491490423679352,
+      "rewards/rejected": -0.2989189624786377,
+      "step": 1740
+    },
+    {
+      "epoch": 8.860759493670885,
+      "grad_norm": 1330490.8036484018,
+      "learning_rate": 2.8141648386085863e-07,
+      "logits/chosen": 0.1896178424358368,
+      "logits/rejected": 1.3701179027557373,
+      "logps/chosen": -78.11041259765625,
+      "logps/rejected": -545.9954833984375,
+      "loss": 24713.5375,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.15004639327526093,
+      "rewards/margins": 0.4731353223323822,
+      "rewards/rejected": -0.32308894395828247,
+      "step": 1750
+    },
+    {
+      "epoch": 8.91139240506329,
+      "grad_norm": 1240332.5244059283,
+      "learning_rate": 2.7984957693513004e-07,
+      "logits/chosen": 0.09949211776256561,
+      "logits/rejected": 0.6086061596870422,
+      "logps/chosen": -84.04310607910156,
+      "logps/rejected": -550.8171997070312,
+      "loss": 24452.55,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.14817103743553162,
+      "rewards/margins": 0.47146469354629517,
+      "rewards/rejected": -0.32329362630844116,
+      "step": 1760
+    },
+    {
+      "epoch": 8.962025316455696,
+      "grad_norm": 1279998.0524960216,
+      "learning_rate": 2.782826700094014e-07,
+      "logits/chosen": -1.9250777959823608,
+      "logits/rejected": -1.7448539733886719,
+      "logps/chosen": -92.84037780761719,
+      "logps/rejected": -539.1063232421875,
+      "loss": 25664.2531,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1440330594778061,
+      "rewards/margins": 0.45180240273475647,
+      "rewards/rejected": -0.3077693581581116,
+      "step": 1770
     }
   ],
   "logging_steps": 10,