cat-searcher commited on Jul 17, 2024

Commit

1ddaac7

verified ·

1 Parent(s): a1151a6

Training in progress, epoch 12, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step2370/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2370/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step2370/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:539b878ac428efe179a9375e8b771e2bbe9959772f656a49d248e6c21219607e
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19da0539a63298d7f1955a78fcaf7a604fcad4711a600d78009f59c133c389ac
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc663754bb20fa5b5fde7512f1fd6852c63dd93b8632058b00f46439ec37ebe5
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f21f8c0cf635bb9dda9a9fde6692374f03cdec0db6fde80b9759d17dd0883e01
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb76669b49a0a5796f4b28891fa464c5214f5dea1974df32eafd9088b754c68c
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88a25cae859fbf4e0314c2387d5bce4af8d0f6fb7afff106b574200c2f21a2a9
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:091a2d886d23f7b7b11c575b96df3e036faee52f2a7be10747eb98191e548a3e
+size 2506176112

last-checkpoint/global_step2370/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7474f03f70f02ec545471985af7899d5803c748676ad98efc15902b0a9f59521
+size 2506176112

last-checkpoint/global_step2370/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8547ba8eff0308b0e571bd9e50e88b0cfc15f4d6be3778ecad8040612a04adc
+size 85570

last-checkpoint/global_step2370/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc231122d4c07d64f4a593043fb64d590896f1ad7dd839020d0cbab2ff092571
+size 85506

last-checkpoint/global_step2370/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7069360f0bcf13c37ea51d6b4e220a839816597f887ed5d2071d7bdca870d0dc
+size 85506

last-checkpoint/global_step2370/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a56bf198409faf60746637d9bb3cce97bb0a9234fe5b1b53a73493dda801298
+size 85506

last-checkpoint/global_step2370/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c930481b99d54823a71618a492aa499fee19fa8a46038c05c3ada2955784e7ec
+size 85506

last-checkpoint/global_step2370/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b8db9c13190d5d46ec451b202094fd847a2aa3b4ceb0e87506dcb32bb5f3ed3
+size 85506

last-checkpoint/global_step2370/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88990d974f323a1ad602fb79ac849fba4eb11c4e06a6896eee838f3e06bddc1b
+size 85506

last-checkpoint/global_step2370/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3933146a75f8eb8995b85d55978af32d948210229f919e0a6a99c609e4ed4d1a
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2172~~


1	+ global_step2370

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34c2fdc6dc356fbd1457bd44a4aaf9ba031e2601ef060eb917fb58507b625392
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb90761b8d1100caed65f46e62bc543938eea85fd3c409acef5287472762cc31
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2855531bbf77a7757bdcaa0136c3f7ea44a90f0b68feedc3569b88783065fd99
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:933b765e67fd27d0106fb7378964b3b6e3a143eaa550740f03ab1d3a10ff3bea
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba4c26c615bd5830d41566fab54dc69174be292761b34514b27fbe82b45b630b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:feb6462d333dbc5bb5e497ea9b0adb960f7616f79e6eea63222de6d5bd559516
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60c761d7f9b90c29c2d348a1133fd39be52c65e6bee4c2d179f6a6e564eb3a40
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b045e1bfa728f51c8b51ab0faa20b128a4fbd350da006b9b39a19e24abdf5a74
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccab847cc956e055fd3f9dcce06898826d065211e945b83576c8d487f87c5469
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f76a3d058d2628a61848c2441d313f251278bd8f74ce43dc44d8cd8ad3e619a8
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e5f1dbdcf6ec820c22fd1e4258fcd7af2a2bce65c480988d3f111aa574c9c06
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7f72fc498e6eaa671cdc0e8a627a668b8ef607063a22ddb4edbc05e791be830
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a23184c3e806d2649776427d1da2c0c9137f9b23a84468f3bdd5bbc75f696c9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:12889af98e175b734a788f4c5b8c4da91dd61ff3a05aaf61b9d4c66aa3dd8ad6
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:382fc01b809542bf6f5e26742e3e19e80a1f189ac5de24cf8cd822e303916b83
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe21a86abfceeac2cf2f48afd61a9a506cf61a287f3403f1adf391bb2ffa5a83
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b178265c7d2ae07bff10b7312e5e49b9f5b4914c38969d2f64a6ca006296bca
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:73488bec91f9dee6d8105d06f99edaf4d27b6b064250d4c7023f33285b2f3132
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:668825a859126c4cf32afb883895c91004130b6aee02178736ca2840e5429ad0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:edf6ee1cc2e1325b428a21172ec4e61b7220c5489751ea11c06bb66c77a0cd08
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:450ea4feab6edb2c0a6bc824ba5e7d3864d6d5f94f04f20b34071a93ed9c22f2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:80293d1d3039c03cadd9a7663af0dceb761b51cb1e901c839618d66f90e7f384
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.99746835443038,
   "eval_steps": 100,
-  "global_step": 2172,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3277,6 +3277,306 @@
       "rewards/margins": 0.5280236601829529,
       "rewards/rejected": -0.35101914405822754,
       "step": 2170
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.0,
   "eval_steps": 100,
+  "global_step": 2370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5280236601829529,
       "rewards/rejected": -0.35101914405822754,
       "step": 2170
+    },
+    {
+      "epoch": 11.037974683544304,
+      "grad_norm": 852169.287356795,
+      "learning_rate": 2.1403948605452835e-07,
+      "logits/chosen": -1.0383515357971191,
+      "logits/rejected": 0.3044077157974243,
+      "logps/chosen": -60.7518196105957,
+      "logps/rejected": -550.4581909179688,
+      "loss": 18261.975,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.16871869564056396,
+      "rewards/margins": 0.49391689896583557,
+      "rewards/rejected": -0.32519814372062683,
+      "step": 2180
+    },
+    {
+      "epoch": 11.08860759493671,
+      "grad_norm": 850664.061578799,
+      "learning_rate": 2.1247257912879973e-07,
+      "logits/chosen": -0.5247487425804138,
+      "logits/rejected": -0.718704342842102,
+      "logps/chosen": -48.23347473144531,
+      "logps/rejected": -571.79296875,
+      "loss": 17780.6719,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.17942146956920624,
+      "rewards/margins": 0.5196394920349121,
+      "rewards/rejected": -0.34021803736686707,
+      "step": 2190
+    },
+    {
+      "epoch": 11.139240506329115,
+      "grad_norm": 795813.8223153341,
+      "learning_rate": 2.1090567220307112e-07,
+      "logits/chosen": 0.2913626730442047,
+      "logits/rejected": 0.3964959681034088,
+      "logps/chosen": -57.057777404785156,
+      "logps/rejected": -553.8439331054688,
+      "loss": 19198.0062,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1739949882030487,
+      "rewards/margins": 0.49791765213012695,
+      "rewards/rejected": -0.32392266392707825,
+      "step": 2200
+    },
+    {
+      "epoch": 11.189873417721518,
+      "grad_norm": 1113023.3688515616,
+      "learning_rate": 2.093387652773425e-07,
+      "logits/chosen": 1.5053379535675049,
+      "logits/rejected": 2.2073726654052734,
+      "logps/chosen": -52.245140075683594,
+      "logps/rejected": -549.0379028320312,
+      "loss": 18112.9031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1701221615076065,
+      "rewards/margins": 0.49869513511657715,
+      "rewards/rejected": -0.32857298851013184,
+      "step": 2210
+    },
+    {
+      "epoch": 11.240506329113924,
+      "grad_norm": 1112437.2131689412,
+      "learning_rate": 2.077718583516139e-07,
+      "logits/chosen": -0.7113906741142273,
+      "logits/rejected": -0.593052089214325,
+      "logps/chosen": -56.02216720581055,
+      "logps/rejected": -588.62255859375,
+      "loss": 18765.7359,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18194417655467987,
+      "rewards/margins": 0.529647707939148,
+      "rewards/rejected": -0.3477035462856293,
+      "step": 2220
+    },
+    {
+      "epoch": 11.291139240506329,
+      "grad_norm": 735799.2580717172,
+      "learning_rate": 2.0620495142588527e-07,
+      "logits/chosen": -0.9520748257637024,
+      "logits/rejected": -0.6387659907341003,
+      "logps/chosen": -58.523109436035156,
+      "logps/rejected": -582.5303344726562,
+      "loss": 17604.2656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.17585232853889465,
+      "rewards/margins": 0.522950291633606,
+      "rewards/rejected": -0.3470980226993561,
+      "step": 2230
+    },
+    {
+      "epoch": 11.341772151898734,
+      "grad_norm": 716407.5247360148,
+      "learning_rate": 2.0463804450015669e-07,
+      "logits/chosen": 1.4925919771194458,
+      "logits/rejected": 1.6499805450439453,
+      "logps/chosen": -63.138038635253906,
+      "logps/rejected": -546.4395751953125,
+      "loss": 18588.6406,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1618063747882843,
+      "rewards/margins": 0.48370370268821716,
+      "rewards/rejected": -0.3218972980976105,
+      "step": 2240
+    },
+    {
+      "epoch": 11.39240506329114,
+      "grad_norm": 598500.3265676593,
+      "learning_rate": 2.0307113757442807e-07,
+      "logits/chosen": 0.6475615501403809,
+      "logits/rejected": 1.338098406791687,
+      "logps/chosen": -58.75787353515625,
+      "logps/rejected": -563.3907470703125,
+      "loss": 18119.6031,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.17143133282661438,
+      "rewards/margins": 0.5086871981620789,
+      "rewards/rejected": -0.3372558653354645,
+      "step": 2250
+    },
+    {
+      "epoch": 11.443037974683545,
+      "grad_norm": 1221314.1531539639,
+      "learning_rate": 2.0150423064869946e-07,
+      "logits/chosen": -0.327157199382782,
+      "logits/rejected": 0.03896377235651016,
+      "logps/chosen": -58.68574905395508,
+      "logps/rejected": -558.2637329101562,
+      "loss": 17534.2281,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.17224976420402527,
+      "rewards/margins": 0.49942049384117126,
+      "rewards/rejected": -0.327170729637146,
+      "step": 2260
+    },
+    {
+      "epoch": 11.49367088607595,
+      "grad_norm": 456316.6263000263,
+      "learning_rate": 1.9993732372297084e-07,
+      "logits/chosen": -0.07340321689844131,
+      "logits/rejected": 0.9581168293952942,
+      "logps/chosen": -56.39067459106445,
+      "logps/rejected": -567.6375732421875,
+      "loss": 17502.8781,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1778116524219513,
+      "rewards/margins": 0.5131680965423584,
+      "rewards/rejected": -0.3353564143180847,
+      "step": 2270
+    },
+    {
+      "epoch": 11.544303797468354,
+      "grad_norm": 711686.0768962563,
+      "learning_rate": 1.9837041679724223e-07,
+      "logits/chosen": -0.8106869459152222,
+      "logits/rejected": -0.6330159902572632,
+      "logps/chosen": -61.687591552734375,
+      "logps/rejected": -573.0241088867188,
+      "loss": 17796.2391,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18241460621356964,
+      "rewards/margins": 0.5145494937896729,
+      "rewards/rejected": -0.3321349024772644,
+      "step": 2280
+    },
+    {
+      "epoch": 11.594936708860759,
+      "grad_norm": 1355769.5974116765,
+      "learning_rate": 1.9680350987151361e-07,
+      "logits/chosen": 2.7271580696105957,
+      "logits/rejected": 3.408385753631592,
+      "logps/chosen": -53.9175910949707,
+      "logps/rejected": -532.6714477539062,
+      "loss": 18442.0969,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.16783255338668823,
+      "rewards/margins": 0.4785786271095276,
+      "rewards/rejected": -0.31074607372283936,
+      "step": 2290
+    },
+    {
+      "epoch": 11.645569620253164,
+      "grad_norm": 1885360.6056858273,
+      "learning_rate": 1.95236602945785e-07,
+      "logits/chosen": -0.4679819941520691,
+      "logits/rejected": 0.16113388538360596,
+      "logps/chosen": -63.9486198425293,
+      "logps/rejected": -550.3961181640625,
+      "loss": 17411.3969,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.17148110270500183,
+      "rewards/margins": 0.4901048243045807,
+      "rewards/rejected": -0.3186236619949341,
+      "step": 2300
+    },
+    {
+      "epoch": 11.69620253164557,
+      "grad_norm": 758901.4037823884,
+      "learning_rate": 1.9366969602005639e-07,
+      "logits/chosen": 0.85181725025177,
+      "logits/rejected": 1.3077051639556885,
+      "logps/chosen": -73.22114562988281,
+      "logps/rejected": -575.5013427734375,
+      "loss": 17968.0844,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1745305359363556,
+      "rewards/margins": 0.5058612823486328,
+      "rewards/rejected": -0.33133071660995483,
+      "step": 2310
+    },
+    {
+      "epoch": 11.746835443037975,
+      "grad_norm": 520118.42882549425,
+      "learning_rate": 1.9210278909432777e-07,
+      "logits/chosen": -0.6327224969863892,
+      "logits/rejected": 0.7259325385093689,
+      "logps/chosen": -60.48676681518555,
+      "logps/rejected": -574.37939453125,
+      "loss": 18215.2938,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18099671602249146,
+      "rewards/margins": 0.5182011127471924,
+      "rewards/rejected": -0.33720433712005615,
+      "step": 2320
+    },
+    {
+      "epoch": 11.79746835443038,
+      "grad_norm": 743117.6330674689,
+      "learning_rate": 1.9053588216859918e-07,
+      "logits/chosen": 1.2280547618865967,
+      "logits/rejected": 1.3038314580917358,
+      "logps/chosen": -59.2470817565918,
+      "logps/rejected": -559.13916015625,
+      "loss": 17567.2906,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.17356745898723602,
+      "rewards/margins": 0.49933862686157227,
+      "rewards/rejected": -0.32577118277549744,
+      "step": 2330
+    },
+    {
+      "epoch": 11.848101265822784,
+      "grad_norm": 730673.5249396141,
+      "learning_rate": 1.8896897524287057e-07,
+      "logits/chosen": 1.2314859628677368,
+      "logits/rejected": 1.3703396320343018,
+      "logps/chosen": -58.14827346801758,
+      "logps/rejected": -552.53759765625,
+      "loss": 17758.8719,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1748059093952179,
+      "rewards/margins": 0.4981175363063812,
+      "rewards/rejected": -0.3233116567134857,
+      "step": 2340
+    },
+    {
+      "epoch": 11.89873417721519,
+      "grad_norm": 597117.4885736415,
+      "learning_rate": 1.8740206831714195e-07,
+      "logits/chosen": -0.7092142105102539,
+      "logits/rejected": -0.0756240040063858,
+      "logps/chosen": -62.97068405151367,
+      "logps/rejected": -567.6489868164062,
+      "loss": 18044.8,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.17830543220043182,
+      "rewards/margins": 0.5064790844917297,
+      "rewards/rejected": -0.3281736969947815,
+      "step": 2350
+    },
+    {
+      "epoch": 11.949367088607595,
+      "grad_norm": 687586.0618323467,
+      "learning_rate": 1.8583516139141334e-07,
+      "logits/chosen": -1.2183369398117065,
+      "logits/rejected": -1.056317925453186,
+      "logps/chosen": -65.71519470214844,
+      "logps/rejected": -578.7620239257812,
+      "loss": 18082.8625,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18341727554798126,
+      "rewards/margins": 0.5148480534553528,
+      "rewards/rejected": -0.33143073320388794,
+      "step": 2360
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 748926.1941504646,
+      "learning_rate": 1.8426825446568473e-07,
+      "logits/chosen": -0.35043638944625854,
+      "logits/rejected": -1.1868419647216797,
+      "logps/chosen": -59.269996643066406,
+      "logps/rejected": -581.2828369140625,
+      "loss": 17352.5563,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.16442957520484924,
+      "rewards/margins": 0.5158518552780151,
+      "rewards/rejected": -0.3514222800731659,
+      "step": 2370
     }
   ],
   "logging_steps": 10,