AmberYifan commited on Oct 31, 2024

Commit

2bb2f92

verified ·

1 Parent(s): 2da7d03

Training in progress, step 558, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step558/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -2

last-checkpoint/global_step558/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a37984e3d0f9c1c5d696acc21cba3906de55edccf77e3023ecc511ee5e37b569
+size 13476835648

last-checkpoint/global_step558/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f547832a81f42aeeafd49a1cc65d41d2df32e051e40157947704b9a1155238f
+size 13476835648

last-checkpoint/global_step558/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95afb97a925bacac29c72a9d24ffb4d62ae6240a14503ab843da0140a5798bda
+size 13476835648

last-checkpoint/global_step558/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1bbd294af0ad163e1633b47ceee6c37e2fa96c18f062607b44ebcfea885331c
+size 13476835648

last-checkpoint/global_step558/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4197fab2e1b6c27eb80b4a12b9a89a88edef0d3b3bc4098bec66af56ce12175
+size 150693

last-checkpoint/global_step558/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78b498011d22d6099b99f0e237cd72ed3cc9140d37841de3cb31cf16841ffd25
+size 150693

last-checkpoint/global_step558/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f4e0cdbc12c565dcf5572f41f7bcd3101a01a4f373e5c67c204ba7126453f93
+size 150693

last-checkpoint/global_step558/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:305d0a1a20b6d3b7dde4970a8b61cc22630f0e88cc5cba0ed422e6061840955a
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step434~~


1	+ global_step558

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fef6470f7acc874fee3a68835c1e53f9e438740a72cbb8ea86cf21bc36d77b1
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eccfa1140badd2ba7d268833cb25515f4786a3a376ec7a70189454ca431a110
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7cc1149db49c837b4f2389db2c37feaa906d3adb3e8662e04df81300f5949c6
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:afe95f19ba0b1d4f787647f396ad33e86582154ac38970507e3c4115ffd80235
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1ff4b2e559cf432ff17d10304f27ce70f3abfb9363d7c2dbc92b8260e596045
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:df33b2ae5733ef2380bc3366fb815ee4c3945810dd8a329f5963184b58b41341
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe3f96a2fff0ebd8dbcc2b4789c9dd47a218358381d8dc0c22453d73cc18c13a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb3d4793d6c7fda650513b6f3d24fe7afd643475a576b0104a85cb659ed441d3
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03c2e37b3b994a43a2c3a96dca7647061b052e8930abe99d16ea118bb9a4e2bc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44567105884943a8351ea71e9a71011cceee34a8f2a067be69948ea21390f49
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd2fb470636af306fe33bfa071a70c5e89bbc147a17ff3351e6d952861610b64
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c3a6f11c1c82a313f717b58d29d20267d0bfc621c79116ac6f752e0c1ba1f50
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42f403a555728d319355f2901e7ccab38b27c2ffdef1825aa77e363c48d96a77
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaa97839e10563397740560600a86ccaf5a6fe1e5f41084453cab0f732a05570
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:765f176539e61f4c6bc8f2ad5d717ae2c3e0b0b105343abdeb194f4ded8a8b9b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:177a5448d699047d35d72636914adc373df5f511600959de3a1ed1ce15a52556
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3888,
   "eval_steps": 62,
-  "global_step": 434,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,218 @@
       "eval_samples_per_second": 7.939,
       "eval_steps_per_second": 0.516,
       "step": 434
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7856,
   "eval_steps": 62,
+  "global_step": 558,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.939,
       "eval_steps_per_second": 0.516,
       "step": 434
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 16.14545407384991,
+      "learning_rate": 2.9453681710213776e-07,
+      "logits/generated": -0.9800319671630859,
+      "logits/real": -0.9277538061141968,
+      "logps/generated": -141.30862426757812,
+      "logps/real": -147.81869506835938,
+      "loss": 0.6465,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/generated": 3.95501971244812,
+      "rewards/margins": 0.6686196327209473,
+      "rewards/real": 4.6236395835876465,
+      "step": 440
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 15.77508759846596,
+      "learning_rate": 2.885985748218527e-07,
+      "logits/generated": -1.066090703010559,
+      "logits/real": -0.9800545573234558,
+      "logps/generated": -118.1541748046875,
+      "logps/real": -114.2128677368164,
+      "loss": 0.6559,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/generated": 3.9932830333709717,
+      "rewards/margins": 0.5581256151199341,
+      "rewards/real": 4.5514092445373535,
+      "step": 450
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 13.373472109654648,
+      "learning_rate": 2.8266033254156767e-07,
+      "logits/generated": -1.1050423383712769,
+      "logits/real": -1.059169888496399,
+      "logps/generated": -126.13043212890625,
+      "logps/real": -127.02229309082031,
+      "loss": 0.6429,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/generated": 3.960355281829834,
+      "rewards/margins": 0.5283070206642151,
+      "rewards/real": 4.488662242889404,
+      "step": 460
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 18.748026049573703,
+      "learning_rate": 2.7672209026128263e-07,
+      "logits/generated": -1.0380802154541016,
+      "logits/real": -1.0288408994674683,
+      "logps/generated": -124.66336822509766,
+      "logps/real": -129.6002197265625,
+      "loss": 0.631,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/generated": 4.066103458404541,
+      "rewards/margins": 0.5287829637527466,
+      "rewards/real": 4.59488582611084,
+      "step": 470
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 18.771817584136546,
+      "learning_rate": 2.7078384798099764e-07,
+      "logits/generated": -1.030465841293335,
+      "logits/real": -1.0079973936080933,
+      "logps/generated": -110.46805572509766,
+      "logps/real": -130.38272094726562,
+      "loss": 0.6314,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/generated": 4.3078484535217285,
+      "rewards/margins": 0.575871467590332,
+      "rewards/real": 4.883719444274902,
+      "step": 480
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 18.77488834205678,
+      "learning_rate": 2.648456057007126e-07,
+      "logits/generated": -1.0200045108795166,
+      "logits/real": -0.9613162875175476,
+      "logps/generated": -121.91667175292969,
+      "logps/real": -125.25045013427734,
+      "loss": 0.6575,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/generated": 4.19071626663208,
+      "rewards/margins": 0.5527010560035706,
+      "rewards/real": 4.743417263031006,
+      "step": 490
+    },
+    {
+      "epoch": 1.5872000000000002,
+      "eval_logits/generated": -1.0562151670455933,
+      "eval_logits/real": -0.9284681081771851,
+      "eval_logps/generated": -117.39347839355469,
+      "eval_logps/real": -131.05850219726562,
+      "eval_loss": 0.7352110147476196,
+      "eval_rewards/accuracies": 0.6538461446762085,
+      "eval_rewards/generated": 4.491795063018799,
+      "eval_rewards/margins": 0.3582780063152313,
+      "eval_rewards/real": 4.850072860717773,
+      "eval_runtime": 33.2476,
+      "eval_samples_per_second": 6.015,
+      "eval_steps_per_second": 0.391,
+      "step": 496
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 16.35108797368165,
+      "learning_rate": 2.589073634204275e-07,
+      "logits/generated": -1.1007959842681885,
+      "logits/real": -1.0145621299743652,
+      "logps/generated": -118.1299057006836,
+      "logps/real": -132.48341369628906,
+      "loss": 0.6584,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/generated": 4.270500659942627,
+      "rewards/margins": 0.6508221626281738,
+      "rewards/real": 4.921322822570801,
+      "step": 500
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 18.24668534196415,
+      "learning_rate": 2.529691211401425e-07,
+      "logits/generated": -1.0347979068756104,
+      "logits/real": -1.0171585083007812,
+      "logps/generated": -134.5014190673828,
+      "logps/real": -128.9965362548828,
+      "loss": 0.6401,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/generated": 4.300790309906006,
+      "rewards/margins": 0.6908756494522095,
+      "rewards/real": 4.991666316986084,
+      "step": 510
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 26.651414563625863,
+      "learning_rate": 2.4703087885985747e-07,
+      "logits/generated": -1.0487991571426392,
+      "logits/real": -0.9584493637084961,
+      "logps/generated": -112.0241928100586,
+      "logps/real": -135.36444091796875,
+      "loss": 0.6194,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/generated": 4.406290531158447,
+      "rewards/margins": 0.6576591730117798,
+      "rewards/real": 5.0639495849609375,
+      "step": 520
+    },
+    {
+      "epoch": 1.696,
+      "grad_norm": 15.873503010462953,
+      "learning_rate": 2.410926365795724e-07,
+      "logits/generated": -1.0919219255447388,
+      "logits/real": -0.9894660115242004,
+      "logps/generated": -116.85237121582031,
+      "logps/real": -134.66482543945312,
+      "loss": 0.6307,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/generated": 4.291749477386475,
+      "rewards/margins": 0.566550612449646,
+      "rewards/real": 4.85830020904541,
+      "step": 530
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 18.65864238709199,
+      "learning_rate": 2.351543942992874e-07,
+      "logits/generated": -1.0818088054656982,
+      "logits/real": -1.0851285457611084,
+      "logps/generated": -121.41314697265625,
+      "logps/real": -126.65281677246094,
+      "loss": 0.6306,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/generated": 4.241837978363037,
+      "rewards/margins": 0.7786606550216675,
+      "rewards/real": 5.020498752593994,
+      "step": 540
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 16.985163916244147,
+      "learning_rate": 2.2921615201900234e-07,
+      "logits/generated": -1.0255613327026367,
+      "logits/real": -1.0782816410064697,
+      "logps/generated": -121.6998519897461,
+      "logps/real": -118.9133529663086,
+      "loss": 0.6606,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/generated": 4.7306671142578125,
+      "rewards/margins": 0.3756607174873352,
+      "rewards/real": 5.106327533721924,
+      "step": 550
+    },
+    {
+      "epoch": 1.7856,
+      "eval_logits/generated": -1.0969022512435913,
+      "eval_logits/real": -0.9780063629150391,
+      "eval_logps/generated": -114.82669830322266,
+      "eval_logps/real": -128.44029235839844,
+      "eval_loss": 0.7269737720489502,
+      "eval_rewards/accuracies": 0.6538461446762085,
+      "eval_rewards/generated": 4.748473167419434,
+      "eval_rewards/margins": 0.36342188715934753,
+      "eval_rewards/real": 5.1118950843811035,
+      "eval_runtime": 25.1083,
+      "eval_samples_per_second": 7.965,
+      "eval_steps_per_second": 0.518,
+      "step": 558
     }
   ],
   "logging_steps": 10,