AmberYifan commited on Oct 31, 2024

Commit

1b6dd37

verified ·

1 Parent(s): 2bb2f92

Training in progress, step 682, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step682/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step682/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step682/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step682/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step682/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step682/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step682/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step682/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +229 -2

last-checkpoint/global_step682/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55f80e5ca4498a6afacf85917035d3dcc988f53b9feaabf778663aaccba6b721
+size 13476835648

last-checkpoint/global_step682/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:443b40db32a9df9b8c04466ea32d23d3cd59cad3c3da46a5e43eb344b62d2663
+size 13476835648

last-checkpoint/global_step682/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcab7beaccb2feaf666d5402a4654edd9638e9ff92675a724f9d117b70311711
+size 13476835648

last-checkpoint/global_step682/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6cc330bd15d21cb4221f72aa24a69ad46e2caeed9d63481ebfb29145a2c4258
+size 13476835648

last-checkpoint/global_step682/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5302e9f937abbdc558c1157c893863879a77d337dca79ef76dceb8aaa281769b
+size 150693

last-checkpoint/global_step682/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:937de52210755d6f3f9a3465565f7a01685102749fbda3c0f183fd3a4833b14a
+size 150693

last-checkpoint/global_step682/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8bd21fa8d9e5187765f0c614f77fb6ace6c3376c82b76ac9267bd63c2474011
+size 150693

last-checkpoint/global_step682/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ee275be2f3515a14f6a8f95fa623c837a903f6a7c93edbd62bc7924fc37d264
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step558~~


1	+ global_step682

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2eccfa1140badd2ba7d268833cb25515f4786a3a376ec7a70189454ca431a110
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a978966c84c5073af91b7b63fcf4ee120d2f612a3c19702ad91cee54a444f1d
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afe95f19ba0b1d4f787647f396ad33e86582154ac38970507e3c4115ffd80235
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:574fa029b596f19edcc30cc62efa2256b512251146943e1707cd1c2e84f45654
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df33b2ae5733ef2380bc3366fb815ee4c3945810dd8a329f5963184b58b41341
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebfde8270b886bb919881b07ed48cb5f4211146e60b32c2f6e09b8a7659d326a
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb3d4793d6c7fda650513b6f3d24fe7afd643475a576b0104a85cb659ed441d3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4cf818939bfcb1de93c78e79be7390fcae46bb5c39166bd571b1f3a8b2cdeb3
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e44567105884943a8351ea71e9a71011cceee34a8f2a067be69948ea21390f49
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:408ca302fdad670605f637bd7faeea541858831c4f2318e3fca2d0d709c7b218
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c3a6f11c1c82a313f717b58d29d20267d0bfc621c79116ac6f752e0c1ba1f50
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:df380dcd2c8305fefe9f4ba88e7536beb3b5e94d863ac6f29eae326ddfef0f32
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaa97839e10563397740560600a86ccaf5a6fe1e5f41084453cab0f732a05570
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:51f78c929d775d81c8dd9feb87fd329a39e895b5f8b1d2cdbede2cbd8b45f49e
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:177a5448d699047d35d72636914adc373df5f511600959de3a1ed1ce15a52556
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ec08ea6383804e8c05c7ff772c4aed53351dc10413de8f46c3a1998585e65c7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7856,
   "eval_steps": 62,
-  "global_step": 558,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -991,6 +991,233 @@
       "eval_samples_per_second": 7.965,
       "eval_steps_per_second": 0.518,
       "step": 558
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1824,
   "eval_steps": 62,
+  "global_step": 682,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.965,
       "eval_steps_per_second": 0.518,
       "step": 558
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 17.055206574176236,
+      "learning_rate": 2.2327790973871732e-07,
+      "logits/generated": -1.1320490837097168,
+      "logits/real": -1.0232712030410767,
+      "logps/generated": -108.29972839355469,
+      "logps/real": -143.79483032226562,
+      "loss": 0.6217,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/generated": 4.6177520751953125,
+      "rewards/margins": 0.7333224415779114,
+      "rewards/real": 5.351074695587158,
+      "step": 560
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "grad_norm": 18.75593177030039,
+      "learning_rate": 2.173396674584323e-07,
+      "logits/generated": -1.0942531824111938,
+      "logits/real": -1.0221080780029297,
+      "logps/generated": -126.5128173828125,
+      "logps/real": -147.83128356933594,
+      "loss": 0.628,
+      "rewards/accuracies": 0.75,
+      "rewards/generated": 4.6154656410217285,
+      "rewards/margins": 0.5910970568656921,
+      "rewards/real": 5.206562042236328,
+      "step": 570
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 15.179698342246535,
+      "learning_rate": 2.1140142517814726e-07,
+      "logits/generated": -1.145850419998169,
+      "logits/real": -1.0870602130889893,
+      "logps/generated": -124.73545837402344,
+      "logps/real": -121.8907241821289,
+      "loss": 0.613,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/generated": 4.415905952453613,
+      "rewards/margins": 0.7593585252761841,
+      "rewards/real": 5.17526388168335,
+      "step": 580
+    },
+    {
+      "epoch": 1.888,
+      "grad_norm": 20.11987923040954,
+      "learning_rate": 2.0546318289786222e-07,
+      "logits/generated": -1.079153060913086,
+      "logits/real": -1.0978190898895264,
+      "logps/generated": -120.56886291503906,
+      "logps/real": -108.95628356933594,
+      "loss": 0.6076,
+      "rewards/accuracies": 0.75,
+      "rewards/generated": 4.58314323425293,
+      "rewards/margins": 0.6490724086761475,
+      "rewards/real": 5.232215404510498,
+      "step": 590
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 22.28453291915191,
+      "learning_rate": 1.9952494061757718e-07,
+      "logits/generated": -1.0883268117904663,
+      "logits/real": -1.0104598999023438,
+      "logps/generated": -109.8032455444336,
+      "logps/real": -129.53585815429688,
+      "loss": 0.639,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/generated": 4.67579460144043,
+      "rewards/margins": 0.6613373160362244,
+      "rewards/real": 5.337131977081299,
+      "step": 600
+    },
+    {
+      "epoch": 1.952,
+      "grad_norm": 18.154894899648834,
+      "learning_rate": 1.9358669833729216e-07,
+      "logits/generated": -1.0883982181549072,
+      "logits/real": -0.9995349049568176,
+      "logps/generated": -124.6942367553711,
+      "logps/real": -126.9339370727539,
+      "loss": 0.5907,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/generated": 4.436325550079346,
+      "rewards/margins": 0.8260261416435242,
+      "rewards/real": 5.262351036071777,
+      "step": 610
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 22.624222827430785,
+      "learning_rate": 1.876484560570071e-07,
+      "logits/generated": -1.1425296068191528,
+      "logits/real": -1.0683505535125732,
+      "logps/generated": -115.10726165771484,
+      "logps/real": -122.61649322509766,
+      "loss": 0.6319,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/generated": 4.4069294929504395,
+      "rewards/margins": 0.796606183052063,
+      "rewards/real": 5.203535556793213,
+      "step": 620
+    },
+    {
+      "epoch": 1.984,
+      "eval_logits/generated": -1.0952835083007812,
+      "eval_logits/real": -0.9814900159835815,
+      "eval_logps/generated": -113.74794006347656,
+      "eval_logps/real": -126.97822570800781,
+      "eval_loss": 0.7260343432426453,
+      "eval_rewards/accuracies": 0.6538461446762085,
+      "eval_rewards/generated": 4.856348037719727,
+      "eval_rewards/margins": 0.40175163745880127,
+      "eval_rewards/real": 5.258099555969238,
+      "eval_runtime": 31.4663,
+      "eval_samples_per_second": 6.356,
+      "eval_steps_per_second": 0.413,
+      "step": 620
+    },
+    {
+      "epoch": 2.016,
+      "grad_norm": 21.8297742721762,
+      "learning_rate": 1.8171021377672207e-07,
+      "logits/generated": -1.0807393789291382,
+      "logits/real": -1.0395593643188477,
+      "logps/generated": -123.9543228149414,
+      "logps/real": -131.9915771484375,
+      "loss": 0.6155,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/generated": 4.8203253746032715,
+      "rewards/margins": 0.5333833694458008,
+      "rewards/real": 5.353708267211914,
+      "step": 630
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 14.056807307298643,
+      "learning_rate": 1.7577197149643706e-07,
+      "logits/generated": -1.1339702606201172,
+      "logits/real": -1.0805795192718506,
+      "logps/generated": -113.33274841308594,
+      "logps/real": -121.1234130859375,
+      "loss": 0.5439,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/generated": 4.565612316131592,
+      "rewards/margins": 0.6994994878768921,
+      "rewards/real": 5.265111923217773,
+      "step": 640
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 15.940128910395343,
+      "learning_rate": 1.6983372921615202e-07,
+      "logits/generated": -1.0800470113754272,
+      "logits/real": -1.0633183717727661,
+      "logps/generated": -126.89707946777344,
+      "logps/real": -120.8414535522461,
+      "loss": 0.5551,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/generated": 4.451112270355225,
+      "rewards/margins": 0.9589512944221497,
+      "rewards/real": 5.410063743591309,
+      "step": 650
+    },
+    {
+      "epoch": 2.112,
+      "grad_norm": 16.37087659914088,
+      "learning_rate": 1.6389548693586697e-07,
+      "logits/generated": -1.104059100151062,
+      "logits/real": -1.0841295719146729,
+      "logps/generated": -122.7937240600586,
+      "logps/real": -123.018310546875,
+      "loss": 0.5626,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/generated": 4.682831764221191,
+      "rewards/margins": 0.842903733253479,
+      "rewards/real": 5.525734901428223,
+      "step": 660
+    },
+    {
+      "epoch": 2.144,
+      "grad_norm": 15.627941589708502,
+      "learning_rate": 1.5795724465558193e-07,
+      "logits/generated": -1.115173101425171,
+      "logits/real": -1.003942847251892,
+      "logps/generated": -110.61991119384766,
+      "logps/real": -134.18214416503906,
+      "loss": 0.5613,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/generated": 4.422333717346191,
+      "rewards/margins": 0.9263809323310852,
+      "rewards/real": 5.348714351654053,
+      "step": 670
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 14.69563602095957,
+      "learning_rate": 1.520190023752969e-07,
+      "logits/generated": -1.0999215841293335,
+      "logits/real": -1.0661911964416504,
+      "logps/generated": -117.02237701416016,
+      "logps/real": -120.48469543457031,
+      "loss": 0.552,
+      "rewards/accuracies": 0.875,
+      "rewards/generated": 4.575113773345947,
+      "rewards/margins": 0.8418020009994507,
+      "rewards/real": 5.416914939880371,
+      "step": 680
+    },
+    {
+      "epoch": 2.1824,
+      "eval_logits/generated": -1.1133226156234741,
+      "eval_logits/real": -1.007174015045166,
+      "eval_logps/generated": -112.93437957763672,
+      "eval_logps/real": -126.08976745605469,
+      "eval_loss": 0.7294743061065674,
+      "eval_rewards/accuracies": 0.6730769276618958,
+      "eval_rewards/generated": 4.937705039978027,
+      "eval_rewards/margins": 0.40924108028411865,
+      "eval_rewards/real": 5.346945762634277,
+      "eval_runtime": 31.1538,
+      "eval_samples_per_second": 6.42,
+      "eval_steps_per_second": 0.417,
+      "step": 682
     }
   ],
   "logging_steps": 10,