AmberYifan commited on Oct 31, 2024

Commit

6c81e27

verified ·

1 Parent(s): 7740585

Training in progress, step 310, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step310/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step310/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step310/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step310/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step310/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step310/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step310/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step310/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +229 -2

last-checkpoint/global_step310/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:548d0c8e93e0c471e5705dbbadd6a5c05bc4b5a0a9f6890bd5dd4cd8c443c33a
+size 13476835648

last-checkpoint/global_step310/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fcf81f7763d28c21ac0a035c3f8910a9c68675635c88ba8e8fda0b8a22ab2d0
+size 13476835648

last-checkpoint/global_step310/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ac9a85e921ce7b9ed72c131038ff1bb0c9e833d8c9640b2e5a83cb2164b5366
+size 13476835648

last-checkpoint/global_step310/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a48b112b82d265c4a90ebd28aff54857341852a8d8e779aeb35b75ae4313c39a
+size 13476835648

last-checkpoint/global_step310/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8dfaccb97630865bfa96a9f8fc8e1eaac2f641bb5486f7f1b34ba82548d9a217
+size 150693

last-checkpoint/global_step310/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c296a38893fbec54c8fb4c320b4ea180b982277ef291f058b5ffca0caf27bd2
+size 150693

last-checkpoint/global_step310/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a19de9850756f925991116920eef332af9868426f05cf741786bffa261e1b51
+size 150693

last-checkpoint/global_step310/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b775b848751a6b5c74313b60cd24e3e2d525b738411897a1a952fc106bb1799
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step186~~


1	+ global_step310

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81392ca1341eff0062e670bf6bae66fb987670c5ea66d248165e16d5b2550583
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:30a7e1affffdf9c15def3843c5cfde483a104628598dfecba30ed1049b0a30c5
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1006a496ee196194e313e59321565ad7eb47f0dda4e314fd48d34709bd92ff82
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3c9d98753585457974806fe841e26db43d8bfe281fc8e6d20c96594f83a2b8b
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01d6dfe355522d2cd855421ed2ca07b299127e352ea22630b44c2a31747bb37c
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:befe572e3ac32569b9d5d967b2c53d5c3a8e605e513126ccf8bfe7f95b20b4cd
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50ca27603f7c4a4d9a980223e1a102922ac31561acfa7da4f28042e4e8b3528b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:85a44fde7a8ca235658f035c0812d344f55779640520411739b17e214177e846
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c57f658c3d9b6de611da50021823095fc4067036fb9a4b34655cc2e34fbf5c2b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2caad91201b0df46e56af9eecef567ed2037350c38fdc81837724a4727d0b050
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:109da2c363a1e09432fa2ea2b7dceb6f67d1f91975069fc669e71dd536d654d8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:73e988587366c84fd1b4fc5931610543c6da84cf501cd98c78745fd102dd5024
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bda65e490958bfe3fe01157ed131eb2354f8fc19536842d27c998ecf29d48991
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:55af3bb04c01d99df727583b8b7a09241b4e47d58ff1b9cf5532d3fa0d878b52
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4f13df3470221c87dbd73f49aa8200fcb840f387f1d9666c0df7b34d2fa99d1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:deebfd046c912c12a5ec3992f182a7898d0a095fd57e8891bf19ccf9e61ba445
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5952,
   "eval_steps": 62,
-  "global_step": 186,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -340,6 +340,233 @@
       "eval_samples_per_second": 8.273,
       "eval_steps_per_second": 0.538,
       "step": 186
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.992,
   "eval_steps": 62,
+  "global_step": 310,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.273,
       "eval_steps_per_second": 0.538,
       "step": 186
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 16.658908982743004,
+      "learning_rate": 4.429928741092636e-07,
+      "logits/generated": -0.8416504859924316,
+      "logits/real": -0.7497158646583557,
+      "logps/generated": -139.05709838867188,
+      "logps/real": -148.94570922851562,
+      "loss": 0.7846,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/generated": 2.1404006481170654,
+      "rewards/margins": 0.2006792575120926,
+      "rewards/real": 2.3410801887512207,
+      "step": 190
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 18.49294211550667,
+      "learning_rate": 4.3705463182897863e-07,
+      "logits/generated": -0.8149245381355286,
+      "logits/real": -0.7733741402626038,
+      "logps/generated": -148.7723388671875,
+      "logps/real": -157.01002502441406,
+      "loss": 0.8195,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/generated": 2.387281894683838,
+      "rewards/margins": 0.09757533669471741,
+      "rewards/real": 2.4848568439483643,
+      "step": 200
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 17.59332234236512,
+      "learning_rate": 4.311163895486936e-07,
+      "logits/generated": -0.9455936551094055,
+      "logits/real": -0.8419392704963684,
+      "logps/generated": -127.24183654785156,
+      "logps/real": -152.42926025390625,
+      "loss": 0.8053,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/generated": 2.3595032691955566,
+      "rewards/margins": 0.2850414216518402,
+      "rewards/real": 2.6445446014404297,
+      "step": 210
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 19.24367698573702,
+      "learning_rate": 4.251781472684085e-07,
+      "logits/generated": -0.9183988571166992,
+      "logits/real": -0.8173867464065552,
+      "logps/generated": -139.09605407714844,
+      "logps/real": -148.06333923339844,
+      "loss": 0.7934,
+      "rewards/accuracies": 0.625,
+      "rewards/generated": 2.477370500564575,
+      "rewards/margins": 0.19253475964069366,
+      "rewards/real": 2.669905185699463,
+      "step": 220
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 16.9276097355701,
+      "learning_rate": 4.192399049881235e-07,
+      "logits/generated": -0.8829792737960815,
+      "logits/real": -0.7381778955459595,
+      "logps/generated": -141.7750701904297,
+      "logps/real": -163.01681518554688,
+      "loss": 0.7719,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/generated": 2.4790730476379395,
+      "rewards/margins": 0.2519153952598572,
+      "rewards/real": 2.730988025665283,
+      "step": 230
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 17.716708290599904,
+      "learning_rate": 4.1330166270783846e-07,
+      "logits/generated": -0.971518874168396,
+      "logits/real": -0.8174247741699219,
+      "logps/generated": -133.48629760742188,
+      "logps/real": -155.50323486328125,
+      "loss": 0.7916,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/generated": 2.6949586868286133,
+      "rewards/margins": 0.36087772250175476,
+      "rewards/real": 3.0558362007141113,
+      "step": 240
+    },
+    {
+      "epoch": 0.7936,
+      "eval_logits/generated": -0.9049049615859985,
+      "eval_logits/real": -0.7322394847869873,
+      "eval_logps/generated": -133.84751892089844,
+      "eval_logps/real": -149.44224548339844,
+      "eval_loss": 0.7819451689720154,
+      "eval_rewards/accuracies": 0.6346153616905212,
+      "eval_rewards/generated": 2.8463921546936035,
+      "eval_rewards/margins": 0.1653067171573639,
+      "eval_rewards/real": 3.0116991996765137,
+      "eval_runtime": 32.5126,
+      "eval_samples_per_second": 6.151,
+      "eval_steps_per_second": 0.4,
+      "step": 248
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 18.640457628639687,
+      "learning_rate": 4.0736342042755347e-07,
+      "logits/generated": -0.9556293487548828,
+      "logits/real": -0.8145408630371094,
+      "logps/generated": -131.24642944335938,
+      "logps/real": -151.69544982910156,
+      "loss": 0.7887,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/generated": 2.6524691581726074,
+      "rewards/margins": 0.29434913396835327,
+      "rewards/real": 2.9468178749084473,
+      "step": 250
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 16.63118310118808,
+      "learning_rate": 4.0142517814726837e-07,
+      "logits/generated": -0.9603360891342163,
+      "logits/real": -0.8654125332832336,
+      "logps/generated": -131.46536254882812,
+      "logps/real": -145.35955810546875,
+      "loss": 0.745,
+      "rewards/accuracies": 0.75,
+      "rewards/generated": 2.698146343231201,
+      "rewards/margins": 0.3590725362300873,
+      "rewards/real": 3.0572190284729004,
+      "step": 260
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 17.928869855327637,
+      "learning_rate": 3.9548693586698333e-07,
+      "logits/generated": -0.8567088842391968,
+      "logits/real": -0.8730006217956543,
+      "logps/generated": -141.62771606445312,
+      "logps/real": -148.68130493164062,
+      "loss": 0.7724,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/generated": 2.8369460105895996,
+      "rewards/margins": 0.2711881995201111,
+      "rewards/real": 3.1081342697143555,
+      "step": 270
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 20.71939027600533,
+      "learning_rate": 3.8954869358669834e-07,
+      "logits/generated": -0.9359349012374878,
+      "logits/real": -0.8951263427734375,
+      "logps/generated": -130.23509216308594,
+      "logps/real": -145.52688598632812,
+      "loss": 0.753,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/generated": 2.9565887451171875,
+      "rewards/margins": 0.2209053933620453,
+      "rewards/real": 3.1774942874908447,
+      "step": 280
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 18.70808890126872,
+      "learning_rate": 3.836104513064133e-07,
+      "logits/generated": -0.9469617009162903,
+      "logits/real": -0.8130922317504883,
+      "logps/generated": -139.7478485107422,
+      "logps/real": -161.3312530517578,
+      "loss": 0.7894,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/generated": 3.0255463123321533,
+      "rewards/margins": 0.2867078185081482,
+      "rewards/real": 3.3122544288635254,
+      "step": 290
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 17.486386337096317,
+      "learning_rate": 3.7767220902612825e-07,
+      "logits/generated": -1.0176459550857544,
+      "logits/real": -0.9189609289169312,
+      "logps/generated": -118.82048034667969,
+      "logps/real": -129.76571655273438,
+      "loss": 0.776,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/generated": 3.0009846687316895,
+      "rewards/margins": 0.2632009983062744,
+      "rewards/real": 3.2641854286193848,
+      "step": 300
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 19.447896698095892,
+      "learning_rate": 3.717339667458432e-07,
+      "logits/generated": -1.0006765127182007,
+      "logits/real": -0.8371036648750305,
+      "logps/generated": -124.53524017333984,
+      "logps/real": -153.3790740966797,
+      "loss": 0.7714,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/generated": 3.1662862300872803,
+      "rewards/margins": 0.36638301610946655,
+      "rewards/real": 3.5326695442199707,
+      "step": 310
+    },
+    {
+      "epoch": 0.992,
+      "eval_logits/generated": -0.9510602951049805,
+      "eval_logits/real": -0.7904863357543945,
+      "eval_logps/generated": -130.37039184570312,
+      "eval_logps/real": -145.3455047607422,
+      "eval_loss": 0.7629792094230652,
+      "eval_rewards/accuracies": 0.6346153616905212,
+      "eval_rewards/generated": 3.1941020488739014,
+      "eval_rewards/margins": 0.2272697240114212,
+      "eval_rewards/real": 3.4213719367980957,
+      "eval_runtime": 24.7368,
+      "eval_samples_per_second": 8.085,
+      "eval_steps_per_second": 0.526,
+      "step": 310
     }
   ],
   "logging_steps": 10,