Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aba6b2895676c2e882c4612d660a9e5e987e6287e04aaea203e7fa26f9e94f3
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:b039e3dcb27526e589190aeb309d46961f317123954e0b5c897a5cbb14b5ca0e
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be056744c1f2e7f7f7fea4df66d840937be694f784c4193398f98ef41805e71e
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:290251ca681d7321200533f6d741bbe2135f3586210e466f62d60d52bbec60f2
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aeda752780d4d1e2c8cc72596036685baf31024a594da9ff5aea8a1a54a0f80c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b23184210b5274d29d7aab370a6df28ffac3ad6df598e0776930b01f3163f7d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0066269052352551355,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,205 @@
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.7484,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +817,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.56415462670336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.008835873647006848,
   "eval_steps": 9,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.7484,
       "step": 75
+    },
+    {
+      "epoch": 0.006715263971725205,
+      "grad_norm": 2.363402843475342,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.9464,
+      "step": 76
+    },
+    {
+      "epoch": 0.006803622708195273,
+      "grad_norm": 2.0932793617248535,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 1.0088,
+      "step": 77
+    },
+    {
+      "epoch": 0.006891981444665341,
+      "grad_norm": 1.7274428606033325,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.8742,
+      "step": 78
+    },
+    {
+      "epoch": 0.006980340181135409,
+      "grad_norm": 2.5039379596710205,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 1.1296,
+      "step": 79
+    },
+    {
+      "epoch": 0.007068698917605479,
+      "grad_norm": 2.610593557357788,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 1.0686,
+      "step": 80
+    },
+    {
+      "epoch": 0.007157057654075547,
+      "grad_norm": 1.661089301109314,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.7484,
+      "step": 81
+    },
+    {
+      "epoch": 0.007157057654075547,
+      "eval_loss": 0.9623637795448303,
+      "eval_runtime": 1053.8618,
+      "eval_samples_per_second": 9.044,
+      "eval_steps_per_second": 1.131,
+      "step": 81
+    },
+    {
+      "epoch": 0.007245416390545615,
+      "grad_norm": 1.7573330402374268,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.8551,
+      "step": 82
+    },
+    {
+      "epoch": 0.007333775127015683,
+      "grad_norm": 2.303396224975586,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 1.0872,
+      "step": 83
+    },
+    {
+      "epoch": 0.0074221338634857525,
+      "grad_norm": 2.3511362075805664,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 1.0207,
+      "step": 84
+    },
+    {
+      "epoch": 0.007510492599955821,
+      "grad_norm": 1.7870726585388184,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 1.0245,
+      "step": 85
+    },
+    {
+      "epoch": 0.007598851336425889,
+      "grad_norm": 2.17651104927063,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 1.0642,
+      "step": 86
+    },
+    {
+      "epoch": 0.007687210072895957,
+      "grad_norm": 3.435457944869995,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.9783,
+      "step": 87
+    },
+    {
+      "epoch": 0.007775568809366026,
+      "grad_norm": 2.557839870452881,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 1.2463,
+      "step": 88
+    },
+    {
+      "epoch": 0.007863927545836095,
+      "grad_norm": 2.138702630996704,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.8833,
+      "step": 89
+    },
+    {
+      "epoch": 0.007952286282306162,
+      "grad_norm": 2.5102736949920654,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 1.1391,
+      "step": 90
+    },
+    {
+      "epoch": 0.007952286282306162,
+      "eval_loss": 0.960111677646637,
+      "eval_runtime": 1053.6863,
+      "eval_samples_per_second": 9.045,
+      "eval_steps_per_second": 1.131,
+      "step": 90
+    },
+    {
+      "epoch": 0.008040645018776231,
+      "grad_norm": 1.5186232328414917,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.8525,
+      "step": 91
+    },
+    {
+      "epoch": 0.0081290037552463,
+      "grad_norm": 1.7662729024887085,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.8122,
+      "step": 92
+    },
+    {
+      "epoch": 0.008217362491716368,
+      "grad_norm": 2.7863404750823975,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 1.0621,
+      "step": 93
+    },
+    {
+      "epoch": 0.008305721228186437,
+      "grad_norm": 1.5288848876953125,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.8797,
+      "step": 94
+    },
+    {
+      "epoch": 0.008394079964656506,
+      "grad_norm": 1.9336317777633667,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.975,
+      "step": 95
+    },
+    {
+      "epoch": 0.008482438701126574,
+      "grad_norm": 2.274071455001831,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.8815,
+      "step": 96
+    },
+    {
+      "epoch": 0.008570797437596643,
+      "grad_norm": 2.3829963207244873,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.8353,
+      "step": 97
+    },
+    {
+      "epoch": 0.00865915617406671,
+      "grad_norm": 2.3584320545196533,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.7781,
+      "step": 98
+    },
+    {
+      "epoch": 0.00874751491053678,
+      "grad_norm": 1.7137161493301392,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.925,
+      "step": 99
+    },
+    {
+      "epoch": 0.00874751491053678,
+      "eval_loss": 0.9595766067504883,
+      "eval_runtime": 1052.0961,
+      "eval_samples_per_second": 9.059,
+      "eval_steps_per_second": 1.133,
+      "step": 99
+    },
+    {
+      "epoch": 0.008835873647006848,
+      "grad_norm": 2.919753074645996,
+      "learning_rate": 0.0,
+      "loss": 1.1148,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.41887283560448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null