Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c6d6564e5a8c41425a4465ef15db742b8627bff673e48ba2bb4176dc8a5bd45
 size 2269195160

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a15330f94082ddb525b8944f34f9cc88d11f29d06d5599e3769848196d7bb0f
 size 2269195160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b51b207435adc2cfcd24aae48110100c9e82c53c9df3885e1f13cb309bc74d35
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:824b9ec5221aae41c54a633aa98d16b932f887e015d4f4dd46ab10c167d8fdbf
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40ba3106ea652508ab21053e8ec8eebbc893f0aefcfb0ee3c35c5838086dbbd8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:254624ce19051cb6fdd97dd480956190a24432026f9b4338fbbe1488682d9f41
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0045026115146785135,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,205 @@
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.0001,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +817,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.749629568155648e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.006003482019571352,
   "eval_steps": 9,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.0001,
       "step": 75
+    },
+    {
+      "epoch": 0.004562646334874227,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.00462268115506994,
+      "grad_norm": 0.0,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.004682715975265654,
+      "grad_norm": 0.0021064886823296547,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.0001,
+      "step": 78
+    },
+    {
+      "epoch": 0.004742750795461367,
+      "grad_norm": 0.016838403418660164,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.0004,
+      "step": 79
+    },
+    {
+      "epoch": 0.004802785615657081,
+      "grad_norm": 0.0046536740846931934,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0001,
+      "step": 80
+    },
+    {
+      "epoch": 0.004862820435852794,
+      "grad_norm": 0.01591491512954235,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.0003,
+      "step": 81
+    },
+    {
+      "epoch": 0.004862820435852794,
+      "eval_loss": NaN,
+      "eval_runtime": 1749.4659,
+      "eval_samples_per_second": 8.018,
+      "eval_steps_per_second": 1.003,
+      "step": 81
+    },
+    {
+      "epoch": 0.004922855256048508,
+      "grad_norm": 0.0,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.004982890076244221,
+      "grad_norm": 0.0,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.005042924896439935,
+      "grad_norm": 0.003679132554680109,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.0002,
+      "step": 84
+    },
+    {
+      "epoch": 0.005102959716635649,
+      "grad_norm": 0.05891428515315056,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0015,
+      "step": 85
+    },
+    {
+      "epoch": 0.005162994536831362,
+      "grad_norm": 0.004211484454572201,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.0001,
+      "step": 86
+    },
+    {
+      "epoch": 0.005223029357027076,
+      "grad_norm": 0.016904192045331,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.0004,
+      "step": 87
+    },
+    {
+      "epoch": 0.005283064177222789,
+      "grad_norm": 0.05485766381025314,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.0007,
+      "step": 88
+    },
+    {
+      "epoch": 0.005343098997418503,
+      "grad_norm": 3.945460557937622,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.2777,
+      "step": 89
+    },
+    {
+      "epoch": 0.005403133817614216,
+      "grad_norm": 0.0012216288596391678,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0001,
+      "step": 90
+    },
+    {
+      "epoch": 0.005403133817614216,
+      "eval_loss": NaN,
+      "eval_runtime": 1749.58,
+      "eval_samples_per_second": 8.017,
+      "eval_steps_per_second": 1.003,
+      "step": 90
+    },
+    {
+      "epoch": 0.00546316863780993,
+      "grad_norm": 0.0035565090365707874,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0001,
+      "step": 91
+    },
+    {
+      "epoch": 0.005523203458005643,
+      "grad_norm": 0.0,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.005583238278201357,
+      "grad_norm": 0.04645892232656479,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.0006,
+      "step": 93
+    },
+    {
+      "epoch": 0.00564327309839707,
+      "grad_norm": 0.0014873318141326308,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.0001,
+      "step": 94
+    },
+    {
+      "epoch": 0.005703307918592784,
+      "grad_norm": 0.2146553099155426,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.003,
+      "step": 95
+    },
+    {
+      "epoch": 0.005763342738788498,
+      "grad_norm": 16.49122428894043,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 1.4834,
+      "step": 96
+    },
+    {
+      "epoch": 0.005823377558984211,
+      "grad_norm": 0.004562173970043659,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.0001,
+      "step": 97
+    },
+    {
+      "epoch": 0.005883412379179925,
+      "grad_norm": 0.0012735759373754263,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.0001,
+      "step": 98
+    },
+    {
+      "epoch": 0.005943447199375638,
+      "grad_norm": 0.0040828571654856205,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.0001,
+      "step": 99
+    },
+    {
+      "epoch": 0.005943447199375638,
+      "eval_loss": NaN,
+      "eval_runtime": 1749.7589,
+      "eval_samples_per_second": 8.017,
+      "eval_steps_per_second": 1.002,
+      "step": 99
+    },
+    {
+      "epoch": 0.006003482019571352,
+      "grad_norm": 0.0023373435251414776,
+      "learning_rate": 0.0,
+      "loss": 0.0001,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.715631936621773e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null