Training in progress, step 8900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +199 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c29d62447db5ea142b6e63446fb0723995c9371071fb12f07c5dbfcd273e66f
 size 13982248

 version https://git-lfs.github.com/spec/v1
+oid sha256:630a910b2d5b8c9504add11b070a2b95445874621f6de2ea3077628d0553ffe3
 size 13982248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac9456df1bbb624ec6b29c344fddfbe6e0ff7895487589b37e69161278d0602
 size 7062522

 version https://git-lfs.github.com/spec/v1
+oid sha256:da3ec0e6441f43d24431895b711504845f578f35580f2b0f333b91a363d641c1
 size 7062522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2387e9a9fd0494921fc8ca09e34d3a00b5294dbcdd3c6d17ee624f943511e33
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e3f344cbf26501e998b8de868d6d509ad3fe3171ec390a602388814ddd9df38
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b1bd4ceabb39cc61ab83f832a18b2856f5381545b694264fd51377760218275
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dde4a2f54c5119ed26c871b2368383ec34337eb67d04dfb138caacf14a881ef
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6672,
   "eval_steps": 500,
-  "global_step": 8340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2926,6 +2926,202 @@
       "learning_rate": 1.9681434114209617e-05,
       "loss": 3.4415,
       "step": 8340
     }
   ],
   "logging_steps": 20,
@@ -2933,7 +3129,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
-  "total_flos": 1.9720585420898304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.712,
   "eval_steps": 500,
+  "global_step": 8900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.9681434114209617e-05,
       "loss": 3.4415,
       "step": 8340
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 30.5143985748291,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 3.4806,
+      "step": 8360
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 27.770360946655273,
+      "learning_rate": 1.958902709540811e-05,
+      "loss": 3.4379,
+      "step": 8380
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 24.266944885253906,
+      "learning_rate": 1.954275113846926e-05,
+      "loss": 3.4933,
+      "step": 8400
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 43.798301696777344,
+      "learning_rate": 1.9496427530220567e-05,
+      "loss": 3.4107,
+      "step": 8420
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 32.54145431518555,
+      "learning_rate": 1.9450056756574753e-05,
+      "loss": 3.507,
+      "step": 8440
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 29.06185531616211,
+      "learning_rate": 1.9403639303939293e-05,
+      "loss": 3.4434,
+      "step": 8460
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 26.419170379638672,
+      "learning_rate": 1.93571756592113e-05,
+      "loss": 3.4684,
+      "step": 8480
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 31.831510543823242,
+      "learning_rate": 1.9310666309772426e-05,
+      "loss": 3.4565,
+      "step": 8500
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 33.18935775756836,
+      "learning_rate": 1.926411174348373e-05,
+      "loss": 3.4568,
+      "step": 8520
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 25.60289192199707,
+      "learning_rate": 1.9217512448680586e-05,
+      "loss": 3.3513,
+      "step": 8540
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 27.03973960876465,
+      "learning_rate": 1.917086891416755e-05,
+      "loss": 3.4551,
+      "step": 8560
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 39.20319366455078,
+      "learning_rate": 1.9124181629213228e-05,
+      "loss": 3.4217,
+      "step": 8580
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 25.287826538085938,
+      "learning_rate": 1.9077451083545144e-05,
+      "loss": 3.4172,
+      "step": 8600
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 51.33893585205078,
+      "learning_rate": 1.903067776734461e-05,
+      "loss": 3.4487,
+      "step": 8620
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 23.41849708557129,
+      "learning_rate": 1.8983862171241577e-05,
+      "loss": 3.4675,
+      "step": 8640
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 37.373104095458984,
+      "learning_rate": 1.8937004786309504e-05,
+      "loss": 3.4782,
+      "step": 8660
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 26.743480682373047,
+      "learning_rate": 1.8890106104060177e-05,
+      "loss": 3.432,
+      "step": 8680
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 39.051124572753906,
+      "learning_rate": 1.8843166616438585e-05,
+      "loss": 3.4937,
+      "step": 8700
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 32.51453399658203,
+      "learning_rate": 1.8796186815817743e-05,
+      "loss": 3.4618,
+      "step": 8720
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 22.23604393005371,
+      "learning_rate": 1.874916719499353e-05,
+      "loss": 3.5259,
+      "step": 8740
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 27.168733596801758,
+      "learning_rate": 1.8702108247179512e-05,
+      "loss": 3.4829,
+      "step": 8760
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 28.35675621032715,
+      "learning_rate": 1.8655010466001794e-05,
+      "loss": 3.4133,
+      "step": 8780
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 30.800825119018555,
+      "learning_rate": 1.8607874345493806e-05,
+      "loss": 3.4527,
+      "step": 8800
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 26.275304794311523,
+      "learning_rate": 1.856070038009115e-05,
+      "loss": 3.4386,
+      "step": 8820
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 27.828401565551758,
+      "learning_rate": 1.85134890646264e-05,
+      "loss": 3.4806,
+      "step": 8840
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 31.448450088500977,
+      "learning_rate": 1.846624089432392e-05,
+      "loss": 3.4659,
+      "step": 8860
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 30.396820068359375,
+      "learning_rate": 1.8418956364794655e-05,
+      "loss": 3.4717,
+      "step": 8880
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 65.90203857421875,
+      "learning_rate": 1.8371635972030942e-05,
+      "loss": 3.4938,
+      "step": 8900
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
+  "total_flos": 2.103984238922957e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null