Training in progress, step 5580, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +94 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3a737d68a4827402068459de6efdbc7478a5a7fd2fe7bd0de466d15928fc4c2
 size 13982248

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e51450f5e4b92cb6050a5a712137dfb440701725d7829a72cff434a6a6aaa41
 size 13982248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:400d300ab5c6f0031e3d0ba8d37ecabfc57b9e43f048b577c44acb4c00908460
 size 7062522

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1c4657442ba41e0933213c7fee10b7f93702abbb9f81f18812f94f63338971
 size 7062522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ae9f372ef03becebb97898a812ec56da297ccd7cd57a3d1c178ee8c3636ac73
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eb3f735dc4651d569296bfd7a90e45c1cc6b4f4636e1916600a739323a96317
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:215c966d5ce6af96785202b075ac3637e563938102fe487ca5657a08dce17dcb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f302dc9006cdba2924e7e2a7a8ee731d1e7e53d419fb3e6bb33e1ba8b9c94c94
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4256,
   "eval_steps": 500,
-  "global_step": 5320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1869,6 +1869,97 @@
       "learning_rate": 2.5827524199573033e-05,
       "loss": 3.475,
       "step": 5320
     }
   ],
   "logging_steps": 20,
@@ -1876,7 +1967,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
-  "total_flos": 1.2585955553869824e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4464,
   "eval_steps": 500,
+  "global_step": 5580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.5827524199573033e-05,
       "loss": 3.475,
       "step": 5320
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 40.04597091674805,
+      "learning_rate": 2.5793846020484383e-05,
+      "loss": 3.4903,
+      "step": 5340
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 27.712465286254883,
+      "learning_rate": 2.5760054619058537e-05,
+      "loss": 3.5108,
+      "step": 5360
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 43.66648864746094,
+      "learning_rate": 2.5726150349751306e-05,
+      "loss": 3.4656,
+      "step": 5380
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 28.305545806884766,
+      "learning_rate": 2.569213356820244e-05,
+      "loss": 3.5766,
+      "step": 5400
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 34.897857666015625,
+      "learning_rate": 2.565800463123187e-05,
+      "loss": 3.4286,
+      "step": 5420
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 43.083229064941406,
+      "learning_rate": 2.5623763896835997e-05,
+      "loss": 3.4292,
+      "step": 5440
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 35.71794128417969,
+      "learning_rate": 2.5589411724183926e-05,
+      "loss": 3.5542,
+      "step": 5460
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 23.70340347290039,
+      "learning_rate": 2.555494847361369e-05,
+      "loss": 3.5276,
+      "step": 5480
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 55.299556732177734,
+      "learning_rate": 2.552037450662849e-05,
+      "loss": 3.5644,
+      "step": 5500
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 22.433879852294922,
+      "learning_rate": 2.5485690185892864e-05,
+      "loss": 3.4475,
+      "step": 5520
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 26.397438049316406,
+      "learning_rate": 2.545089587522893e-05,
+      "loss": 3.507,
+      "step": 5540
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 25.061750411987305,
+      "learning_rate": 2.5415991939612545e-05,
+      "loss": 3.4521,
+      "step": 5560
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 35.5067138671875,
+      "learning_rate": 2.5380978745169473e-05,
+      "loss": 3.4894,
+      "step": 5580
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
+  "total_flos": 1.320651219615744e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null