Training in progress, step 5280, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +444 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35a69ca220b03dc6504efc110f15929f9ae57c96d280eb843d1af6a4264874a6
 size 13982248

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f5bfad4f42d19e9da696cbdb43e4409d0f807b2b877c6a089cfd0a74bf2771f
 size 13982248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df293182e1e9c9d15f7f8f232a05259e88feaf1f67100eb23fec82413de6cd98
 size 7062522

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc987e09473dd7b3d086e9ed9bc1748d7d1b3108088d88eddfdaf6972cbf4189
 size 7062522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d0bcdc2595dd39333bdd13b49d9cd082e2eb8110dac33ed099c7f11efef73d4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1dbdd57232626eddcfa10c081f5c18623de1c4663a61f927134c8ad55d47712
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87ec9f1ba3ae289c7a0ef682226dbd37810689a9b5a9a4bec38e00e5e276301e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b342905fe7ee06e2011340421596fa9b2d4facdf3e6fe1f5ce5617922a76da7c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3216,
   "eval_steps": 500,
-  "global_step": 4020,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1414,6 +1414,447 @@
       "learning_rate": 2.775776814817928e-05,
       "loss": 3.4266,
       "step": 4020
     }
   ],
   "logging_steps": 20,
@@ -1421,7 +1862,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
-  "total_flos": 9487404305154048.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4224,
   "eval_steps": 500,
+  "global_step": 5280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.775776814817928e-05,
       "loss": 3.4266,
       "step": 4020
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 37.957637786865234,
+      "learning_rate": 2.7732150118568016e-05,
+      "loss": 3.6768,
+      "step": 4040
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 42.639320373535156,
+      "learning_rate": 2.770639853472676e-05,
+      "loss": 3.5102,
+      "step": 4060
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 29.558870315551758,
+      "learning_rate": 2.768051366677744e-05,
+      "loss": 3.5354,
+      "step": 4080
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 23.12784194946289,
+      "learning_rate": 2.765449578624007e-05,
+      "loss": 3.5432,
+      "step": 4100
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 27.601444244384766,
+      "learning_rate": 2.7628345166029907e-05,
+      "loss": 3.5672,
+      "step": 4120
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 26.26235008239746,
+      "learning_rate": 2.760206208045458e-05,
+      "loss": 3.5635,
+      "step": 4140
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 57.84916305541992,
+      "learning_rate": 2.7575646805211224e-05,
+      "loss": 3.5254,
+      "step": 4160
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 25.554025650024414,
+      "learning_rate": 2.7549099617383573e-05,
+      "loss": 3.5142,
+      "step": 4180
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 38.82815170288086,
+      "learning_rate": 2.7522420795439067e-05,
+      "loss": 3.6104,
+      "step": 4200
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 28.093948364257812,
+      "learning_rate": 2.7495610619225925e-05,
+      "loss": 3.5265,
+      "step": 4220
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 26.187891006469727,
+      "learning_rate": 2.746866936997021e-05,
+      "loss": 3.4307,
+      "step": 4240
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 35.642738342285156,
+      "learning_rate": 2.7441597330272874e-05,
+      "loss": 3.5501,
+      "step": 4260
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 32.99201965332031,
+      "learning_rate": 2.7414394784106812e-05,
+      "loss": 3.4463,
+      "step": 4280
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 28.848899841308594,
+      "learning_rate": 2.7387062016813845e-05,
+      "loss": 3.5128,
+      "step": 4300
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 30.502288818359375,
+      "learning_rate": 2.7359599315101788e-05,
+      "loss": 3.4909,
+      "step": 4320
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 27.91356658935547,
+      "learning_rate": 2.7332006967041373e-05,
+      "loss": 3.53,
+      "step": 4340
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 47.296627044677734,
+      "learning_rate": 2.7304285262063274e-05,
+      "loss": 3.4793,
+      "step": 4360
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 33.32771682739258,
+      "learning_rate": 2.7276434490955074e-05,
+      "loss": 3.4695,
+      "step": 4380
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 36.65375518798828,
+      "learning_rate": 2.7248454945858164e-05,
+      "loss": 3.4502,
+      "step": 4400
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 62.65798568725586,
+      "learning_rate": 2.7220346920264743e-05,
+      "loss": 3.5893,
+      "step": 4420
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 26.921863555908203,
+      "learning_rate": 2.71921107090147e-05,
+      "loss": 3.4381,
+      "step": 4440
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 35.91081619262695,
+      "learning_rate": 2.7163746608292525e-05,
+      "loss": 3.5292,
+      "step": 4460
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 42.172306060791016,
+      "learning_rate": 2.7135254915624213e-05,
+      "loss": 3.5314,
+      "step": 4480
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 65.17137908935547,
+      "learning_rate": 2.710663592987414e-05,
+      "loss": 3.518,
+      "step": 4500
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 32.53944396972656,
+      "learning_rate": 2.7077889951241924e-05,
+      "loss": 3.5562,
+      "step": 4520
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 25.663211822509766,
+      "learning_rate": 2.704901728125928e-05,
+      "loss": 3.5537,
+      "step": 4540
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 23.626951217651367,
+      "learning_rate": 2.702001822278685e-05,
+      "loss": 3.5525,
+      "step": 4560
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 30.527162551879883,
+      "learning_rate": 2.699089308001104e-05,
+      "loss": 3.4913,
+      "step": 4580
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 37.62814712524414,
+      "learning_rate": 2.696164215844081e-05,
+      "loss": 3.5342,
+      "step": 4600
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 26.47550392150879,
+      "learning_rate": 2.6932265764904494e-05,
+      "loss": 3.4708,
+      "step": 4620
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 30.779155731201172,
+      "learning_rate": 2.6902764207546553e-05,
+      "loss": 3.5078,
+      "step": 4640
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 34.16841506958008,
+      "learning_rate": 2.6873137795824367e-05,
+      "loss": 3.4754,
+      "step": 4660
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 36.18644714355469,
+      "learning_rate": 2.6843386840504972e-05,
+      "loss": 3.4413,
+      "step": 4680
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 34.17078399658203,
+      "learning_rate": 2.6813511653661817e-05,
+      "loss": 3.4916,
+      "step": 4700
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 24.693265914916992,
+      "learning_rate": 2.678351254867147e-05,
+      "loss": 3.4072,
+      "step": 4720
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 27.831270217895508,
+      "learning_rate": 2.675338984021035e-05,
+      "loss": 3.5353,
+      "step": 4740
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 18.52642059326172,
+      "learning_rate": 2.672314384425142e-05,
+      "loss": 3.4582,
+      "step": 4760
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 44.86159133911133,
+      "learning_rate": 2.669277487806085e-05,
+      "loss": 3.4384,
+      "step": 4780
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 28.123258590698242,
+      "learning_rate": 2.6662283260194743e-05,
+      "loss": 3.5766,
+      "step": 4800
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 27.150848388671875,
+      "learning_rate": 2.6631669310495725e-05,
+      "loss": 3.5095,
+      "step": 4820
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 43.018043518066406,
+      "learning_rate": 2.660093335008966e-05,
+      "loss": 3.4795,
+      "step": 4840
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 29.27479362487793,
+      "learning_rate": 2.6570075701382213e-05,
+      "loss": 3.5236,
+      "step": 4860
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 19.501262664794922,
+      "learning_rate": 2.653909668805553e-05,
+      "loss": 3.5479,
+      "step": 4880
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 57.28257369995117,
+      "learning_rate": 2.6507996635064792e-05,
+      "loss": 3.5156,
+      "step": 4900
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 27.764036178588867,
+      "learning_rate": 2.647677586863484e-05,
+      "loss": 3.5222,
+      "step": 4920
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 33.74861526489258,
+      "learning_rate": 2.644543471625675e-05,
+      "loss": 3.4773,
+      "step": 4940
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 25.404314041137695,
+      "learning_rate": 2.6413973506684366e-05,
+      "loss": 3.4646,
+      "step": 4960
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 33.307674407958984,
+      "learning_rate": 2.63823925699309e-05,
+      "loss": 3.4975,
+      "step": 4980
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 28.22442054748535,
+      "learning_rate": 2.6350692237265428e-05,
+      "loss": 3.4797,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 26.52558135986328,
+      "learning_rate": 2.6318872841209446e-05,
+      "loss": 3.4309,
+      "step": 5020
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 36.679386138916016,
+      "learning_rate": 2.6286934715533353e-05,
+      "loss": 3.585,
+      "step": 5040
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 42.78778839111328,
+      "learning_rate": 2.6254878195252985e-05,
+      "loss": 3.4239,
+      "step": 5060
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 34.719482421875,
+      "learning_rate": 2.622270361662606e-05,
+      "loss": 3.4777,
+      "step": 5080
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 33.207427978515625,
+      "learning_rate": 2.619041131714869e-05,
+      "loss": 3.5593,
+      "step": 5100
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 35.62514877319336,
+      "learning_rate": 2.6158001635551818e-05,
+      "loss": 3.5606,
+      "step": 5120
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 31.691574096679688,
+      "learning_rate": 2.6125474911797664e-05,
+      "loss": 3.4959,
+      "step": 5140
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 34.012420654296875,
+      "learning_rate": 2.6092831487076163e-05,
+      "loss": 3.57,
+      "step": 5160
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 36.75544357299805,
+      "learning_rate": 2.6060071703801406e-05,
+      "loss": 3.4718,
+      "step": 5180
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 37.18219757080078,
+      "learning_rate": 2.6027195905608006e-05,
+      "loss": 3.5332,
+      "step": 5200
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 32.344398498535156,
+      "learning_rate": 2.599420443734754e-05,
+      "loss": 3.5154,
+      "step": 5220
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 26.169748306274414,
+      "learning_rate": 2.596109764508489e-05,
+      "loss": 3.5462,
+      "step": 5240
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 33.38447570800781,
+      "learning_rate": 2.592787587609465e-05,
+      "loss": 3.5658,
+      "step": 5260
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 43.4962158203125,
+      "learning_rate": 2.589453947885745e-05,
+      "loss": 3.5018,
+      "step": 5280
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
+  "total_flos": 1.2497937290428416e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null