Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbc27f9d670bf59613f0ad35c6ed0a61b0c42a921427780b714064faeedc7ce2
 size 100689176

 version https://git-lfs.github.com/spec/v1
+oid sha256:8be8480941245af20b0c2571d02c9b94b1dda03625c942b82e1e2d9944ffeac2
 size 100689176

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:051de4a085c3b8b4a38172e6abbdb97e0fd9a905d72f7607924e791ed45fc1b3
 size 201488698

 version https://git-lfs.github.com/spec/v1
+oid sha256:629c0bfd0b78b063757dd2cd9ca9c64341a7bd4190c47cd037e3cbc83e96caf0
 size 201488698

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3cc334a175d1898fa9cff12909aff991b240c7fc1ce24cdffc01c260075fe88
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d778eb59ce7dbca8136a7959dc2657baef2d7e03b4b7fda5ae3d63b697442a50
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daa57dde97277e3ea991e32bd89d96081667572958c56d89a2fb6b0a6f8e1923
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fe7f1bf39a2a21ec6453d647a430741165accfbd545b7df5e312cd5fa0c7360
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0090162754058838,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.17368649587494572,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 7.34,
       "eval_steps_per_second": 7.34,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.294189144565023e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0089582204818726,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.17911419887103777,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.34,
       "eval_steps_per_second": 7.34,
       "step": 4800
+    },
+    {
+      "epoch": 0.17404834274135186,
+      "grad_norm": 3.6224241256713867,
+      "learning_rate": 2.0378882491921159e-07,
+      "loss": 1.0616,
+      "step": 4810
+    },
+    {
+      "epoch": 0.174410189607758,
+      "grad_norm": 1.605273723602295,
+      "learning_rate": 1.8292507030715362e-07,
+      "loss": 1.1681,
+      "step": 4820
+    },
+    {
+      "epoch": 0.17477203647416414,
+      "grad_norm": 1.325554609298706,
+      "learning_rate": 1.6318421365179055e-07,
+      "loss": 1.0721,
+      "step": 4830
+    },
+    {
+      "epoch": 0.17513388334057028,
+      "grad_norm": 1.8882009983062744,
+      "learning_rate": 1.4456706642242134e-07,
+      "loss": 1.1359,
+      "step": 4840
+    },
+    {
+      "epoch": 0.1754957302069764,
+      "grad_norm": 1.310950517654419,
+      "learning_rate": 1.2707439389704867e-07,
+      "loss": 1.0071,
+      "step": 4850
+    },
+    {
+      "epoch": 0.17585757707338254,
+      "grad_norm": 1.9121229648590088,
+      "learning_rate": 1.1070691513092563e-07,
+      "loss": 1.1355,
+      "step": 4860
+    },
+    {
+      "epoch": 0.17621942393978868,
+      "grad_norm": 1.402378797531128,
+      "learning_rate": 9.546530292699863e-08,
+      "loss": 1.1337,
+      "step": 4870
+    },
+    {
+      "epoch": 0.17658127080619482,
+      "grad_norm": 1.7570936679840088,
+      "learning_rate": 8.135018380824921e-08,
+      "loss": 1.2101,
+      "step": 4880
+    },
+    {
+      "epoch": 0.17694311767260096,
+      "grad_norm": 2.1342835426330566,
+      "learning_rate": 6.836213799193497e-08,
+      "loss": 0.9914,
+      "step": 4890
+    },
+    {
+      "epoch": 0.1773049645390071,
+      "grad_norm": 1.0870988368988037,
+      "learning_rate": 5.6501699365750784e-08,
+      "loss": 1.1218,
+      "step": 4900
+    },
+    {
+      "epoch": 0.17766681140541324,
+      "grad_norm": 1.0682313442230225,
+      "learning_rate": 4.5769355465876964e-08,
+      "loss": 1.0238,
+      "step": 4910
+    },
+    {
+      "epoch": 0.17802865827181938,
+      "grad_norm": 1.6820406913757324,
+      "learning_rate": 3.616554745692946e-08,
+      "loss": 1.2016,
+      "step": 4920
+    },
+    {
+      "epoch": 0.1783905051382255,
+      "grad_norm": 1.4748146533966064,
+      "learning_rate": 2.7690670113848792e-08,
+      "loss": 1.0566,
+      "step": 4930
+    },
+    {
+      "epoch": 0.17875235200463163,
+      "grad_norm": 1.8944076299667358,
+      "learning_rate": 2.034507180563916e-08,
+      "loss": 1.1868,
+      "step": 4940
+    },
+    {
+      "epoch": 0.17911419887103777,
+      "grad_norm": 1.0298928022384644,
+      "learning_rate": 1.4129054481082926e-08,
+      "loss": 0.9945,
+      "step": 4950
+    },
+    {
+      "epoch": 0.17911419887103777,
+      "eval_loss": 1.0089582204818726,
+      "eval_runtime": 68.6655,
+      "eval_samples_per_second": 7.282,
+      "eval_steps_per_second": 7.282,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.430239058215649e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null