Training in progress, step 40, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0c66bb5ff83f2d13fb13e710bdf34e073dbbe0fd37dbf0ea61c41237f2e0180
 size 63592

 version https://git-lfs.github.com/spec/v1
+oid sha256:72025eee6c8df79570a58f6dfb4738763a40398724aaf8c956bbea01f3d19d9b
 size 63592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02bf14a3972139bbc878d973bf716dbdd40227329bdcd0171ccb3bd7d10e0fa8
 size 136814

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b7903ceb63f7319d7743707770b8458bbb24c5490fbd6cb08d05c524c733f2d
 size 136814

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54ccaa53d2d8ec06c1ee34cc01a5fe264fe9af0525bcf751771ab98a9dbdd66d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1f7e85ec0c7cf94e6539c614b2cdae35e592e6008d0e889a34268e7ffb5ad26
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:447df76721bbd643dda80100b0c96aa0132e69f3bcbf6b3499b1531cc29ef803
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cf4d0d730ccc9e2c8ddc5f19d724b476847a4fd05d50494d967b231b2616759
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.04161262512207,
-  "best_model_checkpoint": "miner_id_24/checkpoint-30",
-  "epoch": 0.0010082423814685051,
   "eval_steps": 5,
-  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,92 @@
       "eval_samples_per_second": 114.858,
       "eval_steps_per_second": 28.718,
       "step": 30
     }
   ],
   "logging_steps": 1,
@@ -301,7 +387,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 224604979200.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.035011291503906,
+  "best_model_checkpoint": "miner_id_24/checkpoint-40",
+  "epoch": 0.00134432317529134,
   "eval_steps": 5,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 114.858,
       "eval_steps_per_second": 28.718,
       "step": 30
+    },
+    {
+      "epoch": 0.0010418504608507885,
+      "grad_norm": 1.397843360900879,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 44.1668,
+      "step": 31
+    },
+    {
+      "epoch": 0.001075458540233072,
+      "grad_norm": 1.3839954137802124,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 44.1662,
+      "step": 32
+    },
+    {
+      "epoch": 0.0011090666196153555,
+      "grad_norm": 1.4163095951080322,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 44.1496,
+      "step": 33
+    },
+    {
+      "epoch": 0.001142674698997639,
+      "grad_norm": 1.4045735597610474,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 44.1685,
+      "step": 34
+    },
+    {
+      "epoch": 0.0011762827783799224,
+      "grad_norm": 1.3793485164642334,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 44.1507,
+      "step": 35
+    },
+    {
+      "epoch": 0.0011762827783799224,
+      "eval_loss": 11.037788391113281,
+      "eval_runtime": 218.4833,
+      "eval_samples_per_second": 114.686,
+      "eval_steps_per_second": 28.675,
+      "step": 35
+    },
+    {
+      "epoch": 0.001209890857762206,
+      "grad_norm": 1.4301193952560425,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 44.1489,
+      "step": 36
+    },
+    {
+      "epoch": 0.0012434989371444896,
+      "grad_norm": 1.376386284828186,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 44.1472,
+      "step": 37
+    },
+    {
+      "epoch": 0.001277107016526773,
+      "grad_norm": 1.4159599542617798,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 44.159,
+      "step": 38
+    },
+    {
+      "epoch": 0.0013107150959090566,
+      "grad_norm": 1.3692336082458496,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 44.1495,
+      "step": 39
+    },
+    {
+      "epoch": 0.00134432317529134,
+      "grad_norm": 1.4065481424331665,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 44.1369,
+      "step": 40
+    },
+    {
+      "epoch": 0.00134432317529134,
+      "eval_loss": 11.035011291503906,
+      "eval_runtime": 218.3178,
+      "eval_samples_per_second": 114.773,
+      "eval_steps_per_second": 28.697,
+      "step": 40
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 299473305600.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null