Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf66f197c76d9ffbb7357a17c5135c75db4bf6aa8901a3ed50cd31dcedad28d8
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:764fd81d8cf511b22e3e959f6d9d425f67b67dd451575c84cd4f7f56ae0282cf
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8cbe3b0be9f2be70fb27928ef08b234378922af443804ae1d1023d40160dbec
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:c940f027a8406afa93a7025f16a3a97c4d994c6a6de409a623af23f456c1b593
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a6a64193a8e1ec00e11a24476ecf24116de6bd64cad7d59b62f526f6a0b949b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0c9c6732e8fc83081e03161d12978e5ac406e72671f9e6acceaa2b7f957794f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7298057675361633,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0033729372380703424,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 12.852,
       "eval_steps_per_second": 3.213,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.488881143649403e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6794349551200867,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.005059405857105514,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.852,
       "eval_steps_per_second": 3.213,
       "step": 100
+    },
+    {
+      "epoch": 0.003406666610451046,
+      "grad_norm": 3.111365556716919,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 2.4397,
+      "step": 101
+    },
+    {
+      "epoch": 0.0034403959828317493,
+      "grad_norm": 2.9476871490478516,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 3.0504,
+      "step": 102
+    },
+    {
+      "epoch": 0.003474125355212453,
+      "grad_norm": 3.170501470565796,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 2.9921,
+      "step": 103
+    },
+    {
+      "epoch": 0.0035078547275931562,
+      "grad_norm": 2.601001739501953,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 2.141,
+      "step": 104
+    },
+    {
+      "epoch": 0.00354158409997386,
+      "grad_norm": 2.606767177581787,
+      "learning_rate": 5e-05,
+      "loss": 2.7474,
+      "step": 105
+    },
+    {
+      "epoch": 0.003575313472354563,
+      "grad_norm": 2.6180262565612793,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 2.7362,
+      "step": 106
+    },
+    {
+      "epoch": 0.003609042844735267,
+      "grad_norm": 2.7048604488372803,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 2.2784,
+      "step": 107
+    },
+    {
+      "epoch": 0.00364277221711597,
+      "grad_norm": 2.458204507827759,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 2.3686,
+      "step": 108
+    },
+    {
+      "epoch": 0.0036765015894966733,
+      "grad_norm": 3.105318307876587,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 2.9872,
+      "step": 109
+    },
+    {
+      "epoch": 0.003710230961877377,
+      "grad_norm": 2.9087324142456055,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 2.5763,
+      "step": 110
+    },
+    {
+      "epoch": 0.00374396033425808,
+      "grad_norm": 3.3524820804595947,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 2.5951,
+      "step": 111
+    },
+    {
+      "epoch": 0.003777689706638784,
+      "grad_norm": 3.0980982780456543,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 2.4949,
+      "step": 112
+    },
+    {
+      "epoch": 0.003811419079019487,
+      "grad_norm": 2.9690330028533936,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 2.6124,
+      "step": 113
+    },
+    {
+      "epoch": 0.0038451484514001907,
+      "grad_norm": 2.8932576179504395,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 2.5953,
+      "step": 114
+    },
+    {
+      "epoch": 0.003878877823780894,
+      "grad_norm": 3.3136117458343506,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 2.3985,
+      "step": 115
+    },
+    {
+      "epoch": 0.003912607196161598,
+      "grad_norm": 3.411710262298584,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 2.7487,
+      "step": 116
+    },
+    {
+      "epoch": 0.003946336568542301,
+      "grad_norm": 3.244392156600952,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 2.6008,
+      "step": 117
+    },
+    {
+      "epoch": 0.003980065940923004,
+      "grad_norm": 3.0537939071655273,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 2.5601,
+      "step": 118
+    },
+    {
+      "epoch": 0.004013795313303707,
+      "grad_norm": 2.933382034301758,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 2.6705,
+      "step": 119
+    },
+    {
+      "epoch": 0.004047524685684411,
+      "grad_norm": 3.036072015762329,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 2.166,
+      "step": 120
+    },
+    {
+      "epoch": 0.004081254058065115,
+      "grad_norm": 3.252941608428955,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 2.0373,
+      "step": 121
+    },
+    {
+      "epoch": 0.004114983430445818,
+      "grad_norm": 2.9841160774230957,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 2.2531,
+      "step": 122
+    },
+    {
+      "epoch": 0.004148712802826521,
+      "grad_norm": 3.5263969898223877,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 2.7147,
+      "step": 123
+    },
+    {
+      "epoch": 0.004182442175207225,
+      "grad_norm": 3.2517738342285156,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.377,
+      "step": 124
+    },
+    {
+      "epoch": 0.0042161715475879285,
+      "grad_norm": 3.267925977706909,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 2.0617,
+      "step": 125
+    },
+    {
+      "epoch": 0.004249900919968632,
+      "grad_norm": 3.7262022495269775,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 2.6081,
+      "step": 126
+    },
+    {
+      "epoch": 0.004283630292349335,
+      "grad_norm": 3.4712376594543457,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 2.4889,
+      "step": 127
+    },
+    {
+      "epoch": 0.004317359664730038,
+      "grad_norm": 3.6753430366516113,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 2.5376,
+      "step": 128
+    },
+    {
+      "epoch": 0.004351089037110742,
+      "grad_norm": 3.4343435764312744,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 2.2512,
+      "step": 129
+    },
+    {
+      "epoch": 0.0043848184094914455,
+      "grad_norm": 4.201005935668945,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 2.1652,
+      "step": 130
+    },
+    {
+      "epoch": 0.004418547781872149,
+      "grad_norm": 4.135227680206299,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 2.0392,
+      "step": 131
+    },
+    {
+      "epoch": 0.004452277154252852,
+      "grad_norm": 4.8751044273376465,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 2.9728,
+      "step": 132
+    },
+    {
+      "epoch": 0.004486006526633556,
+      "grad_norm": 4.290978908538818,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 2.1564,
+      "step": 133
+    },
+    {
+      "epoch": 0.004519735899014259,
+      "grad_norm": 4.898470878601074,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 2.3571,
+      "step": 134
+    },
+    {
+      "epoch": 0.0045534652713949625,
+      "grad_norm": 4.462129592895508,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 2.3667,
+      "step": 135
+    },
+    {
+      "epoch": 0.004587194643775666,
+      "grad_norm": 4.757960319519043,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 2.6919,
+      "step": 136
+    },
+    {
+      "epoch": 0.004620924016156369,
+      "grad_norm": 4.8541154861450195,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 2.6552,
+      "step": 137
+    },
+    {
+      "epoch": 0.004654653388537073,
+      "grad_norm": 5.870574474334717,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 3.091,
+      "step": 138
+    },
+    {
+      "epoch": 0.004688382760917776,
+      "grad_norm": 5.609764575958252,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 2.515,
+      "step": 139
+    },
+    {
+      "epoch": 0.0047221121332984796,
+      "grad_norm": 5.161116123199463,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 2.5369,
+      "step": 140
+    },
+    {
+      "epoch": 0.004755841505679183,
+      "grad_norm": 8.233118057250977,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 3.0189,
+      "step": 141
+    },
+    {
+      "epoch": 0.004789570878059887,
+      "grad_norm": 6.386716365814209,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 2.9592,
+      "step": 142
+    },
+    {
+      "epoch": 0.00482330025044059,
+      "grad_norm": 7.640812873840332,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.1168,
+      "step": 143
+    },
+    {
+      "epoch": 0.004857029622821293,
+      "grad_norm": 8.133594512939453,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 3.0273,
+      "step": 144
+    },
+    {
+      "epoch": 0.004890758995201997,
+      "grad_norm": 8.013106346130371,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 4.2874,
+      "step": 145
+    },
+    {
+      "epoch": 0.0049244883675827,
+      "grad_norm": 8.809735298156738,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 2.9128,
+      "step": 146
+    },
+    {
+      "epoch": 0.004958217739963404,
+      "grad_norm": 9.66916275024414,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 3.5167,
+      "step": 147
+    },
+    {
+      "epoch": 0.004991947112344107,
+      "grad_norm": 10.982966423034668,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 3.11,
+      "step": 148
+    },
+    {
+      "epoch": 0.00502567648472481,
+      "grad_norm": 11.521635055541992,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 2.9937,
+      "step": 149
+    },
+    {
+      "epoch": 0.005059405857105514,
+      "grad_norm": 20.632587432861328,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 4.7432,
+      "step": 150
+    },
+    {
+      "epoch": 0.005059405857105514,
+      "eval_loss": 0.6794349551200867,
+      "eval_runtime": 3882.3594,
+      "eval_samples_per_second": 12.862,
+      "eval_steps_per_second": 3.216,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.2369007566848e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null