Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5a1db31d8d708fe6091442d3662ffd25f45b7f965ebc5ac1984c99ed598260f
 size 100690184

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e7bcd85db33fb4de6dea08bf9bc9c7f931969e3390999aa88d652222a0fc4b7
 size 100690184

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c821306125feede0cb7a8ebf2dc2c910b1bccafdd04c038d30854519bc5e53b
 size 51344890

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5407f49c8cf2b19d2774ca5b2bf004b889c9d5b855ac04ff674830287c254b7
 size 51344890

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac111ae5926f3e7f68c6af8f6629c531b078106918c156ed436bbdb5da375568
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3273c7252e8d7251a1b974bd9c1eb0842e643bbed0ef8080153a46b34f28b1ab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.5757181644439697,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.3367003367003367,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 86.983,
       "eval_steps_per_second": 21.92,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3725608982937600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.275372266769409,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.6734006734006734,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 86.983,
       "eval_steps_per_second": 21.92,
       "step": 50
+    },
+    {
+      "epoch": 0.3434343434343434,
+      "grad_norm": 56.74869918823242,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 8.5832,
+      "step": 51
+    },
+    {
+      "epoch": 0.3501683501683502,
+      "grad_norm": 120.69475555419922,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 9.0831,
+      "step": 52
+    },
+    {
+      "epoch": 0.3569023569023569,
+      "grad_norm": 90.3545913696289,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 8.7051,
+      "step": 53
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 59.1437873840332,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 8.1265,
+      "step": 54
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 85.22001647949219,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 8.4988,
+      "step": 55
+    },
+    {
+      "epoch": 0.3771043771043771,
+      "grad_norm": 106.94491577148438,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 8.5023,
+      "step": 56
+    },
+    {
+      "epoch": 0.3838383838383838,
+      "grad_norm": 101.17305755615234,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 8.1557,
+      "step": 57
+    },
+    {
+      "epoch": 0.39057239057239057,
+      "grad_norm": 126.14461517333984,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 8.039,
+      "step": 58
+    },
+    {
+      "epoch": 0.39730639730639733,
+      "grad_norm": 152.2769317626953,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 9.834,
+      "step": 59
+    },
+    {
+      "epoch": 0.40404040404040403,
+      "grad_norm": 119.77828216552734,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 8.9833,
+      "step": 60
+    },
+    {
+      "epoch": 0.4107744107744108,
+      "grad_norm": 113.63468170166016,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 9.3487,
+      "step": 61
+    },
+    {
+      "epoch": 0.4175084175084175,
+      "grad_norm": 142.9735107421875,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 8.3782,
+      "step": 62
+    },
+    {
+      "epoch": 0.42424242424242425,
+      "grad_norm": 137.7916717529297,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 8.9443,
+      "step": 63
+    },
+    {
+      "epoch": 0.43097643097643096,
+      "grad_norm": 231.43089294433594,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 9.1096,
+      "step": 64
+    },
+    {
+      "epoch": 0.4377104377104377,
+      "grad_norm": 116.13423919677734,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 8.3049,
+      "step": 65
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 145.97251892089844,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 9.7356,
+      "step": 66
+    },
+    {
+      "epoch": 0.4511784511784512,
+      "grad_norm": 163.04188537597656,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.6661,
+      "step": 67
+    },
+    {
+      "epoch": 0.45791245791245794,
+      "grad_norm": 162.80068969726562,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 9.8382,
+      "step": 68
+    },
+    {
+      "epoch": 0.46464646464646464,
+      "grad_norm": 146.3478240966797,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 11.777,
+      "step": 69
+    },
+    {
+      "epoch": 0.4713804713804714,
+      "grad_norm": 195.50843811035156,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 12.0246,
+      "step": 70
+    },
+    {
+      "epoch": 0.4781144781144781,
+      "grad_norm": 328.9975280761719,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 9.7281,
+      "step": 71
+    },
+    {
+      "epoch": 0.48484848484848486,
+      "grad_norm": 194.7329864501953,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 12.9932,
+      "step": 72
+    },
+    {
+      "epoch": 0.49158249158249157,
+      "grad_norm": 154.91452026367188,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 10.7869,
+      "step": 73
+    },
+    {
+      "epoch": 0.4983164983164983,
+      "grad_norm": 157.42726135253906,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 14.3655,
+      "step": 74
+    },
+    {
+      "epoch": 0.5050505050505051,
+      "grad_norm": 68.41136169433594,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 9.1286,
+      "step": 75
+    },
+    {
+      "epoch": 0.5117845117845118,
+      "grad_norm": 94.79463958740234,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 9.4578,
+      "step": 76
+    },
+    {
+      "epoch": 0.5185185185185185,
+      "grad_norm": 65.79988861083984,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 9.1846,
+      "step": 77
+    },
+    {
+      "epoch": 0.5252525252525253,
+      "grad_norm": 642.8189697265625,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 8.9449,
+      "step": 78
+    },
+    {
+      "epoch": 0.531986531986532,
+      "grad_norm": 60.4979248046875,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 9.353,
+      "step": 79
+    },
+    {
+      "epoch": 0.5387205387205387,
+      "grad_norm": 64.75019073486328,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 8.7256,
+      "step": 80
+    },
+    {
+      "epoch": 0.5454545454545454,
+      "grad_norm": 69.59507751464844,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 8.9943,
+      "step": 81
+    },
+    {
+      "epoch": 0.5521885521885522,
+      "grad_norm": 55.43488693237305,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 8.3704,
+      "step": 82
+    },
+    {
+      "epoch": 0.5589225589225589,
+      "grad_norm": 66.44117736816406,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 8.7222,
+      "step": 83
+    },
+    {
+      "epoch": 0.5656565656565656,
+      "grad_norm": 50.78106689453125,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 8.182,
+      "step": 84
+    },
+    {
+      "epoch": 0.5723905723905723,
+      "grad_norm": 81.48322296142578,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 7.8204,
+      "step": 85
+    },
+    {
+      "epoch": 0.5791245791245792,
+      "grad_norm": 94.91535186767578,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 7.6156,
+      "step": 86
+    },
+    {
+      "epoch": 0.5858585858585859,
+      "grad_norm": 65.08795928955078,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 8.135,
+      "step": 87
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 70.78136444091797,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 8.7126,
+      "step": 88
+    },
+    {
+      "epoch": 0.5993265993265994,
+      "grad_norm": 83.88176727294922,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 8.183,
+      "step": 89
+    },
+    {
+      "epoch": 0.6060606060606061,
+      "grad_norm": 68.87261199951172,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 8.1776,
+      "step": 90
+    },
+    {
+      "epoch": 0.6127946127946128,
+      "grad_norm": 80.12345886230469,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 9.1202,
+      "step": 91
+    },
+    {
+      "epoch": 0.6195286195286195,
+      "grad_norm": 100.9736328125,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 8.8236,
+      "step": 92
+    },
+    {
+      "epoch": 0.6262626262626263,
+      "grad_norm": 76.5873031616211,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 8.6311,
+      "step": 93
+    },
+    {
+      "epoch": 0.632996632996633,
+      "grad_norm": 69.47529602050781,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 7.5208,
+      "step": 94
+    },
+    {
+      "epoch": 0.6397306397306397,
+      "grad_norm": 97.56402587890625,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 8.3195,
+      "step": 95
+    },
+    {
+      "epoch": 0.6464646464646465,
+      "grad_norm": 191.1015167236328,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 8.2413,
+      "step": 96
+    },
+    {
+      "epoch": 0.6531986531986532,
+      "grad_norm": 147.45555114746094,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 9.2333,
+      "step": 97
+    },
+    {
+      "epoch": 0.6599326599326599,
+      "grad_norm": 378.5626525878906,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 8.5199,
+      "step": 98
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 136.10995483398438,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 8.8421,
+      "step": 99
+    },
+    {
+      "epoch": 0.6734006734006734,
+      "grad_norm": 111.9849853515625,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 8.6364,
+      "step": 100
+    },
+    {
+      "epoch": 0.6734006734006734,
+      "eval_loss": 2.275372266769409,
+      "eval_runtime": 2.8712,
+      "eval_samples_per_second": 87.072,
+      "eval_steps_per_second": 21.942,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7451217965875200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null