Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c72c7020b4c8ec437329aecf2acf3f865d93ea02310629c574e37a5957ffc7f
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:031366e2dcddd98a0d6a30b349ef6ab8e5769312122ed9ce32dde45a1986e71f
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df7430003808cfd55293f4aa97f80fdd545d43a9f6f13da595cd9f63f659f5ef
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcb2a54d8ec4ecda1bad9c2fc6bc14133a0f1f5876fc745f54ca17df9fdff0b9
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a5f1f99ef350703e7b225875ce45c2c4be505d4a46404d8d22899e51a510475
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e2cf9324f5ca73826e5c9f2c45cac176b672eaa8f31f38db597f7560005f726
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3110412061214447,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.015844094113919037,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 13.59,
       "eval_steps_per_second": 3.398,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.719068728773837e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2861791253089905,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.031688188227838074,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.59,
       "eval_steps_per_second": 3.398,
       "step": 50
+    },
+    {
+      "epoch": 0.016160975996197417,
+      "grad_norm": 0.09471043199300766,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 0.1704,
+      "step": 51
+    },
+    {
+      "epoch": 0.016477857878475798,
+      "grad_norm": 0.10490579158067703,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 0.1973,
+      "step": 52
+    },
+    {
+      "epoch": 0.016794739760754178,
+      "grad_norm": 0.11275085806846619,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 0.2089,
+      "step": 53
+    },
+    {
+      "epoch": 0.017111621643032558,
+      "grad_norm": 0.09714960306882858,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 0.1874,
+      "step": 54
+    },
+    {
+      "epoch": 0.017428503525310942,
+      "grad_norm": 0.10512809455394745,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 0.1858,
+      "step": 55
+    },
+    {
+      "epoch": 0.017745385407589322,
+      "grad_norm": 0.10947681963443756,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 0.2236,
+      "step": 56
+    },
+    {
+      "epoch": 0.018062267289867703,
+      "grad_norm": 0.10696465522050858,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 0.2353,
+      "step": 57
+    },
+    {
+      "epoch": 0.018379149172146083,
+      "grad_norm": 0.12559695541858673,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 0.251,
+      "step": 58
+    },
+    {
+      "epoch": 0.018696031054424463,
+      "grad_norm": 0.1162128821015358,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 0.2488,
+      "step": 59
+    },
+    {
+      "epoch": 0.019012912936702844,
+      "grad_norm": 0.1090744361281395,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 0.2398,
+      "step": 60
+    },
+    {
+      "epoch": 0.019329794818981224,
+      "grad_norm": 0.11116234958171844,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 0.2555,
+      "step": 61
+    },
+    {
+      "epoch": 0.019646676701259604,
+      "grad_norm": 0.11902529746294022,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 0.2682,
+      "step": 62
+    },
+    {
+      "epoch": 0.019963558583537985,
+      "grad_norm": 0.10772904753684998,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 0.2352,
+      "step": 63
+    },
+    {
+      "epoch": 0.02028044046581637,
+      "grad_norm": 0.10973820835351944,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 0.2369,
+      "step": 64
+    },
+    {
+      "epoch": 0.02059732234809475,
+      "grad_norm": 0.11814217269420624,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 0.2524,
+      "step": 65
+    },
+    {
+      "epoch": 0.02091420423037313,
+      "grad_norm": 0.12398887425661087,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 0.2532,
+      "step": 66
+    },
+    {
+      "epoch": 0.02123108611265151,
+      "grad_norm": 0.12989726662635803,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.2718,
+      "step": 67
+    },
+    {
+      "epoch": 0.02154796799492989,
+      "grad_norm": 0.11946962773799896,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 0.242,
+      "step": 68
+    },
+    {
+      "epoch": 0.02186484987720827,
+      "grad_norm": 0.1271256059408188,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 0.2929,
+      "step": 69
+    },
+    {
+      "epoch": 0.02218173175948665,
+      "grad_norm": 0.13123860955238342,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 0.2413,
+      "step": 70
+    },
+    {
+      "epoch": 0.02249861364176503,
+      "grad_norm": 0.13517530262470245,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 0.2833,
+      "step": 71
+    },
+    {
+      "epoch": 0.022815495524043414,
+      "grad_norm": 0.14057579636573792,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 0.2952,
+      "step": 72
+    },
+    {
+      "epoch": 0.023132377406321795,
+      "grad_norm": 0.1402745395898819,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 0.3068,
+      "step": 73
+    },
+    {
+      "epoch": 0.023449259288600175,
+      "grad_norm": 0.1463419497013092,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 0.3047,
+      "step": 74
+    },
+    {
+      "epoch": 0.023766141170878555,
+      "grad_norm": 0.15095284581184387,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 0.3107,
+      "step": 75
+    },
+    {
+      "epoch": 0.024083023053156936,
+      "grad_norm": 0.1348758339881897,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 0.3007,
+      "step": 76
+    },
+    {
+      "epoch": 0.024399904935435316,
+      "grad_norm": 0.1441372185945511,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 0.2894,
+      "step": 77
+    },
+    {
+      "epoch": 0.024716786817713696,
+      "grad_norm": 0.14854104816913605,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 0.3202,
+      "step": 78
+    },
+    {
+      "epoch": 0.025033668699992077,
+      "grad_norm": 0.1389545202255249,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 0.3043,
+      "step": 79
+    },
+    {
+      "epoch": 0.025350550582270457,
+      "grad_norm": 0.15648682415485382,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 0.337,
+      "step": 80
+    },
+    {
+      "epoch": 0.02566743246454884,
+      "grad_norm": 0.14272603392601013,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 0.3011,
+      "step": 81
+    },
+    {
+      "epoch": 0.02598431434682722,
+      "grad_norm": 0.15423764288425446,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 0.3214,
+      "step": 82
+    },
+    {
+      "epoch": 0.0263011962291056,
+      "grad_norm": 0.15417426824569702,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 0.296,
+      "step": 83
+    },
+    {
+      "epoch": 0.026618078111383982,
+      "grad_norm": 0.15329402685165405,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 0.2983,
+      "step": 84
+    },
+    {
+      "epoch": 0.026934959993662362,
+      "grad_norm": 0.15941715240478516,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 0.3016,
+      "step": 85
+    },
+    {
+      "epoch": 0.027251841875940742,
+      "grad_norm": 0.15860851109027863,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.272,
+      "step": 86
+    },
+    {
+      "epoch": 0.027568723758219123,
+      "grad_norm": 0.16991178691387177,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 0.3448,
+      "step": 87
+    },
+    {
+      "epoch": 0.027885605640497503,
+      "grad_norm": 0.1755577027797699,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 0.3156,
+      "step": 88
+    },
+    {
+      "epoch": 0.028202487522775887,
+      "grad_norm": 0.1622546762228012,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 0.3063,
+      "step": 89
+    },
+    {
+      "epoch": 0.028519369405054267,
+      "grad_norm": 0.17945386469364166,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 0.3276,
+      "step": 90
+    },
+    {
+      "epoch": 0.028836251287332648,
+      "grad_norm": 0.18708471953868866,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 0.325,
+      "step": 91
+    },
+    {
+      "epoch": 0.029153133169611028,
+      "grad_norm": 0.1904095858335495,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 0.3476,
+      "step": 92
+    },
+    {
+      "epoch": 0.029470015051889408,
+      "grad_norm": 0.1793287843465805,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 0.3423,
+      "step": 93
+    },
+    {
+      "epoch": 0.02978689693416779,
+      "grad_norm": 0.18426981568336487,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 0.321,
+      "step": 94
+    },
+    {
+      "epoch": 0.03010377881644617,
+      "grad_norm": 0.20930606126785278,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 0.3844,
+      "step": 95
+    },
+    {
+      "epoch": 0.03042066069872455,
+      "grad_norm": 0.19688951969146729,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 0.3542,
+      "step": 96
+    },
+    {
+      "epoch": 0.03073754258100293,
+      "grad_norm": 0.21573825180530548,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 0.3764,
+      "step": 97
+    },
+    {
+      "epoch": 0.031054424463281313,
+      "grad_norm": 0.22527675330638885,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 0.4116,
+      "step": 98
+    },
+    {
+      "epoch": 0.031371306345559694,
+      "grad_norm": 0.2153525948524475,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 0.3692,
+      "step": 99
+    },
+    {
+      "epoch": 0.031688188227838074,
+      "grad_norm": 0.27288129925727844,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.4117,
+      "step": 100
+    },
+    {
+      "epoch": 0.031688188227838074,
+      "eval_loss": 0.2861791253089905,
+      "eval_runtime": 390.5684,
+      "eval_samples_per_second": 13.608,
+      "eval_steps_per_second": 3.403,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3438137457547674e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null