Training in progress, step 100, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +354 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:268f9ef3ba3031fbba482de87c403d9489e93fe1c9705ae664fba12ad4e8b9e6
 size 3653851880

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a4ae3d2c3a1543a871e5a58d63746709cdc8bf00389ba184eb24f003209868e
 size 3653851880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:225b9fff7d274904b708d20c6009d4e5ae7b2a06655a20692b646f989e56eb85
 size 1856183844

 version https://git-lfs.github.com/spec/v1
+oid sha256:819421be708c76366cc132d6fec8741cd1fb568bfeef053eeae3638e5107c6ab
 size 1856183844

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8eccac390378b22aeb148c260b00bec01d948946d8363d5282899af673e0e86
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a60c7d771c1fd156acee762fba03c724cb41829a3f71df370ecd1d20b134982
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.32,
   "eval_steps": 500,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -357,6 +357,356 @@
       "learning_rate": 0.00011736481776669306,
       "loss": 0.2386,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -371,12 +721,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.458014435582157e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.64,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00011736481776669306,
       "loss": 0.2386,
       "step": 50
+    },
+    {
+      "epoch": 0.3264,
+      "grad_norm": 0.1110386997461319,
+      "learning_rate": 0.00011391731009600654,
+      "loss": 0.2862,
+      "step": 51
+    },
+    {
+      "epoch": 0.3328,
+      "grad_norm": 0.11058996617794037,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 0.3214,
+      "step": 52
+    },
+    {
+      "epoch": 0.3392,
+      "grad_norm": 0.09535147994756699,
+      "learning_rate": 0.00010697564737441252,
+      "loss": 0.267,
+      "step": 53
+    },
+    {
+      "epoch": 0.3456,
+      "grad_norm": 0.09183581173419952,
+      "learning_rate": 0.00010348994967025012,
+      "loss": 0.2545,
+      "step": 54
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.11743531376123428,
+      "learning_rate": 0.0001,
+      "loss": 0.2664,
+      "step": 55
+    },
+    {
+      "epoch": 0.3584,
+      "grad_norm": 0.1046270951628685,
+      "learning_rate": 9.651005032974994e-05,
+      "loss": 0.2395,
+      "step": 56
+    },
+    {
+      "epoch": 0.3648,
+      "grad_norm": 0.11286702007055283,
+      "learning_rate": 9.302435262558747e-05,
+      "loss": 0.2463,
+      "step": 57
+    },
+    {
+      "epoch": 0.3712,
+      "grad_norm": 0.12298794090747833,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 0.254,
+      "step": 58
+    },
+    {
+      "epoch": 0.3776,
+      "grad_norm": 0.1068972498178482,
+      "learning_rate": 8.608268990399349e-05,
+      "loss": 0.2714,
+      "step": 59
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.11853048950433731,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 0.2367,
+      "step": 60
+    },
+    {
+      "epoch": 0.3904,
+      "grad_norm": 0.0922948494553566,
+      "learning_rate": 7.920883091822408e-05,
+      "loss": 0.2219,
+      "step": 61
+    },
+    {
+      "epoch": 0.3968,
+      "grad_norm": 0.1000463217496872,
+      "learning_rate": 7.580781044003324e-05,
+      "loss": 0.2424,
+      "step": 62
+    },
+    {
+      "epoch": 0.4032,
+      "grad_norm": 0.0933864563703537,
+      "learning_rate": 7.243626441830009e-05,
+      "loss": 0.2304,
+      "step": 63
+    },
+    {
+      "epoch": 0.4096,
+      "grad_norm": 0.10009445250034332,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.2183,
+      "step": 64
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.10700756311416626,
+      "learning_rate": 6.579798566743314e-05,
+      "loss": 0.2861,
+      "step": 65
+    },
+    {
+      "epoch": 0.4224,
+      "grad_norm": 0.08552579581737518,
+      "learning_rate": 6.25393406584088e-05,
+      "loss": 0.2508,
+      "step": 66
+    },
+    {
+      "epoch": 0.4288,
+      "grad_norm": 0.08115057647228241,
+      "learning_rate": 5.9326335692419995e-05,
+      "loss": 0.28,
+      "step": 67
+    },
+    {
+      "epoch": 0.4352,
+      "grad_norm": 0.09101542085409164,
+      "learning_rate": 5.616288532109225e-05,
+      "loss": 0.2905,
+      "step": 68
+    },
+    {
+      "epoch": 0.4416,
+      "grad_norm": 0.08541923761367798,
+      "learning_rate": 5.305284372141095e-05,
+      "loss": 0.2369,
+      "step": 69
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.08494503796100616,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.2535,
+      "step": 70
+    },
+    {
+      "epoch": 0.4544,
+      "grad_norm": 0.09222583472728729,
+      "learning_rate": 4.700807357667952e-05,
+      "loss": 0.2164,
+      "step": 71
+    },
+    {
+      "epoch": 0.4608,
+      "grad_norm": 0.09007549285888672,
+      "learning_rate": 4.4080709652925336e-05,
+      "loss": 0.2911,
+      "step": 72
+    },
+    {
+      "epoch": 0.4672,
+      "grad_norm": 0.10070206969976425,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 0.2687,
+      "step": 73
+    },
+    {
+      "epoch": 0.4736,
+      "grad_norm": 0.11217208206653595,
+      "learning_rate": 3.843385246743417e-05,
+      "loss": 0.2376,
+      "step": 74
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.0864848643541336,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 0.2826,
+      "step": 75
+    },
+    {
+      "epoch": 0.4864,
+      "grad_norm": 0.08239398896694183,
+      "learning_rate": 3.308693936411421e-05,
+      "loss": 0.2344,
+      "step": 76
+    },
+    {
+      "epoch": 0.4928,
+      "grad_norm": 0.10607580840587616,
+      "learning_rate": 3.053416295410026e-05,
+      "loss": 0.272,
+      "step": 77
+    },
+    {
+      "epoch": 0.4992,
+      "grad_norm": 0.11652331054210663,
+      "learning_rate": 2.8066019966134904e-05,
+      "loss": 0.2398,
+      "step": 78
+    },
+    {
+      "epoch": 0.5056,
+      "grad_norm": 0.08097366243600845,
+      "learning_rate": 2.5685517452260567e-05,
+      "loss": 0.2289,
+      "step": 79
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.08761543780565262,
+      "learning_rate": 2.339555568810221e-05,
+      "loss": 0.2297,
+      "step": 80
+    },
+    {
+      "epoch": 0.5184,
+      "grad_norm": 0.09609895944595337,
+      "learning_rate": 2.119892463932781e-05,
+      "loss": 0.2214,
+      "step": 81
+    },
+    {
+      "epoch": 0.5248,
+      "grad_norm": 0.10124152898788452,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 0.2442,
+      "step": 82
+    },
+    {
+      "epoch": 0.5312,
+      "grad_norm": 0.08449672907590866,
+      "learning_rate": 1.7096242744495837e-05,
+      "loss": 0.257,
+      "step": 83
+    },
+    {
+      "epoch": 0.5376,
+      "grad_norm": 0.10185690224170685,
+      "learning_rate": 1.5195190384357404e-05,
+      "loss": 0.2331,
+      "step": 84
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.10394009202718735,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 0.2679,
+      "step": 85
+    },
+    {
+      "epoch": 0.5504,
+      "grad_norm": 0.10671041160821915,
+      "learning_rate": 1.1705240714107302e-05,
+      "loss": 0.2953,
+      "step": 86
+    },
+    {
+      "epoch": 0.5568,
+      "grad_norm": 0.09869690239429474,
+      "learning_rate": 1.0120595370083318e-05,
+      "loss": 0.2363,
+      "step": 87
+    },
+    {
+      "epoch": 0.5632,
+      "grad_norm": 0.10397417098283768,
+      "learning_rate": 8.645454235739903e-06,
+      "loss": 0.2221,
+      "step": 88
+    },
+    {
+      "epoch": 0.5696,
+      "grad_norm": 0.10206641256809235,
+      "learning_rate": 7.281614543321269e-06,
+      "loss": 0.2329,
+      "step": 89
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.09630835801362991,
+      "learning_rate": 6.030737921409169e-06,
+      "loss": 0.2193,
+      "step": 90
+    },
+    {
+      "epoch": 0.5824,
+      "grad_norm": 0.09056926518678665,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 0.2507,
+      "step": 91
+    },
+    {
+      "epoch": 0.5888,
+      "grad_norm": 0.09456932544708252,
+      "learning_rate": 3.873830406168111e-06,
+      "loss": 0.2413,
+      "step": 92
+    },
+    {
+      "epoch": 0.5952,
+      "grad_norm": 0.10614177584648132,
+      "learning_rate": 2.970427372400353e-06,
+      "loss": 0.2294,
+      "step": 93
+    },
+    {
+      "epoch": 0.6016,
+      "grad_norm": 0.11094526201486588,
+      "learning_rate": 2.1852399266194314e-06,
+      "loss": 0.2282,
+      "step": 94
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.10783498734235764,
+      "learning_rate": 1.5192246987791981e-06,
+      "loss": 0.2099,
+      "step": 95
+    },
+    {
+      "epoch": 0.6144,
+      "grad_norm": 0.12005529552698135,
+      "learning_rate": 9.731931258429638e-07,
+      "loss": 0.2289,
+      "step": 96
+    },
+    {
+      "epoch": 0.6208,
+      "grad_norm": 0.09397509694099426,
+      "learning_rate": 5.478104631726711e-07,
+      "loss": 0.2478,
+      "step": 97
+    },
+    {
+      "epoch": 0.6272,
+      "grad_norm": 0.08096156269311905,
+      "learning_rate": 2.4359497401758024e-07,
+      "loss": 0.2515,
+      "step": 98
+    },
+    {
+      "epoch": 0.6336,
+      "grad_norm": 0.0987912192940712,
+      "learning_rate": 6.09172980904238e-08,
+      "loss": 0.2299,
+      "step": 99
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.10416976362466812,
+      "learning_rate": 0.0,
+      "loss": 0.1932,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.92661873012351e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null