Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +0 -0
last-checkpoint/scheduler.pt +0 -0
last-checkpoint/trainer_state.json +510 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9500c02fbca154680c04376e725940306434e1e771ac54c7d0e0f17696e50ef2
 size 37789864

 version https://git-lfs.github.com/spec/v1
+oid sha256:c41d9243f7df55b50aa4775a15858d272a4ec8e8c563c0cd8ec6b9d0b3da9f8a
 size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1605f73694d383535828224ca8220e415442872bdcd5581f7fca283f1a4438eb
 size 2622266

 version https://git-lfs.github.com/spec/v1
+oid sha256:29c84bda34e9c4f410c99669a1f937ad7a00bee4dfd64bcf19e7795e6886813d
 size 2622266

last-checkpoint/rng_state.pth CHANGED Viewed

Binary files a/last-checkpoint/rng_state.pth and b/last-checkpoint/rng_state.pth differ

last-checkpoint/scheduler.pt CHANGED Viewed

Binary files a/last-checkpoint/scheduler.pt and b/last-checkpoint/scheduler.pt differ

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.0691702365875244,
-  "best_model_checkpoint": "dq158/coqui/checkpoint-80696",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 80696,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1011,13 +1011,518 @@
       "eval_steps_per_second": 0.543,
       "eval_translation_length": 4591104,
       "step": 80696
     }
   ],
   "logging_steps": 500,
   "max_steps": 1210440,
   "num_train_epochs": 30,
   "save_steps": 1000,
-  "total_flos": 1.384937121990574e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 3.0360162258148193,
+  "best_model_checkpoint": "dq158/coqui/checkpoint-121044",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 121044,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.543,
       "eval_translation_length": 4591104,
       "step": 80696
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 7.912941309744704e-05,
+      "loss": 3.1234,
+      "step": 81000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.91186047830294e-05,
+      "loss": 3.1118,
+      "step": 81500
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 7.910773053674371e-05,
+      "loss": 3.1879,
+      "step": 82000
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.909679037691783e-05,
+      "loss": 3.2032,
+      "step": 82500
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 7.908578432199069e-05,
+      "loss": 3.1009,
+      "step": 83000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 7.907471239051224e-05,
+      "loss": 3.0688,
+      "step": 83500
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 7.906357460114355e-05,
+      "loss": 3.0835,
+      "step": 84000
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 7.90523709726566e-05,
+      "loss": 3.1157,
+      "step": 84500
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 7.90411015239344e-05,
+      "loss": 3.0581,
+      "step": 85000
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 7.902976627397088e-05,
+      "loss": 3.206,
+      "step": 85500
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 7.901836524187085e-05,
+      "loss": 3.2185,
+      "step": 86000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 7.900689844685002e-05,
+      "loss": 3.1204,
+      "step": 86500
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 7.899536590823493e-05,
+      "loss": 3.2066,
+      "step": 87000
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 7.898376764546293e-05,
+      "loss": 3.1684,
+      "step": 87500
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 7.89721036780821e-05,
+      "loss": 3.1742,
+      "step": 88000
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 7.896037402575136e-05,
+      "loss": 3.1598,
+      "step": 88500
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.894857870824023e-05,
+      "loss": 3.0966,
+      "step": 89000
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.893671774542899e-05,
+      "loss": 3.2035,
+      "step": 89500
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.892479115730848e-05,
+      "loss": 3.215,
+      "step": 90000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.891279896398023e-05,
+      "loss": 3.153,
+      "step": 90500
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.890074118565626e-05,
+      "loss": 3.1019,
+      "step": 91000
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.88886178426592e-05,
+      "loss": 3.1509,
+      "step": 91500
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.887642895542218e-05,
+      "loss": 3.1699,
+      "step": 92000
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.886417454448872e-05,
+      "loss": 3.1162,
+      "step": 92500
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.885185463051289e-05,
+      "loss": 3.1782,
+      "step": 93000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 7.883946923425907e-05,
+      "loss": 3.1546,
+      "step": 93500
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 7.882701837660205e-05,
+      "loss": 3.1551,
+      "step": 94000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 7.881450207852696e-05,
+      "loss": 3.1327,
+      "step": 94500
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 7.880192036112917e-05,
+      "loss": 3.0316,
+      "step": 95000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 7.878927324561437e-05,
+      "loss": 3.1897,
+      "step": 95500
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 7.877656075329846e-05,
+      "loss": 3.1447,
+      "step": 96000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 7.876378290560751e-05,
+      "loss": 3.1764,
+      "step": 96500
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 7.875093972407774e-05,
+      "loss": 3.1213,
+      "step": 97000
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 7.873803123035553e-05,
+      "loss": 3.0774,
+      "step": 97500
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 7.872505744619728e-05,
+      "loss": 3.1127,
+      "step": 98000
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 7.871201839346947e-05,
+      "loss": 3.2621,
+      "step": 98500
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 7.869891409414858e-05,
+      "loss": 3.2113,
+      "step": 99000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 7.868574457032106e-05,
+      "loss": 3.1218,
+      "step": 99500
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.867250984418328e-05,
+      "loss": 3.1409,
+      "step": 100000
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 7.86592099380415e-05,
+      "loss": 3.073,
+      "step": 100500
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 7.864584487431186e-05,
+      "loss": 3.1624,
+      "step": 101000
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 7.863241467552032e-05,
+      "loss": 3.2052,
+      "step": 101500
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 7.861891936430258e-05,
+      "loss": 3.1714,
+      "step": 102000
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 7.860535896340414e-05,
+      "loss": 3.1728,
+      "step": 102500
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 7.859173349568015e-05,
+      "loss": 3.1564,
+      "step": 103000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.857804298409547e-05,
+      "loss": 3.0868,
+      "step": 103500
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 7.856428745172455e-05,
+      "loss": 3.1485,
+      "step": 104000
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 7.855046692175145e-05,
+      "loss": 3.2001,
+      "step": 104500
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 7.853658141746979e-05,
+      "loss": 3.0651,
+      "step": 105000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 7.852263096228267e-05,
+      "loss": 3.1709,
+      "step": 105500
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 7.850861557970269e-05,
+      "loss": 3.1635,
+      "step": 106000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 7.849453529335188e-05,
+      "loss": 3.1123,
+      "step": 106500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 7.848039012696161e-05,
+      "loss": 3.1162,
+      "step": 107000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 7.846618010437265e-05,
+      "loss": 3.1275,
+      "step": 107500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 7.84519052495351e-05,
+      "loss": 3.1035,
+      "step": 108000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 7.843756558650827e-05,
+      "loss": 3.0308,
+      "step": 108500
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 7.842316113946073e-05,
+      "loss": 3.1311,
+      "step": 109000
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 7.840869193267027e-05,
+      "loss": 3.1477,
+      "step": 109500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 7.839415799052378e-05,
+      "loss": 3.1221,
+      "step": 110000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 7.837955933751725e-05,
+      "loss": 3.1322,
+      "step": 110500
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 7.83648959982558e-05,
+      "loss": 3.1488,
+      "step": 111000
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 7.835016799745353e-05,
+      "loss": 3.0619,
+      "step": 111500
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 7.833537535993351e-05,
+      "loss": 3.237,
+      "step": 112000
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 7.83205181106278e-05,
+      "loss": 3.1022,
+      "step": 112500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 7.83055962745773e-05,
+      "loss": 3.066,
+      "step": 113000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 7.829060987693179e-05,
+      "loss": 3.1903,
+      "step": 113500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 7.827555894294991e-05,
+      "loss": 3.2208,
+      "step": 114000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 7.8260443497999e-05,
+      "loss": 3.2005,
+      "step": 114500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 7.824526356755516e-05,
+      "loss": 3.184,
+      "step": 115000
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 7.82300191772032e-05,
+      "loss": 3.1185,
+      "step": 115500
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 7.821471035263653e-05,
+      "loss": 3.1077,
+      "step": 116000
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 7.819933711965718e-05,
+      "loss": 3.1901,
+      "step": 116500
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 7.818389950417574e-05,
+      "loss": 3.1149,
+      "step": 117000
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 7.816839753221132e-05,
+      "loss": 3.1393,
+      "step": 117500
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 7.815283122989147e-05,
+      "loss": 3.0862,
+      "step": 118000
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 7.813720062345219e-05,
+      "loss": 3.072,
+      "step": 118500
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 7.812150573923785e-05,
+      "loss": 3.1103,
+      "step": 119000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 7.810574660370116e-05,
+      "loss": 3.2114,
+      "step": 119500
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 7.808992324340312e-05,
+      "loss": 3.1425,
+      "step": 120000
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 7.807403568501297e-05,
+      "loss": 3.1051,
+      "step": 120500
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 7.805808395530816e-05,
+      "loss": 3.1355,
+      "step": 121000
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 3.0360162258148193,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 4591104,
+      "eval_runtime": 8117.2024,
+      "eval_samples_per_second": 1.105,
+      "eval_steps_per_second": 0.552,
+      "eval_translation_length": 4591104,
+      "step": 121044
     }
   ],
   "logging_steps": 500,
   "max_steps": 1210440,
   "num_train_epochs": 30,
   "save_steps": 1000,
+  "total_flos": 2.077405682985861e+18,
   "trial_name": null,
   "trial_params": null
 }