Training in progress, epoch 5, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +0 -0
last-checkpoint/scheduler.pt +0 -0
last-checkpoint/trainer_state.json +510 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16aab112374e0637635192e631493e5cc9fe41a7e4e6e216c0bb99e95ae685a5
 size 37789864

 version https://git-lfs.github.com/spec/v1
+oid sha256:52b37145078d88e9a343bd22617f50ead8d019b0aed1436bbb79f1fd49c66b6e
 size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddbb2f973e41d59a5b9f8697998020f6be69cf0c9c3ecccf1446dc42581a6fef
 size 2622266

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bcc4bfa26449a669fcf4e2bd2006218fa37d9141b3c0e6ed1720dba59a9fd65
 size 2622266

last-checkpoint/rng_state.pth CHANGED Viewed

Binary files a/last-checkpoint/rng_state.pth and b/last-checkpoint/rng_state.pth differ

last-checkpoint/scheduler.pt CHANGED Viewed

Binary files a/last-checkpoint/scheduler.pt and b/last-checkpoint/scheduler.pt differ

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.0066018104553223,
-  "best_model_checkpoint": "dq158/coqui/checkpoint-161392",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 161392,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2015,13 +2015,518 @@
       "eval_steps_per_second": 0.544,
       "eval_translation_length": 4591104,
       "step": 161392
     }
   ],
   "logging_steps": 500,
   "max_steps": 1210440,
   "num_train_epochs": 30,
   "save_steps": 1000,
-  "total_flos": 2.769874243981148e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.995251417160034,
+  "best_model_checkpoint": "dq158/coqui/checkpoint-201740",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 201740,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.544,
       "eval_translation_length": 4591104,
       "step": 161392
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 7.655554846753297e-05,
+      "loss": 3.1442,
+      "step": 161500
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 7.653443602624745e-05,
+      "loss": 3.079,
+      "step": 162000
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 7.651326200854252e-05,
+      "loss": 3.1155,
+      "step": 162500
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 7.64920264501056e-05,
+      "loss": 3.034,
+      "step": 163000
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 7.647072938672785e-05,
+      "loss": 3.1226,
+      "step": 163500
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 7.644937085430409e-05,
+      "loss": 3.1027,
+      "step": 164000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 7.642795088883274e-05,
+      "loss": 3.1736,
+      "step": 164500
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 7.640646952641577e-05,
+      "loss": 2.9279,
+      "step": 165000
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 7.638492680325862e-05,
+      "loss": 3.0596,
+      "step": 165500
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 7.636332275567012e-05,
+      "loss": 3.0027,
+      "step": 166000
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 7.634165742006251e-05,
+      "loss": 3.1487,
+      "step": 166500
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 7.631993083295134e-05,
+      "loss": 3.04,
+      "step": 167000
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 7.62981430309553e-05,
+      "loss": 3.0355,
+      "step": 167500
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 7.627629405079637e-05,
+      "loss": 3.1222,
+      "step": 168000
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 7.625438392929956e-05,
+      "loss": 3.0185,
+      "step": 168500
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 7.623241270339294e-05,
+      "loss": 3.036,
+      "step": 169000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 7.621038041010763e-05,
+      "loss": 3.0182,
+      "step": 169500
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 7.61882870865776e-05,
+      "loss": 3.0501,
+      "step": 170000
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 7.61661327700397e-05,
+      "loss": 3.0935,
+      "step": 170500
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 7.614391749783361e-05,
+      "loss": 2.9745,
+      "step": 171000
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 7.612164130740175e-05,
+      "loss": 3.0497,
+      "step": 171500
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 7.609930423628915e-05,
+      "loss": 3.0207,
+      "step": 172000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 7.607690632214351e-05,
+      "loss": 3.0059,
+      "step": 172500
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 7.605444760271507e-05,
+      "loss": 3.113,
+      "step": 173000
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 7.603192811585654e-05,
+      "loss": 3.0989,
+      "step": 173500
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 7.600934789952304e-05,
+      "loss": 3.1174,
+      "step": 174000
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 7.598670699177207e-05,
+      "loss": 3.0884,
+      "step": 174500
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 7.596400543076339e-05,
+      "loss": 2.973,
+      "step": 175000
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 7.594124325475904e-05,
+      "loss": 3.0956,
+      "step": 175500
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 7.591842050212317e-05,
+      "loss": 2.9274,
+      "step": 176000
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 7.589553721132205e-05,
+      "loss": 3.0128,
+      "step": 176500
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 7.587259342092397e-05,
+      "loss": 3.0429,
+      "step": 177000
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 7.584958916959923e-05,
+      "loss": 3.0955,
+      "step": 177500
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 7.582652449611996e-05,
+      "loss": 3.1124,
+      "step": 178000
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 7.58033994393602e-05,
+      "loss": 2.9723,
+      "step": 178500
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 7.578021403829572e-05,
+      "loss": 2.981,
+      "step": 179000
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 7.5756968332004e-05,
+      "loss": 3.1174,
+      "step": 179500
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 7.57336623596642e-05,
+      "loss": 3.0292,
+      "step": 180000
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 7.5710296160557e-05,
+      "loss": 3.0106,
+      "step": 180500
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 7.568686977406459e-05,
+      "loss": 2.9749,
+      "step": 181000
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 7.566338323967065e-05,
+      "loss": 3.0591,
+      "step": 181500
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 7.563983659696022e-05,
+      "loss": 3.0228,
+      "step": 182000
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 7.56162298856196e-05,
+      "loss": 3.0134,
+      "step": 182500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 7.559256314543639e-05,
+      "loss": 3.0624,
+      "step": 183000
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 7.556883641629936e-05,
+      "loss": 3.0205,
+      "step": 183500
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 7.554504973819835e-05,
+      "loss": 3.0067,
+      "step": 184000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 7.552120315122426e-05,
+      "loss": 3.0488,
+      "step": 184500
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 7.549729669556898e-05,
+      "loss": 3.0992,
+      "step": 185000
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 7.547333041152526e-05,
+      "loss": 3.0137,
+      "step": 185500
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 7.544930433948676e-05,
+      "loss": 3.1379,
+      "step": 186000
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 7.542521851994781e-05,
+      "loss": 3.0818,
+      "step": 186500
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 7.540107299350354e-05,
+      "loss": 3.0634,
+      "step": 187000
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 7.537686780084966e-05,
+      "loss": 3.0984,
+      "step": 187500
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 7.53526029827824e-05,
+      "loss": 3.1238,
+      "step": 188000
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 7.532827858019862e-05,
+      "loss": 3.0431,
+      "step": 188500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 7.530389463409545e-05,
+      "loss": 3.0216,
+      "step": 189000
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 7.527945118557048e-05,
+      "loss": 3.0448,
+      "step": 189500
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 7.525494827582155e-05,
+      "loss": 3.1713,
+      "step": 190000
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 7.523038594614671e-05,
+      "loss": 3.0396,
+      "step": 190500
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 7.52057642379442e-05,
+      "loss": 3.1008,
+      "step": 191000
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 7.518108319271228e-05,
+      "loss": 3.0965,
+      "step": 191500
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 7.515634285204928e-05,
+      "loss": 3.0407,
+      "step": 192000
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 7.51315432576534e-05,
+      "loss": 3.0669,
+      "step": 192500
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 7.510668445132279e-05,
+      "loss": 3.0752,
+      "step": 193000
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 7.508176647495532e-05,
+      "loss": 2.9414,
+      "step": 193500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 7.505678937054863e-05,
+      "loss": 3.0746,
+      "step": 194000
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 7.503175318019999e-05,
+      "loss": 2.9645,
+      "step": 194500
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 7.500665794610632e-05,
+      "loss": 3.0942,
+      "step": 195000
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 7.498150371056396e-05,
+      "loss": 3.0586,
+      "step": 195500
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 7.495629051596876e-05,
+      "loss": 3.0251,
+      "step": 196000
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 7.493101840481594e-05,
+      "loss": 3.0769,
+      "step": 196500
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 7.490568741969997e-05,
+      "loss": 3.0701,
+      "step": 197000
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 7.488029760331459e-05,
+      "loss": 3.0893,
+      "step": 197500
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 7.48548489984527e-05,
+      "loss": 3.1527,
+      "step": 198000
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 7.482934164800626e-05,
+      "loss": 3.0497,
+      "step": 198500
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 7.480377559496624e-05,
+      "loss": 3.0665,
+      "step": 199000
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 7.47781508824226e-05,
+      "loss": 3.0842,
+      "step": 199500
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 7.47524675535641e-05,
+      "loss": 3.0961,
+      "step": 200000
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 7.472672565167833e-05,
+      "loss": 3.0756,
+      "step": 200500
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 7.470092522015158e-05,
+      "loss": 3.1524,
+      "step": 201000
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 7.467506630246882e-05,
+      "loss": 3.1614,
+      "step": 201500
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 2.995251417160034,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 4591104,
+      "eval_runtime": 8351.4463,
+      "eval_samples_per_second": 1.074,
+      "eval_steps_per_second": 0.537,
+      "eval_translation_length": 4591104,
+      "step": 201740
     }
   ],
   "logging_steps": 500,
   "max_steps": 1210440,
   "num_train_epochs": 30,
   "save_steps": 1000,
+  "total_flos": 3.462342804976435e+18,
   "trial_name": null,
   "trial_params": null
 }