Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +838 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6889584cb792de55b0a13842442a58ad2f3568b3c86e00c59b4d55790ac37264
 size 37789864

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d3e6d023e00071389b82d517a75652364fc7f67b1df3b1b6865dc6676f02b02
 size 37789864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1827bfaa4ae59f92b5bc715e7e5f5aec5bc6fdcb175cdb1df735d2dddf4f95be
 size 75739130

 version https://git-lfs.github.com/spec/v1
+oid sha256:94acb3ad391a9e09fce184ac9a6598bf155e8ca9c19b1a3e2c1d99ab825dab1c
 size 75739130

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91bba6ff03c8e09a85332cb162792e309f2a25041c51c9145b10b5cd75ee7dfb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:696f0f4ebcda175eb794a5ee308d8e807d6e9ab28887c87361abef72f59c031a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:917b485f18156b96c93bc0dd12087e5d8b63a3098bce56ebac8eace0334f00f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:735cb01abe84c010cb8b13b9f6930c5e7f959fe15fd3ad50df2af5c065f9fb35
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 68219,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -842,13 +842,848 @@
       "eval_steps_per_second": 0.366,
       "eval_translation_length": 7761920,
       "step": 68219
     }
   ],
   "logging_steps": 500,
   "max_steps": 341095,
   "num_train_epochs": 5,
   "save_steps": 5000,
-  "total_flos": 1.1708163520053903e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 136438,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.366,
       "eval_translation_length": 7761920,
       "step": 68219
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.238646725905267e-05,
+      "loss": 3.1948,
+      "step": 68500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 7.227785439524523e-05,
+      "loss": 3.1433,
+      "step": 69000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 7.216855498944522e-05,
+      "loss": 3.083,
+      "step": 69500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.205857136642402e-05,
+      "loss": 3.0778,
+      "step": 70000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.194790586550611e-05,
+      "loss": 3.1369,
+      "step": 70500
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 7.183656084051938e-05,
+      "loss": 3.2123,
+      "step": 71000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 7.172453865974503e-05,
+      "loss": 3.1238,
+      "step": 71500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.161184170586717e-05,
+      "loss": 3.1365,
+      "step": 72000
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.149847237592218e-05,
+      "loss": 3.1618,
+      "step": 72500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.138443308124771e-05,
+      "loss": 3.1355,
+      "step": 73000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 7.12697262474314e-05,
+      "loss": 3.1671,
+      "step": 73500
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 7.115435431425928e-05,
+      "loss": 3.1321,
+      "step": 74000
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.103831973566391e-05,
+      "loss": 3.2061,
+      "step": 74500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 7.092162497967207e-05,
+      "loss": 3.1906,
+      "step": 75000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 7.080427252835243e-05,
+      "loss": 3.0249,
+      "step": 75500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 7.068626487776266e-05,
+      "loss": 3.1191,
+      "step": 76000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 7.056760453789635e-05,
+      "loss": 3.0911,
+      "step": 76500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 7.044829403262961e-05,
+      "loss": 3.1361,
+      "step": 77000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 7.032833589966745e-05,
+      "loss": 3.0885,
+      "step": 77500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 7.02077326904897e-05,
+      "loss": 3.117,
+      "step": 78000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.008648697029687e-05,
+      "loss": 3.145,
+      "step": 78500
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 6.996460131795548e-05,
+      "loss": 3.1472,
+      "step": 79000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 6.984207832594325e-05,
+      "loss": 3.055,
+      "step": 79500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 6.971892060029398e-05,
+      "loss": 3.1593,
+      "step": 80000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 6.959513076054207e-05,
+      "loss": 3.1755,
+      "step": 80500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 6.947071143966686e-05,
+      "loss": 3.1139,
+      "step": 81000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 6.934566528403655e-05,
+      "loss": 3.0516,
+      "step": 81500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 6.921999495335204e-05,
+      "loss": 3.1973,
+      "step": 82000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 6.909370312059018e-05,
+      "loss": 3.0881,
+      "step": 82500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.896679247194712e-05,
+      "loss": 3.0801,
+      "step": 83000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.883926570678098e-05,
+      "loss": 3.1369,
+      "step": 83500
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.871112553755457e-05,
+      "loss": 3.1119,
+      "step": 84000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.858237468977765e-05,
+      "loss": 3.189,
+      "step": 84500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 6.845301590194898e-05,
+      "loss": 3.1466,
+      "step": 85000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 6.8323051925498e-05,
+      "loss": 3.0994,
+      "step": 85500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.819248552472642e-05,
+      "loss": 3.0293,
+      "step": 86000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 6.806131947674935e-05,
+      "loss": 3.2261,
+      "step": 86500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.792955657143622e-05,
+      "loss": 3.1032,
+      "step": 87000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.779719961135148e-05,
+      "loss": 3.2075,
+      "step": 87500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 6.766425141169503e-05,
+      "loss": 3.1075,
+      "step": 88000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 6.753071480024223e-05,
+      "loss": 3.0876,
+      "step": 88500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 6.739659261728381e-05,
+      "loss": 3.1328,
+      "step": 89000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 6.726188771556552e-05,
+      "loss": 3.1133,
+      "step": 89500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 6.712660296022731e-05,
+      "loss": 3.0909,
+      "step": 90000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 6.699074122874255e-05,
+      "loss": 3.0745,
+      "step": 90500
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 6.685430541085673e-05,
+      "loss": 3.2101,
+      "step": 91000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 6.671729840852598e-05,
+      "loss": 3.1616,
+      "step": 91500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 6.657972313585541e-05,
+      "loss": 3.0461,
+      "step": 92000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 6.644158251903713e-05,
+      "loss": 3.0758,
+      "step": 92500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 6.630287949628791e-05,
+      "loss": 3.0974,
+      "step": 93000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 6.616361701778681e-05,
+      "loss": 3.0996,
+      "step": 93500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 6.602379804561237e-05,
+      "loss": 3.0394,
+      "step": 94000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 6.588342555367958e-05,
+      "loss": 3.1698,
+      "step": 94500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 6.57425025276767e-05,
+      "loss": 3.1192,
+      "step": 95000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.560103196500169e-05,
+      "loss": 3.225,
+      "step": 95500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 6.545901687469848e-05,
+      "loss": 3.1941,
+      "step": 96000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 6.531646027739298e-05,
+      "loss": 3.1165,
+      "step": 96500
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 6.517336520522879e-05,
+      "loss": 3.1859,
+      "step": 97000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 6.50297347018028e-05,
+      "loss": 2.9972,
+      "step": 97500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 6.48855718221003e-05,
+      "loss": 3.146,
+      "step": 98000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 6.47408796324302e-05,
+      "loss": 3.1514,
+      "step": 98500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 6.45956612103596e-05,
+      "loss": 3.1352,
+      "step": 99000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 6.444991964464851e-05,
+      "loss": 3.2001,
+      "step": 99500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 6.430365803518404e-05,
+      "loss": 3.1473,
+      "step": 100000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 6.415687949291448e-05,
+      "loss": 3.1511,
+      "step": 100500
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 6.40095871397832e-05,
+      "loss": 3.0987,
+      "step": 101000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.386178410866217e-05,
+      "loss": 3.0302,
+      "step": 101500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.371347354328537e-05,
+      "loss": 3.1538,
+      "step": 102000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 6.356465859818192e-05,
+      "loss": 3.0881,
+      "step": 102500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 6.341534243860894e-05,
+      "loss": 3.0747,
+      "step": 103000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.326552824048426e-05,
+      "loss": 3.0888,
+      "step": 103500
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 6.31152191903189e-05,
+      "loss": 3.0922,
+      "step": 104000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.296441848514925e-05,
+      "loss": 3.0606,
+      "step": 104500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 6.281312933246902e-05,
+      "loss": 3.0063,
+      "step": 105000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.26613549501612e-05,
+      "loss": 3.0931,
+      "step": 105500
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.250909856642937e-05,
+      "loss": 3.0515,
+      "step": 106000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 6.235636341972923e-05,
+      "loss": 3.1833,
+      "step": 106500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 6.220315275869965e-05,
+      "loss": 3.1109,
+      "step": 107000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 6.204946984209355e-05,
+      "loss": 3.0665,
+      "step": 107500
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 6.189531793870862e-05,
+      "loss": 3.0685,
+      "step": 108000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 6.174070032731776e-05,
+      "loss": 3.0161,
+      "step": 108500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 6.15856202965994e-05,
+      "loss": 3.0533,
+      "step": 109000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 6.14300811450675e-05,
+      "loss": 3.1078,
+      "step": 109500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 6.12740861810014e-05,
+      "loss": 3.0947,
+      "step": 110000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 6.111763872237548e-05,
+      "loss": 3.1501,
+      "step": 110500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 6.096074209678854e-05,
+      "loss": 3.1103,
+      "step": 111000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 6.080339964139306e-05,
+      "loss": 3.0426,
+      "step": 111500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 6.0645614702824225e-05,
+      "loss": 3.1161,
+      "step": 112000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 6.0487390637128715e-05,
+      "loss": 3.0774,
+      "step": 112500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 6.032873080969333e-05,
+      "loss": 3.115,
+      "step": 113000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 6.016963859517342e-05,
+      "loss": 3.0771,
+      "step": 113500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 6.00101173774211e-05,
+      "loss": 3.189,
+      "step": 114000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 5.9850170549413294e-05,
+      "loss": 3.1125,
+      "step": 114500
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 5.968980151317953e-05,
+      "loss": 3.1025,
+      "step": 115000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 5.9529013679729616e-05,
+      "loss": 3.0638,
+      "step": 115500
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 5.936781046898106e-05,
+      "loss": 3.0991,
+      "step": 116000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 5.920619530968634e-05,
+      "loss": 3.1114,
+      "step": 116500
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 5.904417163936001e-05,
+      "loss": 3.1139,
+      "step": 117000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 5.88817429042055e-05,
+      "loss": 3.1221,
+      "step": 117500
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 5.871891255904191e-05,
+      "loss": 3.1329,
+      "step": 118000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 5.855568406723049e-05,
+      "loss": 3.0913,
+      "step": 118500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 5.839206090060094e-05,
+      "loss": 3.1303,
+      "step": 119000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 5.82280465393776e-05,
+      "loss": 3.1551,
+      "step": 119500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 5.806364447210545e-05,
+      "loss": 3.138,
+      "step": 120000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 5.789885819557585e-05,
+      "loss": 3.0969,
+      "step": 120500
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 5.773369121475223e-05,
+      "loss": 3.1819,
+      "step": 121000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 5.756814704269547e-05,
+      "loss": 3.153,
+      "step": 121500
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 5.7402229200489246e-05,
+      "loss": 3.2158,
+      "step": 122000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.7235941217165076e-05,
+      "loss": 3.1272,
+      "step": 122500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.706928662962732e-05,
+      "loss": 3.0045,
+      "step": 123000
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 5.690226898257789e-05,
+      "loss": 3.0725,
+      "step": 123500
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 5.6734891828440906e-05,
+      "loss": 3.1955,
+      "step": 124000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 5.6567158727287094e-05,
+      "loss": 3.0665,
+      "step": 124500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 5.639907324675809e-05,
+      "loss": 3.1695,
+      "step": 125000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 5.623063896199059e-05,
+      "loss": 3.119,
+      "step": 125500
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 5.606185945554023e-05,
+      "loss": 3.0608,
+      "step": 126000
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 5.589273831730541e-05,
+      "loss": 3.0697,
+      "step": 126500
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 5.572327914445101e-05,
+      "loss": 3.1139,
+      "step": 127000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5.555348554133178e-05,
+      "loss": 3.0539,
+      "step": 127500
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 5.538336111941571e-05,
+      "loss": 3.0316,
+      "step": 128000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 5.521290949720728e-05,
+      "loss": 3.0949,
+      "step": 128500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 5.504213430017038e-05,
+      "loss": 3.0412,
+      "step": 129000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 5.4871039160651295e-05,
+      "loss": 3.2267,
+      "step": 129500
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 5.4699627717801396e-05,
+      "loss": 3.0183,
+      "step": 130000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 5.452790361749973e-05,
+      "loss": 3.105,
+      "step": 130500
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 5.4355870512275515e-05,
+      "loss": 3.0873,
+      "step": 131000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.418353206123042e-05,
+      "loss": 3.1381,
+      "step": 131500
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.401089192996074e-05,
+      "loss": 3.137,
+      "step": 132000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 5.383795379047944e-05,
+      "loss": 3.0532,
+      "step": 132500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 5.3664721321138046e-05,
+      "loss": 3.0882,
+      "step": 133000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.349119820654839e-05,
+      "loss": 3.1207,
+      "step": 133500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.331738813750429e-05,
+      "loss": 3.1349,
+      "step": 134000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 5.314329481090299e-05,
+      "loss": 3.0082,
+      "step": 134500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 5.296892192966653e-05,
+      "loss": 3.0684,
+      "step": 135000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.2794273202663085e-05,
+      "loss": 3.088,
+      "step": 135500
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.261935234462791e-05,
+      "loss": 3.0847,
+      "step": 136000
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 1.0,
+      "eval_brevity_penalty": 1.0,
+      "eval_length_ratio": 1.0,
+      "eval_loss": 2.969712018966675,
+      "eval_precisions": [
+        1.0,
+        1.0,
+        1.0,
+        1.0
+      ],
+      "eval_reference_length": 7761920,
+      "eval_runtime": 20440.6168,
+      "eval_samples_per_second": 0.742,
+      "eval_steps_per_second": 0.371,
+      "eval_translation_length": 7761920,
+      "step": 136438
     }
   ],
   "logging_steps": 500,
   "max_steps": 341095,
   "num_train_epochs": 5,
   "save_steps": 5000,
+  "total_flos": 2.3416327040107807e+18,
   "trial_name": null,
   "trial_params": null
 }