diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,121917 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 1.0, + "eval_steps": 500, + "global_step": 9375, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "avg_step_time": 0.0, + "epoch": 0, + "eta_time": 0.0, + "step": 0 + }, + { + "epoch": 0.00010666666666666667, + "grad_norm": 3.084085397990669, + "learning_rate": 3.546099290780142e-08, + "loss": 0.6625, + "step": 1 + }, + { + "avg_step_time": 17.34018850326538, + "epoch": 0.00010666666666666667, + "eta_time": 45.151924174891576, + "step": 1 + }, + { + "epoch": 0.00021333333333333333, + "grad_norm": 3.4311862631654195, + "learning_rate": 7.092198581560284e-08, + "loss": 0.5383, + "step": 2 + }, + { + "avg_step_time": 11.596324443817139, + "epoch": 0.00021333333333333333, + "eta_time": 30.19231916997168, + "step": 2 + }, + { + "epoch": 0.00032, + "grad_norm": 2.918268066270447, + "learning_rate": 1.0638297872340426e-07, + "loss": 0.5708, + "step": 3 + }, + { + "avg_step_time": 9.642574389775595, + "epoch": 0.00032, + "eta_time": 25.10283532804913, + "step": 3 + }, + { + "epoch": 0.00042666666666666667, + "grad_norm": 4.00155724499593, + "learning_rate": 1.4184397163120568e-07, + "loss": 0.6131, + "step": 4 + }, + { + "avg_step_time": 8.697223722934723, + "epoch": 0.00042666666666666667, + "eta_time": 22.6393565298948, + "step": 4 + }, + { + "epoch": 0.0005333333333333334, + "grad_norm": 2.788451944464248, + "learning_rate": 1.7730496453900713e-07, + "loss": 0.6424, + "step": 5 + }, + { + "avg_step_time": 8.676218175888062, + "epoch": 0.0005333333333333334, + "eta_time": 22.582267863353092, + "step": 5 + }, + { + "epoch": 0.00064, + "grad_norm": 2.0793420303143417, + "learning_rate": 2.1276595744680852e-07, + "loss": 0.4674, + "step": 6 + }, + { + "avg_step_time": 8.156734625498453, + "epoch": 0.00064, + "eta_time": 21.227901862859724, + "step": 6 + }, + { + "epoch": 0.0007466666666666666, + "grad_norm": 3.248369800515899, + "learning_rate": 2.4822695035460997e-07, + "loss": 0.5541, + "step": 7 + }, + { + "avg_step_time": 7.784950188228062, + "epoch": 0.0007466666666666666, + "eta_time": 20.258170378700132, + "step": 7 + }, + { + "epoch": 0.0008533333333333333, + "grad_norm": 2.383115532940748, + "learning_rate": 2.8368794326241136e-07, + "loss": 0.4671, + "step": 8 + }, + { + "avg_step_time": 7.520486414432526, + "epoch": 0.0008533333333333333, + "eta_time": 19.56788784555263, + "step": 8 + }, + { + "epoch": 0.00096, + "grad_norm": 1.9901896705720663, + "learning_rate": 3.1914893617021275e-07, + "loss": 0.5776, + "step": 9 + }, + { + "avg_step_time": 7.351433700985378, + "epoch": 0.00096, + "eta_time": 19.125980012063625, + "step": 9 + }, + { + "epoch": 0.0010666666666666667, + "grad_norm": 0.6431903519774168, + "learning_rate": 3.5460992907801425e-07, + "loss": 0.4162, + "step": 10 + }, + { + "avg_step_time": 7.0754230260849, + "epoch": 0.0010666666666666667, + "eta_time": 18.405926844245858, + "step": 10 + }, + { + "epoch": 0.0011733333333333333, + "grad_norm": 3.442301361818832, + "learning_rate": 3.9007092198581565e-07, + "loss": 0.5614, + "step": 11 + }, + { + "avg_step_time": 6.988999106667259, + "epoch": 0.0011733333333333333, + "eta_time": 18.17916323189784, + "step": 11 + }, + { + "epoch": 0.00128, + "grad_norm": 1.5902271490422097, + "learning_rate": 4.2553191489361704e-07, + "loss": 0.5629, + "step": 12 + }, + { + "avg_step_time": 6.921389242013295, + "epoch": 0.00128, + "eta_time": 18.001379853602913, + "step": 12 + }, + { + "epoch": 0.0013866666666666667, + "grad_norm": 0.6476680367555032, + "learning_rate": 4.6099290780141843e-07, + "loss": 0.4346, + "step": 13 + }, + { + "avg_step_time": 6.567934256333571, + "epoch": 0.0013866666666666667, + "eta_time": 17.080277918831914, + "step": 13 + }, + { + "epoch": 0.0014933333333333333, + "grad_norm": 2.354710712172833, + "learning_rate": 4.964539007092199e-07, + "loss": 0.5268, + "step": 14 + }, + { + "avg_step_time": 6.4980340003967285, + "epoch": 0.0014933333333333333, + "eta_time": 16.89669341047605, + "step": 14 + }, + { + "epoch": 0.0016, + "grad_norm": 2.695862264437117, + "learning_rate": 5.319148936170213e-07, + "loss": 0.5996, + "step": 15 + }, + { + "avg_step_time": 6.4418964862823485, + "epoch": 0.0016, + "eta_time": 16.748930864334106, + "step": 15 + }, + { + "epoch": 0.0017066666666666667, + "grad_norm": 2.916675199374949, + "learning_rate": 5.673758865248227e-07, + "loss": 0.5476, + "step": 16 + }, + { + "avg_step_time": 6.398791044950485, + "epoch": 0.0017066666666666667, + "eta_time": 16.635079274914332, + "step": 16 + }, + { + "epoch": 0.0018133333333333332, + "grad_norm": 2.7560032432264148, + "learning_rate": 6.028368794326241e-07, + "loss": 0.598, + "step": 17 + }, + { + "avg_step_time": 6.396147573695464, + "epoch": 0.0018133333333333332, + "eta_time": 16.626430276289486, + "step": 17 + }, + { + "epoch": 0.00192, + "grad_norm": 2.9040739904775688, + "learning_rate": 6.382978723404255e-07, + "loss": 0.5386, + "step": 18 + }, + { + "avg_step_time": 6.350225898954603, + "epoch": 0.00192, + "eta_time": 16.505295482366172, + "step": 18 + }, + { + "epoch": 0.0020266666666666666, + "grad_norm": 3.050023085835821, + "learning_rate": 6.73758865248227e-07, + "loss": 0.5105, + "step": 19 + }, + { + "avg_step_time": 6.407962610847072, + "epoch": 0.0020266666666666666, + "eta_time": 16.65358282974589, + "step": 19 + }, + { + "epoch": 0.0021333333333333334, + "grad_norm": 2.133980635255545, + "learning_rate": 7.092198581560285e-07, + "loss": 0.633, + "step": 20 + }, + { + "avg_step_time": 6.363661444187164, + "epoch": 0.0021333333333333334, + "eta_time": 16.536681336214144, + "step": 20 + }, + { + "epoch": 0.00224, + "grad_norm": 2.6342780713830893, + "learning_rate": 7.446808510638298e-07, + "loss": 0.5712, + "step": 21 + }, + { + "avg_step_time": 6.32387748218718, + "epoch": 0.00224, + "eta_time": 16.431541657883024, + "step": 21 + }, + { + "epoch": 0.0023466666666666666, + "grad_norm": 2.8929123604541176, + "learning_rate": 7.801418439716313e-07, + "loss": 0.5053, + "step": 22 + }, + { + "avg_step_time": 6.35018206726421, + "epoch": 0.0023466666666666666, + "eta_time": 16.498125798645045, + "step": 22 + }, + { + "epoch": 0.0024533333333333334, + "grad_norm": 2.32887177775177, + "learning_rate": 8.156028368794328e-07, + "loss": 0.5079, + "step": 23 + }, + { + "avg_step_time": 6.336628405944161, + "epoch": 0.0024533333333333334, + "eta_time": 16.461152458997166, + "step": 23 + }, + { + "epoch": 0.00256, + "grad_norm": 1.9935462818417764, + "learning_rate": 8.510638297872341e-07, + "loss": 0.5979, + "step": 24 + }, + { + "avg_step_time": 6.303900957107544, + "epoch": 0.00256, + "eta_time": 16.374382736086844, + "step": 24 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 2.932858134500598, + "learning_rate": 8.865248226950356e-07, + "loss": 0.6472, + "step": 25 + }, + { + "avg_step_time": 6.281169853210449, + "epoch": 0.0026666666666666666, + "eta_time": 16.31359392431047, + "step": 25 + }, + { + "epoch": 0.0027733333333333334, + "grad_norm": 2.6690364252033256, + "learning_rate": 9.219858156028369e-07, + "loss": 0.5988, + "step": 26 + }, + { + "avg_step_time": 6.34681197313162, + "epoch": 0.0027733333333333334, + "eta_time": 16.482318093557645, + "step": 26 + }, + { + "epoch": 0.00288, + "grad_norm": 2.299065013176099, + "learning_rate": 9.574468085106384e-07, + "loss": 0.4852, + "step": 27 + }, + { + "avg_step_time": 6.3335972627003985, + "epoch": 0.00288, + "eta_time": 16.44624089214537, + "step": 27 + }, + { + "epoch": 0.0029866666666666665, + "grad_norm": 2.30113143191034, + "learning_rate": 9.929078014184399e-07, + "loss": 0.597, + "step": 28 + }, + { + "avg_step_time": 6.310758880206516, + "epoch": 0.0029866666666666665, + "eta_time": 16.385184237025086, + "step": 28 + }, + { + "epoch": 0.0030933333333333334, + "grad_norm": 2.0889927559812693, + "learning_rate": 1.0283687943262412e-06, + "loss": 0.55, + "step": 29 + }, + { + "avg_step_time": 6.331142326881146, + "epoch": 0.0030933333333333334, + "eta_time": 16.436348940842, + "step": 29 + }, + { + "epoch": 0.0032, + "grad_norm": 1.991568025028942, + "learning_rate": 1.0638297872340427e-06, + "loss": 0.4124, + "step": 30 + }, + { + "avg_step_time": 6.39054491519928, + "epoch": 0.0032, + "eta_time": 16.58878950903813, + "step": 30 + }, + { + "epoch": 0.0033066666666666665, + "grad_norm": 0.6127257951641044, + "learning_rate": 1.0992907801418442e-06, + "loss": 0.4172, + "step": 31 + }, + { + "avg_step_time": 6.253965746971868, + "epoch": 0.0033066666666666665, + "eta_time": 16.232515538806982, + "step": 31 + }, + { + "epoch": 0.0034133333333333333, + "grad_norm": 2.0883254373720455, + "learning_rate": 1.1347517730496454e-06, + "loss": 0.5254, + "step": 32 + }, + { + "avg_step_time": 6.234361909329891, + "epoch": 0.0034133333333333333, + "eta_time": 16.179900921908104, + "step": 32 + }, + { + "epoch": 0.00352, + "grad_norm": 1.873241365038378, + "learning_rate": 1.170212765957447e-06, + "loss": 0.5506, + "step": 33 + }, + { + "avg_step_time": 6.213418353687633, + "epoch": 0.00352, + "eta_time": 16.123820627819406, + "step": 33 + }, + { + "epoch": 0.0036266666666666665, + "grad_norm": 1.964421847696134, + "learning_rate": 1.2056737588652482e-06, + "loss": 0.5815, + "step": 34 + }, + { + "avg_step_time": 6.196545453632579, + "epoch": 0.0036266666666666665, + "eta_time": 16.078314189550532, + "step": 34 + }, + { + "epoch": 0.0037333333333333333, + "grad_norm": 2.115348692162746, + "learning_rate": 1.2411347517730497e-06, + "loss": 0.5343, + "step": 35 + }, + { + "avg_step_time": 6.1796649524143765, + "epoch": 0.0037333333333333333, + "eta_time": 16.03279740431952, + "step": 35 + }, + { + "epoch": 0.00384, + "grad_norm": 1.8708887491642654, + "learning_rate": 1.276595744680851e-06, + "loss": 0.4929, + "step": 36 + }, + { + "avg_step_time": 6.194449424743652, + "epoch": 0.00384, + "eta_time": 16.06943421602249, + "step": 36 + }, + { + "epoch": 0.003946666666666667, + "grad_norm": 1.7906075570880557, + "learning_rate": 1.3120567375886525e-06, + "loss": 0.4589, + "step": 37 + }, + { + "avg_step_time": 6.195286905443346, + "epoch": 0.003946666666666667, + "eta_time": 16.069885867508326, + "step": 37 + }, + { + "epoch": 0.004053333333333333, + "grad_norm": 1.7631359779999405, + "learning_rate": 1.347517730496454e-06, + "loss": 0.5617, + "step": 38 + }, + { + "avg_step_time": 6.180185983055516, + "epoch": 0.004053333333333333, + "eta_time": 16.02899903438593, + "step": 38 + }, + { + "epoch": 0.00416, + "grad_norm": 0.6365168444005307, + "learning_rate": 1.3829787234042555e-06, + "loss": 0.4302, + "step": 39 + }, + { + "avg_step_time": 6.0766658538427105, + "epoch": 0.00416, + "eta_time": 15.758820114298763, + "step": 39 + }, + { + "epoch": 0.004266666666666667, + "grad_norm": 1.5146095821689876, + "learning_rate": 1.418439716312057e-06, + "loss": 0.4821, + "step": 40 + }, + { + "avg_step_time": 6.068864667415619, + "epoch": 0.004266666666666667, + "eta_time": 15.73690324175689, + "step": 40 + }, + { + "epoch": 0.004373333333333333, + "grad_norm": 1.8084600237739707, + "learning_rate": 1.453900709219858e-06, + "loss": 0.4991, + "step": 41 + }, + { + "avg_step_time": 6.069180750265354, + "epoch": 0.004373333333333333, + "eta_time": 15.736036978604671, + "step": 41 + }, + { + "epoch": 0.00448, + "grad_norm": 2.264104101589247, + "learning_rate": 1.4893617021276596e-06, + "loss": 0.494, + "step": 42 + }, + { + "avg_step_time": 6.080417979331243, + "epoch": 0.00448, + "eta_time": 15.763483611416248, + "step": 42 + }, + { + "epoch": 0.004586666666666667, + "grad_norm": 1.729302530598024, + "learning_rate": 1.524822695035461e-06, + "loss": 0.5076, + "step": 43 + }, + { + "avg_step_time": 6.084373557290365, + "epoch": 0.004586666666666667, + "eta_time": 15.772048343509358, + "step": 43 + }, + { + "epoch": 0.004693333333333333, + "grad_norm": 2.352457198720527, + "learning_rate": 1.5602836879432626e-06, + "loss": 0.4283, + "step": 44 + }, + { + "avg_step_time": 6.074408108537847, + "epoch": 0.004693333333333333, + "eta_time": 15.74452835021296, + "step": 44 + }, + { + "epoch": 0.0048, + "grad_norm": 1.6774281241268698, + "learning_rate": 1.595744680851064e-06, + "loss": 0.5209, + "step": 45 + }, + { + "avg_step_time": 6.063561842176649, + "epoch": 0.0048, + "eta_time": 15.71473110764115, + "step": 45 + }, + { + "epoch": 0.004906666666666667, + "grad_norm": 1.6461405915554936, + "learning_rate": 1.6312056737588656e-06, + "loss": 0.6406, + "step": 46 + }, + { + "avg_step_time": 6.0574753802755605, + "epoch": 0.004906666666666667, + "eta_time": 15.697274395164085, + "step": 46 + }, + { + "epoch": 0.005013333333333333, + "grad_norm": 1.9016346417047514, + "learning_rate": 1.6666666666666667e-06, + "loss": 0.5468, + "step": 47 + }, + { + "avg_step_time": 6.0535257369913955, + "epoch": 0.005013333333333333, + "eta_time": 15.685357798515481, + "step": 47 + }, + { + "epoch": 0.00512, + "grad_norm": 1.8871370792673585, + "learning_rate": 1.7021276595744682e-06, + "loss": 0.5507, + "step": 48 + }, + { + "avg_step_time": 6.040963431199391, + "epoch": 0.00512, + "eta_time": 15.651129422999091, + "step": 48 + }, + { + "epoch": 0.005226666666666667, + "grad_norm": 0.5887315374809066, + "learning_rate": 1.7375886524822697e-06, + "loss": 0.4047, + "step": 49 + }, + { + "avg_step_time": 5.961532339757802, + "epoch": 0.005226666666666667, + "eta_time": 15.443680722383686, + "step": 49 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 1.5788492353215235, + "learning_rate": 1.7730496453900712e-06, + "loss": 0.4785, + "step": 50 + }, + { + "avg_step_time": 5.954068436622619, + "epoch": 0.005333333333333333, + "eta_time": 15.422691158751647, + "step": 50 + }, + { + "epoch": 0.00544, + "grad_norm": 1.93079440620853, + "learning_rate": 1.8085106382978727e-06, + "loss": 0.4841, + "step": 51 + }, + { + "avg_step_time": 5.959473815618777, + "epoch": 0.00544, + "eta_time": 15.435037182452632, + "step": 51 + }, + { + "epoch": 0.005546666666666667, + "grad_norm": 1.6125741099803133, + "learning_rate": 1.8439716312056737e-06, + "loss": 0.5071, + "step": 52 + }, + { + "avg_step_time": 5.954686334499946, + "epoch": 0.005546666666666667, + "eta_time": 15.420983526817498, + "step": 52 + }, + { + "epoch": 0.005653333333333333, + "grad_norm": 1.5138879307962807, + "learning_rate": 1.8794326241134752e-06, + "loss": 0.4838, + "step": 53 + }, + { + "avg_step_time": 5.9496136431424125, + "epoch": 0.005653333333333333, + "eta_time": 15.406193994825992, + "step": 53 + }, + { + "epoch": 0.00576, + "grad_norm": 1.5647706834311355, + "learning_rate": 1.9148936170212767e-06, + "loss": 0.4391, + "step": 54 + }, + { + "avg_step_time": 6.002499169773525, + "epoch": 0.00576, + "eta_time": 15.541470767071953, + "step": 54 + }, + { + "epoch": 0.005866666666666667, + "grad_norm": 1.525787194416589, + "learning_rate": 1.9503546099290782e-06, + "loss": 0.5181, + "step": 55 + }, + { + "avg_step_time": 5.999037144400857, + "epoch": 0.005866666666666667, + "eta_time": 15.530840607171108, + "step": 55 + }, + { + "epoch": 0.005973333333333333, + "grad_norm": 1.516382696952423, + "learning_rate": 1.9858156028368797e-06, + "loss": 0.4321, + "step": 56 + }, + { + "avg_step_time": 6.014843957764762, + "epoch": 0.005973333333333333, + "eta_time": 15.570091900669393, + "step": 56 + }, + { + "epoch": 0.00608, + "grad_norm": 1.5798780705508182, + "learning_rate": 2.021276595744681e-06, + "loss": 0.4205, + "step": 57 + }, + { + "avg_step_time": 6.009082731447722, + "epoch": 0.00608, + "eta_time": 15.553509136563854, + "step": 57 + }, + { + "epoch": 0.006186666666666667, + "grad_norm": 1.8807540715575868, + "learning_rate": 2.0567375886524823e-06, + "loss": 0.5635, + "step": 58 + }, + { + "avg_step_time": 6.004636616542421, + "epoch": 0.006186666666666667, + "eta_time": 15.540333154534926, + "step": 58 + }, + { + "epoch": 0.006293333333333333, + "grad_norm": 1.669518433012777, + "learning_rate": 2.092198581560284e-06, + "loss": 0.4388, + "step": 59 + }, + { + "avg_step_time": 6.003691240892572, + "epoch": 0.006293333333333333, + "eta_time": 15.536218777820888, + "step": 59 + }, + { + "epoch": 0.0064, + "grad_norm": 2.480435701712154, + "learning_rate": 2.1276595744680853e-06, + "loss": 0.4713, + "step": 60 + }, + { + "avg_step_time": 5.999528237183889, + "epoch": 0.0064, + "eta_time": 15.523779313713314, + "step": 60 + }, + { + "epoch": 0.006506666666666667, + "grad_norm": 1.597573831924709, + "learning_rate": 2.163120567375887e-06, + "loss": 0.5399, + "step": 61 + }, + { + "avg_step_time": 5.9965949918403, + "epoch": 0.006506666666666667, + "eta_time": 15.514523820555707, + "step": 61 + }, + { + "epoch": 0.006613333333333333, + "grad_norm": 0.617148442462861, + "learning_rate": 2.1985815602836883e-06, + "loss": 0.4154, + "step": 62 + }, + { + "avg_step_time": 5.94335094574959, + "epoch": 0.006613333333333333, + "eta_time": 15.375118710490536, + "step": 62 + }, + { + "epoch": 0.00672, + "grad_norm": 1.7892269255696158, + "learning_rate": 2.2340425531914894e-06, + "loss": 0.5772, + "step": 63 + }, + { + "avg_step_time": 5.939650100374979, + "epoch": 0.00672, + "eta_time": 15.363894926303278, + "step": 63 + }, + { + "epoch": 0.006826666666666667, + "grad_norm": 1.6733222544609272, + "learning_rate": 2.269503546099291e-06, + "loss": 0.5107, + "step": 64 + }, + { + "avg_step_time": 5.937607429921627, + "epoch": 0.006826666666666667, + "eta_time": 15.356961883333408, + "step": 64 + }, + { + "epoch": 0.006933333333333333, + "grad_norm": 1.367078300772898, + "learning_rate": 2.3049645390070924e-06, + "loss": 0.4779, + "step": 65 + }, + { + "avg_step_time": 5.933587466753446, + "epoch": 0.006933333333333333, + "eta_time": 15.344916476520716, + "step": 65 + }, + { + "epoch": 0.00704, + "grad_norm": 1.477060304848401, + "learning_rate": 2.340425531914894e-06, + "loss": 0.4184, + "step": 66 + }, + { + "avg_step_time": 5.932064110582525, + "epoch": 0.00704, + "eta_time": 15.339329112614646, + "step": 66 + }, + { + "epoch": 0.007146666666666667, + "grad_norm": 1.754500707657633, + "learning_rate": 2.3758865248226954e-06, + "loss": 0.4309, + "step": 67 + }, + { + "avg_step_time": 5.992578282285092, + "epoch": 0.007146666666666667, + "eta_time": 15.494144069863788, + "step": 67 + }, + { + "epoch": 0.007253333333333333, + "grad_norm": 1.4581152871806367, + "learning_rate": 2.4113475177304965e-06, + "loss": 0.4599, + "step": 68 + }, + { + "avg_step_time": 5.995859549326055, + "epoch": 0.007253333333333333, + "eta_time": 15.500962451549332, + "step": 68 + }, + { + "epoch": 0.00736, + "grad_norm": 1.813025810801961, + "learning_rate": 2.446808510638298e-06, + "loss": 0.5817, + "step": 69 + }, + { + "avg_step_time": 5.991188788759535, + "epoch": 0.00736, + "eta_time": 15.487223018943398, + "step": 69 + }, + { + "epoch": 0.007466666666666667, + "grad_norm": 2.717803795907202, + "learning_rate": 2.4822695035460995e-06, + "loss": 0.5285, + "step": 70 + }, + { + "avg_step_time": 5.985104182788304, + "epoch": 0.007466666666666667, + "eta_time": 15.469831783568104, + "step": 70 + }, + { + "epoch": 0.007573333333333333, + "grad_norm": 0.6308701856790953, + "learning_rate": 2.5177304964539005e-06, + "loss": 0.4307, + "step": 71 + }, + { + "avg_step_time": 5.938074162308599, + "epoch": 0.007573333333333333, + "eta_time": 15.346622779477556, + "step": 71 + }, + { + "epoch": 0.00768, + "grad_norm": 1.6152457941093374, + "learning_rate": 2.553191489361702e-06, + "loss": 0.4806, + "step": 72 + }, + { + "avg_step_time": 5.931982613272137, + "epoch": 0.00768, + "eta_time": 15.32923173646408, + "step": 72 + }, + { + "epoch": 0.0077866666666666666, + "grad_norm": 1.5769786338955363, + "learning_rate": 2.5886524822695035e-06, + "loss": 0.3949, + "step": 73 + }, + { + "avg_step_time": 5.928939838931985, + "epoch": 0.0077866666666666666, + "eta_time": 15.319721772707034, + "step": 73 + }, + { + "epoch": 0.007893333333333334, + "grad_norm": 1.6884358748347934, + "learning_rate": 2.624113475177305e-06, + "loss": 0.5757, + "step": 74 + }, + { + "avg_step_time": 5.927496945535815, + "epoch": 0.007893333333333334, + "eta_time": 15.314346969563504, + "step": 74 + }, + { + "epoch": 0.008, + "grad_norm": 1.6595240709376007, + "learning_rate": 2.6595744680851065e-06, + "loss": 0.5373, + "step": 75 + }, + { + "avg_step_time": 5.924682579040527, + "epoch": 0.008, + "eta_time": 15.305429995854695, + "step": 75 + }, + { + "epoch": 0.008106666666666667, + "grad_norm": 0.6378702888936245, + "learning_rate": 2.695035460992908e-06, + "loss": 0.4463, + "step": 76 + }, + { + "avg_step_time": 5.879174188563698, + "epoch": 0.008106666666666667, + "eta_time": 15.186233549848286, + "step": 76 + }, + { + "epoch": 0.008213333333333333, + "grad_norm": 1.9900256313273228, + "learning_rate": 2.7304964539007095e-06, + "loss": 0.531, + "step": 77 + }, + { + "avg_step_time": 5.8738021324207255, + "epoch": 0.008213333333333333, + "eta_time": 15.170725618679974, + "step": 77 + }, + { + "epoch": 0.00832, + "grad_norm": 1.420044852180203, + "learning_rate": 2.765957446808511e-06, + "loss": 0.5649, + "step": 78 + }, + { + "avg_step_time": 5.872461823316721, + "epoch": 0.00832, + "eta_time": 15.165632658715431, + "step": 78 + }, + { + "epoch": 0.008426666666666667, + "grad_norm": 1.6775374136382264, + "learning_rate": 2.8014184397163125e-06, + "loss": 0.4268, + "step": 79 + }, + { + "avg_step_time": 5.8677323226687275, + "epoch": 0.008426666666666667, + "eta_time": 15.151788797646802, + "step": 79 + }, + { + "epoch": 0.008533333333333334, + "grad_norm": 1.7722634855680472, + "learning_rate": 2.836879432624114e-06, + "loss": 0.5256, + "step": 80 + }, + { + "avg_step_time": 5.866296970844269, + "epoch": 0.008533333333333334, + "eta_time": 15.146452873332633, + "step": 80 + }, + { + "epoch": 0.00864, + "grad_norm": 1.871649621530765, + "learning_rate": 2.8723404255319155e-06, + "loss": 0.5298, + "step": 81 + }, + { + "avg_step_time": 5.878288869504575, + "epoch": 0.00864, + "eta_time": 15.175782431437646, + "step": 81 + }, + { + "epoch": 0.008746666666666666, + "grad_norm": 2.115254234343105, + "learning_rate": 2.907801418439716e-06, + "loss": 0.5615, + "step": 82 + }, + { + "avg_step_time": 5.876920685535524, + "epoch": 0.008746666666666666, + "eta_time": 15.170617758522672, + "step": 82 + }, + { + "epoch": 0.008853333333333333, + "grad_norm": 2.088614326187798, + "learning_rate": 2.9432624113475177e-06, + "loss": 0.4319, + "step": 83 + }, + { + "avg_step_time": 5.873459146683475, + "epoch": 0.008853333333333333, + "eta_time": 15.1600506641619, + "step": 83 + }, + { + "epoch": 0.00896, + "grad_norm": 1.9039189399145693, + "learning_rate": 2.978723404255319e-06, + "loss": 0.3883, + "step": 84 + }, + { + "avg_step_time": 5.87324508315041, + "epoch": 0.00896, + "eta_time": 15.157866685430681, + "step": 84 + }, + { + "epoch": 0.009066666666666667, + "grad_norm": 1.8028158445269225, + "learning_rate": 3.0141843971631207e-06, + "loss": 0.4976, + "step": 85 + }, + { + "avg_step_time": 5.901120390611537, + "epoch": 0.009066666666666667, + "eta_time": 15.228169007994772, + "step": 85 + }, + { + "epoch": 0.009173333333333334, + "grad_norm": 2.432362306619825, + "learning_rate": 3.049645390070922e-06, + "loss": 0.5521, + "step": 86 + }, + { + "avg_step_time": 5.898249739824339, + "epoch": 0.009173333333333334, + "eta_time": 15.219122731452302, + "step": 86 + }, + { + "epoch": 0.00928, + "grad_norm": 1.7212016988003727, + "learning_rate": 3.0851063829787237e-06, + "loss": 0.5632, + "step": 87 + }, + { + "avg_step_time": 5.8931458873310305, + "epoch": 0.00928, + "eta_time": 15.204316389314059, + "step": 87 + }, + { + "epoch": 0.009386666666666666, + "grad_norm": 0.692429085708392, + "learning_rate": 3.120567375886525e-06, + "loss": 0.4422, + "step": 88 + }, + { + "avg_step_time": 5.8557598265734585, + "epoch": 0.009386666666666666, + "eta_time": 15.106233752607697, + "step": 88 + }, + { + "epoch": 0.009493333333333333, + "grad_norm": 1.584704745100871, + "learning_rate": 3.1560283687943267e-06, + "loss": 0.4043, + "step": 89 + }, + { + "avg_step_time": 5.8704822920681385, + "epoch": 0.009493333333333333, + "eta_time": 15.142582934484649, + "step": 89 + }, + { + "epoch": 0.0096, + "grad_norm": 1.5996344178829283, + "learning_rate": 3.191489361702128e-06, + "loss": 0.4175, + "step": 90 + }, + { + "avg_step_time": 5.871956483523051, + "epoch": 0.0096, + "eta_time": 15.14475443041987, + "step": 90 + }, + { + "epoch": 0.009706666666666667, + "grad_norm": 1.8167556110164926, + "learning_rate": 3.2269503546099297e-06, + "loss": 0.5161, + "step": 91 + }, + { + "avg_step_time": 5.878014910352099, + "epoch": 0.009706666666666667, + "eta_time": 15.158747341030246, + "step": 91 + }, + { + "epoch": 0.009813333333333334, + "grad_norm": 0.628864582767006, + "learning_rate": 3.262411347517731e-06, + "loss": 0.4436, + "step": 92 + }, + { + "avg_step_time": 5.855349794678066, + "epoch": 0.009813333333333334, + "eta_time": 15.098670039999023, + "step": 92 + }, + { + "epoch": 0.00992, + "grad_norm": 0.6791651015784482, + "learning_rate": 3.297872340425532e-06, + "loss": 0.4265, + "step": 93 + }, + { + "avg_step_time": 5.815736224574428, + "epoch": 0.00992, + "eta_time": 14.9949065656944, + "step": 93 + }, + { + "epoch": 0.010026666666666666, + "grad_norm": 0.6405582727884217, + "learning_rate": 3.3333333333333333e-06, + "loss": 0.4129, + "step": 94 + }, + { + "avg_step_time": 5.779189513084736, + "epoch": 0.010026666666666666, + "eta_time": 14.899071630816511, + "step": 94 + }, + { + "epoch": 0.010133333333333333, + "grad_norm": 1.5825963974914536, + "learning_rate": 3.368794326241135e-06, + "loss": 0.4154, + "step": 95 + }, + { + "avg_step_time": 5.780639166581003, + "epoch": 0.010133333333333333, + "eta_time": 14.901203184964363, + "step": 95 + }, + { + "epoch": 0.01024, + "grad_norm": 1.8860439080709042, + "learning_rate": 3.4042553191489363e-06, + "loss": 0.5204, + "step": 96 + }, + { + "avg_step_time": 5.783403567969799, + "epoch": 0.01024, + "eta_time": 14.906722696442158, + "step": 96 + }, + { + "epoch": 0.010346666666666667, + "grad_norm": 1.771572435143326, + "learning_rate": 3.439716312056738e-06, + "loss": 0.5491, + "step": 97 + }, + { + "avg_step_time": 5.781373879344193, + "epoch": 0.010346666666666667, + "eta_time": 14.899885236820952, + "step": 97 + }, + { + "epoch": 0.010453333333333334, + "grad_norm": 0.6594674886701122, + "learning_rate": 3.4751773049645393e-06, + "loss": 0.4327, + "step": 98 + }, + { + "avg_step_time": 5.746597474935103, + "epoch": 0.010453333333333334, + "eta_time": 14.808662437492487, + "step": 98 + }, + { + "epoch": 0.01056, + "grad_norm": 1.6910436342547681, + "learning_rate": 3.510638297872341e-06, + "loss": 0.5196, + "step": 99 + }, + { + "avg_step_time": 5.748087728866423, + "epoch": 0.01056, + "eta_time": 14.810906048045817, + "step": 99 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 1.627151561050013, + "learning_rate": 3.5460992907801423e-06, + "loss": 0.5476, + "step": 100 + }, + { + "avg_step_time": 5.631933790264708, + "epoch": 0.010666666666666666, + "eta_time": 14.510051640195881, + "step": 100 + }, + { + "epoch": 0.010773333333333333, + "grad_norm": 0.6608525071250718, + "learning_rate": 3.581560283687944e-06, + "loss": 0.4442, + "step": 101 + }, + { + "avg_step_time": 5.594100215218284, + "epoch": 0.010773333333333333, + "eta_time": 14.41102372109288, + "step": 101 + }, + { + "epoch": 0.01088, + "grad_norm": 1.6110316482718419, + "learning_rate": 3.6170212765957453e-06, + "loss": 0.45, + "step": 102 + }, + { + "avg_step_time": 5.593313720491198, + "epoch": 0.01088, + "eta_time": 14.40744392503191, + "step": 102 + }, + { + "epoch": 0.010986666666666667, + "grad_norm": 1.8079429380458265, + "learning_rate": 3.652482269503547e-06, + "loss": 0.4863, + "step": 103 + }, + { + "avg_step_time": 5.60062545236915, + "epoch": 0.010986666666666667, + "eta_time": 14.424721998435212, + "step": 103 + }, + { + "epoch": 0.011093333333333334, + "grad_norm": 1.8712511355740136, + "learning_rate": 3.6879432624113475e-06, + "loss": 0.5689, + "step": 104 + }, + { + "avg_step_time": 5.5767916597501195, + "epoch": 0.011093333333333334, + "eta_time": 14.361787632650934, + "step": 104 + }, + { + "epoch": 0.0112, + "grad_norm": 1.6755131168370914, + "learning_rate": 3.723404255319149e-06, + "loss": 0.5293, + "step": 105 + }, + { + "avg_step_time": 5.576048858237989, + "epoch": 0.0112, + "eta_time": 14.358325809962821, + "step": 105 + }, + { + "epoch": 0.011306666666666666, + "grad_norm": 0.640111419456978, + "learning_rate": 3.7588652482269505e-06, + "loss": 0.4288, + "step": 106 + }, + { + "avg_step_time": 5.543212396929962, + "epoch": 0.011306666666666666, + "eta_time": 14.272232140873284, + "step": 106 + }, + { + "epoch": 0.011413333333333333, + "grad_norm": 1.4611373990204763, + "learning_rate": 3.794326241134752e-06, + "loss": 0.5725, + "step": 107 + }, + { + "avg_step_time": 5.543973693943987, + "epoch": 0.011413333333333333, + "eta_time": 14.272652276520242, + "step": 107 + }, + { + "epoch": 0.01152, + "grad_norm": 1.7359639129573543, + "learning_rate": 3.8297872340425535e-06, + "loss": 0.4348, + "step": 108 + }, + { + "avg_step_time": 5.539920147019203, + "epoch": 0.01152, + "eta_time": 14.260677778451932, + "step": 108 + }, + { + "epoch": 0.011626666666666667, + "grad_norm": 0.6211424052788519, + "learning_rate": 3.865248226950355e-06, + "loss": 0.4333, + "step": 109 + }, + { + "avg_step_time": 5.519470378606006, + "epoch": 0.011626666666666667, + "eta_time": 14.206503480045347, + "step": 109 + }, + { + "epoch": 0.011733333333333333, + "grad_norm": 1.2567158951316166, + "learning_rate": 3.9007092198581565e-06, + "loss": 0.3842, + "step": 110 + }, + { + "avg_step_time": 5.535562115486222, + "epoch": 0.011733333333333333, + "eta_time": 14.246384166661068, + "step": 110 + }, + { + "epoch": 0.01184, + "grad_norm": 1.982874421226851, + "learning_rate": 3.936170212765958e-06, + "loss": 0.4532, + "step": 111 + }, + { + "avg_step_time": 5.549179103639391, + "epoch": 0.01184, + "eta_time": 14.279887560032034, + "step": 111 + }, + { + "epoch": 0.011946666666666666, + "grad_norm": 1.796040957382499, + "learning_rate": 3.9716312056737595e-06, + "loss": 0.5169, + "step": 112 + }, + { + "avg_step_time": 5.584984692660245, + "epoch": 0.011946666666666666, + "eta_time": 14.37047589114218, + "step": 112 + }, + { + "epoch": 0.012053333333333333, + "grad_norm": 1.5843764104507787, + "learning_rate": 4.007092198581561e-06, + "loss": 0.4604, + "step": 113 + }, + { + "avg_step_time": 5.584401149942417, + "epoch": 0.012053333333333333, + "eta_time": 14.36742318076852, + "step": 113 + }, + { + "epoch": 0.01216, + "grad_norm": 1.4078928186960513, + "learning_rate": 4.042553191489362e-06, + "loss": 0.4832, + "step": 114 + }, + { + "avg_step_time": 5.585325566205111, + "epoch": 0.01216, + "eta_time": 14.368250019062648, + "step": 114 + }, + { + "epoch": 0.012266666666666667, + "grad_norm": 1.493867346358992, + "learning_rate": 4.078014184397163e-06, + "loss": 0.4419, + "step": 115 + }, + { + "avg_step_time": 5.597140709559123, + "epoch": 0.012266666666666667, + "eta_time": 14.397089714032633, + "step": 115 + }, + { + "epoch": 0.012373333333333333, + "grad_norm": 1.6178432109250473, + "learning_rate": 4.113475177304965e-06, + "loss": 0.4561, + "step": 116 + }, + { + "avg_step_time": 5.589118092951148, + "epoch": 0.012373333333333333, + "eta_time": 14.374901228509634, + "step": 116 + }, + { + "epoch": 0.01248, + "grad_norm": 1.9202407732798887, + "learning_rate": 4.148936170212766e-06, + "loss": 0.5282, + "step": 117 + }, + { + "avg_step_time": 5.590302472162729, + "epoch": 0.01248, + "eta_time": 14.376394524245152, + "step": 117 + }, + { + "epoch": 0.012586666666666666, + "grad_norm": 1.3752584839294588, + "learning_rate": 4.184397163120568e-06, + "loss": 0.4037, + "step": 118 + }, + { + "avg_step_time": 5.572478739902227, + "epoch": 0.012586666666666666, + "eta_time": 14.329009915354144, + "step": 118 + }, + { + "epoch": 0.012693333333333333, + "grad_norm": 1.8607379888423554, + "learning_rate": 4.219858156028369e-06, + "loss": 0.4794, + "step": 119 + }, + { + "avg_step_time": 5.572489391673695, + "epoch": 0.012693333333333333, + "eta_time": 14.327489391481034, + "step": 119 + }, + { + "epoch": 0.0128, + "grad_norm": 1.3290217682281331, + "learning_rate": 4.255319148936171e-06, + "loss": 0.5486, + "step": 120 + }, + { + "avg_step_time": 5.624777194225427, + "epoch": 0.0128, + "eta_time": 14.460364703487869, + "step": 120 + }, + { + "epoch": 0.012906666666666667, + "grad_norm": 0.6541017908205465, + "learning_rate": 4.290780141843972e-06, + "loss": 0.4329, + "step": 121 + }, + { + "avg_step_time": 5.5767795991415925, + "epoch": 0.012906666666666667, + "eta_time": 14.335421780682305, + "step": 121 + }, + { + "epoch": 0.013013333333333333, + "grad_norm": 1.45460829826481, + "learning_rate": 4.326241134751774e-06, + "loss": 0.5843, + "step": 122 + }, + { + "avg_step_time": 5.570845755663785, + "epoch": 0.013013333333333333, + "eta_time": 14.318621049210279, + "step": 122 + }, + { + "epoch": 0.01312, + "grad_norm": 1.4679196228635556, + "learning_rate": 4.361702127659575e-06, + "loss": 0.4225, + "step": 123 + }, + { + "avg_step_time": 5.5883677150263935, + "epoch": 0.01312, + "eta_time": 14.362105027617831, + "step": 123 + }, + { + "epoch": 0.013226666666666666, + "grad_norm": 1.5512277408270174, + "learning_rate": 4.397163120567377e-06, + "loss": 0.4493, + "step": 124 + }, + { + "avg_step_time": 5.589613685704241, + "epoch": 0.013226666666666666, + "eta_time": 14.363754501791647, + "step": 124 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 1.4408755842467251, + "learning_rate": 4.432624113475177e-06, + "loss": 0.4174, + "step": 125 + }, + { + "avg_step_time": 5.580791738298204, + "epoch": 0.013333333333333334, + "eta_time": 14.339534327571775, + "step": 125 + }, + { + "epoch": 0.01344, + "grad_norm": 1.6886591050865578, + "learning_rate": 4.468085106382979e-06, + "loss": 0.4156, + "step": 126 + }, + { + "avg_step_time": 5.577626394503044, + "epoch": 0.01344, + "eta_time": 14.329851811877404, + "step": 126 + }, + { + "epoch": 0.013546666666666667, + "grad_norm": 1.7044845430684816, + "learning_rate": 4.50354609929078e-06, + "loss": 0.4909, + "step": 127 + }, + { + "avg_step_time": 5.576924791239729, + "epoch": 0.013546666666666667, + "eta_time": 14.326500130384726, + "step": 127 + }, + { + "epoch": 0.013653333333333333, + "grad_norm": 1.7418096688370122, + "learning_rate": 4.539007092198582e-06, + "loss": 0.5294, + "step": 128 + }, + { + "avg_step_time": 5.611126704649492, + "epoch": 0.013653333333333333, + "eta_time": 14.412802399414959, + "step": 128 + }, + { + "epoch": 0.01376, + "grad_norm": 2.543804085896344, + "learning_rate": 4.574468085106383e-06, + "loss": 0.5927, + "step": 129 + }, + { + "avg_step_time": 5.584395170211792, + "epoch": 0.01376, + "eta_time": 14.34258826216062, + "step": 129 + }, + { + "epoch": 0.013866666666666666, + "grad_norm": 1.9362351608806019, + "learning_rate": 4.609929078014185e-06, + "loss": 0.5267, + "step": 130 + }, + { + "avg_step_time": 5.6220656476839626, + "epoch": 0.013866666666666666, + "eta_time": 14.437776920232844, + "step": 130 + }, + { + "epoch": 0.013973333333333334, + "grad_norm": 0.6204015042439769, + "learning_rate": 4.645390070921986e-06, + "loss": 0.4223, + "step": 131 + }, + { + "avg_step_time": 5.596297406186961, + "epoch": 0.013973333333333334, + "eta_time": 14.370048117442296, + "step": 131 + }, + { + "epoch": 0.01408, + "grad_norm": 1.7181175307824732, + "learning_rate": 4.680851063829788e-06, + "loss": 0.4083, + "step": 132 + }, + { + "avg_step_time": 5.600235674116346, + "epoch": 0.01408, + "eta_time": 14.37860509329372, + "step": 132 + }, + { + "epoch": 0.014186666666666667, + "grad_norm": 1.8524585090216739, + "learning_rate": 4.716312056737589e-06, + "loss": 0.513, + "step": 133 + }, + { + "avg_step_time": 5.601193430447819, + "epoch": 0.014186666666666667, + "eta_time": 14.379508245610761, + "step": 133 + }, + { + "epoch": 0.014293333333333333, + "grad_norm": 1.7069104976907297, + "learning_rate": 4.751773049645391e-06, + "loss": 0.427, + "step": 134 + }, + { + "avg_step_time": 5.60227863234703, + "epoch": 0.014293333333333333, + "eta_time": 14.380738011533028, + "step": 134 + }, + { + "epoch": 0.0144, + "grad_norm": 1.8123218002398915, + "learning_rate": 4.787234042553192e-06, + "loss": 0.4812, + "step": 135 + }, + { + "avg_step_time": 5.589459029110995, + "epoch": 0.0144, + "eta_time": 14.34627817471822, + "step": 135 + }, + { + "epoch": 0.014506666666666666, + "grad_norm": 1.5556938578005433, + "learning_rate": 4.822695035460993e-06, + "loss": 0.4642, + "step": 136 + }, + { + "avg_step_time": 5.580932381177189, + "epoch": 0.014506666666666666, + "eta_time": 14.322842852693347, + "step": 136 + }, + { + "epoch": 0.014613333333333334, + "grad_norm": 1.4848593344212426, + "learning_rate": 4.858156028368794e-06, + "loss": 0.4516, + "step": 137 + }, + { + "avg_step_time": 5.58379191581649, + "epoch": 0.014613333333333334, + "eta_time": 14.328630477309092, + "step": 137 + }, + { + "epoch": 0.01472, + "grad_norm": 1.7864241007142894, + "learning_rate": 4.893617021276596e-06, + "loss": 0.5092, + "step": 138 + }, + { + "avg_step_time": 5.620376126934784, + "epoch": 0.01472, + "eta_time": 14.420948412360167, + "step": 138 + }, + { + "epoch": 0.014826666666666667, + "grad_norm": 1.905769538116361, + "learning_rate": 4.929078014184397e-06, + "loss": 0.4094, + "step": 139 + }, + { + "avg_step_time": 5.637936818479288, + "epoch": 0.014826666666666667, + "eta_time": 14.464440126520751, + "step": 139 + }, + { + "epoch": 0.014933333333333333, + "grad_norm": 1.7498578213291642, + "learning_rate": 4.964539007092199e-06, + "loss": 0.5392, + "step": 140 + }, + { + "avg_step_time": 5.632542434364859, + "epoch": 0.014933333333333333, + "eta_time": 14.449035939266519, + "step": 140 + }, + { + "epoch": 0.01504, + "grad_norm": 1.31425806057757, + "learning_rate": 5e-06, + "loss": 0.4849, + "step": 141 + }, + { + "avg_step_time": 5.624912175265226, + "epoch": 0.01504, + "eta_time": 14.427899729555303, + "step": 141 + }, + { + "epoch": 0.015146666666666666, + "grad_norm": 2.080482144524288, + "learning_rate": 5.035460992907801e-06, + "loss": 0.534, + "step": 142 + }, + { + "avg_step_time": 5.620655669106378, + "epoch": 0.015146666666666666, + "eta_time": 14.415420498016442, + "step": 142 + }, + { + "epoch": 0.015253333333333334, + "grad_norm": 1.342698539797104, + "learning_rate": 5.070921985815603e-06, + "loss": 0.5079, + "step": 143 + }, + { + "avg_step_time": 5.622133269454494, + "epoch": 0.015253333333333334, + "eta_time": 14.417648428778858, + "step": 143 + }, + { + "epoch": 0.01536, + "grad_norm": 1.737419761677664, + "learning_rate": 5.106382978723404e-06, + "loss": 0.4436, + "step": 144 + }, + { + "avg_step_time": 5.629823441457266, + "epoch": 0.01536, + "eta_time": 14.43580560780334, + "step": 144 + }, + { + "epoch": 0.015466666666666667, + "grad_norm": 1.8224781241374897, + "learning_rate": 5.141843971631206e-06, + "loss": 0.451, + "step": 145 + }, + { + "avg_step_time": 5.6279165094549, + "epoch": 0.015466666666666667, + "eta_time": 14.429352606185759, + "step": 145 + }, + { + "epoch": 0.015573333333333333, + "grad_norm": 1.5694804647293592, + "learning_rate": 5.177304964539007e-06, + "loss": 0.4381, + "step": 146 + }, + { + "avg_step_time": 5.639172592548409, + "epoch": 0.015573333333333333, + "eta_time": 14.45664551573035, + "step": 146 + }, + { + "epoch": 0.01568, + "grad_norm": 1.6954758808853776, + "learning_rate": 5.212765957446809e-06, + "loss": 0.5223, + "step": 147 + }, + { + "avg_step_time": 5.648226051619559, + "epoch": 0.01568, + "eta_time": 14.478286112318134, + "step": 147 + }, + { + "epoch": 0.015786666666666668, + "grad_norm": 1.5806477137430672, + "learning_rate": 5.24822695035461e-06, + "loss": 0.5036, + "step": 148 + }, + { + "avg_step_time": 5.686249154986757, + "epoch": 0.015786666666666668, + "eta_time": 14.57417248696189, + "step": 148 + }, + { + "epoch": 0.015893333333333332, + "grad_norm": 1.5479726321254645, + "learning_rate": 5.283687943262412e-06, + "loss": 0.4881, + "step": 149 + }, + { + "avg_step_time": 5.694982326391972, + "epoch": 0.015893333333333332, + "eta_time": 14.594974150914535, + "step": 149 + }, + { + "epoch": 0.016, + "grad_norm": 2.247598715250476, + "learning_rate": 5.319148936170213e-06, + "loss": 0.4626, + "step": 150 + }, + { + "avg_step_time": 5.687716334757178, + "epoch": 0.016, + "eta_time": 14.57477310781527, + "step": 150 + }, + { + "epoch": 0.016106666666666665, + "grad_norm": 1.5033516612256475, + "learning_rate": 5.354609929078015e-06, + "loss": 0.5023, + "step": 151 + }, + { + "avg_step_time": 5.699815254018764, + "epoch": 0.016106666666666665, + "eta_time": 14.604193306408078, + "step": 151 + }, + { + "epoch": 0.016213333333333333, + "grad_norm": 1.7489771881667553, + "learning_rate": 5.390070921985816e-06, + "loss": 0.4762, + "step": 152 + }, + { + "avg_step_time": 5.699100927873091, + "epoch": 0.016213333333333333, + "eta_time": 14.600779960492643, + "step": 152 + }, + { + "epoch": 0.01632, + "grad_norm": 0.6602475774841912, + "learning_rate": 5.425531914893617e-06, + "loss": 0.4291, + "step": 153 + }, + { + "avg_step_time": 5.639491531583998, + "epoch": 0.01632, + "eta_time": 14.446497473407673, + "step": 153 + }, + { + "epoch": 0.016426666666666666, + "grad_norm": 1.7106681772593317, + "learning_rate": 5.460992907801419e-06, + "loss": 0.4859, + "step": 154 + }, + { + "avg_step_time": 5.638171723394683, + "epoch": 0.016426666666666666, + "eta_time": 14.44155040595066, + "step": 154 + }, + { + "epoch": 0.016533333333333334, + "grad_norm": 2.1266302986827306, + "learning_rate": 5.49645390070922e-06, + "loss": 0.4994, + "step": 155 + }, + { + "avg_step_time": 5.6319235695732965, + "epoch": 0.016533333333333334, + "eta_time": 14.423982030962721, + "step": 155 + }, + { + "epoch": 0.01664, + "grad_norm": 1.7642802558277824, + "learning_rate": 5.531914893617022e-06, + "loss": 0.4753, + "step": 156 + }, + { + "avg_step_time": 5.6295746432410345, + "epoch": 0.01664, + "eta_time": 14.41640239889975, + "step": 156 + }, + { + "epoch": 0.016746666666666667, + "grad_norm": 1.3935229808536969, + "learning_rate": 5.567375886524823e-06, + "loss": 0.4584, + "step": 157 + }, + { + "avg_step_time": 5.628705087334219, + "epoch": 0.016746666666666667, + "eta_time": 14.412612081957453, + "step": 157 + }, + { + "epoch": 0.016853333333333335, + "grad_norm": 1.5320375703179592, + "learning_rate": 5.602836879432625e-06, + "loss": 0.456, + "step": 158 + }, + { + "avg_step_time": 5.6291465879690765, + "epoch": 0.016853333333333335, + "eta_time": 14.412178917030827, + "step": 158 + }, + { + "epoch": 0.01696, + "grad_norm": 1.730560652772855, + "learning_rate": 5.638297872340426e-06, + "loss": 0.4612, + "step": 159 + }, + { + "avg_step_time": 5.628237083704785, + "epoch": 0.01696, + "eta_time": 14.408286934284249, + "step": 159 + }, + { + "epoch": 0.017066666666666667, + "grad_norm": 1.6722791591173791, + "learning_rate": 5.673758865248228e-06, + "loss": 0.4433, + "step": 160 + }, + { + "avg_step_time": 5.636416476182263, + "epoch": 0.017066666666666667, + "eta_time": 14.427660507783209, + "step": 160 + }, + { + "epoch": 0.017173333333333332, + "grad_norm": 1.6564111879106087, + "learning_rate": 5.709219858156029e-06, + "loss": 0.5139, + "step": 161 + }, + { + "avg_step_time": 5.667374319500393, + "epoch": 0.017173333333333332, + "eta_time": 14.505329716632394, + "step": 161 + }, + { + "epoch": 0.01728, + "grad_norm": 1.6960426797163568, + "learning_rate": 5.744680851063831e-06, + "loss": 0.5091, + "step": 162 + }, + { + "avg_step_time": 5.670984870255595, + "epoch": 0.01728, + "eta_time": 14.512995447129112, + "step": 162 + }, + { + "epoch": 0.01738666666666667, + "grad_norm": 1.9245733768305846, + "learning_rate": 5.780141843971632e-06, + "loss": 0.4463, + "step": 163 + }, + { + "avg_step_time": 5.667290620129518, + "epoch": 0.01738666666666667, + "eta_time": 14.501966997953643, + "step": 163 + }, + { + "epoch": 0.017493333333333333, + "grad_norm": 1.6409831787198075, + "learning_rate": 5.815602836879432e-06, + "loss": 0.487, + "step": 164 + }, + { + "avg_step_time": 5.666531897554494, + "epoch": 0.017493333333333333, + "eta_time": 14.498451474548455, + "step": 164 + }, + { + "epoch": 0.0176, + "grad_norm": 1.6198637794402007, + "learning_rate": 5.851063829787235e-06, + "loss": 0.5049, + "step": 165 + }, + { + "avg_step_time": 5.670660580047453, + "epoch": 0.0176, + "eta_time": 14.507439983954734, + "step": 165 + }, + { + "epoch": 0.017706666666666666, + "grad_norm": 1.620122836252598, + "learning_rate": 5.886524822695035e-06, + "loss": 0.4759, + "step": 166 + }, + { + "avg_step_time": 5.628568630025844, + "epoch": 0.017706666666666666, + "eta_time": 14.398191253863333, + "step": 166 + }, + { + "epoch": 0.017813333333333334, + "grad_norm": 1.76236451920614, + "learning_rate": 5.921985815602838e-06, + "loss": 0.506, + "step": 167 + }, + { + "avg_step_time": 5.623947090572781, + "epoch": 0.017813333333333334, + "eta_time": 14.384806891665047, + "step": 167 + }, + { + "epoch": 0.01792, + "grad_norm": 1.5302857341314229, + "learning_rate": 5.957446808510638e-06, + "loss": 0.4747, + "step": 168 + }, + { + "avg_step_time": 5.657229698065556, + "epoch": 0.01792, + "eta_time": 14.468364952802657, + "step": 168 + }, + { + "epoch": 0.018026666666666667, + "grad_norm": 1.6337124092024458, + "learning_rate": 5.992907801418441e-06, + "loss": 0.4362, + "step": 169 + }, + { + "avg_step_time": 5.657355224243318, + "epoch": 0.018026666666666667, + "eta_time": 14.467114498439996, + "step": 169 + }, + { + "epoch": 0.018133333333333335, + "grad_norm": 1.6042039146461606, + "learning_rate": 6.028368794326241e-06, + "loss": 0.4206, + "step": 170 + }, + { + "avg_step_time": 5.714217183565853, + "epoch": 0.018133333333333335, + "eta_time": 14.610935881867688, + "step": 170 + }, + { + "epoch": 0.01824, + "grad_norm": 1.8406528217656173, + "learning_rate": 6.063829787234044e-06, + "loss": 0.5166, + "step": 171 + }, + { + "avg_step_time": 5.7201504490592265, + "epoch": 0.01824, + "eta_time": 14.62451798142809, + "step": 171 + }, + { + "epoch": 0.018346666666666667, + "grad_norm": 1.8191116983553006, + "learning_rate": 6.099290780141844e-06, + "loss": 0.525, + "step": 172 + }, + { + "avg_step_time": 5.722078593090327, + "epoch": 0.018346666666666667, + "eta_time": 14.627858136725077, + "step": 172 + }, + { + "epoch": 0.018453333333333332, + "grad_norm": 1.7106731065154872, + "learning_rate": 6.134751773049647e-06, + "loss": 0.4807, + "step": 173 + }, + { + "avg_step_time": 5.747010963131683, + "epoch": 0.018453333333333332, + "eta_time": 14.689998578538264, + "step": 173 + }, + { + "epoch": 0.01856, + "grad_norm": 0.6572250347082841, + "learning_rate": 6.170212765957447e-06, + "loss": 0.453, + "step": 174 + }, + { + "avg_step_time": 5.71407040682706, + "epoch": 0.01856, + "eta_time": 14.604211614782159, + "step": 174 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 1.6165150333804952, + "learning_rate": 6.205673758865248e-06, + "loss": 0.4988, + "step": 175 + }, + { + "avg_step_time": 5.8010551688647025, + "epoch": 0.018666666666666668, + "eta_time": 14.824918764876463, + "step": 175 + }, + { + "epoch": 0.018773333333333333, + "grad_norm": 0.642055571088222, + "learning_rate": 6.24113475177305e-06, + "loss": 0.4208, + "step": 176 + }, + { + "avg_step_time": 5.768329943069304, + "epoch": 0.018773333333333333, + "eta_time": 14.739685318415146, + "step": 176 + }, + { + "epoch": 0.01888, + "grad_norm": 1.6579077351167322, + "learning_rate": 6.276595744680851e-06, + "loss": 0.4862, + "step": 177 + }, + { + "avg_step_time": 5.769517852802469, + "epoch": 0.01888, + "eta_time": 14.741118113910309, + "step": 177 + }, + { + "epoch": 0.018986666666666666, + "grad_norm": 1.4880343849765567, + "learning_rate": 6.312056737588653e-06, + "loss": 0.4199, + "step": 178 + }, + { + "avg_step_time": 5.771007330730708, + "epoch": 0.018986666666666666, + "eta_time": 14.743320672425089, + "step": 178 + }, + { + "epoch": 0.019093333333333334, + "grad_norm": 1.7613298876682457, + "learning_rate": 6.347517730496454e-06, + "loss": 0.4232, + "step": 179 + }, + { + "avg_step_time": 5.768995701664626, + "epoch": 0.019093333333333334, + "eta_time": 14.736579020141084, + "step": 179 + }, + { + "epoch": 0.0192, + "grad_norm": 1.7468024804423763, + "learning_rate": 6.382978723404256e-06, + "loss": 0.5139, + "step": 180 + }, + { + "avg_step_time": 5.765840176380042, + "epoch": 0.0192, + "eta_time": 14.726916783837357, + "step": 180 + }, + { + "epoch": 0.019306666666666666, + "grad_norm": 1.501069831656347, + "learning_rate": 6.418439716312057e-06, + "loss": 0.4797, + "step": 181 + }, + { + "avg_step_time": 5.776716362346303, + "epoch": 0.019306666666666666, + "eta_time": 14.753091732058863, + "step": 181 + }, + { + "epoch": 0.019413333333333335, + "grad_norm": 0.6232824034509902, + "learning_rate": 6.453900709219859e-06, + "loss": 0.4255, + "step": 182 + }, + { + "avg_step_time": 5.742012664525196, + "epoch": 0.019413333333333335, + "eta_time": 14.662867340272255, + "step": 182 + }, + { + "epoch": 0.01952, + "grad_norm": 1.6795044768578948, + "learning_rate": 6.48936170212766e-06, + "loss": 0.56, + "step": 183 + }, + { + "avg_step_time": 5.764179802904225, + "epoch": 0.01952, + "eta_time": 14.717872430082123, + "step": 183 + }, + { + "epoch": 0.019626666666666667, + "grad_norm": 1.7649498318085284, + "learning_rate": 6.524822695035462e-06, + "loss": 0.5153, + "step": 184 + }, + { + "avg_step_time": 5.750978267554081, + "epoch": 0.019626666666666667, + "eta_time": 14.682567015858211, + "step": 184 + }, + { + "epoch": 0.019733333333333332, + "grad_norm": 2.313310349174642, + "learning_rate": 6.560283687943263e-06, + "loss": 0.4679, + "step": 185 + }, + { + "avg_step_time": 5.750804949288416, + "epoch": 0.019733333333333332, + "eta_time": 14.68052707887793, + "step": 185 + }, + { + "epoch": 0.01984, + "grad_norm": 1.5826571597152936, + "learning_rate": 6.595744680851064e-06, + "loss": 0.4288, + "step": 186 + }, + { + "avg_step_time": 5.757029764580004, + "epoch": 0.01984, + "eta_time": 14.694818474090459, + "step": 186 + }, + { + "epoch": 0.019946666666666668, + "grad_norm": 1.607228722756382, + "learning_rate": 6.631205673758866e-06, + "loss": 0.4824, + "step": 187 + }, + { + "avg_step_time": 5.800265454282664, + "epoch": 0.019946666666666668, + "eta_time": 14.803566387208088, + "step": 187 + }, + { + "epoch": 0.020053333333333333, + "grad_norm": 1.695391426732319, + "learning_rate": 6.666666666666667e-06, + "loss": 0.4697, + "step": 188 + }, + { + "avg_step_time": 5.800184541278416, + "epoch": 0.020053333333333333, + "eta_time": 14.801748716868001, + "step": 188 + }, + { + "epoch": 0.02016, + "grad_norm": 1.5550799343687758, + "learning_rate": 6.702127659574469e-06, + "loss": 0.4522, + "step": 189 + }, + { + "avg_step_time": 5.7960276868608265, + "epoch": 0.02016, + "eta_time": 14.789530647639877, + "step": 189 + }, + { + "epoch": 0.020266666666666665, + "grad_norm": 1.5321884310301037, + "learning_rate": 6.73758865248227e-06, + "loss": 0.5753, + "step": 190 + }, + { + "avg_step_time": 5.790460044687444, + "epoch": 0.020266666666666665, + "eta_time": 14.773715419570605, + "step": 190 + }, + { + "epoch": 0.020373333333333334, + "grad_norm": 1.5784657458269133, + "learning_rate": 6.773049645390072e-06, + "loss": 0.5534, + "step": 191 + }, + { + "avg_step_time": 5.807904496337429, + "epoch": 0.020373333333333334, + "eta_time": 14.816609692878595, + "step": 191 + }, + { + "epoch": 0.02048, + "grad_norm": 1.6388173457918989, + "learning_rate": 6.808510638297873e-06, + "loss": 0.5343, + "step": 192 + }, + { + "avg_step_time": 5.844072158890541, + "epoch": 0.02048, + "eta_time": 14.90725406530329, + "step": 192 + }, + { + "epoch": 0.020586666666666666, + "grad_norm": 4.394672711217244, + "learning_rate": 6.843971631205675e-06, + "loss": 0.4743, + "step": 193 + }, + { + "avg_step_time": 5.878233960180571, + "epoch": 0.020586666666666666, + "eta_time": 14.99276228399389, + "step": 193 + }, + { + "epoch": 0.020693333333333334, + "grad_norm": 1.5657100418409882, + "learning_rate": 6.879432624113476e-06, + "loss": 0.4694, + "step": 194 + }, + { + "avg_step_time": 5.8756542735629615, + "epoch": 0.020693333333333334, + "eta_time": 14.984550523772652, + "step": 194 + }, + { + "epoch": 0.0208, + "grad_norm": 1.6678354338102124, + "learning_rate": 6.914893617021278e-06, + "loss": 0.477, + "step": 195 + }, + { + "avg_step_time": 5.871348691709114, + "epoch": 0.0208, + "eta_time": 14.971939163858242, + "step": 195 + }, + { + "epoch": 0.020906666666666667, + "grad_norm": 1.6989564684978813, + "learning_rate": 6.950354609929079e-06, + "loss": 0.4882, + "step": 196 + }, + { + "avg_step_time": 5.873811425584735, + "epoch": 0.020906666666666667, + "eta_time": 14.97658752095619, + "step": 196 + }, + { + "epoch": 0.021013333333333332, + "grad_norm": 1.7118466912335837, + "learning_rate": 6.985815602836879e-06, + "loss": 0.473, + "step": 197 + }, + { + "avg_step_time": 5.906295742651428, + "epoch": 0.021013333333333332, + "eta_time": 15.057772868348557, + "step": 197 + }, + { + "epoch": 0.02112, + "grad_norm": 1.421052438226842, + "learning_rate": 7.021276595744682e-06, + "loss": 0.453, + "step": 198 + }, + { + "avg_step_time": 5.905649967867919, + "epoch": 0.02112, + "eta_time": 15.054486043089968, + "step": 198 + }, + { + "epoch": 0.021226666666666668, + "grad_norm": 1.7137569029903381, + "learning_rate": 7.056737588652482e-06, + "loss": 0.5359, + "step": 199 + }, + { + "avg_step_time": 5.903485575107613, + "epoch": 0.021226666666666668, + "eta_time": 15.047328788107627, + "step": 199 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 1.7042749782268598, + "learning_rate": 7.092198581560285e-06, + "loss": 0.5228, + "step": 200 + }, + { + "avg_step_time": 5.938977349888194, + "epoch": 0.021333333333333333, + "eta_time": 15.136143662562272, + "step": 200 + }, + { + "epoch": 0.02144, + "grad_norm": 1.6754628865220753, + "learning_rate": 7.127659574468085e-06, + "loss": 0.4664, + "step": 201 + }, + { + "avg_step_time": 5.936513327588939, + "epoch": 0.02144, + "eta_time": 15.128214796472479, + "step": 201 + }, + { + "epoch": 0.021546666666666665, + "grad_norm": 1.6990825250084027, + "learning_rate": 7.163120567375888e-06, + "loss": 0.4761, + "step": 202 + }, + { + "avg_step_time": 5.934819488814383, + "epoch": 0.021546666666666665, + "eta_time": 15.12224976969287, + "step": 202 + }, + { + "epoch": 0.021653333333333333, + "grad_norm": 1.5494108399485325, + "learning_rate": 7.198581560283688e-06, + "loss": 0.4068, + "step": 203 + }, + { + "avg_step_time": 5.92956835332543, + "epoch": 0.021653333333333333, + "eta_time": 15.107222482416901, + "step": 203 + }, + { + "epoch": 0.02176, + "grad_norm": 1.527182806430845, + "learning_rate": 7.234042553191491e-06, + "loss": 0.4748, + "step": 204 + }, + { + "avg_step_time": 5.932655474152228, + "epoch": 0.02176, + "eta_time": 15.1134398204028, + "step": 204 + }, + { + "epoch": 0.021866666666666666, + "grad_norm": 1.6609424633825853, + "learning_rate": 7.269503546099291e-06, + "loss": 0.4571, + "step": 205 + }, + { + "avg_step_time": 5.967158572842377, + "epoch": 0.021866666666666666, + "eta_time": 15.199678920267942, + "step": 205 + }, + { + "epoch": 0.021973333333333334, + "grad_norm": 1.6870049151857274, + "learning_rate": 7.304964539007094e-06, + "loss": 0.4829, + "step": 206 + }, + { + "avg_step_time": 6.001926605147545, + "epoch": 0.021973333333333334, + "eta_time": 15.286573622943843, + "step": 206 + }, + { + "epoch": 0.02208, + "grad_norm": 1.7125879025805726, + "learning_rate": 7.340425531914894e-06, + "loss": 0.5332, + "step": 207 + }, + { + "avg_step_time": 6.003022145743322, + "epoch": 0.02208, + "eta_time": 15.287696397826327, + "step": 207 + }, + { + "epoch": 0.022186666666666667, + "grad_norm": 1.747791373118075, + "learning_rate": 7.375886524822695e-06, + "loss": 0.3768, + "step": 208 + }, + { + "avg_step_time": 6.0388348921380866, + "epoch": 0.022186666666666667, + "eta_time": 15.377222071174955, + "step": 208 + }, + { + "epoch": 0.02229333333333333, + "grad_norm": 1.571391232736286, + "learning_rate": 7.411347517730497e-06, + "loss": 0.5346, + "step": 209 + }, + { + "avg_step_time": 6.020065688123607, + "epoch": 0.02229333333333333, + "eta_time": 15.327756138150272, + "step": 209 + }, + { + "epoch": 0.0224, + "grad_norm": 1.4452345237881776, + "learning_rate": 7.446808510638298e-06, + "loss": 0.3956, + "step": 210 + }, + { + "avg_step_time": 6.002975962378762, + "epoch": 0.0224, + "eta_time": 15.282576304222598, + "step": 210 + }, + { + "epoch": 0.022506666666666668, + "grad_norm": 1.8825166217593308, + "learning_rate": 7.4822695035461e-06, + "loss": 0.5403, + "step": 211 + }, + { + "avg_step_time": 6.000307013290097, + "epoch": 0.022506666666666668, + "eta_time": 15.27411485271957, + "step": 211 + }, + { + "epoch": 0.022613333333333333, + "grad_norm": 1.568452303650436, + "learning_rate": 7.517730496453901e-06, + "loss": 0.4989, + "step": 212 + }, + { + "avg_step_time": 6.003597575004655, + "epoch": 0.022613333333333333, + "eta_time": 15.280823494379902, + "step": 212 + }, + { + "epoch": 0.02272, + "grad_norm": 1.581851681266175, + "learning_rate": 7.553191489361703e-06, + "loss": 0.5053, + "step": 213 + }, + { + "avg_step_time": 6.005861344963614, + "epoch": 0.02272, + "eta_time": 15.284917122932397, + "step": 213 + }, + { + "epoch": 0.022826666666666665, + "grad_norm": 1.6251273064366836, + "learning_rate": 7.588652482269504e-06, + "loss": 0.5487, + "step": 214 + }, + { + "avg_step_time": 5.992293767254762, + "epoch": 0.022826666666666665, + "eta_time": 15.24872311161691, + "step": 214 + }, + { + "epoch": 0.022933333333333333, + "grad_norm": 1.7038143264061947, + "learning_rate": 7.624113475177306e-06, + "loss": 0.4506, + "step": 215 + }, + { + "avg_step_time": 5.991967887589426, + "epoch": 0.022933333333333333, + "eta_time": 15.246229402866428, + "step": 215 + }, + { + "epoch": 0.02304, + "grad_norm": 1.4003882036601176, + "learning_rate": 7.659574468085107e-06, + "loss": 0.4169, + "step": 216 + }, + { + "avg_step_time": 5.991174868863038, + "epoch": 0.02304, + "eta_time": 15.242547395532382, + "step": 216 + }, + { + "epoch": 0.023146666666666666, + "grad_norm": 1.9604988748109111, + "learning_rate": 7.695035460992908e-06, + "loss": 0.4748, + "step": 217 + }, + { + "avg_step_time": 5.989199089281486, + "epoch": 0.023146666666666666, + "eta_time": 15.235857016566626, + "step": 217 + }, + { + "epoch": 0.023253333333333334, + "grad_norm": 3.546059564492797, + "learning_rate": 7.73049645390071e-06, + "loss": 0.4666, + "step": 218 + }, + { + "avg_step_time": 5.991558296511871, + "epoch": 0.023253333333333334, + "eta_time": 15.240194255877556, + "step": 218 + }, + { + "epoch": 0.02336, + "grad_norm": 1.8779378104195115, + "learning_rate": 7.765957446808511e-06, + "loss": 0.4815, + "step": 219 + }, + { + "avg_step_time": 5.94167056709829, + "epoch": 0.02336, + "eta_time": 15.11164880898665, + "step": 219 + }, + { + "epoch": 0.023466666666666667, + "grad_norm": 1.5666975637337142, + "learning_rate": 7.801418439716313e-06, + "loss": 0.5012, + "step": 220 + }, + { + "avg_step_time": 5.977776683942236, + "epoch": 0.023466666666666667, + "eta_time": 15.20181820596977, + "step": 220 + }, + { + "epoch": 0.023573333333333335, + "grad_norm": 0.6445073401874107, + "learning_rate": 7.836879432624114e-06, + "loss": 0.4243, + "step": 221 + }, + { + "avg_step_time": 5.945688897913152, + "epoch": 0.023573333333333335, + "eta_time": 15.118565603193609, + "step": 221 + }, + { + "epoch": 0.02368, + "grad_norm": 1.5940386131994702, + "learning_rate": 7.872340425531916e-06, + "loss": 0.472, + "step": 222 + }, + { + "avg_step_time": 5.933092668803051, + "epoch": 0.02368, + "eta_time": 15.084888110431757, + "step": 222 + }, + { + "epoch": 0.023786666666666668, + "grad_norm": 1.626372047867353, + "learning_rate": 7.907801418439717e-06, + "loss": 0.4864, + "step": 223 + }, + { + "avg_step_time": 5.929359833399455, + "epoch": 0.023786666666666668, + "eta_time": 15.073750332019948, + "step": 223 + }, + { + "epoch": 0.023893333333333332, + "grad_norm": 0.6607514334454305, + "learning_rate": 7.943262411347519e-06, + "loss": 0.4276, + "step": 224 + }, + { + "avg_step_time": 5.879096175685073, + "epoch": 0.023893333333333332, + "eta_time": 14.944335862137251, + "step": 224 + }, + { + "epoch": 0.024, + "grad_norm": 1.7088887230758931, + "learning_rate": 7.97872340425532e-06, + "loss": 0.4818, + "step": 225 + }, + { + "avg_step_time": 5.8772244116272585, + "epoch": 0.024, + "eta_time": 14.937945379552614, + "step": 225 + }, + { + "epoch": 0.024106666666666665, + "grad_norm": 2.2270792463316016, + "learning_rate": 8.014184397163122e-06, + "loss": 0.5042, + "step": 226 + }, + { + "avg_step_time": 5.875762799773553, + "epoch": 0.024106666666666665, + "eta_time": 14.932598293091178, + "step": 226 + }, + { + "epoch": 0.024213333333333333, + "grad_norm": 0.6787277350570751, + "learning_rate": 8.049645390070923e-06, + "loss": 0.4492, + "step": 227 + }, + { + "avg_step_time": 5.797656186903366, + "epoch": 0.024213333333333333, + "eta_time": 14.732488554942218, + "step": 227 + }, + { + "epoch": 0.02432, + "grad_norm": 1.6996967888803347, + "learning_rate": 8.085106382978723e-06, + "loss": 0.5441, + "step": 228 + }, + { + "avg_step_time": 5.8234584596421985, + "epoch": 0.02432, + "eta_time": 14.796437369540886, + "step": 228 + }, + { + "epoch": 0.024426666666666666, + "grad_norm": 1.5145778401395604, + "learning_rate": 8.120567375886525e-06, + "loss": 0.4264, + "step": 229 + }, + { + "avg_step_time": 5.865177520597824, + "epoch": 0.024426666666666666, + "eta_time": 14.90080933427436, + "step": 229 + }, + { + "epoch": 0.024533333333333334, + "grad_norm": 1.7319354111588134, + "learning_rate": 8.156028368794326e-06, + "loss": 0.4815, + "step": 230 + }, + { + "avg_step_time": 5.891840371218595, + "epoch": 0.024533333333333334, + "eta_time": 14.96691116522057, + "step": 230 + }, + { + "epoch": 0.02464, + "grad_norm": 1.3422731816298936, + "learning_rate": 8.191489361702128e-06, + "loss": 0.4342, + "step": 231 + }, + { + "avg_step_time": 5.886725717120701, + "epoch": 0.02464, + "eta_time": 14.95228332148658, + "step": 231 + }, + { + "epoch": 0.024746666666666667, + "grad_norm": 1.859160667081749, + "learning_rate": 8.22695035460993e-06, + "loss": 0.6569, + "step": 232 + }, + { + "avg_step_time": 5.890456235770023, + "epoch": 0.024746666666666667, + "eta_time": 14.960122601012591, + "step": 232 + }, + { + "epoch": 0.024853333333333335, + "grad_norm": 0.6166565765448342, + "learning_rate": 8.26241134751773e-06, + "loss": 0.4006, + "step": 233 + }, + { + "avg_step_time": 5.86590922240055, + "epoch": 0.024853333333333335, + "eta_time": 14.896150586440507, + "step": 233 + }, + { + "epoch": 0.02496, + "grad_norm": 1.7069564282690257, + "learning_rate": 8.297872340425532e-06, + "loss": 0.5302, + "step": 234 + }, + { + "avg_step_time": 5.870685736338298, + "epoch": 0.02496, + "eta_time": 14.90664953218566, + "step": 234 + }, + { + "epoch": 0.025066666666666668, + "grad_norm": 1.5335496332050897, + "learning_rate": 8.333333333333334e-06, + "loss": 0.5354, + "step": 235 + }, + { + "avg_step_time": 5.884715754576404, + "epoch": 0.025066666666666668, + "eta_time": 14.940639443563425, + "step": 235 + }, + { + "epoch": 0.025173333333333332, + "grad_norm": 1.7432025732376732, + "learning_rate": 8.368794326241135e-06, + "loss": 0.4612, + "step": 236 + }, + { + "avg_step_time": 5.88592053663851, + "epoch": 0.025173333333333332, + "eta_time": 14.942063273427594, + "step": 236 + }, + { + "epoch": 0.02528, + "grad_norm": 0.6637228344603382, + "learning_rate": 8.404255319148937e-06, + "loss": 0.4327, + "step": 237 + }, + { + "avg_step_time": 5.856997448988635, + "epoch": 0.02528, + "eta_time": 14.867011858016152, + "step": 237 + }, + { + "epoch": 0.025386666666666665, + "grad_norm": 1.5819883780882504, + "learning_rate": 8.439716312056738e-06, + "loss": 0.5945, + "step": 238 + }, + { + "avg_step_time": 5.8402307322531035, + "epoch": 0.025386666666666665, + "eta_time": 14.822830055721278, + "step": 238 + }, + { + "epoch": 0.025493333333333333, + "grad_norm": 1.748404864476934, + "learning_rate": 8.47517730496454e-06, + "loss": 0.3632, + "step": 239 + }, + { + "avg_step_time": 5.842198135876896, + "epoch": 0.025493333333333333, + "eta_time": 14.826200602603144, + "step": 239 + }, + { + "epoch": 0.0256, + "grad_norm": 1.701791766899899, + "learning_rate": 8.510638297872341e-06, + "loss": 0.4459, + "step": 240 + }, + { + "avg_step_time": 5.840237622309213, + "epoch": 0.0256, + "eta_time": 14.819602966609628, + "step": 240 + }, + { + "epoch": 0.025706666666666666, + "grad_norm": 1.5968585684167704, + "learning_rate": 8.546099290780143e-06, + "loss": 0.4291, + "step": 241 + }, + { + "avg_step_time": 5.838847707016299, + "epoch": 0.025706666666666666, + "eta_time": 14.81445415441302, + "step": 241 + }, + { + "epoch": 0.025813333333333334, + "grad_norm": 1.6876507100380185, + "learning_rate": 8.581560283687944e-06, + "loss": 0.447, + "step": 242 + }, + { + "avg_step_time": 5.84235146792248, + "epoch": 0.025813333333333334, + "eta_time": 14.82172109903778, + "step": 242 + }, + { + "epoch": 0.02592, + "grad_norm": 1.6900518745771924, + "learning_rate": 8.617021276595746e-06, + "loss": 0.4494, + "step": 243 + }, + { + "avg_step_time": 5.836298985914751, + "epoch": 0.02592, + "eta_time": 14.804745094270418, + "step": 243 + }, + { + "epoch": 0.026026666666666667, + "grad_norm": 1.8710174761113934, + "learning_rate": 8.652482269503547e-06, + "loss": 0.5348, + "step": 244 + }, + { + "avg_step_time": 5.837794458023225, + "epoch": 0.026026666666666667, + "eta_time": 14.806916998947242, + "step": 244 + }, + { + "epoch": 0.026133333333333335, + "grad_norm": 1.6125239260870239, + "learning_rate": 8.687943262411349e-06, + "loss": 0.4665, + "step": 245 + }, + { + "avg_step_time": 5.849974381803262, + "epoch": 0.026133333333333335, + "eta_time": 14.836185029406606, + "step": 245 + }, + { + "epoch": 0.02624, + "grad_norm": 1.6730273999951155, + "learning_rate": 8.72340425531915e-06, + "loss": 0.5, + "step": 246 + }, + { + "avg_step_time": 5.894355487341833, + "epoch": 0.02624, + "eta_time": 14.947103123317664, + "step": 246 + }, + { + "epoch": 0.026346666666666668, + "grad_norm": 1.767754076481934, + "learning_rate": 8.758865248226952e-06, + "loss": 0.4702, + "step": 247 + }, + { + "avg_step_time": 5.892405777266531, + "epoch": 0.026346666666666668, + "eta_time": 14.940522204135807, + "step": 247 + }, + { + "epoch": 0.026453333333333332, + "grad_norm": 1.483032556433822, + "learning_rate": 8.794326241134753e-06, + "loss": 0.4413, + "step": 248 + }, + { + "avg_step_time": 5.889423127126212, + "epoch": 0.026453333333333332, + "eta_time": 14.931323578133593, + "step": 248 + }, + { + "epoch": 0.02656, + "grad_norm": 1.6028824005134277, + "learning_rate": 8.829787234042555e-06, + "loss": 0.4844, + "step": 249 + }, + { + "avg_step_time": 5.889269173747361, + "epoch": 0.02656, + "eta_time": 14.92929735544956, + "step": 249 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 1.4229823447062075, + "learning_rate": 8.865248226950355e-06, + "loss": 0.6062, + "step": 250 + }, + { + "avg_step_time": 5.881383110778501, + "epoch": 0.02666666666666667, + "eta_time": 14.907672468292727, + "step": 250 + }, + { + "epoch": 0.026773333333333333, + "grad_norm": 1.6455044560477596, + "learning_rate": 8.900709219858156e-06, + "loss": 0.5282, + "step": 251 + }, + { + "avg_step_time": 5.885088634009313, + "epoch": 0.026773333333333333, + "eta_time": 14.915430193528048, + "step": 251 + }, + { + "epoch": 0.02688, + "grad_norm": 1.806740216691655, + "learning_rate": 8.936170212765958e-06, + "loss": 0.4351, + "step": 252 + }, + { + "avg_step_time": 5.912830959666859, + "epoch": 0.02688, + "eta_time": 14.984099123622432, + "step": 252 + }, + { + "epoch": 0.026986666666666666, + "grad_norm": 1.6161132669946556, + "learning_rate": 8.971631205673759e-06, + "loss": 0.4668, + "step": 253 + }, + { + "avg_step_time": 5.9179694026407565, + "epoch": 0.026986666666666666, + "eta_time": 14.995476914135828, + "step": 253 + }, + { + "epoch": 0.027093333333333334, + "grad_norm": 1.8201220351317897, + "learning_rate": 9.00709219858156e-06, + "loss": 0.4312, + "step": 254 + }, + { + "avg_step_time": 5.912029598698472, + "epoch": 0.027093333333333334, + "eta_time": 14.978783880480211, + "step": 254 + }, + { + "epoch": 0.0272, + "grad_norm": 1.5309521153537338, + "learning_rate": 9.042553191489362e-06, + "loss": 0.524, + "step": 255 + }, + { + "avg_step_time": 5.914635643814549, + "epoch": 0.0272, + "eta_time": 14.983743630996857, + "step": 255 + }, + { + "epoch": 0.027306666666666667, + "grad_norm": 1.6042252643873784, + "learning_rate": 9.078014184397164e-06, + "loss": 0.5049, + "step": 256 + }, + { + "avg_step_time": 5.91302659294822, + "epoch": 0.027306666666666667, + "eta_time": 14.978024861415227, + "step": 256 + }, + { + "epoch": 0.027413333333333335, + "grad_norm": 1.860738427848133, + "learning_rate": 9.113475177304965e-06, + "loss": 0.5555, + "step": 257 + }, + { + "avg_step_time": 5.968252702192827, + "epoch": 0.027413333333333335, + "eta_time": 15.116257816276166, + "step": 257 + }, + { + "epoch": 0.02752, + "grad_norm": 1.676161123987651, + "learning_rate": 9.148936170212767e-06, + "loss": 0.4597, + "step": 258 + }, + { + "avg_step_time": 5.967688926542648, + "epoch": 0.02752, + "eta_time": 15.113172206469256, + "step": 258 + }, + { + "epoch": 0.027626666666666667, + "grad_norm": 1.7746577689502423, + "learning_rate": 9.184397163120568e-06, + "loss": 0.4754, + "step": 259 + }, + { + "avg_step_time": 5.959338823954265, + "epoch": 0.027626666666666667, + "eta_time": 15.090370199768632, + "step": 259 + }, + { + "epoch": 0.027733333333333332, + "grad_norm": 1.5628694592551906, + "learning_rate": 9.21985815602837e-06, + "loss": 0.4735, + "step": 260 + }, + { + "avg_step_time": 5.9563176896837025, + "epoch": 0.027733333333333332, + "eta_time": 15.081065483740819, + "step": 260 + }, + { + "epoch": 0.02784, + "grad_norm": 1.8647705233609164, + "learning_rate": 9.255319148936171e-06, + "loss": 0.4431, + "step": 261 + }, + { + "avg_step_time": 5.975688691091055, + "epoch": 0.02784, + "eta_time": 15.128451869612189, + "step": 261 + }, + { + "epoch": 0.02794666666666667, + "grad_norm": 1.71202304028645, + "learning_rate": 9.290780141843973e-06, + "loss": 0.4727, + "step": 262 + }, + { + "avg_step_time": 5.9801684557789505, + "epoch": 0.02794666666666667, + "eta_time": 15.13813198264266, + "step": 262 + }, + { + "epoch": 0.028053333333333333, + "grad_norm": 1.7348960199807988, + "learning_rate": 9.326241134751774e-06, + "loss": 0.5118, + "step": 263 + }, + { + "avg_step_time": 5.980414031731962, + "epoch": 0.028053333333333333, + "eta_time": 15.137092404761566, + "step": 263 + }, + { + "epoch": 0.02816, + "grad_norm": 1.7411115707023392, + "learning_rate": 9.361702127659576e-06, + "loss": 0.4853, + "step": 264 + }, + { + "avg_step_time": 5.974341190222538, + "epoch": 0.02816, + "eta_time": 15.120061828921541, + "step": 264 + }, + { + "epoch": 0.028266666666666666, + "grad_norm": 1.615624502961425, + "learning_rate": 9.397163120567377e-06, + "loss": 0.4693, + "step": 265 + }, + { + "avg_step_time": 5.97839551501804, + "epoch": 0.028266666666666666, + "eta_time": 15.128661983837317, + "step": 265 + }, + { + "epoch": 0.028373333333333334, + "grad_norm": 1.6783739647902933, + "learning_rate": 9.432624113475179e-06, + "loss": 0.5268, + "step": 266 + }, + { + "avg_step_time": 5.976353332249805, + "epoch": 0.028373333333333334, + "eta_time": 15.121834028739853, + "step": 266 + }, + { + "epoch": 0.02848, + "grad_norm": 1.906542687136002, + "learning_rate": 9.46808510638298e-06, + "loss": 0.5222, + "step": 267 + }, + { + "avg_step_time": 5.942319022284614, + "epoch": 0.02848, + "eta_time": 15.034067126380073, + "step": 267 + }, + { + "epoch": 0.028586666666666666, + "grad_norm": 1.6503119515531048, + "learning_rate": 9.503546099290782e-06, + "loss": 0.4513, + "step": 268 + }, + { + "avg_step_time": 5.9591071557517, + "epoch": 0.028586666666666666, + "eta_time": 15.074885796508536, + "step": 268 + }, + { + "epoch": 0.028693333333333335, + "grad_norm": 0.6842527886050925, + "learning_rate": 9.539007092198583e-06, + "loss": 0.4533, + "step": 269 + }, + { + "avg_step_time": 5.920852420305965, + "epoch": 0.028693333333333335, + "eta_time": 14.976467260918366, + "step": 269 + }, + { + "epoch": 0.0288, + "grad_norm": 1.5644359811030837, + "learning_rate": 9.574468085106385e-06, + "loss": 0.5458, + "step": 270 + }, + { + "avg_step_time": 5.9162025981479225, + "epoch": 0.0288, + "eta_time": 14.963062404482454, + "step": 270 + }, + { + "epoch": 0.028906666666666667, + "grad_norm": 1.9656204850361712, + "learning_rate": 9.609929078014186e-06, + "loss": 0.4723, + "step": 271 + }, + { + "avg_step_time": 5.928488136541964, + "epoch": 0.028906666666666667, + "eta_time": 14.992487776410567, + "step": 271 + }, + { + "epoch": 0.029013333333333332, + "grad_norm": 1.6368037324201465, + "learning_rate": 9.645390070921986e-06, + "loss": 0.439, + "step": 272 + }, + { + "avg_step_time": 5.903453463255757, + "epoch": 0.029013333333333332, + "eta_time": 14.927538021115877, + "step": 272 + }, + { + "epoch": 0.02912, + "grad_norm": 0.6345271751486673, + "learning_rate": 9.680851063829787e-06, + "loss": 0.4154, + "step": 273 + }, + { + "avg_step_time": 5.924975578231041, + "epoch": 0.02912, + "eta_time": 14.98031325362748, + "step": 273 + }, + { + "epoch": 0.029226666666666668, + "grad_norm": 1.628099608481322, + "learning_rate": 9.716312056737589e-06, + "loss": 0.4247, + "step": 274 + }, + { + "avg_step_time": 5.870594698973377, + "epoch": 0.029226666666666668, + "eta_time": 14.84118954315464, + "step": 274 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 0.639296108706194, + "learning_rate": 9.75177304964539e-06, + "loss": 0.4301, + "step": 275 + }, + { + "avg_step_time": 5.8742044887157405, + "epoch": 0.029333333333333333, + "eta_time": 14.848683568698123, + "step": 275 + }, + { + "epoch": 0.02944, + "grad_norm": 1.8573770265488645, + "learning_rate": 9.787234042553192e-06, + "loss": 0.5392, + "step": 276 + }, + { + "avg_step_time": 5.872686542645849, + "epoch": 0.02944, + "eta_time": 14.843215236537382, + "step": 276 + }, + { + "epoch": 0.029546666666666666, + "grad_norm": 1.5209395467663913, + "learning_rate": 9.822695035460993e-06, + "loss": 0.5101, + "step": 277 + }, + { + "avg_step_time": 5.873778786322083, + "epoch": 0.029546666666666666, + "eta_time": 14.844344277210642, + "step": 277 + }, + { + "epoch": 0.029653333333333334, + "grad_norm": 1.6391877648342443, + "learning_rate": 9.858156028368795e-06, + "loss": 0.4806, + "step": 278 + }, + { + "avg_step_time": 5.8740437560611305, + "epoch": 0.029653333333333334, + "eta_time": 14.84338223580225, + "step": 278 + }, + { + "epoch": 0.02976, + "grad_norm": 1.6106791349576712, + "learning_rate": 9.893617021276596e-06, + "loss": 0.4152, + "step": 279 + }, + { + "avg_step_time": 5.8639529016282825, + "epoch": 0.02976, + "eta_time": 14.816254331447462, + "step": 279 + }, + { + "epoch": 0.029866666666666666, + "grad_norm": 1.5886078020512973, + "learning_rate": 9.929078014184398e-06, + "loss": 0.483, + "step": 280 + }, + { + "avg_step_time": 5.857177274395721, + "epoch": 0.029866666666666666, + "eta_time": 14.797507586285857, + "step": 280 + }, + { + "epoch": 0.029973333333333334, + "grad_norm": 1.6185545504155467, + "learning_rate": 9.9645390070922e-06, + "loss": 0.4849, + "step": 281 + }, + { + "avg_step_time": 5.89356015426944, + "epoch": 0.029973333333333334, + "eta_time": 14.887787789701747, + "step": 281 + }, + { + "epoch": 0.03008, + "grad_norm": 1.3966987108977575, + "learning_rate": 1e-05, + "loss": 0.4471, + "step": 282 + }, + { + "avg_step_time": 5.8706194872807975, + "epoch": 0.03008, + "eta_time": 14.82820638829008, + "step": 282 + }, + { + "epoch": 0.030186666666666667, + "grad_norm": 1.9342333379307182, + "learning_rate": 9.999999701581759e-06, + "loss": 0.5339, + "step": 283 + }, + { + "avg_step_time": 5.857969226259174, + "epoch": 0.030186666666666667, + "eta_time": 14.794626723652335, + "step": 283 + }, + { + "epoch": 0.030293333333333332, + "grad_norm": 1.6354971631207957, + "learning_rate": 9.99999880632707e-06, + "loss": 0.5118, + "step": 284 + }, + { + "avg_step_time": 5.860864995705961, + "epoch": 0.030293333333333332, + "eta_time": 14.800312132211914, + "step": 284 + }, + { + "epoch": 0.0304, + "grad_norm": 1.654675033814602, + "learning_rate": 9.999997314236036e-06, + "loss": 0.4654, + "step": 285 + }, + { + "avg_step_time": 5.856271250079376, + "epoch": 0.0304, + "eta_time": 14.787084906450424, + "step": 285 + }, + { + "epoch": 0.030506666666666668, + "grad_norm": 1.5950839015031097, + "learning_rate": 9.999995225308842e-06, + "loss": 0.4187, + "step": 286 + }, + { + "avg_step_time": 5.84315641239436, + "epoch": 0.030506666666666668, + "eta_time": 14.752346842292315, + "step": 286 + }, + { + "epoch": 0.030613333333333333, + "grad_norm": 1.6037351853097819, + "learning_rate": 9.999992539545732e-06, + "loss": 0.4727, + "step": 287 + }, + { + "avg_step_time": 5.824545653179438, + "epoch": 0.030613333333333333, + "eta_time": 14.70374191558187, + "step": 287 + }, + { + "epoch": 0.03072, + "grad_norm": 1.4055645413544184, + "learning_rate": 9.999989256947029e-06, + "loss": 0.4304, + "step": 288 + }, + { + "avg_step_time": 5.827045101107973, + "epoch": 0.03072, + "eta_time": 14.708433009380041, + "step": 288 + }, + { + "epoch": 0.030826666666666665, + "grad_norm": 1.7507025674286092, + "learning_rate": 9.999985377513126e-06, + "loss": 0.4703, + "step": 289 + }, + { + "avg_step_time": 5.828018838709051, + "epoch": 0.030826666666666665, + "eta_time": 14.7092719912529, + "step": 289 + }, + { + "epoch": 0.030933333333333334, + "grad_norm": 2.6135576296830743, + "learning_rate": 9.999980901244483e-06, + "loss": 0.5069, + "step": 290 + }, + { + "avg_step_time": 5.830264447915433, + "epoch": 0.030933333333333334, + "eta_time": 14.713320141475476, + "step": 290 + }, + { + "epoch": 0.03104, + "grad_norm": 1.4297616544458525, + "learning_rate": 9.999975828141635e-06, + "loss": 0.4947, + "step": 291 + }, + { + "avg_step_time": 5.8295366667737865, + "epoch": 0.03104, + "eta_time": 14.709864189159187, + "step": 291 + }, + { + "epoch": 0.031146666666666666, + "grad_norm": 0.7122736151204531, + "learning_rate": 9.99997015820519e-06, + "loss": 0.4379, + "step": 292 + }, + { + "avg_step_time": 5.800688233038391, + "epoch": 0.031146666666666666, + "eta_time": 14.635458672413252, + "step": 292 + }, + { + "epoch": 0.031253333333333334, + "grad_norm": 1.7850121767155833, + "learning_rate": 9.999963891435822e-06, + "loss": 0.4684, + "step": 293 + }, + { + "avg_step_time": 5.831162219095712, + "epoch": 0.031253333333333334, + "eta_time": 14.710726464952016, + "step": 293 + }, + { + "epoch": 0.03136, + "grad_norm": 1.733640428659447, + "learning_rate": 9.999957027834282e-06, + "loss": 0.5007, + "step": 294 + }, + { + "avg_step_time": 5.82992289042232, + "epoch": 0.03136, + "eta_time": 14.705980491090301, + "step": 294 + }, + { + "epoch": 0.031466666666666664, + "grad_norm": 1.6104338261179538, + "learning_rate": 9.999949567401386e-06, + "loss": 0.5182, + "step": 295 + }, + { + "avg_step_time": 5.829138206713127, + "epoch": 0.031466666666666664, + "eta_time": 14.702381921376443, + "step": 295 + }, + { + "epoch": 0.031573333333333335, + "grad_norm": 0.7266403163207199, + "learning_rate": 9.999941510138025e-06, + "loss": 0.4487, + "step": 296 + }, + { + "avg_step_time": 5.7958628119844375, + "epoch": 0.031573333333333335, + "eta_time": 14.616844019446308, + "step": 296 + }, + { + "epoch": 0.03168, + "grad_norm": 1.704170302479292, + "learning_rate": 9.999932856045164e-06, + "loss": 0.4448, + "step": 297 + }, + { + "avg_step_time": 5.7954932029801185, + "epoch": 0.03168, + "eta_time": 14.6143020268482, + "step": 297 + }, + { + "epoch": 0.031786666666666664, + "grad_norm": 1.6748522613674686, + "learning_rate": 9.999923605123833e-06, + "loss": 0.5089, + "step": 298 + }, + { + "avg_step_time": 5.796785884433323, + "epoch": 0.031786666666666664, + "eta_time": 14.61595152027813, + "step": 298 + }, + { + "epoch": 0.031893333333333336, + "grad_norm": 1.5484771970001887, + "learning_rate": 9.999913757375138e-06, + "loss": 0.5233, + "step": 299 + }, + { + "avg_step_time": 5.798869065564088, + "epoch": 0.031893333333333336, + "eta_time": 14.619593233072129, + "step": 299 + }, + { + "epoch": 0.032, + "grad_norm": 1.7346049626925304, + "learning_rate": 9.99990331280025e-06, + "loss": 0.492, + "step": 300 + }, + { + "avg_step_time": 5.800591314681853, + "epoch": 0.032, + "eta_time": 14.622323939093837, + "step": 300 + }, + { + "epoch": 0.032106666666666665, + "grad_norm": 0.6696545912882741, + "learning_rate": 9.999892271400424e-06, + "loss": 0.4511, + "step": 301 + }, + { + "avg_step_time": 5.758259575776379, + "epoch": 0.032106666666666665, + "eta_time": 14.51401316405413, + "step": 301 + }, + { + "epoch": 0.03221333333333333, + "grad_norm": 1.4539208425335695, + "learning_rate": 9.99988063317697e-06, + "loss": 0.4991, + "step": 302 + }, + { + "avg_step_time": 5.754669692781237, + "epoch": 0.03221333333333333, + "eta_time": 14.503366145167822, + "step": 302 + }, + { + "epoch": 0.03232, + "grad_norm": 1.520818433817979, + "learning_rate": 9.999868398131282e-06, + "loss": 0.4209, + "step": 303 + }, + { + "avg_step_time": 5.751823769675361, + "epoch": 0.03232, + "eta_time": 14.49459589958191, + "step": 303 + }, + { + "epoch": 0.032426666666666666, + "grad_norm": 1.6974150120499116, + "learning_rate": 9.999855566264818e-06, + "loss": 0.4359, + "step": 304 + }, + { + "avg_step_time": 5.751169744164053, + "epoch": 0.032426666666666666, + "eta_time": 14.491350208142256, + "step": 304 + }, + { + "epoch": 0.03253333333333333, + "grad_norm": 1.5014468622565893, + "learning_rate": 9.999842137579112e-06, + "loss": 0.3551, + "step": 305 + }, + { + "avg_step_time": 5.713897611155654, + "epoch": 0.03253333333333333, + "eta_time": 14.395847592550496, + "step": 305 + }, + { + "epoch": 0.03264, + "grad_norm": 1.8981590352992215, + "learning_rate": 9.999828112075764e-06, + "loss": 0.5583, + "step": 306 + }, + { + "avg_step_time": 5.715591731697622, + "epoch": 0.03264, + "eta_time": 14.39852817076826, + "step": 306 + }, + { + "epoch": 0.03274666666666667, + "grad_norm": 1.8280132324646667, + "learning_rate": 9.999813489756452e-06, + "loss": 0.4499, + "step": 307 + }, + { + "avg_step_time": 5.71126244044063, + "epoch": 0.03274666666666667, + "eta_time": 14.386035502754343, + "step": 307 + }, + { + "epoch": 0.03285333333333333, + "grad_norm": 1.6290231388119074, + "learning_rate": 9.999798270622918e-06, + "loss": 0.475, + "step": 308 + }, + { + "avg_step_time": 5.71260616273591, + "epoch": 0.03285333333333333, + "eta_time": 14.387833354868471, + "step": 308 + }, + { + "epoch": 0.03296, + "grad_norm": 1.7886809338887988, + "learning_rate": 9.99978245467698e-06, + "loss": 0.5427, + "step": 309 + }, + { + "avg_step_time": 5.736998577310581, + "epoch": 0.03296, + "eta_time": 14.447674750527147, + "step": 309 + }, + { + "epoch": 0.03306666666666667, + "grad_norm": 0.6746591348436414, + "learning_rate": 9.999766041920525e-06, + "loss": 0.416, + "step": 310 + }, + { + "avg_step_time": 5.7053106312799935, + "epoch": 0.03306666666666667, + "eta_time": 14.366289131264763, + "step": 310 + }, + { + "epoch": 0.03317333333333333, + "grad_norm": 1.6552108664641776, + "learning_rate": 9.999749032355514e-06, + "loss": 0.4501, + "step": 311 + }, + { + "avg_step_time": 5.704641662462794, + "epoch": 0.03317333333333333, + "eta_time": 14.363020007934102, + "step": 311 + }, + { + "epoch": 0.03328, + "grad_norm": 0.6212441661114074, + "learning_rate": 9.999731425983975e-06, + "loss": 0.4234, + "step": 312 + }, + { + "avg_step_time": 5.666175750770954, + "epoch": 0.03328, + "eta_time": 14.264597452565877, + "step": 312 + }, + { + "epoch": 0.03338666666666667, + "grad_norm": 1.6000824794900892, + "learning_rate": 9.999713222808014e-06, + "loss": 0.4929, + "step": 313 + }, + { + "avg_step_time": 5.672303989680127, + "epoch": 0.03338666666666667, + "eta_time": 14.278449654022586, + "step": 313 + }, + { + "epoch": 0.03349333333333333, + "grad_norm": 1.497636334005993, + "learning_rate": 9.999694422829798e-06, + "loss": 0.5162, + "step": 314 + }, + { + "avg_step_time": 5.678237464692858, + "epoch": 0.03349333333333333, + "eta_time": 14.291808240994994, + "step": 314 + }, + { + "epoch": 0.0336, + "grad_norm": 1.7099058387685853, + "learning_rate": 9.999675026051576e-06, + "loss": 0.5599, + "step": 315 + }, + { + "avg_step_time": 5.677142054143578, + "epoch": 0.0336, + "eta_time": 14.287474169594672, + "step": 315 + }, + { + "epoch": 0.03370666666666667, + "grad_norm": 1.7081635170183596, + "learning_rate": 9.99965503247566e-06, + "loss": 0.4946, + "step": 316 + }, + { + "avg_step_time": 5.683393846858632, + "epoch": 0.03370666666666667, + "eta_time": 14.30162912741454, + "step": 316 + }, + { + "epoch": 0.033813333333333334, + "grad_norm": 1.7924909810433876, + "learning_rate": 9.999634442104438e-06, + "loss": 0.5638, + "step": 317 + }, + { + "avg_step_time": 5.685531310360841, + "epoch": 0.033813333333333334, + "eta_time": 14.305428502569027, + "step": 317 + }, + { + "epoch": 0.03392, + "grad_norm": 1.5526296890934428, + "learning_rate": 9.999613254940368e-06, + "loss": 0.502, + "step": 318 + }, + { + "avg_step_time": 5.685400086219865, + "epoch": 0.03392, + "eta_time": 14.303519050248141, + "step": 318 + }, + { + "epoch": 0.03402666666666666, + "grad_norm": 1.5239369525104967, + "learning_rate": 9.999591470985979e-06, + "loss": 0.4679, + "step": 319 + }, + { + "avg_step_time": 5.693445643993339, + "epoch": 0.03402666666666666, + "eta_time": 14.322178820001023, + "step": 319 + }, + { + "epoch": 0.034133333333333335, + "grad_norm": 1.853598286243358, + "learning_rate": 9.99956909024387e-06, + "loss": 0.4409, + "step": 320 + }, + { + "avg_step_time": 5.725730823748039, + "epoch": 0.034133333333333335, + "eta_time": 14.401803502510692, + "step": 320 + }, + { + "epoch": 0.03424, + "grad_norm": 1.4761176472034148, + "learning_rate": 9.999546112716715e-06, + "loss": 0.5133, + "step": 321 + }, + { + "avg_step_time": 5.720228659986246, + "epoch": 0.03424, + "eta_time": 14.38637507986541, + "step": 321 + }, + { + "epoch": 0.034346666666666664, + "grad_norm": 1.6595088646430662, + "learning_rate": 9.999522538407253e-06, + "loss": 0.5708, + "step": 322 + }, + { + "avg_step_time": 5.72250321176317, + "epoch": 0.034346666666666664, + "eta_time": 14.390505993358882, + "step": 322 + }, + { + "epoch": 0.034453333333333336, + "grad_norm": 1.70507229778728, + "learning_rate": 9.999498367318303e-06, + "loss": 0.5089, + "step": 323 + }, + { + "avg_step_time": 5.757012649015947, + "epoch": 0.034453333333333336, + "eta_time": 14.475688471914543, + "step": 323 + }, + { + "epoch": 0.03456, + "grad_norm": 0.651024514266122, + "learning_rate": 9.999473599452746e-06, + "loss": 0.4336, + "step": 324 + }, + { + "avg_step_time": 5.748130880220972, + "epoch": 0.03456, + "eta_time": 14.451759054688894, + "step": 324 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 2.1639211080944567, + "learning_rate": 9.999448234813541e-06, + "loss": 0.5192, + "step": 325 + }, + { + "avg_step_time": 5.748411477214158, + "epoch": 0.034666666666666665, + "eta_time": 14.450867741330034, + "step": 325 + }, + { + "epoch": 0.03477333333333334, + "grad_norm": 1.5966727464213, + "learning_rate": 9.999422273403714e-06, + "loss": 0.4731, + "step": 326 + }, + { + "avg_step_time": 5.78058126719311, + "epoch": 0.03477333333333334, + "eta_time": 14.530133301897347, + "step": 326 + }, + { + "epoch": 0.03488, + "grad_norm": 1.4492453007691013, + "learning_rate": 9.999395715226365e-06, + "loss": 0.4603, + "step": 327 + }, + { + "avg_step_time": 5.7559714076494926, + "epoch": 0.03488, + "eta_time": 14.466674804559057, + "step": 327 + }, + { + "epoch": 0.034986666666666666, + "grad_norm": 1.6272841475331978, + "learning_rate": 9.999368560284663e-06, + "loss": 0.513, + "step": 328 + }, + { + "avg_step_time": 5.713583399551084, + "epoch": 0.034986666666666666, + "eta_time": 14.358552504371847, + "step": 328 + }, + { + "epoch": 0.03509333333333333, + "grad_norm": 1.515910488534664, + "learning_rate": 9.999340808581851e-06, + "loss": 0.467, + "step": 329 + }, + { + "avg_step_time": 5.744489612001361, + "epoch": 0.03509333333333333, + "eta_time": 14.43462584171231, + "step": 329 + }, + { + "epoch": 0.0352, + "grad_norm": 1.4792425629939026, + "learning_rate": 9.999312460121242e-06, + "loss": 0.4324, + "step": 330 + }, + { + "avg_step_time": 5.751511607507263, + "epoch": 0.0352, + "eta_time": 14.450672913861997, + "step": 330 + }, + { + "epoch": 0.03530666666666667, + "grad_norm": 1.5769395994467579, + "learning_rate": 9.999283514906217e-06, + "loss": 0.502, + "step": 331 + }, + { + "avg_step_time": 5.747732766950973, + "epoch": 0.03530666666666667, + "eta_time": 14.439581984529056, + "step": 331 + }, + { + "epoch": 0.03541333333333333, + "grad_norm": 1.706112700798078, + "learning_rate": 9.999253972940233e-06, + "loss": 0.5425, + "step": 332 + }, + { + "avg_step_time": 5.7771667904324, + "epoch": 0.03541333333333333, + "eta_time": 14.51192202385561, + "step": 332 + }, + { + "epoch": 0.03552, + "grad_norm": 0.667923559441938, + "learning_rate": 9.999223834226817e-06, + "loss": 0.4325, + "step": 333 + }, + { + "avg_step_time": 5.738870861554386, + "epoch": 0.03552, + "eta_time": 14.414130647270767, + "step": 333 + }, + { + "epoch": 0.03562666666666667, + "grad_norm": 1.5337407706665593, + "learning_rate": 9.999193098769566e-06, + "loss": 0.4892, + "step": 334 + }, + { + "avg_step_time": 5.729249708580248, + "epoch": 0.03562666666666667, + "eta_time": 14.38837405979834, + "step": 334 + }, + { + "epoch": 0.03573333333333333, + "grad_norm": 1.7345796608890143, + "learning_rate": 9.999161766572148e-06, + "loss": 0.449, + "step": 335 + }, + { + "avg_step_time": 5.724169709465721, + "epoch": 0.03573333333333333, + "eta_time": 14.374026159325032, + "step": 335 + }, + { + "epoch": 0.03584, + "grad_norm": 1.7871940438199243, + "learning_rate": 9.999129837638303e-06, + "loss": 0.5139, + "step": 336 + }, + { + "avg_step_time": 5.750585392268017, + "epoch": 0.03584, + "eta_time": 14.43876148908628, + "step": 336 + }, + { + "epoch": 0.03594666666666667, + "grad_norm": 1.4642923290959144, + "learning_rate": 9.999097311971846e-06, + "loss": 0.459, + "step": 337 + }, + { + "avg_step_time": 5.748853281290844, + "epoch": 0.03594666666666667, + "eta_time": 14.432815543418513, + "step": 337 + }, + { + "epoch": 0.03605333333333333, + "grad_norm": 1.976734288737464, + "learning_rate": 9.999064189576653e-06, + "loss": 0.5139, + "step": 338 + }, + { + "avg_step_time": 5.752452286806974, + "epoch": 0.03605333333333333, + "eta_time": 14.440253143298506, + "step": 338 + }, + { + "epoch": 0.03616, + "grad_norm": 1.8715660879273568, + "learning_rate": 9.999030470456684e-06, + "loss": 0.5171, + "step": 339 + }, + { + "avg_step_time": 5.760310274181944, + "epoch": 0.03616, + "eta_time": 14.458378788196681, + "step": 339 + }, + { + "epoch": 0.03626666666666667, + "grad_norm": 0.6564386098879205, + "learning_rate": 9.998996154615959e-06, + "loss": 0.4288, + "step": 340 + }, + { + "avg_step_time": 5.724892736685397, + "epoch": 0.03626666666666667, + "eta_time": 14.367890521097932, + "step": 340 + }, + { + "epoch": 0.036373333333333334, + "grad_norm": 1.9006463592550735, + "learning_rate": 9.998961242058578e-06, + "loss": 0.498, + "step": 341 + }, + { + "avg_step_time": 5.718906840892753, + "epoch": 0.036373333333333334, + "eta_time": 14.351279000173648, + "step": 341 + }, + { + "epoch": 0.03648, + "grad_norm": 1.66913943489471, + "learning_rate": 9.998925732788706e-06, + "loss": 0.5384, + "step": 342 + }, + { + "avg_step_time": 5.71843287920711, + "epoch": 0.03648, + "eta_time": 14.348501166077172, + "step": 342 + }, + { + "epoch": 0.03658666666666667, + "grad_norm": 1.751225343419792, + "learning_rate": 9.998889626810581e-06, + "loss": 0.5106, + "step": 343 + }, + { + "avg_step_time": 5.724891089429759, + "epoch": 0.03658666666666667, + "eta_time": 14.363115644369328, + "step": 343 + }, + { + "epoch": 0.036693333333333335, + "grad_norm": 1.826752020708614, + "learning_rate": 9.998852924128518e-06, + "loss": 0.47, + "step": 344 + }, + { + "avg_step_time": 5.69861067425121, + "epoch": 0.036693333333333335, + "eta_time": 14.295598055322966, + "step": 344 + }, + { + "epoch": 0.0368, + "grad_norm": 1.5360602716586935, + "learning_rate": 9.99881562474689e-06, + "loss": 0.4173, + "step": 345 + }, + { + "avg_step_time": 5.65266442539716, + "epoch": 0.0368, + "eta_time": 14.17876660037121, + "step": 345 + }, + { + "epoch": 0.036906666666666664, + "grad_norm": 1.8635247746021466, + "learning_rate": 9.998777728670156e-06, + "loss": 0.5332, + "step": 346 + }, + { + "avg_step_time": 5.655892634632612, + "epoch": 0.036906666666666664, + "eta_time": 14.185292943916071, + "step": 346 + }, + { + "epoch": 0.037013333333333336, + "grad_norm": 1.8072219199049409, + "learning_rate": 9.998739235902836e-06, + "loss": 0.4609, + "step": 347 + }, + { + "avg_step_time": 5.651266273826059, + "epoch": 0.037013333333333336, + "eta_time": 14.172119977806018, + "step": 347 + }, + { + "epoch": 0.03712, + "grad_norm": 1.6196918394477804, + "learning_rate": 9.998700146449528e-06, + "loss": 0.4793, + "step": 348 + }, + { + "avg_step_time": 5.655819413637874, + "epoch": 0.03712, + "eta_time": 14.181967179696969, + "step": 348 + }, + { + "epoch": 0.037226666666666665, + "grad_norm": 1.7326087187243329, + "learning_rate": 9.998660460314895e-06, + "loss": 0.6157, + "step": 349 + }, + { + "avg_step_time": 5.652355885264849, + "epoch": 0.037226666666666665, + "eta_time": 14.17171228344459, + "step": 349 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 1.6352706145606566, + "learning_rate": 9.998620177503675e-06, + "loss": 0.4557, + "step": 350 + }, + { + "avg_step_time": 5.6523757944203386, + "epoch": 0.037333333333333336, + "eta_time": 14.17019209573432, + "step": 350 + }, + { + "epoch": 0.03744, + "grad_norm": 1.8188885724336519, + "learning_rate": 9.998579298020676e-06, + "loss": 0.5415, + "step": 351 + }, + { + "avg_step_time": 5.652115853145869, + "epoch": 0.03744, + "eta_time": 14.167970405218979, + "step": 351 + }, + { + "epoch": 0.037546666666666666, + "grad_norm": 0.6402976108420091, + "learning_rate": 9.99853782187078e-06, + "loss": 0.4139, + "step": 352 + }, + { + "avg_step_time": 5.612959038127553, + "epoch": 0.037546666666666666, + "eta_time": 14.068258166951363, + "step": 352 + }, + { + "epoch": 0.03765333333333333, + "grad_norm": 1.6776046516317278, + "learning_rate": 9.998495749058935e-06, + "loss": 0.4546, + "step": 353 + }, + { + "avg_step_time": 5.621834771801727, + "epoch": 0.03765333333333333, + "eta_time": 14.088942586443105, + "step": 353 + }, + { + "epoch": 0.03776, + "grad_norm": 0.6529579687601269, + "learning_rate": 9.998453079590167e-06, + "loss": 0.4386, + "step": 354 + }, + { + "avg_step_time": 5.588095506032308, + "epoch": 0.03776, + "eta_time": 14.002835988865959, + "step": 354 + }, + { + "epoch": 0.037866666666666667, + "grad_norm": 1.8020269268890456, + "learning_rate": 9.998409813469563e-06, + "loss": 0.4432, + "step": 355 + }, + { + "avg_step_time": 5.590131196108731, + "epoch": 0.037866666666666667, + "eta_time": 14.006384274694655, + "step": 355 + }, + { + "epoch": 0.03797333333333333, + "grad_norm": 0.6628764896996457, + "learning_rate": 9.998365950702294e-06, + "loss": 0.4291, + "step": 356 + }, + { + "avg_step_time": 5.5034418419154, + "epoch": 0.03797333333333333, + "eta_time": 13.787650547843054, + "step": 356 + }, + { + "epoch": 0.03808, + "grad_norm": 0.6338962581675657, + "learning_rate": 9.998321491293592e-06, + "loss": 0.4348, + "step": 357 + }, + { + "avg_step_time": 5.475429125506468, + "epoch": 0.03808, + "eta_time": 13.715949959393702, + "step": 357 + }, + { + "epoch": 0.03818666666666667, + "grad_norm": 1.804048547428823, + "learning_rate": 9.998276435248766e-06, + "loss": 0.5048, + "step": 358 + }, + { + "avg_step_time": 5.486223110044845, + "epoch": 0.03818666666666667, + "eta_time": 13.741464939798435, + "step": 358 + }, + { + "epoch": 0.03829333333333333, + "grad_norm": 0.6443176380997458, + "learning_rate": 9.998230782573192e-06, + "loss": 0.4609, + "step": 359 + }, + { + "avg_step_time": 5.457791070745449, + "epoch": 0.03829333333333333, + "eta_time": 13.668734526066936, + "step": 359 + }, + { + "epoch": 0.0384, + "grad_norm": 1.9742400253308106, + "learning_rate": 9.998184533272321e-06, + "loss": 0.6161, + "step": 360 + }, + { + "avg_step_time": 5.436436101643726, + "epoch": 0.0384, + "eta_time": 13.613742071199498, + "step": 360 + }, + { + "epoch": 0.03850666666666667, + "grad_norm": 1.7697930706033465, + "learning_rate": 9.998137687351675e-06, + "loss": 0.4749, + "step": 361 + }, + { + "avg_step_time": 5.431933923201128, + "epoch": 0.03850666666666667, + "eta_time": 13.600958995481935, + "step": 361 + }, + { + "epoch": 0.03861333333333333, + "grad_norm": 0.6888743412053155, + "learning_rate": 9.998090244816841e-06, + "loss": 0.4384, + "step": 362 + }, + { + "avg_step_time": 5.396337138281928, + "epoch": 0.03861333333333333, + "eta_time": 13.510329618704171, + "step": 362 + }, + { + "epoch": 0.03872, + "grad_norm": 1.4606432989722744, + "learning_rate": 9.998042205673489e-06, + "loss": 0.5144, + "step": 363 + }, + { + "avg_step_time": 5.395732475049568, + "epoch": 0.03872, + "eta_time": 13.507316962540754, + "step": 363 + }, + { + "epoch": 0.03882666666666667, + "grad_norm": 1.5672798904327399, + "learning_rate": 9.997993569927347e-06, + "loss": 0.5005, + "step": 364 + }, + { + "avg_step_time": 5.391258174722845, + "epoch": 0.03882666666666667, + "eta_time": 13.49461872567432, + "step": 364 + }, + { + "epoch": 0.038933333333333334, + "grad_norm": 1.6364207777487472, + "learning_rate": 9.997944337584224e-06, + "loss": 0.5066, + "step": 365 + }, + { + "avg_step_time": 5.391900255222513, + "epoch": 0.038933333333333334, + "eta_time": 13.494728138765234, + "step": 365 + }, + { + "epoch": 0.03904, + "grad_norm": 1.5005438091372312, + "learning_rate": 9.997894508649995e-06, + "loss": 0.5084, + "step": 366 + }, + { + "avg_step_time": 5.391589321271337, + "epoch": 0.03904, + "eta_time": 13.492452276481522, + "step": 366 + }, + { + "epoch": 0.03914666666666667, + "grad_norm": 1.841753274205304, + "learning_rate": 9.99784408313061e-06, + "loss": 0.4976, + "step": 367 + }, + { + "avg_step_time": 5.377972882203381, + "epoch": 0.03914666666666667, + "eta_time": 13.456883256357795, + "step": 367 + }, + { + "epoch": 0.039253333333333335, + "grad_norm": 1.509425445949397, + "learning_rate": 9.997793061032087e-06, + "loss": 0.4712, + "step": 368 + }, + { + "avg_step_time": 5.390241001591538, + "epoch": 0.039253333333333335, + "eta_time": 13.486083528148606, + "step": 368 + }, + { + "epoch": 0.03936, + "grad_norm": 1.3364960815522091, + "learning_rate": 9.997741442360515e-06, + "loss": 0.4643, + "step": 369 + }, + { + "avg_step_time": 5.3919172624144895, + "epoch": 0.03936, + "eta_time": 13.488779684806914, + "step": 369 + }, + { + "epoch": 0.039466666666666664, + "grad_norm": 1.6375041482482953, + "learning_rate": 9.99768922712206e-06, + "loss": 0.4478, + "step": 370 + }, + { + "avg_step_time": 5.378338529606058, + "epoch": 0.039466666666666664, + "eta_time": 13.453316238639598, + "step": 370 + }, + { + "epoch": 0.039573333333333335, + "grad_norm": 1.680891438825607, + "learning_rate": 9.997636415322949e-06, + "loss": 0.4905, + "step": 371 + }, + { + "avg_step_time": 5.376921752486566, + "epoch": 0.039573333333333335, + "eta_time": 13.448278738719178, + "step": 371 + }, + { + "epoch": 0.03968, + "grad_norm": 1.6855205130184487, + "learning_rate": 9.99758300696949e-06, + "loss": 0.5477, + "step": 372 + }, + { + "avg_step_time": 5.388687911659781, + "epoch": 0.03968, + "eta_time": 13.476210352409169, + "step": 372 + }, + { + "epoch": 0.039786666666666665, + "grad_norm": 1.6955811942488241, + "learning_rate": 9.997529002068056e-06, + "loss": 0.5249, + "step": 373 + }, + { + "avg_step_time": 5.391217698954573, + "epoch": 0.039786666666666665, + "eta_time": 13.481039368330295, + "step": 373 + }, + { + "epoch": 0.039893333333333336, + "grad_norm": 1.6442783430623042, + "learning_rate": 9.997474400625096e-06, + "loss": 0.5021, + "step": 374 + }, + { + "avg_step_time": 5.421682386687308, + "epoch": 0.039893333333333336, + "eta_time": 13.55571198960346, + "step": 374 + }, + { + "epoch": 0.04, + "grad_norm": 1.5411990425296285, + "learning_rate": 9.997419202647124e-06, + "loss": 0.5107, + "step": 375 + }, + { + "avg_step_time": 5.419586533247823, + "epoch": 0.04, + "eta_time": 13.548966333119555, + "step": 375 + }, + { + "epoch": 0.040106666666666665, + "grad_norm": 1.65724791414127, + "learning_rate": 9.997363408140732e-06, + "loss": 0.475, + "step": 376 + }, + { + "avg_step_time": 5.4320725696255465, + "epoch": 0.040106666666666665, + "eta_time": 13.578672515016747, + "step": 376 + }, + { + "epoch": 0.04021333333333333, + "grad_norm": 1.5324311432229758, + "learning_rate": 9.997307017112579e-06, + "loss": 0.4614, + "step": 377 + }, + { + "avg_step_time": 5.430536901107942, + "epoch": 0.04021333333333333, + "eta_time": 13.573325287824796, + "step": 377 + }, + { + "epoch": 0.04032, + "grad_norm": 1.5965731765950988, + "learning_rate": 9.997250029569395e-06, + "loss": 0.5235, + "step": 378 + }, + { + "avg_step_time": 5.445992460154524, + "epoch": 0.04032, + "eta_time": 13.610442823336182, + "step": 378 + }, + { + "epoch": 0.040426666666666666, + "grad_norm": 1.6885200342160176, + "learning_rate": 9.997192445517985e-06, + "loss": 0.5457, + "step": 379 + }, + { + "avg_step_time": 5.439375877380371, + "epoch": 0.040426666666666666, + "eta_time": 13.592395942476061, + "step": 379 + }, + { + "epoch": 0.04053333333333333, + "grad_norm": 1.3820928950804334, + "learning_rate": 9.99713426496522e-06, + "loss": 0.4738, + "step": 380 + }, + { + "avg_step_time": 5.43836176034176, + "epoch": 0.04053333333333333, + "eta_time": 13.588351120631703, + "step": 380 + }, + { + "epoch": 0.04064, + "grad_norm": 1.9461252702578178, + "learning_rate": 9.997075487918047e-06, + "loss": 0.464, + "step": 381 + }, + { + "avg_step_time": 5.467712780441901, + "epoch": 0.04064, + "eta_time": 13.660169096470682, + "step": 381 + }, + { + "epoch": 0.04074666666666667, + "grad_norm": 1.7685321572084074, + "learning_rate": 9.99701611438348e-06, + "loss": 0.5644, + "step": 382 + }, + { + "avg_step_time": 5.465982892296531, + "epoch": 0.04074666666666667, + "eta_time": 13.654328930672975, + "step": 382 + }, + { + "epoch": 0.04085333333333333, + "grad_norm": 1.5387036891170247, + "learning_rate": 9.996956144368608e-06, + "loss": 0.3934, + "step": 383 + }, + { + "avg_step_time": 5.469996560703624, + "epoch": 0.04085333333333333, + "eta_time": 13.662835853846385, + "step": 383 + }, + { + "epoch": 0.04096, + "grad_norm": 0.6663281440850367, + "learning_rate": 9.99689557788059e-06, + "loss": 0.4372, + "step": 384 + }, + { + "avg_step_time": 5.435665754356769, + "epoch": 0.04096, + "eta_time": 13.575575221506032, + "step": 384 + }, + { + "epoch": 0.04106666666666667, + "grad_norm": 1.514712918808297, + "learning_rate": 9.996834414926653e-06, + "loss": 0.5035, + "step": 385 + }, + { + "avg_step_time": 5.436807129118177, + "epoch": 0.04106666666666667, + "eta_time": 13.576915580770116, + "step": 385 + }, + { + "epoch": 0.04117333333333333, + "grad_norm": 1.7108243663614842, + "learning_rate": 9.9967726555141e-06, + "loss": 0.491, + "step": 386 + }, + { + "avg_step_time": 5.437527509650799, + "epoch": 0.04117333333333333, + "eta_time": 13.577204106736398, + "step": 386 + }, + { + "epoch": 0.04128, + "grad_norm": 1.5932801397199101, + "learning_rate": 9.996710299650302e-06, + "loss": 0.459, + "step": 387 + }, + { + "avg_step_time": 5.467479255464342, + "epoch": 0.04128, + "eta_time": 13.65047320780931, + "step": 387 + }, + { + "epoch": 0.04138666666666667, + "grad_norm": 1.7023547587200887, + "learning_rate": 9.996647347342703e-06, + "loss": 0.4926, + "step": 388 + }, + { + "avg_step_time": 5.464260999602501, + "epoch": 0.04138666666666667, + "eta_time": 13.640920445396576, + "step": 388 + }, + { + "epoch": 0.04149333333333333, + "grad_norm": 1.706929337283041, + "learning_rate": 9.996583798598816e-06, + "loss": 0.4506, + "step": 389 + }, + { + "avg_step_time": 5.463561098984997, + "epoch": 0.04149333333333333, + "eta_time": 13.637655565410887, + "step": 389 + }, + { + "epoch": 0.0416, + "grad_norm": 1.5630946864338506, + "learning_rate": 9.996519653426229e-06, + "loss": 0.4038, + "step": 390 + }, + { + "avg_step_time": 5.468049434700397, + "epoch": 0.0416, + "eta_time": 13.64734004743974, + "step": 390 + }, + { + "epoch": 0.04170666666666667, + "grad_norm": 1.6012809898583846, + "learning_rate": 9.996454911832598e-06, + "loss": 0.3737, + "step": 391 + }, + { + "avg_step_time": 5.496483106805821, + "epoch": 0.04170666666666667, + "eta_time": 13.716778953206525, + "step": 391 + }, + { + "epoch": 0.041813333333333334, + "grad_norm": 1.8298713239442974, + "learning_rate": 9.99638957382565e-06, + "loss": 0.4832, + "step": 392 + }, + { + "avg_step_time": 5.46459550086898, + "epoch": 0.041813333333333334, + "eta_time": 13.635683717862792, + "step": 392 + }, + { + "epoch": 0.04192, + "grad_norm": 1.7466169998226915, + "learning_rate": 9.996323639413185e-06, + "loss": 0.4675, + "step": 393 + }, + { + "avg_step_time": 5.468082160660715, + "epoch": 0.04192, + "eta_time": 13.642864990848484, + "step": 393 + }, + { + "epoch": 0.042026666666666664, + "grad_norm": 1.646082701866134, + "learning_rate": 9.996257108603073e-06, + "loss": 0.4316, + "step": 394 + }, + { + "avg_step_time": 5.467187910368948, + "epoch": 0.042026666666666664, + "eta_time": 13.63911517306209, + "step": 394 + }, + { + "epoch": 0.042133333333333335, + "grad_norm": 1.6268802084776943, + "learning_rate": 9.996189981403255e-06, + "loss": 0.5861, + "step": 395 + }, + { + "avg_step_time": 5.5037025032621445, + "epoch": 0.042133333333333335, + "eta_time": 13.728680133137239, + "step": 395 + }, + { + "epoch": 0.04224, + "grad_norm": 1.697985540979817, + "learning_rate": 9.996122257821746e-06, + "loss": 0.4684, + "step": 396 + }, + { + "avg_step_time": 5.5230609816734235, + "epoch": 0.04224, + "eta_time": 13.775434598457132, + "step": 396 + }, + { + "epoch": 0.042346666666666664, + "grad_norm": 1.5873735327802145, + "learning_rate": 9.996053937866628e-06, + "loss": 0.5468, + "step": 397 + }, + { + "avg_step_time": 5.521267105834653, + "epoch": 0.042346666666666664, + "eta_time": 13.769426687828753, + "step": 397 + }, + { + "epoch": 0.042453333333333336, + "grad_norm": 1.720527425375361, + "learning_rate": 9.995985021546058e-06, + "loss": 0.432, + "step": 398 + }, + { + "avg_step_time": 5.5190229102818655, + "epoch": 0.042453333333333336, + "eta_time": 13.762296851555641, + "step": 398 + }, + { + "epoch": 0.04256, + "grad_norm": 2.06189251650827, + "learning_rate": 9.99591550886826e-06, + "loss": 0.5746, + "step": 399 + }, + { + "avg_step_time": 5.520203920325848, + "epoch": 0.04256, + "eta_time": 13.76370844134578, + "step": 399 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 1.4830999977737744, + "learning_rate": 9.995845399841533e-06, + "loss": 0.5055, + "step": 400 + }, + { + "avg_step_time": 5.553271137102686, + "epoch": 0.042666666666666665, + "eta_time": 13.844613459860168, + "step": 400 + }, + { + "epoch": 0.04277333333333333, + "grad_norm": 1.6934255457789005, + "learning_rate": 9.995774694474245e-06, + "loss": 0.5159, + "step": 401 + }, + { + "avg_step_time": 5.554126399936098, + "epoch": 0.04277333333333333, + "eta_time": 13.845202864729595, + "step": 401 + }, + { + "epoch": 0.04288, + "grad_norm": 2.125849064414552, + "learning_rate": 9.995703392774836e-06, + "loss": 0.5116, + "step": 402 + }, + { + "avg_step_time": 5.554545060552732, + "epoch": 0.04288, + "eta_time": 13.844703563427684, + "step": 402 + }, + { + "epoch": 0.042986666666666666, + "grad_norm": 1.531318827517575, + "learning_rate": 9.995631494751819e-06, + "loss": 0.4373, + "step": 403 + }, + { + "avg_step_time": 5.597576606153238, + "epoch": 0.042986666666666666, + "eta_time": 13.950404808446347, + "step": 403 + }, + { + "epoch": 0.04309333333333333, + "grad_norm": 2.0056737751333693, + "learning_rate": 9.995559000413773e-06, + "loss": 0.5218, + "step": 404 + }, + { + "avg_step_time": 5.599447250366211, + "epoch": 0.04309333333333333, + "eta_time": 13.953511467509799, + "step": 404 + }, + { + "epoch": 0.0432, + "grad_norm": 1.5250936032493083, + "learning_rate": 9.995485909769354e-06, + "loss": 0.5218, + "step": 405 + }, + { + "avg_step_time": 5.595021611512309, + "epoch": 0.0432, + "eta_time": 13.940928848684836, + "step": 405 + }, + { + "epoch": 0.04330666666666667, + "grad_norm": 1.98127103823001, + "learning_rate": 9.995412222827286e-06, + "loss": 0.5633, + "step": 406 + }, + { + "avg_step_time": 5.59704098556981, + "epoch": 0.04330666666666667, + "eta_time": 13.944405722104339, + "step": 406 + }, + { + "epoch": 0.04341333333333333, + "grad_norm": 1.8868561985989862, + "learning_rate": 9.995337939596364e-06, + "loss": 0.5624, + "step": 407 + }, + { + "avg_step_time": 5.594104227393564, + "epoch": 0.04341333333333333, + "eta_time": 13.935535197573746, + "step": 407 + }, + { + "epoch": 0.04352, + "grad_norm": 1.8695822922254173, + "learning_rate": 9.995263060085456e-06, + "loss": 0.542, + "step": 408 + }, + { + "avg_step_time": 5.5763104443598275, + "epoch": 0.04352, + "eta_time": 13.88965993182627, + "step": 408 + }, + { + "epoch": 0.04362666666666667, + "grad_norm": 1.5208209902948149, + "learning_rate": 9.995187584303498e-06, + "loss": 0.4164, + "step": 409 + }, + { + "avg_step_time": 5.610841086416533, + "epoch": 0.04362666666666667, + "eta_time": 13.974111439114067, + "step": 409 + }, + { + "epoch": 0.04373333333333333, + "grad_norm": 1.6613558255063658, + "learning_rate": 9.995111512259503e-06, + "loss": 0.5477, + "step": 410 + }, + { + "avg_step_time": 5.612602568636037, + "epoch": 0.04373333333333333, + "eta_time": 13.976939452172799, + "step": 410 + }, + { + "epoch": 0.04384, + "grad_norm": 1.7397555357122119, + "learning_rate": 9.99503484396255e-06, + "loss": 0.494, + "step": 411 + }, + { + "avg_step_time": 5.648173269599375, + "epoch": 0.04384, + "eta_time": 14.063951441302443, + "step": 411 + }, + { + "epoch": 0.04394666666666667, + "grad_norm": 2.023171874395827, + "learning_rate": 9.994957579421789e-06, + "loss": 0.6136, + "step": 412 + }, + { + "avg_step_time": 5.6455215179558955, + "epoch": 0.04394666666666667, + "eta_time": 14.055780379288525, + "step": 412 + }, + { + "epoch": 0.04405333333333333, + "grad_norm": 1.730929933077708, + "learning_rate": 9.994879718646445e-06, + "loss": 0.457, + "step": 413 + }, + { + "avg_step_time": 5.659381098217434, + "epoch": 0.04405333333333333, + "eta_time": 14.08871483395129, + "step": 413 + }, + { + "epoch": 0.04416, + "grad_norm": 1.2997185337668957, + "learning_rate": 9.99480126164581e-06, + "loss": 0.4709, + "step": 414 + }, + { + "avg_step_time": 5.6745960110365745, + "epoch": 0.04416, + "eta_time": 14.125015237471873, + "step": 414 + }, + { + "epoch": 0.04426666666666667, + "grad_norm": 0.6971241486185501, + "learning_rate": 9.994722208429251e-06, + "loss": 0.4599, + "step": 415 + }, + { + "avg_step_time": 5.634290418239555, + "epoch": 0.04426666666666667, + "eta_time": 14.02312281872956, + "step": 415 + }, + { + "epoch": 0.044373333333333334, + "grad_norm": 1.4875937871675942, + "learning_rate": 9.994642559006204e-06, + "loss": 0.482, + "step": 416 + }, + { + "avg_step_time": 5.630824368409436, + "epoch": 0.044373333333333334, + "eta_time": 14.012932087938927, + "step": 416 + }, + { + "epoch": 0.04448, + "grad_norm": 1.424303052410301, + "learning_rate": 9.994562313386177e-06, + "loss": 0.5466, + "step": 417 + }, + { + "avg_step_time": 5.637228224012587, + "epoch": 0.04448, + "eta_time": 14.027302897417986, + "step": 417 + }, + { + "epoch": 0.04458666666666666, + "grad_norm": 1.6058316003004258, + "learning_rate": 9.994481471578748e-06, + "loss": 0.4219, + "step": 418 + }, + { + "avg_step_time": 5.627878564776796, + "epoch": 0.04458666666666666, + "eta_time": 14.002474529084935, + "step": 418 + }, + { + "epoch": 0.044693333333333335, + "grad_norm": 1.8109935751445594, + "learning_rate": 9.994400033593566e-06, + "loss": 0.5558, + "step": 419 + }, + { + "avg_step_time": 5.628085324258516, + "epoch": 0.044693333333333335, + "eta_time": 14.001425601127574, + "step": 419 + }, + { + "epoch": 0.0448, + "grad_norm": 2.047943887197416, + "learning_rate": 9.994317999440351e-06, + "loss": 0.4785, + "step": 420 + }, + { + "avg_step_time": 5.628901173370053, + "epoch": 0.0448, + "eta_time": 14.00189166875801, + "step": 420 + }, + { + "epoch": 0.044906666666666664, + "grad_norm": 1.6337304390214402, + "learning_rate": 9.994235369128899e-06, + "loss": 0.5636, + "step": 421 + }, + { + "avg_step_time": 5.643168740802341, + "epoch": 0.044906666666666664, + "eta_time": 14.03581469587338, + "step": 421 + }, + { + "epoch": 0.045013333333333336, + "grad_norm": 1.81864353882326, + "learning_rate": 9.994152142669073e-06, + "loss": 0.4465, + "step": 422 + }, + { + "avg_step_time": 5.642989295901674, + "epoch": 0.045013333333333336, + "eta_time": 14.033800879502136, + "step": 422 + }, + { + "epoch": 0.04512, + "grad_norm": 1.4648513100600964, + "learning_rate": 9.994068320070805e-06, + "loss": 0.4312, + "step": 423 + }, + { + "avg_step_time": 5.653840089085127, + "epoch": 0.04512, + "eta_time": 14.059215688191681, + "step": 423 + }, + { + "epoch": 0.045226666666666665, + "grad_norm": 1.7274727965870516, + "learning_rate": 9.9939839013441e-06, + "loss": 0.4785, + "step": 424 + }, + { + "avg_step_time": 5.662894988300825, + "epoch": 0.045226666666666665, + "eta_time": 14.080159177855744, + "step": 424 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 1.52750328013181, + "learning_rate": 9.993898886499037e-06, + "loss": 0.5026, + "step": 425 + }, + { + "avg_step_time": 5.661367965467049, + "epoch": 0.04533333333333334, + "eta_time": 14.074789803036134, + "step": 425 + }, + { + "epoch": 0.04544, + "grad_norm": 2.058294122295827, + "learning_rate": 9.993813275545764e-06, + "loss": 0.5864, + "step": 426 + }, + { + "avg_step_time": 5.66273204967229, + "epoch": 0.04544, + "eta_time": 14.076608086810369, + "step": 426 + }, + { + "epoch": 0.045546666666666666, + "grad_norm": 1.4758829996788791, + "learning_rate": 9.9937270684945e-06, + "loss": 0.5259, + "step": 427 + }, + { + "avg_step_time": 5.661777831087209, + "epoch": 0.045546666666666666, + "eta_time": 14.072663342380096, + "step": 427 + }, + { + "epoch": 0.04565333333333333, + "grad_norm": 1.5164658988009005, + "learning_rate": 9.993640265355534e-06, + "loss": 0.452, + "step": 428 + }, + { + "avg_step_time": 5.649079236117276, + "epoch": 0.04565333333333333, + "eta_time": 14.039531090428133, + "step": 428 + }, + { + "epoch": 0.04576, + "grad_norm": 2.017918044784003, + "learning_rate": 9.99355286613923e-06, + "loss": 0.5779, + "step": 429 + }, + { + "avg_step_time": 5.643703053695987, + "epoch": 0.04576, + "eta_time": 14.024602088434527, + "step": 429 + }, + { + "epoch": 0.04586666666666667, + "grad_norm": 0.7080927878500979, + "learning_rate": 9.993464870856017e-06, + "loss": 0.4603, + "step": 430 + }, + { + "avg_step_time": 5.608374651032265, + "epoch": 0.04586666666666667, + "eta_time": 13.93525312596767, + "step": 430 + }, + { + "epoch": 0.04597333333333333, + "grad_norm": 1.6148613595989314, + "learning_rate": 9.9933762795164e-06, + "loss": 0.5116, + "step": 431 + }, + { + "avg_step_time": 5.6057888931698265, + "epoch": 0.04597333333333333, + "eta_time": 13.927271072364146, + "step": 431 + }, + { + "epoch": 0.04608, + "grad_norm": 0.6629016443542104, + "learning_rate": 9.993287092130956e-06, + "loss": 0.4621, + "step": 432 + }, + { + "avg_step_time": 5.609137173854943, + "epoch": 0.04608, + "eta_time": 13.934031596051321, + "step": 432 + }, + { + "epoch": 0.04618666666666667, + "grad_norm": 1.7795490959907576, + "learning_rate": 9.993197308710332e-06, + "loss": 0.5659, + "step": 433 + }, + { + "avg_step_time": 5.6344835011646, + "epoch": 0.04618666666666667, + "eta_time": 13.995430963170515, + "step": 433 + }, + { + "epoch": 0.04629333333333333, + "grad_norm": 1.7055511733958322, + "learning_rate": 9.99310692926524e-06, + "loss": 0.4754, + "step": 434 + }, + { + "avg_step_time": 5.647879480111478, + "epoch": 0.04629333333333333, + "eta_time": 14.027136231021313, + "step": 434 + }, + { + "epoch": 0.0464, + "grad_norm": 1.7786481611564997, + "learning_rate": 9.993015953806472e-06, + "loss": 0.4297, + "step": 435 + }, + { + "avg_step_time": 5.686215258607961, + "epoch": 0.0464, + "eta_time": 14.12076789220977, + "step": 435 + }, + { + "epoch": 0.04650666666666667, + "grad_norm": 1.6631733562470357, + "learning_rate": 9.992924382344887e-06, + "loss": 0.455, + "step": 436 + }, + { + "avg_step_time": 5.688365603938247, + "epoch": 0.04650666666666667, + "eta_time": 14.124527814889998, + "step": 436 + }, + { + "epoch": 0.04661333333333333, + "grad_norm": 1.5826174827991724, + "learning_rate": 9.992832214891415e-06, + "loss": 0.5165, + "step": 437 + }, + { + "avg_step_time": 5.6843155225118, + "epoch": 0.04661333333333333, + "eta_time": 14.112892261169574, + "step": 437 + }, + { + "epoch": 0.04672, + "grad_norm": 1.5010585291845668, + "learning_rate": 9.992739451457058e-06, + "loss": 0.5018, + "step": 438 + }, + { + "avg_step_time": 5.677150003837816, + "epoch": 0.04672, + "eta_time": 14.09352488452738, + "step": 438 + }, + { + "epoch": 0.04682666666666667, + "grad_norm": 1.591450748527758, + "learning_rate": 9.992646092052888e-06, + "loss": 0.5445, + "step": 439 + }, + { + "avg_step_time": 5.722914746313384, + "epoch": 0.04682666666666667, + "eta_time": 14.205546159182333, + "step": 439 + }, + { + "epoch": 0.046933333333333334, + "grad_norm": 1.737275871911258, + "learning_rate": 9.992552136690052e-06, + "loss": 0.5014, + "step": 440 + }, + { + "avg_step_time": 5.722577145605376, + "epoch": 0.046933333333333334, + "eta_time": 14.203118554440008, + "step": 440 + }, + { + "epoch": 0.04704, + "grad_norm": 1.7943764704600698, + "learning_rate": 9.992457585379764e-06, + "loss": 0.5551, + "step": 441 + }, + { + "avg_step_time": 5.721607299766156, + "epoch": 0.04704, + "eta_time": 14.199122115586341, + "step": 441 + }, + { + "epoch": 0.04714666666666667, + "grad_norm": 1.537533722002679, + "learning_rate": 9.992362438133307e-06, + "loss": 0.5324, + "step": 442 + }, + { + "avg_step_time": 5.71267974256265, + "epoch": 0.04714666666666667, + "eta_time": 14.175380038975598, + "step": 442 + }, + { + "epoch": 0.047253333333333335, + "grad_norm": 1.6768317328577564, + "learning_rate": 9.992266694962044e-06, + "loss": 0.5053, + "step": 443 + }, + { + "avg_step_time": 5.718592735251995, + "epoch": 0.047253333333333335, + "eta_time": 14.188463975353006, + "step": 443 + }, + { + "epoch": 0.04736, + "grad_norm": 1.4352468249911776, + "learning_rate": 9.992170355877398e-06, + "loss": 0.4166, + "step": 444 + }, + { + "avg_step_time": 5.715912698495267, + "epoch": 0.04736, + "eta_time": 14.180226752850341, + "step": 444 + }, + { + "epoch": 0.047466666666666664, + "grad_norm": 1.9635784563449112, + "learning_rate": 9.992073420890873e-06, + "loss": 0.5129, + "step": 445 + }, + { + "avg_step_time": 5.719460256171949, + "epoch": 0.047466666666666664, + "eta_time": 14.187438913226531, + "step": 445 + }, + { + "epoch": 0.047573333333333336, + "grad_norm": 1.5942518661805247, + "learning_rate": 9.991975890014039e-06, + "loss": 0.5256, + "step": 446 + }, + { + "avg_step_time": 5.726629035641449, + "epoch": 0.047573333333333336, + "eta_time": 14.203630738678472, + "step": 446 + }, + { + "epoch": 0.04768, + "grad_norm": 1.8508232372685087, + "learning_rate": 9.991877763258538e-06, + "loss": 0.4624, + "step": 447 + }, + { + "avg_step_time": 5.723192267947727, + "epoch": 0.04768, + "eta_time": 14.193516824510363, + "step": 447 + }, + { + "epoch": 0.047786666666666665, + "grad_norm": 1.5342601963965976, + "learning_rate": 9.99177904063608e-06, + "loss": 0.4517, + "step": 448 + }, + { + "avg_step_time": 5.722099516126844, + "epoch": 0.047786666666666665, + "eta_time": 14.189217327906762, + "step": 448 + }, + { + "epoch": 0.047893333333333336, + "grad_norm": 0.6966477866389488, + "learning_rate": 9.991679722158451e-06, + "loss": 0.4387, + "step": 449 + }, + { + "avg_step_time": 5.684520516732727, + "epoch": 0.047893333333333336, + "eta_time": 14.094452814543422, + "step": 449 + }, + { + "epoch": 0.048, + "grad_norm": 1.5270249537717437, + "learning_rate": 9.991579807837511e-06, + "loss": 0.4719, + "step": 450 + }, + { + "avg_step_time": 5.689617224413939, + "epoch": 0.048, + "eta_time": 14.105509368859558, + "step": 450 + }, + { + "epoch": 0.048106666666666666, + "grad_norm": 1.9340070593940843, + "learning_rate": 9.99147929768518e-06, + "loss": 0.4997, + "step": 451 + }, + { + "avg_step_time": 5.721912909035731, + "epoch": 0.048106666666666666, + "eta_time": 14.183986333398572, + "step": 451 + }, + { + "epoch": 0.04821333333333333, + "grad_norm": 1.3991150207195122, + "learning_rate": 9.991378191713458e-06, + "loss": 0.5122, + "step": 452 + }, + { + "avg_step_time": 5.713507852168998, + "epoch": 0.04821333333333333, + "eta_time": 14.161564045806658, + "step": 452 + }, + { + "epoch": 0.04832, + "grad_norm": 1.51003679849515, + "learning_rate": 9.991276489934416e-06, + "loss": 0.4695, + "step": 453 + }, + { + "avg_step_time": 5.74942518243886, + "epoch": 0.04832, + "eta_time": 14.24899207714431, + "step": 453 + }, + { + "epoch": 0.048426666666666666, + "grad_norm": 1.764520204208801, + "learning_rate": 9.991174192360189e-06, + "loss": 0.4523, + "step": 454 + }, + { + "avg_step_time": 5.747436443964641, + "epoch": 0.048426666666666666, + "eta_time": 14.242466810169043, + "step": 454 + }, + { + "epoch": 0.04853333333333333, + "grad_norm": 1.9173960878914644, + "learning_rate": 9.991071299002992e-06, + "loss": 0.4479, + "step": 455 + }, + { + "avg_step_time": 5.77505495572331, + "epoch": 0.04853333333333333, + "eta_time": 14.309302834736647, + "step": 455 + }, + { + "epoch": 0.04864, + "grad_norm": 1.6283894792229714, + "learning_rate": 9.990967809875107e-06, + "loss": 0.5709, + "step": 456 + }, + { + "avg_step_time": 5.802779125444816, + "epoch": 0.04864, + "eta_time": 14.376385283289531, + "step": 456 + }, + { + "epoch": 0.04874666666666667, + "grad_norm": 1.7512188051641262, + "learning_rate": 9.990863724988886e-06, + "loss": 0.4751, + "step": 457 + }, + { + "avg_step_time": 5.796114666293366, + "epoch": 0.04874666666666667, + "eta_time": 14.358264053890064, + "step": 457 + }, + { + "epoch": 0.04885333333333333, + "grad_norm": 1.5255934238970266, + "learning_rate": 9.990759044356753e-06, + "loss": 0.4063, + "step": 458 + }, + { + "avg_step_time": 5.826342797038531, + "epoch": 0.04885333333333333, + "eta_time": 14.431527422553494, + "step": 458 + }, + { + "epoch": 0.04896, + "grad_norm": 1.5504641925247822, + "learning_rate": 9.990653767991203e-06, + "loss": 0.5317, + "step": 459 + }, + { + "avg_step_time": 5.830264233579539, + "epoch": 0.04896, + "eta_time": 14.439621085165326, + "step": 459 + }, + { + "epoch": 0.04906666666666667, + "grad_norm": 1.69684160019296, + "learning_rate": 9.990547895904806e-06, + "loss": 0.5008, + "step": 460 + }, + { + "avg_step_time": 5.835029009616736, + "epoch": 0.04906666666666667, + "eta_time": 14.449801005759225, + "step": 460 + }, + { + "epoch": 0.04917333333333333, + "grad_norm": 1.5306796273691505, + "learning_rate": 9.990441428110193e-06, + "loss": 0.4811, + "step": 461 + }, + { + "avg_step_time": 5.87165273560418, + "epoch": 0.04917333333333333, + "eta_time": 14.538864579215462, + "step": 461 + }, + { + "epoch": 0.04928, + "grad_norm": 1.6198909939835022, + "learning_rate": 9.99033436462008e-06, + "loss": 0.5959, + "step": 462 + }, + { + "avg_step_time": 5.874422152837117, + "epoch": 0.04928, + "eta_time": 14.544090180065897, + "step": 462 + }, + { + "epoch": 0.04938666666666667, + "grad_norm": 1.8298178075673859, + "learning_rate": 9.990226705447244e-06, + "loss": 0.4794, + "step": 463 + }, + { + "avg_step_time": 5.8728100651442405, + "epoch": 0.04938666666666667, + "eta_time": 14.538467583490409, + "step": 463 + }, + { + "epoch": 0.049493333333333334, + "grad_norm": 1.769830769946521, + "learning_rate": 9.990118450604535e-06, + "loss": 0.4958, + "step": 464 + }, + { + "avg_step_time": 5.92870433402784, + "epoch": 0.049493333333333334, + "eta_time": 14.675190089033912, + "step": 464 + }, + { + "epoch": 0.0496, + "grad_norm": 0.6682125576156817, + "learning_rate": 9.990009600104875e-06, + "loss": 0.4546, + "step": 465 + }, + { + "avg_step_time": 5.8992768200961025, + "epoch": 0.0496, + "eta_time": 14.600710129737854, + "step": 465 + }, + { + "epoch": 0.04970666666666667, + "grad_norm": 1.484554277636979, + "learning_rate": 9.98990015396126e-06, + "loss": 0.4807, + "step": 466 + }, + { + "avg_step_time": 5.898604725346421, + "epoch": 0.04970666666666667, + "eta_time": 14.597408193919795, + "step": 466 + }, + { + "epoch": 0.049813333333333334, + "grad_norm": 0.6519056614588151, + "learning_rate": 9.98979011218675e-06, + "loss": 0.4311, + "step": 467 + }, + { + "avg_step_time": 5.8677213095655345, + "epoch": 0.049813333333333334, + "eta_time": 14.519350396002718, + "step": 467 + }, + { + "epoch": 0.04992, + "grad_norm": 1.7873985828972707, + "learning_rate": 9.989679474794484e-06, + "loss": 0.5526, + "step": 468 + }, + { + "avg_step_time": 5.867808568357217, + "epoch": 0.04992, + "eta_time": 14.517936366210481, + "step": 468 + }, + { + "epoch": 0.050026666666666664, + "grad_norm": 1.5160026700297897, + "learning_rate": 9.989568241797667e-06, + "loss": 0.4852, + "step": 469 + }, + { + "avg_step_time": 5.867213998178039, + "epoch": 0.050026666666666664, + "eta_time": 14.514835518826004, + "step": 469 + }, + { + "epoch": 0.050133333333333335, + "grad_norm": 0.6281609517491823, + "learning_rate": 9.989456413209578e-06, + "loss": 0.4274, + "step": 470 + }, + { + "avg_step_time": 5.842006001809631, + "epoch": 0.050133333333333335, + "eta_time": 14.4508509572541, + "step": 470 + }, + { + "epoch": 0.05024, + "grad_norm": 1.6377211265397944, + "learning_rate": 9.989343989043563e-06, + "loss": 0.5191, + "step": 471 + }, + { + "avg_step_time": 5.841280019644535, + "epoch": 0.05024, + "eta_time": 14.447432581920816, + "step": 471 + }, + { + "epoch": 0.050346666666666665, + "grad_norm": 1.8375397582877178, + "learning_rate": 9.989230969313044e-06, + "loss": 0.5747, + "step": 472 + }, + { + "avg_step_time": 5.838020471611408, + "epoch": 0.050346666666666665, + "eta_time": 14.437748960765656, + "step": 472 + }, + { + "epoch": 0.050453333333333336, + "grad_norm": 1.629398480918051, + "learning_rate": 9.98911735403151e-06, + "loss": 0.5121, + "step": 473 + }, + { + "avg_step_time": 5.838586226858274, + "epoch": 0.050453333333333336, + "eta_time": 14.437526275414541, + "step": 473 + }, + { + "epoch": 0.05056, + "grad_norm": 0.6542924552434695, + "learning_rate": 9.989003143212526e-06, + "loss": 0.4438, + "step": 474 + }, + { + "avg_step_time": 5.809806640702065, + "epoch": 0.05056, + "eta_time": 14.364746919135854, + "step": 474 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 1.893567178898996, + "learning_rate": 9.988888336869722e-06, + "loss": 0.5356, + "step": 475 + }, + { + "avg_step_time": 5.795476728015476, + "epoch": 0.050666666666666665, + "eta_time": 14.327706355371594, + "step": 475 + }, + { + "epoch": 0.05077333333333333, + "grad_norm": 1.299879882744483, + "learning_rate": 9.988772935016802e-06, + "loss": 0.4391, + "step": 476 + }, + { + "avg_step_time": 5.798574784789422, + "epoch": 0.05077333333333333, + "eta_time": 14.333754724955853, + "step": 476 + }, + { + "epoch": 0.05088, + "grad_norm": 0.6225628906835519, + "learning_rate": 9.988656937667544e-06, + "loss": 0.4382, + "step": 477 + }, + { + "avg_step_time": 5.754037681252066, + "epoch": 0.05088, + "eta_time": 14.22206313549469, + "step": 477 + }, + { + "epoch": 0.050986666666666666, + "grad_norm": 2.257832671761423, + "learning_rate": 9.988540344835794e-06, + "loss": 0.5341, + "step": 478 + }, + { + "avg_step_time": 5.774915577185275, + "epoch": 0.050986666666666666, + "eta_time": 14.272062191727052, + "step": 478 + }, + { + "epoch": 0.05109333333333333, + "grad_norm": 1.6989503635948455, + "learning_rate": 9.988423156535465e-06, + "loss": 0.4899, + "step": 479 + }, + { + "avg_step_time": 5.774426913020586, + "epoch": 0.05109333333333333, + "eta_time": 14.269250505064205, + "step": 479 + }, + { + "epoch": 0.0512, + "grad_norm": 1.6230354505153026, + "learning_rate": 9.98830537278055e-06, + "loss": 0.5053, + "step": 480 + }, + { + "avg_step_time": 5.747154356253268, + "epoch": 0.0512, + "eta_time": 14.20026055524245, + "step": 480 + }, + { + "epoch": 0.05130666666666667, + "grad_norm": 1.4870354584352672, + "learning_rate": 9.988186993585108e-06, + "loss": 0.5026, + "step": 481 + }, + { + "avg_step_time": 5.749966850184431, + "epoch": 0.05130666666666667, + "eta_time": 14.205612545983424, + "step": 481 + }, + { + "epoch": 0.05141333333333333, + "grad_norm": 1.6452893130303698, + "learning_rate": 9.988068018963268e-06, + "loss": 0.5528, + "step": 482 + }, + { + "avg_step_time": 5.771432322685165, + "epoch": 0.05141333333333333, + "eta_time": 14.257041012677547, + "step": 482 + }, + { + "epoch": 0.05152, + "grad_norm": 1.5792600281324518, + "learning_rate": 9.987948448929232e-06, + "loss": 0.4248, + "step": 483 + }, + { + "avg_step_time": 5.812203453044699, + "epoch": 0.05152, + "eta_time": 14.356142529020406, + "step": 483 + }, + { + "epoch": 0.05162666666666667, + "grad_norm": 1.6553439828379621, + "learning_rate": 9.987828283497272e-06, + "loss": 0.4306, + "step": 484 + }, + { + "avg_step_time": 5.81168481797883, + "epoch": 0.05162666666666667, + "eta_time": 14.353247143513828, + "step": 484 + }, + { + "epoch": 0.05173333333333333, + "grad_norm": 1.471957962650519, + "learning_rate": 9.987707522681735e-06, + "loss": 0.4934, + "step": 485 + }, + { + "avg_step_time": 5.813957866996225, + "epoch": 0.05173333333333333, + "eta_time": 14.357245954887901, + "step": 485 + }, + { + "epoch": 0.05184, + "grad_norm": 1.7477627806833198, + "learning_rate": 9.987586166497032e-06, + "loss": 0.5211, + "step": 486 + }, + { + "avg_step_time": 5.78530300024784, + "epoch": 0.05184, + "eta_time": 14.284877324778625, + "step": 486 + }, + { + "epoch": 0.05194666666666667, + "grad_norm": 0.6641360208455539, + "learning_rate": 9.987464214957652e-06, + "loss": 0.4361, + "step": 487 + }, + { + "avg_step_time": 5.748741619514696, + "epoch": 0.05194666666666667, + "eta_time": 14.19300430951295, + "step": 487 + }, + { + "epoch": 0.05205333333333333, + "grad_norm": 1.7771175733338525, + "learning_rate": 9.98734166807815e-06, + "loss": 0.449, + "step": 488 + }, + { + "avg_step_time": 5.749302365563133, + "epoch": 0.05205333333333333, + "eta_time": 14.192791700766545, + "step": 488 + }, + { + "epoch": 0.05216, + "grad_norm": 1.91199905947923, + "learning_rate": 9.987218525873155e-06, + "loss": 0.5159, + "step": 489 + }, + { + "avg_step_time": 5.744057583086418, + "epoch": 0.05216, + "eta_time": 14.178248800918308, + "step": 489 + }, + { + "epoch": 0.05226666666666667, + "grad_norm": 1.6191304226263832, + "learning_rate": 9.987094788357367e-06, + "loss": 0.4898, + "step": 490 + }, + { + "avg_step_time": 5.806175195809566, + "epoch": 0.05226666666666667, + "eta_time": 14.329962948546665, + "step": 490 + }, + { + "epoch": 0.052373333333333334, + "grad_norm": 1.7220196641990457, + "learning_rate": 9.986970455545555e-06, + "loss": 0.4917, + "step": 491 + }, + { + "avg_step_time": 5.8108919052162555, + "epoch": 0.052373333333333334, + "eta_time": 14.339989912761448, + "step": 491 + }, + { + "epoch": 0.05248, + "grad_norm": 1.706523307771393, + "learning_rate": 9.98684552745256e-06, + "loss": 0.4849, + "step": 492 + }, + { + "avg_step_time": 5.808163416506064, + "epoch": 0.05248, + "eta_time": 14.331643230228712, + "step": 492 + }, + { + "epoch": 0.052586666666666664, + "grad_norm": 1.6153115296324874, + "learning_rate": 9.986720004093295e-06, + "loss": 0.5524, + "step": 493 + }, + { + "avg_step_time": 5.807526065845682, + "epoch": 0.052586666666666664, + "eta_time": 14.328457365789262, + "step": 493 + }, + { + "epoch": 0.052693333333333335, + "grad_norm": 0.6232200423958832, + "learning_rate": 9.986593885482744e-06, + "loss": 0.4274, + "step": 494 + }, + { + "avg_step_time": 5.774234928265966, + "epoch": 0.052693333333333335, + "eta_time": 14.244716777202791, + "step": 494 + }, + { + "epoch": 0.0528, + "grad_norm": 1.6196167935121197, + "learning_rate": 9.98646717163596e-06, + "loss": 0.4636, + "step": 495 + }, + { + "avg_step_time": 5.7533689026880745, + "epoch": 0.0528, + "eta_time": 14.19164329329725, + "step": 495 + }, + { + "epoch": 0.052906666666666664, + "grad_norm": 1.5443885543307116, + "learning_rate": 9.986339862568068e-06, + "loss": 0.4795, + "step": 496 + }, + { + "avg_step_time": 5.757202227910359, + "epoch": 0.052906666666666664, + "eta_time": 14.199499606004467, + "step": 496 + }, + { + "epoch": 0.053013333333333336, + "grad_norm": 1.565648319085986, + "learning_rate": 9.986211958294267e-06, + "loss": 0.4456, + "step": 497 + }, + { + "avg_step_time": 5.758068819238682, + "epoch": 0.053013333333333336, + "eta_time": 14.200037493666951, + "step": 497 + }, + { + "epoch": 0.05312, + "grad_norm": 1.5544132925547036, + "learning_rate": 9.986083458829824e-06, + "loss": 0.4845, + "step": 498 + }, + { + "avg_step_time": 5.7599760715407555, + "epoch": 0.05312, + "eta_time": 14.203140996407578, + "step": 498 + }, + { + "epoch": 0.053226666666666665, + "grad_norm": 1.8571860582787307, + "learning_rate": 9.985954364190076e-06, + "loss": 0.5477, + "step": 499 + }, + { + "avg_step_time": 5.764447443413012, + "epoch": 0.053226666666666665, + "eta_time": 14.21256541881497, + "step": 499 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 1.5804571310333884, + "learning_rate": 9.985824674390434e-06, + "loss": 0.4974, + "step": 500 + }, + { + "avg_step_time": 5.776737087904805, + "epoch": 0.05333333333333334, + "eta_time": 14.24126157087643, + "step": 500 + }, + { + "epoch": 0.05344, + "grad_norm": 1.9349403912860896, + "learning_rate": 9.985694389446378e-06, + "loss": 0.5509, + "step": 501 + }, + { + "avg_step_time": 5.77800478838911, + "epoch": 0.05344, + "eta_time": 14.242781803379156, + "step": 501 + }, + { + "epoch": 0.053546666666666666, + "grad_norm": 1.7055129737543822, + "learning_rate": 9.98556350937346e-06, + "loss": 0.447, + "step": 502 + }, + { + "avg_step_time": 5.759776500740436, + "epoch": 0.053546666666666666, + "eta_time": 14.196249136408301, + "step": 502 + }, + { + "epoch": 0.05365333333333333, + "grad_norm": 1.5986487317767488, + "learning_rate": 9.985432034187304e-06, + "loss": 0.498, + "step": 503 + }, + { + "avg_step_time": 5.758783179100114, + "epoch": 0.05365333333333333, + "eta_time": 14.19220121249339, + "step": 503 + }, + { + "epoch": 0.05376, + "grad_norm": 1.9610658679457604, + "learning_rate": 9.9852999639036e-06, + "loss": 0.5996, + "step": 504 + }, + { + "avg_step_time": 5.764453302730214, + "epoch": 0.05376, + "eta_time": 14.20457368014437, + "step": 504 + }, + { + "epoch": 0.05386666666666667, + "grad_norm": 1.6249053568935699, + "learning_rate": 9.98516729853812e-06, + "loss": 0.501, + "step": 505 + }, + { + "avg_step_time": 5.766844527889984, + "epoch": 0.05386666666666667, + "eta_time": 14.208864156217821, + "step": 505 + }, + { + "epoch": 0.05397333333333333, + "grad_norm": 1.7019256794471476, + "learning_rate": 9.98503403810669e-06, + "loss": 0.5448, + "step": 506 + }, + { + "avg_step_time": 5.766411937848486, + "epoch": 0.05397333333333333, + "eta_time": 14.206196521327282, + "step": 506 + }, + { + "epoch": 0.05408, + "grad_norm": 1.6027201407284195, + "learning_rate": 9.984900182625226e-06, + "loss": 0.4681, + "step": 507 + }, + { + "avg_step_time": 5.7760404962481875, + "epoch": 0.05408, + "eta_time": 14.228313089091369, + "step": 507 + }, + { + "epoch": 0.05418666666666667, + "grad_norm": 0.6842926576431764, + "learning_rate": 9.984765732109703e-06, + "loss": 0.4537, + "step": 508 + }, + { + "avg_step_time": 5.73955703263331, + "epoch": 0.05418666666666667, + "eta_time": 14.136847835655432, + "step": 508 + }, + { + "epoch": 0.05429333333333333, + "grad_norm": 1.6543480794255845, + "learning_rate": 9.984630686576167e-06, + "loss": 0.572, + "step": 509 + }, + { + "avg_step_time": 5.7477428046139805, + "epoch": 0.05429333333333333, + "eta_time": 14.155413251585431, + "step": 509 + }, + { + "epoch": 0.0544, + "grad_norm": 1.3580053548938524, + "learning_rate": 9.98449504604074e-06, + "loss": 0.4763, + "step": 510 + }, + { + "avg_step_time": 5.771610303358599, + "epoch": 0.0544, + "eta_time": 14.21259037202055, + "step": 510 + }, + { + "epoch": 0.05450666666666667, + "grad_norm": 0.666594269067575, + "learning_rate": 9.984358810519616e-06, + "loss": 0.452, + "step": 511 + }, + { + "avg_step_time": 5.757554451624553, + "epoch": 0.05450666666666667, + "eta_time": 14.176378516444455, + "step": 511 + }, + { + "epoch": 0.05461333333333333, + "grad_norm": 1.5832364174594045, + "learning_rate": 9.984221980029054e-06, + "loss": 0.5048, + "step": 512 + }, + { + "avg_step_time": 5.737211506776135, + "epoch": 0.05461333333333333, + "eta_time": 14.124695995710246, + "step": 512 + }, + { + "epoch": 0.05472, + "grad_norm": 1.6078514647738784, + "learning_rate": 9.984084554585387e-06, + "loss": 0.4943, + "step": 513 + }, + { + "avg_step_time": 5.724601911775993, + "epoch": 0.05472, + "eta_time": 14.092061706155237, + "step": 513 + }, + { + "epoch": 0.05482666666666667, + "grad_norm": 0.6478372783825307, + "learning_rate": 9.98394653420502e-06, + "loss": 0.4447, + "step": 514 + }, + { + "avg_step_time": 5.725393834740225, + "epoch": 0.05482666666666667, + "eta_time": 14.092420769342537, + "step": 514 + }, + { + "epoch": 0.054933333333333334, + "grad_norm": 1.520925294226722, + "learning_rate": 9.983807918904428e-06, + "loss": 0.5256, + "step": 515 + }, + { + "avg_step_time": 5.726438808922816, + "epoch": 0.054933333333333334, + "eta_time": 14.093402179737819, + "step": 515 + }, + { + "epoch": 0.05504, + "grad_norm": 1.693682559919017, + "learning_rate": 9.983668708700156e-06, + "loss": 0.4875, + "step": 516 + }, + { + "avg_step_time": 5.7211435370975074, + "epoch": 0.05504, + "eta_time": 14.078780720874116, + "step": 516 + }, + { + "epoch": 0.05514666666666666, + "grad_norm": 0.6626636400818235, + "learning_rate": 9.983528903608824e-06, + "loss": 0.4094, + "step": 517 + }, + { + "avg_step_time": 5.691946265673397, + "epoch": 0.05514666666666666, + "eta_time": 14.005350005926376, + "step": 517 + }, + { + "epoch": 0.055253333333333335, + "grad_norm": 1.691552139093982, + "learning_rate": 9.983388503647117e-06, + "loss": 0.5044, + "step": 518 + }, + { + "avg_step_time": 5.696915486846307, + "epoch": 0.055253333333333335, + "eta_time": 14.01599457416604, + "step": 518 + }, + { + "epoch": 0.05536, + "grad_norm": 1.7563886492182732, + "learning_rate": 9.983247508831795e-06, + "loss": 0.5186, + "step": 519 + }, + { + "avg_step_time": 5.69695340262519, + "epoch": 0.05536, + "eta_time": 14.014505370457966, + "step": 519 + }, + { + "epoch": 0.055466666666666664, + "grad_norm": 1.5220038035947778, + "learning_rate": 9.98310591917969e-06, + "loss": 0.53, + "step": 520 + }, + { + "avg_step_time": 5.7171008586883545, + "epoch": 0.055466666666666664, + "eta_time": 14.062480028801494, + "step": 520 + }, + { + "epoch": 0.055573333333333336, + "grad_norm": 0.6725923743627379, + "learning_rate": 9.982963734707701e-06, + "loss": 0.4168, + "step": 521 + }, + { + "avg_step_time": 5.6843638251526185, + "epoch": 0.055573333333333336, + "eta_time": 13.98037702997258, + "step": 521 + }, + { + "epoch": 0.05568, + "grad_norm": 1.62083724067875, + "learning_rate": 9.9828209554328e-06, + "loss": 0.5088, + "step": 522 + }, + { + "avg_step_time": 5.685106494209983, + "epoch": 0.05568, + "eta_time": 13.980624387011384, + "step": 522 + }, + { + "epoch": 0.055786666666666665, + "grad_norm": 0.6691165547597842, + "learning_rate": 9.982677581372033e-06, + "loss": 0.4461, + "step": 523 + }, + { + "avg_step_time": 5.644750592684505, + "epoch": 0.055786666666666665, + "eta_time": 13.8798145129009, + "step": 523 + }, + { + "epoch": 0.05589333333333334, + "grad_norm": 1.8553106930354044, + "learning_rate": 9.982533612542511e-06, + "loss": 0.5153, + "step": 524 + }, + { + "avg_step_time": 5.646144563501531, + "epoch": 0.05589333333333334, + "eta_time": 13.88167375876446, + "step": 524 + }, + { + "epoch": 0.056, + "grad_norm": 2.1444448694814895, + "learning_rate": 9.982389048961421e-06, + "loss": 0.517, + "step": 525 + }, + { + "avg_step_time": 5.646797948413425, + "epoch": 0.056, + "eta_time": 13.881711623183005, + "step": 525 + }, + { + "epoch": 0.056106666666666666, + "grad_norm": 1.8602765784670696, + "learning_rate": 9.982243890646018e-06, + "loss": 0.4631, + "step": 526 + }, + { + "avg_step_time": 5.645778538000704, + "epoch": 0.056106666666666666, + "eta_time": 13.877637300768953, + "step": 526 + }, + { + "epoch": 0.05621333333333333, + "grad_norm": 2.059137563142124, + "learning_rate": 9.982098137613631e-06, + "loss": 0.5343, + "step": 527 + }, + { + "avg_step_time": 5.631382405155837, + "epoch": 0.05621333333333333, + "eta_time": 13.840686533560792, + "step": 527 + }, + { + "epoch": 0.05632, + "grad_norm": 1.9008155491526537, + "learning_rate": 9.981951789881657e-06, + "loss": 0.5124, + "step": 528 + }, + { + "avg_step_time": 5.632418341106838, + "epoch": 0.05632, + "eta_time": 13.841668073270055, + "step": 528 + }, + { + "epoch": 0.05642666666666667, + "grad_norm": 1.619361886008362, + "learning_rate": 9.981804847467564e-06, + "loss": 0.4442, + "step": 529 + }, + { + "avg_step_time": 5.667547016432791, + "epoch": 0.05642666666666667, + "eta_time": 13.926422474267909, + "step": 529 + }, + { + "epoch": 0.05653333333333333, + "grad_norm": 1.7005370883847302, + "learning_rate": 9.981657310388893e-06, + "loss": 0.5224, + "step": 530 + }, + { + "avg_step_time": 5.6656839365911, + "epoch": 0.05653333333333333, + "eta_time": 13.920270671985634, + "step": 530 + }, + { + "epoch": 0.05664, + "grad_norm": 1.5182820455269084, + "learning_rate": 9.981509178663256e-06, + "loss": 0.4593, + "step": 531 + }, + { + "avg_step_time": 5.699601356429283, + "epoch": 0.05664, + "eta_time": 14.002020665627937, + "step": 531 + }, + { + "epoch": 0.05674666666666667, + "grad_norm": 0.6974365820887087, + "learning_rate": 9.981360452308334e-06, + "loss": 0.4767, + "step": 532 + }, + { + "avg_step_time": 5.639261279443298, + "epoch": 0.05674666666666667, + "eta_time": 13.852218748365857, + "step": 532 + }, + { + "epoch": 0.05685333333333333, + "grad_norm": 1.5625239940702818, + "learning_rate": 9.981211131341881e-06, + "loss": 0.4549, + "step": 533 + }, + { + "avg_step_time": 5.627148936493228, + "epoch": 0.05685333333333333, + "eta_time": 13.82090302679809, + "step": 533 + }, + { + "epoch": 0.05696, + "grad_norm": 1.765885499136222, + "learning_rate": 9.98106121578172e-06, + "loss": 0.4913, + "step": 534 + }, + { + "avg_step_time": 5.5897591065878816, + "epoch": 0.05696, + "eta_time": 13.727516739262072, + "step": 534 + }, + { + "epoch": 0.05706666666666667, + "grad_norm": 1.7388383346500975, + "learning_rate": 9.980910705645747e-06, + "loss": 0.4755, + "step": 535 + }, + { + "avg_step_time": 5.5876460581114795, + "epoch": 0.05706666666666667, + "eta_time": 13.720775320473745, + "step": 535 + }, + { + "epoch": 0.05717333333333333, + "grad_norm": 1.8094348977985724, + "learning_rate": 9.980759600951926e-06, + "loss": 0.53, + "step": 536 + }, + { + "avg_step_time": 5.586774276964592, + "epoch": 0.05717333333333333, + "eta_time": 13.717082731691674, + "step": 536 + }, + { + "epoch": 0.05728, + "grad_norm": 1.5515985464004183, + "learning_rate": 9.980607901718297e-06, + "loss": 0.5017, + "step": 537 + }, + { + "avg_step_time": 5.587745572581436, + "epoch": 0.05728, + "eta_time": 13.717915380687423, + "step": 537 + }, + { + "epoch": 0.05738666666666667, + "grad_norm": 1.7988850536293874, + "learning_rate": 9.980455607962967e-06, + "loss": 0.5157, + "step": 538 + }, + { + "avg_step_time": 5.575645726136487, + "epoch": 0.05738666666666667, + "eta_time": 13.686661467185592, + "step": 538 + }, + { + "epoch": 0.057493333333333334, + "grad_norm": 0.6398979032090735, + "learning_rate": 9.980302719704112e-06, + "loss": 0.4079, + "step": 539 + }, + { + "avg_step_time": 5.545233044961487, + "epoch": 0.057493333333333334, + "eta_time": 13.610466440355472, + "step": 539 + }, + { + "epoch": 0.0576, + "grad_norm": 1.6417369576198775, + "learning_rate": 9.980149236959986e-06, + "loss": 0.4956, + "step": 540 + }, + { + "avg_step_time": 5.5794756653332955, + "epoch": 0.0576, + "eta_time": 13.692963195338796, + "step": 540 + }, + { + "epoch": 0.05770666666666667, + "grad_norm": 1.6734388180164534, + "learning_rate": 9.979995159748907e-06, + "loss": 0.4597, + "step": 541 + }, + { + "avg_step_time": 5.580374561174952, + "epoch": 0.05770666666666667, + "eta_time": 13.693619131505423, + "step": 541 + }, + { + "epoch": 0.057813333333333335, + "grad_norm": 1.6540442750266944, + "learning_rate": 9.979840488089268e-06, + "loss": 0.5536, + "step": 542 + }, + { + "avg_step_time": 5.576320669867775, + "epoch": 0.057813333333333335, + "eta_time": 13.682122354706129, + "step": 542 + }, + { + "epoch": 0.05792, + "grad_norm": 1.5538034305883779, + "learning_rate": 9.979685221999532e-06, + "loss": 0.499, + "step": 543 + }, + { + "avg_step_time": 5.573842677203092, + "epoch": 0.05792, + "eta_time": 13.674494034738252, + "step": 543 + }, + { + "epoch": 0.058026666666666664, + "grad_norm": 0.6352492435583262, + "learning_rate": 9.979529361498233e-06, + "loss": 0.4153, + "step": 544 + }, + { + "avg_step_time": 5.53100137277083, + "epoch": 0.058026666666666664, + "eta_time": 13.56785364526089, + "step": 544 + }, + { + "epoch": 0.058133333333333335, + "grad_norm": 1.6082767360311339, + "learning_rate": 9.979372906603973e-06, + "loss": 0.5468, + "step": 545 + }, + { + "avg_step_time": 5.52222749440357, + "epoch": 0.058133333333333335, + "eta_time": 13.544796882106533, + "step": 545 + }, + { + "epoch": 0.05824, + "grad_norm": 1.5818093880653403, + "learning_rate": 9.97921585733543e-06, + "loss": 0.4849, + "step": 546 + }, + { + "avg_step_time": 5.524048636658023, + "epoch": 0.05824, + "eta_time": 13.5477292814038, + "step": 546 + }, + { + "epoch": 0.058346666666666665, + "grad_norm": 1.5140034512418272, + "learning_rate": 9.97905821371135e-06, + "loss": 0.5699, + "step": 547 + }, + { + "avg_step_time": 5.543119033177693, + "epoch": 0.058346666666666665, + "eta_time": 13.5929596735813, + "step": 547 + }, + { + "epoch": 0.058453333333333336, + "grad_norm": 1.4347838824275327, + "learning_rate": 9.978899975750548e-06, + "loss": 0.5157, + "step": 548 + }, + { + "avg_step_time": 5.604635448166818, + "epoch": 0.058453333333333336, + "eta_time": 13.74225475026903, + "step": 548 + }, + { + "epoch": 0.05856, + "grad_norm": 1.4196266036782927, + "learning_rate": 9.97874114347192e-06, + "loss": 0.4916, + "step": 549 + }, + { + "avg_step_time": 5.600117416092844, + "epoch": 0.05856, + "eta_time": 13.72962119845429, + "step": 549 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 1.442900779626105, + "learning_rate": 9.978581716894417e-06, + "loss": 0.5064, + "step": 550 + }, + { + "avg_step_time": 5.6055394134136165, + "epoch": 0.058666666666666666, + "eta_time": 13.741357034270878, + "step": 550 + }, + { + "epoch": 0.05877333333333333, + "grad_norm": 1.5748531968631103, + "learning_rate": 9.978421696037073e-06, + "loss": 0.5635, + "step": 551 + }, + { + "avg_step_time": 5.606155706174446, + "epoch": 0.05877333333333333, + "eta_time": 13.741310542023143, + "step": 551 + }, + { + "epoch": 0.05888, + "grad_norm": 1.6208501850018548, + "learning_rate": 9.978261080918988e-06, + "loss": 0.5224, + "step": 552 + }, + { + "avg_step_time": 5.60273374933185, + "epoch": 0.05888, + "eta_time": 13.731366630654142, + "step": 552 + }, + { + "epoch": 0.058986666666666666, + "grad_norm": 1.7930611539484176, + "learning_rate": 9.978099871559338e-06, + "loss": 0.445, + "step": 553 + }, + { + "avg_step_time": 5.604353647039394, + "epoch": 0.058986666666666666, + "eta_time": 13.733779965050427, + "step": 553 + }, + { + "epoch": 0.05909333333333333, + "grad_norm": 1.589830714530068, + "learning_rate": 9.977938067977359e-06, + "loss": 0.4704, + "step": 554 + }, + { + "avg_step_time": 5.6078868707021075, + "epoch": 0.05909333333333333, + "eta_time": 13.740880579573135, + "step": 554 + }, + { + "epoch": 0.0592, + "grad_norm": 1.7078567802107552, + "learning_rate": 9.977775670192373e-06, + "loss": 0.4848, + "step": 555 + }, + { + "avg_step_time": 5.610855661257349, + "epoch": 0.0592, + "eta_time": 13.746596370080505, + "step": 555 + }, + { + "epoch": 0.05930666666666667, + "grad_norm": 1.9699624687747308, + "learning_rate": 9.977612678223759e-06, + "loss": 0.4951, + "step": 556 + }, + { + "avg_step_time": 5.604562561921399, + "epoch": 0.05930666666666667, + "eta_time": 13.729621453773559, + "step": 556 + }, + { + "epoch": 0.05941333333333333, + "grad_norm": 1.5742452509578089, + "learning_rate": 9.977449092090977e-06, + "loss": 0.4721, + "step": 557 + }, + { + "avg_step_time": 5.606815814971924, + "epoch": 0.05941333333333333, + "eta_time": 13.733583849006228, + "step": 557 + }, + { + "epoch": 0.05952, + "grad_norm": 0.6837805211749309, + "learning_rate": 9.977284911813549e-06, + "loss": 0.4351, + "step": 558 + }, + { + "avg_step_time": 5.5796984133094245, + "epoch": 0.05952, + "eta_time": 13.665611363930331, + "step": 558 + }, + { + "epoch": 0.05962666666666667, + "grad_norm": 1.360929904425439, + "learning_rate": 9.977120137411076e-06, + "loss": 0.533, + "step": 559 + }, + { + "avg_step_time": 5.577762974633111, + "epoch": 0.05962666666666667, + "eta_time": 13.659321773434863, + "step": 559 + }, + { + "epoch": 0.05973333333333333, + "grad_norm": 1.667875675199378, + "learning_rate": 9.976954768903228e-06, + "loss": 0.534, + "step": 560 + }, + { + "avg_step_time": 5.59978884639162, + "epoch": 0.05973333333333333, + "eta_time": 13.711705189150592, + "step": 560 + }, + { + "epoch": 0.05984, + "grad_norm": 1.471346460853622, + "learning_rate": 9.976788806309742e-06, + "loss": 0.442, + "step": 561 + }, + { + "avg_step_time": 5.599402059208263, + "epoch": 0.05984, + "eta_time": 13.709202708294896, + "step": 561 + }, + { + "epoch": 0.05994666666666667, + "grad_norm": 1.4764766652160297, + "learning_rate": 9.976622249650432e-06, + "loss": 0.4725, + "step": 562 + }, + { + "avg_step_time": 5.632900613726991, + "epoch": 0.05994666666666667, + "eta_time": 13.789653641326659, + "step": 562 + }, + { + "epoch": 0.060053333333333334, + "grad_norm": 1.6826705179095953, + "learning_rate": 9.976455098945175e-06, + "loss": 0.5292, + "step": 563 + }, + { + "avg_step_time": 5.576314439677229, + "epoch": 0.060053333333333334, + "eta_time": 13.64957856734326, + "step": 563 + }, + { + "epoch": 0.06016, + "grad_norm": 1.507908442482486, + "learning_rate": 9.976287354213924e-06, + "loss": 0.4888, + "step": 564 + }, + { + "avg_step_time": 5.61549085559267, + "epoch": 0.06016, + "eta_time": 13.743913869063059, + "step": 564 + }, + { + "epoch": 0.06026666666666667, + "grad_norm": 1.67149917318952, + "learning_rate": 9.976119015476706e-06, + "loss": 0.4663, + "step": 565 + }, + { + "avg_step_time": 5.615849475667934, + "epoch": 0.06026666666666667, + "eta_time": 13.743231633509584, + "step": 565 + }, + { + "epoch": 0.060373333333333334, + "grad_norm": 0.6564015314645696, + "learning_rate": 9.975950082753612e-06, + "loss": 0.4499, + "step": 566 + }, + { + "avg_step_time": 5.610424482461178, + "epoch": 0.060373333333333334, + "eta_time": 13.728397018333476, + "step": 566 + }, + { + "epoch": 0.06048, + "grad_norm": 1.7553904132497524, + "learning_rate": 9.975780556064806e-06, + "loss": 0.4647, + "step": 567 + }, + { + "avg_step_time": 5.609838461635088, + "epoch": 0.06048, + "eta_time": 13.725404769467183, + "step": 567 + }, + { + "epoch": 0.060586666666666664, + "grad_norm": 1.8207677060447862, + "learning_rate": 9.975610435430528e-06, + "loss": 0.5791, + "step": 568 + }, + { + "avg_step_time": 5.615556582055911, + "epoch": 0.060586666666666664, + "eta_time": 13.737835227268446, + "step": 568 + }, + { + "epoch": 0.060693333333333335, + "grad_norm": 1.6670546881626616, + "learning_rate": 9.975439720871079e-06, + "loss": 0.4614, + "step": 569 + }, + { + "avg_step_time": 5.641295726853188, + "epoch": 0.060693333333333335, + "eta_time": 13.799236158519214, + "step": 569 + }, + { + "epoch": 0.0608, + "grad_norm": 1.6143138504468264, + "learning_rate": 9.975268412406842e-06, + "loss": 0.5323, + "step": 570 + }, + { + "avg_step_time": 5.643735743532277, + "epoch": 0.0608, + "eta_time": 13.803637006056027, + "step": 570 + }, + { + "epoch": 0.060906666666666665, + "grad_norm": 1.7718732586132608, + "learning_rate": 9.975096510058265e-06, + "loss": 0.4784, + "step": 571 + }, + { + "avg_step_time": 5.645133680767483, + "epoch": 0.060906666666666665, + "eta_time": 13.805488034854699, + "step": 571 + }, + { + "epoch": 0.061013333333333336, + "grad_norm": 1.7987529356387393, + "learning_rate": 9.974924013845865e-06, + "loss": 0.5491, + "step": 572 + }, + { + "avg_step_time": 5.6438910335001315, + "epoch": 0.061013333333333336, + "eta_time": 13.800881324417126, + "step": 572 + }, + { + "epoch": 0.06112, + "grad_norm": 1.6826076749748033, + "learning_rate": 9.974750923790234e-06, + "loss": 0.5141, + "step": 573 + }, + { + "avg_step_time": 5.6812315396588255, + "epoch": 0.06112, + "eta_time": 13.890611114465829, + "step": 573 + }, + { + "epoch": 0.061226666666666665, + "grad_norm": 2.0291779104330216, + "learning_rate": 9.974577239912033e-06, + "loss": 0.5181, + "step": 574 + }, + { + "avg_step_time": 5.684044556184248, + "epoch": 0.061226666666666665, + "eta_time": 13.89591003860488, + "step": 574 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 1.6692504565928916, + "learning_rate": 9.974402962231994e-06, + "loss": 0.4927, + "step": 575 + }, + { + "avg_step_time": 5.6830669966611, + "epoch": 0.06133333333333333, + "eta_time": 13.891941547393799, + "step": 575 + }, + { + "epoch": 0.06144, + "grad_norm": 1.8252047335706363, + "learning_rate": 9.97422809077092e-06, + "loss": 0.5021, + "step": 576 + }, + { + "avg_step_time": 5.737596189132844, + "epoch": 0.06144, + "eta_time": 14.023641352272195, + "step": 576 + }, + { + "epoch": 0.061546666666666666, + "grad_norm": 1.685299165590327, + "learning_rate": 9.974052625549687e-06, + "loss": 0.4793, + "step": 577 + }, + { + "avg_step_time": 5.7178778865120625, + "epoch": 0.061546666666666666, + "eta_time": 13.973858234870313, + "step": 577 + }, + { + "epoch": 0.06165333333333333, + "grad_norm": 0.6874971948233076, + "learning_rate": 9.973876566589236e-06, + "loss": 0.44, + "step": 578 + }, + { + "avg_step_time": 5.68264297283057, + "epoch": 0.06165333333333333, + "eta_time": 13.886169508886256, + "step": 578 + }, + { + "epoch": 0.06176, + "grad_norm": 0.6642973871934835, + "learning_rate": 9.973699913910584e-06, + "loss": 0.4846, + "step": 579 + }, + { + "avg_step_time": 5.643531527182068, + "epoch": 0.06176, + "eta_time": 13.78902869808152, + "step": 579 + }, + { + "epoch": 0.06186666666666667, + "grad_norm": 1.5803070022272037, + "learning_rate": 9.97352266753482e-06, + "loss": 0.4897, + "step": 580 + }, + { + "avg_step_time": 5.641795926623875, + "epoch": 0.06186666666666667, + "eta_time": 13.78322088184916, + "step": 580 + }, + { + "epoch": 0.06197333333333333, + "grad_norm": 0.6478159252492937, + "learning_rate": 9.973344827483098e-06, + "loss": 0.4471, + "step": 581 + }, + { + "avg_step_time": 5.583273731096827, + "epoch": 0.06197333333333333, + "eta_time": 13.638696997573748, + "step": 581 + }, + { + "epoch": 0.06208, + "grad_norm": 0.6326359451854024, + "learning_rate": 9.97316639377665e-06, + "loss": 0.4285, + "step": 582 + }, + { + "avg_step_time": 5.5424985861537435, + "epoch": 0.06208, + "eta_time": 13.537552796680519, + "step": 582 + }, + { + "epoch": 0.06218666666666667, + "grad_norm": 1.5759885628324741, + "learning_rate": 9.972987366436772e-06, + "loss": 0.5064, + "step": 583 + }, + { + "avg_step_time": 5.545553946735883, + "epoch": 0.06218666666666667, + "eta_time": 13.543475083250524, + "step": 583 + }, + { + "epoch": 0.06229333333333333, + "grad_norm": 1.4700275823408047, + "learning_rate": 9.972807745484833e-06, + "loss": 0.4837, + "step": 584 + }, + { + "avg_step_time": 5.548340050861089, + "epoch": 0.06229333333333333, + "eta_time": 13.548738163088844, + "step": 584 + }, + { + "epoch": 0.0624, + "grad_norm": 1.5771385057552307, + "learning_rate": 9.97262753094228e-06, + "loss": 0.3887, + "step": 585 + }, + { + "avg_step_time": 5.546666056218774, + "epoch": 0.0624, + "eta_time": 13.54310962060084, + "step": 585 + }, + { + "epoch": 0.06250666666666667, + "grad_norm": 1.4741704411569672, + "learning_rate": 9.972446722830618e-06, + "loss": 0.475, + "step": 586 + }, + { + "avg_step_time": 5.6050894477150655, + "epoch": 0.06250666666666667, + "eta_time": 13.68420309887992, + "step": 586 + }, + { + "epoch": 0.06261333333333333, + "grad_norm": 1.6252048039125158, + "learning_rate": 9.972265321171433e-06, + "loss": 0.4604, + "step": 587 + }, + { + "avg_step_time": 5.601842282998441, + "epoch": 0.06261333333333333, + "eta_time": 13.674719439719528, + "step": 587 + }, + { + "epoch": 0.06272, + "grad_norm": 1.6059509407849066, + "learning_rate": 9.972083325986377e-06, + "loss": 0.5002, + "step": 588 + }, + { + "avg_step_time": 5.604798572232025, + "epoch": 0.06272, + "eta_time": 13.680379181723001, + "step": 588 + }, + { + "epoch": 0.06282666666666667, + "grad_norm": 1.3584385786293196, + "learning_rate": 9.971900737297176e-06, + "loss": 0.5216, + "step": 589 + }, + { + "avg_step_time": 5.5405922032365895, + "epoch": 0.06282666666666667, + "eta_time": 13.522123082676854, + "step": 589 + }, + { + "epoch": 0.06293333333333333, + "grad_norm": 1.672215944836693, + "learning_rate": 9.971717555125623e-06, + "loss": 0.4471, + "step": 590 + }, + { + "avg_step_time": 5.6058872853866735, + "epoch": 0.06293333333333333, + "eta_time": 13.67992216725609, + "step": 590 + }, + { + "epoch": 0.06304, + "grad_norm": 1.4551204785989642, + "learning_rate": 9.971533779493586e-06, + "loss": 0.4416, + "step": 591 + }, + { + "avg_step_time": 5.605432257507786, + "epoch": 0.06304, + "eta_time": 13.677254708318998, + "step": 591 + }, + { + "epoch": 0.06314666666666667, + "grad_norm": 1.8022324267239935, + "learning_rate": 9.971349410423e-06, + "loss": 0.4794, + "step": 592 + }, + { + "avg_step_time": 5.60526837483801, + "epoch": 0.06314666666666667, + "eta_time": 13.675297815611735, + "step": 592 + }, + { + "epoch": 0.06325333333333333, + "grad_norm": 0.7209907889771876, + "learning_rate": 9.971164447935875e-06, + "loss": 0.4591, + "step": 593 + }, + { + "avg_step_time": 5.624196240396211, + "epoch": 0.06325333333333333, + "eta_time": 13.719914273099867, + "step": 593 + }, + { + "epoch": 0.06336, + "grad_norm": 1.4382766074684639, + "learning_rate": 9.970978892054286e-06, + "loss": 0.4721, + "step": 594 + }, + { + "avg_step_time": 5.634835293798735, + "epoch": 0.06336, + "eta_time": 13.74430242079075, + "step": 594 + }, + { + "epoch": 0.06346666666666667, + "grad_norm": 1.438557445964598, + "learning_rate": 9.970792742800386e-06, + "loss": 0.4717, + "step": 595 + }, + { + "avg_step_time": 5.653608998866996, + "epoch": 0.06346666666666667, + "eta_time": 13.788524169458952, + "step": 595 + }, + { + "epoch": 0.06357333333333333, + "grad_norm": 1.610210177930083, + "learning_rate": 9.970606000196392e-06, + "loss": 0.4637, + "step": 596 + }, + { + "avg_step_time": 5.654772228664822, + "epoch": 0.06357333333333333, + "eta_time": 13.789790387624574, + "step": 596 + }, + { + "epoch": 0.06368, + "grad_norm": 1.7079397508034353, + "learning_rate": 9.970418664264596e-06, + "loss": 0.5066, + "step": 597 + }, + { + "avg_step_time": 5.652748384861031, + "epoch": 0.06368, + "eta_time": 13.783284811752813, + "step": 597 + }, + { + "epoch": 0.06378666666666667, + "grad_norm": 0.640495862349432, + "learning_rate": 9.970230735027362e-06, + "loss": 0.4169, + "step": 598 + }, + { + "avg_step_time": 5.616725452018507, + "epoch": 0.06378666666666667, + "eta_time": 13.693888692324009, + "step": 598 + }, + { + "epoch": 0.06389333333333333, + "grad_norm": 1.6149857470150397, + "learning_rate": 9.970042212507118e-06, + "loss": 0.4817, + "step": 599 + }, + { + "avg_step_time": 5.607287207035103, + "epoch": 0.06389333333333333, + "eta_time": 13.669320146927797, + "step": 599 + }, + { + "epoch": 0.064, + "grad_norm": 1.7134903710436913, + "learning_rate": 9.969853096726372e-06, + "loss": 0.4815, + "step": 600 + }, + { + "avg_step_time": 5.606459222658716, + "epoch": 0.064, + "eta_time": 13.665744355230622, + "step": 600 + }, + { + "epoch": 0.06410666666666667, + "grad_norm": 1.622288876549281, + "learning_rate": 9.969663387707696e-06, + "loss": 0.5025, + "step": 601 + }, + { + "avg_step_time": 5.581190075537171, + "epoch": 0.06410666666666667, + "eta_time": 13.602600478545314, + "step": 601 + }, + { + "epoch": 0.06421333333333333, + "grad_norm": 1.5729475892379479, + "learning_rate": 9.969473085473735e-06, + "loss": 0.4852, + "step": 602 + }, + { + "avg_step_time": 5.580349604288737, + "epoch": 0.06421333333333333, + "eta_time": 13.599001966229192, + "step": 602 + }, + { + "epoch": 0.06432, + "grad_norm": 1.542155816091303, + "learning_rate": 9.969282190047207e-06, + "loss": 0.5235, + "step": 603 + }, + { + "avg_step_time": 5.575544718540076, + "epoch": 0.06432, + "eta_time": 13.585743964175984, + "step": 603 + }, + { + "epoch": 0.06442666666666666, + "grad_norm": 1.6234534017077553, + "learning_rate": 9.969090701450896e-06, + "loss": 0.5557, + "step": 604 + }, + { + "avg_step_time": 5.573881765808722, + "epoch": 0.06442666666666666, + "eta_time": 13.58014360219675, + "step": 604 + }, + { + "epoch": 0.06453333333333333, + "grad_norm": 1.6209138995882444, + "learning_rate": 9.96889861970766e-06, + "loss": 0.5678, + "step": 605 + }, + { + "avg_step_time": 5.572156135482017, + "epoch": 0.06453333333333333, + "eta_time": 13.57439147449369, + "step": 605 + }, + { + "epoch": 0.06464, + "grad_norm": 0.6814747921818458, + "learning_rate": 9.968705944840428e-06, + "loss": 0.4587, + "step": 606 + }, + { + "avg_step_time": 5.520594035736238, + "epoch": 0.06464, + "eta_time": 13.44724697204752, + "step": 606 + }, + { + "epoch": 0.06474666666666666, + "grad_norm": 1.771568744814897, + "learning_rate": 9.9685126768722e-06, + "loss": 0.4892, + "step": 607 + }, + { + "avg_step_time": 5.553060302830706, + "epoch": 0.06474666666666666, + "eta_time": 13.524786870894342, + "step": 607 + }, + { + "epoch": 0.06485333333333333, + "grad_norm": 1.3974058831434393, + "learning_rate": 9.968318815826041e-06, + "loss": 0.485, + "step": 608 + }, + { + "avg_step_time": 5.5471497400842535, + "epoch": 0.06485333333333333, + "eta_time": 13.508850492032959, + "step": 608 + }, + { + "epoch": 0.06496, + "grad_norm": 1.5382292372093962, + "learning_rate": 9.968124361725098e-06, + "loss": 0.4768, + "step": 609 + }, + { + "avg_step_time": 5.522310543541956, + "epoch": 0.06496, + "eta_time": 13.446826173524665, + "step": 609 + }, + { + "epoch": 0.06506666666666666, + "grad_norm": 1.8969314257195042, + "learning_rate": 9.96792931459258e-06, + "loss": 0.5328, + "step": 610 + }, + { + "avg_step_time": 5.536832749241531, + "epoch": 0.06506666666666666, + "eta_time": 13.480649735306116, + "step": 610 + }, + { + "epoch": 0.06517333333333333, + "grad_norm": 1.7020530172257948, + "learning_rate": 9.96773367445177e-06, + "loss": 0.4737, + "step": 611 + }, + { + "avg_step_time": 5.539727774533358, + "epoch": 0.06517333333333333, + "eta_time": 13.48615950444732, + "step": 611 + }, + { + "epoch": 0.06528, + "grad_norm": 1.8245547909467768, + "learning_rate": 9.967537441326018e-06, + "loss": 0.482, + "step": 612 + }, + { + "avg_step_time": 5.538017684763128, + "epoch": 0.06528, + "eta_time": 13.480458047660914, + "step": 612 + }, + { + "epoch": 0.06538666666666666, + "grad_norm": 1.9235343854086029, + "learning_rate": 9.96734061523875e-06, + "loss": 0.5195, + "step": 613 + }, + { + "avg_step_time": 5.576036561619151, + "epoch": 0.06538666666666666, + "eta_time": 13.571453431363057, + "step": 613 + }, + { + "epoch": 0.06549333333333333, + "grad_norm": 1.7692532955891735, + "learning_rate": 9.96714319621346e-06, + "loss": 0.4806, + "step": 614 + }, + { + "avg_step_time": 5.576618353525798, + "epoch": 0.06549333333333333, + "eta_time": 13.571320387566532, + "step": 614 + }, + { + "epoch": 0.0656, + "grad_norm": 1.6725006371913163, + "learning_rate": 9.966945184273716e-06, + "loss": 0.6014, + "step": 615 + }, + { + "avg_step_time": 5.578621271884803, + "epoch": 0.0656, + "eta_time": 13.574645094919687, + "step": 615 + }, + { + "epoch": 0.06570666666666666, + "grad_norm": 0.6529184221165736, + "learning_rate": 9.966746579443152e-06, + "loss": 0.4421, + "step": 616 + }, + { + "avg_step_time": 5.575189889079392, + "epoch": 0.06570666666666666, + "eta_time": 13.564746732901778, + "step": 616 + }, + { + "epoch": 0.06581333333333333, + "grad_norm": 0.6731934045080312, + "learning_rate": 9.966547381745473e-06, + "loss": 0.4403, + "step": 617 + }, + { + "avg_step_time": 5.5440250478609645, + "epoch": 0.06581333333333333, + "eta_time": 13.487380935879536, + "step": 617 + }, + { + "epoch": 0.06592, + "grad_norm": 1.68323380445904, + "learning_rate": 9.966347591204459e-06, + "loss": 0.528, + "step": 618 + }, + { + "avg_step_time": 5.54394864554357, + "epoch": 0.06592, + "eta_time": 13.485655080284733, + "step": 618 + }, + { + "epoch": 0.06602666666666666, + "grad_norm": 1.4080751114352517, + "learning_rate": 9.96614720784396e-06, + "loss": 0.5124, + "step": 619 + }, + { + "avg_step_time": 5.508206873229056, + "epoch": 0.06602666666666666, + "eta_time": 13.397183161664893, + "step": 619 + }, + { + "epoch": 0.06613333333333334, + "grad_norm": 1.8019292510766796, + "learning_rate": 9.96594623168789e-06, + "loss": 0.4956, + "step": 620 + }, + { + "avg_step_time": 5.542189003241183, + "epoch": 0.06613333333333334, + "eta_time": 13.47829575649349, + "step": 620 + }, + { + "epoch": 0.06624, + "grad_norm": 0.6535955960467024, + "learning_rate": 9.965744662760246e-06, + "loss": 0.4464, + "step": 621 + }, + { + "avg_step_time": 5.506617245047983, + "epoch": 0.06624, + "eta_time": 13.390257600875014, + "step": 621 + }, + { + "epoch": 0.06634666666666666, + "grad_norm": 1.5285373753222131, + "learning_rate": 9.965542501085082e-06, + "loss": 0.445, + "step": 622 + }, + { + "avg_step_time": 5.541140867002083, + "epoch": 0.06634666666666666, + "eta_time": 13.472668335797009, + "step": 622 + }, + { + "epoch": 0.06645333333333334, + "grad_norm": 1.7548019296696171, + "learning_rate": 9.965339746686536e-06, + "loss": 0.4962, + "step": 623 + }, + { + "avg_step_time": 5.539773803768736, + "epoch": 0.06645333333333334, + "eta_time": 13.467805647384438, + "step": 623 + }, + { + "epoch": 0.06656, + "grad_norm": 1.498062478274082, + "learning_rate": 9.965136399588803e-06, + "loss": 0.508, + "step": 624 + }, + { + "avg_step_time": 5.539876420088489, + "epoch": 0.06656, + "eta_time": 13.466516264498436, + "step": 624 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 1.4539281429003303, + "learning_rate": 9.964932459816161e-06, + "loss": 0.5207, + "step": 625 + }, + { + "avg_step_time": 5.5552446962607025, + "epoch": 0.06666666666666667, + "eta_time": 13.502330858966985, + "step": 625 + }, + { + "epoch": 0.06677333333333334, + "grad_norm": 1.9167518207377665, + "learning_rate": 9.964727927392954e-06, + "loss": 0.5576, + "step": 626 + }, + { + "avg_step_time": 5.554188212963066, + "epoch": 0.06677333333333334, + "eta_time": 13.498220187559406, + "step": 626 + }, + { + "epoch": 0.06688, + "grad_norm": 1.5980233404755029, + "learning_rate": 9.964522802343593e-06, + "loss": 0.499, + "step": 627 + }, + { + "avg_step_time": 5.556327395968967, + "epoch": 0.06688, + "eta_time": 13.50187557220459, + "step": 627 + }, + { + "epoch": 0.06698666666666667, + "grad_norm": 1.5402269597342304, + "learning_rate": 9.964317084692568e-06, + "loss": 0.6319, + "step": 628 + }, + { + "avg_step_time": 5.55562028017911, + "epoch": 0.06698666666666667, + "eta_time": 13.498614052979633, + "step": 628 + }, + { + "epoch": 0.06709333333333334, + "grad_norm": 1.6386873863604912, + "learning_rate": 9.964110774464429e-06, + "loss": 0.5283, + "step": 629 + }, + { + "avg_step_time": 5.551410219886086, + "epoch": 0.06709333333333334, + "eta_time": 13.486842717534364, + "step": 629 + }, + { + "epoch": 0.0672, + "grad_norm": 1.6507897654472095, + "learning_rate": 9.963903871683806e-06, + "loss": 0.4904, + "step": 630 + }, + { + "avg_step_time": 5.566241355857464, + "epoch": 0.0672, + "eta_time": 13.521327960270424, + "step": 630 + }, + { + "epoch": 0.06730666666666667, + "grad_norm": 1.5668459711576044, + "learning_rate": 9.963696376375399e-06, + "loss": 0.5689, + "step": 631 + }, + { + "avg_step_time": 5.6003742290265635, + "epoch": 0.06730666666666667, + "eta_time": 13.602686738502296, + "step": 631 + }, + { + "epoch": 0.06741333333333334, + "grad_norm": 0.6798789908483666, + "learning_rate": 9.963488288563972e-06, + "loss": 0.4432, + "step": 632 + }, + { + "avg_step_time": 5.56733572844303, + "epoch": 0.06741333333333334, + "eta_time": 13.520893409382614, + "step": 632 + }, + { + "epoch": 0.06752, + "grad_norm": 1.690550118162991, + "learning_rate": 9.963279608274364e-06, + "loss": 0.5549, + "step": 633 + }, + { + "avg_step_time": 5.570659589285802, + "epoch": 0.06752, + "eta_time": 13.52741836931569, + "step": 633 + }, + { + "epoch": 0.06762666666666667, + "grad_norm": 1.5580601232546791, + "learning_rate": 9.963070335531488e-06, + "loss": 0.4155, + "step": 634 + }, + { + "avg_step_time": 5.584983671554411, + "epoch": 0.06762666666666667, + "eta_time": 13.560650631404753, + "step": 634 + }, + { + "epoch": 0.06773333333333334, + "grad_norm": 1.567605714574118, + "learning_rate": 9.962860470360321e-06, + "loss": 0.5304, + "step": 635 + }, + { + "avg_step_time": 5.5944412308509905, + "epoch": 0.06773333333333334, + "eta_time": 13.582060099343794, + "step": 635 + }, + { + "epoch": 0.06784, + "grad_norm": 1.8387242083541626, + "learning_rate": 9.962650012785917e-06, + "loss": 0.5482, + "step": 636 + }, + { + "avg_step_time": 5.598256954038986, + "epoch": 0.06784, + "eta_time": 13.589768755929638, + "step": 636 + }, + { + "epoch": 0.06794666666666667, + "grad_norm": 1.6633944914354764, + "learning_rate": 9.962438962833393e-06, + "loss": 0.4404, + "step": 637 + }, + { + "avg_step_time": 5.602139212868431, + "epoch": 0.06794666666666667, + "eta_time": 13.597636789456764, + "step": 637 + }, + { + "epoch": 0.06805333333333333, + "grad_norm": 1.7969315581634175, + "learning_rate": 9.962227320527946e-06, + "loss": 0.5349, + "step": 638 + }, + { + "avg_step_time": 5.635340969971936, + "epoch": 0.06805333333333333, + "eta_time": 13.676659459623556, + "step": 638 + }, + { + "epoch": 0.06816, + "grad_norm": 1.3883643156988532, + "learning_rate": 9.962015085894838e-06, + "loss": 0.4516, + "step": 639 + }, + { + "avg_step_time": 5.617398406520034, + "epoch": 0.06816, + "eta_time": 13.631553466488615, + "step": 639 + }, + { + "epoch": 0.06826666666666667, + "grad_norm": 1.7413500712616552, + "learning_rate": 9.961802258959402e-06, + "loss": 0.5255, + "step": 640 + }, + { + "avg_step_time": 5.620412458073009, + "epoch": 0.06826666666666667, + "eta_time": 13.637306339241036, + "step": 640 + }, + { + "epoch": 0.06837333333333333, + "grad_norm": 2.035852090094358, + "learning_rate": 9.961588839747044e-06, + "loss": 0.5857, + "step": 641 + }, + { + "avg_step_time": 5.652312228173921, + "epoch": 0.06837333333333333, + "eta_time": 13.71313750024195, + "step": 641 + }, + { + "epoch": 0.06848, + "grad_norm": 1.6711842765730704, + "learning_rate": 9.961374828283239e-06, + "loss": 0.4919, + "step": 642 + }, + { + "avg_step_time": 5.651540999460702, + "epoch": 0.06848, + "eta_time": 13.709696541191754, + "step": 642 + }, + { + "epoch": 0.06858666666666667, + "grad_norm": 0.6844780038040924, + "learning_rate": 9.961160224593531e-06, + "loss": 0.4355, + "step": 643 + }, + { + "avg_step_time": 5.65140548619357, + "epoch": 0.06858666666666667, + "eta_time": 13.707797973733959, + "step": 643 + }, + { + "epoch": 0.06869333333333333, + "grad_norm": 1.7190165322925783, + "learning_rate": 9.960945028703539e-06, + "loss": 0.4986, + "step": 644 + }, + { + "avg_step_time": 5.652828430888628, + "epoch": 0.06869333333333333, + "eta_time": 13.709679175024615, + "step": 644 + }, + { + "epoch": 0.0688, + "grad_norm": 1.5021988700884539, + "learning_rate": 9.960729240638947e-06, + "loss": 0.491, + "step": 645 + }, + { + "avg_step_time": 5.65429532648337, + "epoch": 0.0688, + "eta_time": 13.711666166722173, + "step": 645 + }, + { + "epoch": 0.06890666666666667, + "grad_norm": 1.9422728765621364, + "learning_rate": 9.960512860425517e-06, + "loss": 0.5418, + "step": 646 + }, + { + "avg_step_time": 5.633485782026041, + "epoch": 0.06890666666666667, + "eta_time": 13.659638164251474, + "step": 646 + }, + { + "epoch": 0.06901333333333333, + "grad_norm": 1.6647417297399303, + "learning_rate": 9.960295888089078e-06, + "loss": 0.554, + "step": 647 + }, + { + "avg_step_time": 5.604403071933323, + "epoch": 0.06901333333333333, + "eta_time": 13.587563892176123, + "step": 647 + }, + { + "epoch": 0.06912, + "grad_norm": 0.6142576236563672, + "learning_rate": 9.960078323655524e-06, + "loss": 0.4115, + "step": 648 + }, + { + "avg_step_time": 5.573214586334999, + "epoch": 0.06912, + "eta_time": 13.510401026373762, + "step": 648 + }, + { + "epoch": 0.06922666666666667, + "grad_norm": 2.2079449386501597, + "learning_rate": 9.959860167150832e-06, + "loss": 0.5889, + "step": 649 + }, + { + "avg_step_time": 5.5678093842785765, + "epoch": 0.06922666666666667, + "eta_time": 13.495751302004127, + "step": 649 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 1.9181876100896744, + "learning_rate": 9.959641418601037e-06, + "loss": 0.5279, + "step": 650 + }, + { + "avg_step_time": 5.566086135729395, + "epoch": 0.06933333333333333, + "eta_time": 13.490028203955271, + "step": 650 + }, + { + "epoch": 0.06944, + "grad_norm": 1.6497911857854957, + "learning_rate": 9.959422078032253e-06, + "loss": 0.5474, + "step": 651 + }, + { + "avg_step_time": 5.567518985632694, + "epoch": 0.06944, + "eta_time": 13.491954341849896, + "step": 651 + }, + { + "epoch": 0.06954666666666667, + "grad_norm": 0.6583692181162532, + "learning_rate": 9.959202145470663e-06, + "loss": 0.4587, + "step": 652 + }, + { + "avg_step_time": 5.534421528228606, + "epoch": 0.06954666666666667, + "eta_time": 13.41021083076059, + "step": 652 + }, + { + "epoch": 0.06965333333333333, + "grad_norm": 0.6496119255124626, + "learning_rate": 9.958981620942519e-06, + "loss": 0.4142, + "step": 653 + }, + { + "avg_step_time": 5.496511382285995, + "epoch": 0.06965333333333333, + "eta_time": 13.316825632305124, + "step": 653 + }, + { + "epoch": 0.06976, + "grad_norm": 1.8340476900669007, + "learning_rate": 9.958760504474144e-06, + "loss": 0.5408, + "step": 654 + }, + { + "avg_step_time": 5.493344574263602, + "epoch": 0.06976, + "eta_time": 13.307627231153575, + "step": 654 + }, + { + "epoch": 0.06986666666666666, + "grad_norm": 1.5011730937940246, + "learning_rate": 9.95853879609193e-06, + "loss": 0.5531, + "step": 655 + }, + { + "avg_step_time": 5.495976224090114, + "epoch": 0.06986666666666666, + "eta_time": 13.312475742796055, + "step": 655 + }, + { + "epoch": 0.06997333333333333, + "grad_norm": 1.4984525236776143, + "learning_rate": 9.958316495822345e-06, + "loss": 0.4123, + "step": 656 + }, + { + "avg_step_time": 5.522445230773001, + "epoch": 0.06997333333333333, + "eta_time": 13.375055546419388, + "step": 656 + }, + { + "epoch": 0.07008, + "grad_norm": 1.7358877828744719, + "learning_rate": 9.958093603691923e-06, + "loss": 0.54, + "step": 657 + }, + { + "avg_step_time": 5.545200482763425, + "epoch": 0.07008, + "eta_time": 13.428627169092094, + "step": 657 + }, + { + "epoch": 0.07018666666666666, + "grad_norm": 0.6430532124971282, + "learning_rate": 9.957870119727271e-06, + "loss": 0.4208, + "step": 658 + }, + { + "avg_step_time": 5.514370017581516, + "epoch": 0.07018666666666666, + "eta_time": 13.35243428979391, + "step": 658 + }, + { + "epoch": 0.07029333333333333, + "grad_norm": 1.884655865291775, + "learning_rate": 9.957646043955066e-06, + "loss": 0.5201, + "step": 659 + }, + { + "avg_step_time": 5.492365203722559, + "epoch": 0.07029333333333333, + "eta_time": 13.29762642101273, + "step": 659 + }, + { + "epoch": 0.0704, + "grad_norm": 1.6855218473233786, + "learning_rate": 9.957421376402053e-06, + "loss": 0.443, + "step": 660 + }, + { + "avg_step_time": 5.490256562377468, + "epoch": 0.0704, + "eta_time": 13.290996094755453, + "step": 660 + }, + { + "epoch": 0.07050666666666666, + "grad_norm": 1.684174472547844, + "learning_rate": 9.957196117095048e-06, + "loss": 0.5103, + "step": 661 + }, + { + "avg_step_time": 5.455487477658975, + "epoch": 0.07050666666666666, + "eta_time": 13.205310522311196, + "step": 661 + }, + { + "epoch": 0.07061333333333333, + "grad_norm": 1.9811605011158389, + "learning_rate": 9.956970266060947e-06, + "loss": 0.532, + "step": 662 + }, + { + "avg_step_time": 5.457532213191794, + "epoch": 0.07061333333333333, + "eta_time": 13.208743937094471, + "step": 662 + }, + { + "epoch": 0.07072, + "grad_norm": 1.6985363798238262, + "learning_rate": 9.956743823326704e-06, + "loss": 0.5559, + "step": 663 + }, + { + "avg_step_time": 5.4458809693654375, + "epoch": 0.07072, + "eta_time": 13.17903194586436, + "step": 663 + }, + { + "epoch": 0.07082666666666666, + "grad_norm": 1.730254588345158, + "learning_rate": 9.95651678891935e-06, + "loss": 0.5296, + "step": 664 + }, + { + "avg_step_time": 5.455228636963199, + "epoch": 0.07082666666666666, + "eta_time": 13.200137960162895, + "step": 664 + }, + { + "epoch": 0.07093333333333333, + "grad_norm": 0.6547358403247512, + "learning_rate": 9.956289162865987e-06, + "loss": 0.4511, + "step": 665 + }, + { + "avg_step_time": 5.458626747131348, + "epoch": 0.07093333333333333, + "eta_time": 13.206844157642788, + "step": 665 + }, + { + "epoch": 0.07104, + "grad_norm": 1.7124816116575918, + "learning_rate": 9.956060945193781e-06, + "loss": 0.4432, + "step": 666 + }, + { + "avg_step_time": 5.477307382256094, + "epoch": 0.07104, + "eta_time": 13.2505194422412, + "step": 666 + }, + { + "epoch": 0.07114666666666666, + "grad_norm": 1.7487899615311278, + "learning_rate": 9.955832135929978e-06, + "loss": 0.5215, + "step": 667 + }, + { + "avg_step_time": 5.483277670060746, + "epoch": 0.07114666666666666, + "eta_time": 13.263439430802492, + "step": 667 + }, + { + "epoch": 0.07125333333333334, + "grad_norm": 1.7014786104921897, + "learning_rate": 9.955602735101892e-06, + "loss": 0.4736, + "step": 668 + }, + { + "avg_step_time": 5.480655997690528, + "epoch": 0.07125333333333334, + "eta_time": 13.255575492192063, + "step": 668 + }, + { + "epoch": 0.07136, + "grad_norm": 1.7062451489693018, + "learning_rate": 9.955372742736903e-06, + "loss": 0.4525, + "step": 669 + }, + { + "avg_step_time": 5.477327997034246, + "epoch": 0.07136, + "eta_time": 13.246004872827818, + "step": 669 + }, + { + "epoch": 0.07146666666666666, + "grad_norm": 1.7797090487652745, + "learning_rate": 9.955142158862463e-06, + "loss": 0.5153, + "step": 670 + }, + { + "avg_step_time": 5.500075817108154, + "epoch": 0.07146666666666666, + "eta_time": 13.299488885535133, + "step": 670 + }, + { + "epoch": 0.07157333333333334, + "grad_norm": 1.6441026305348128, + "learning_rate": 9.9549109835061e-06, + "loss": 0.6139, + "step": 671 + }, + { + "avg_step_time": 5.5078056773754085, + "epoch": 0.07157333333333334, + "eta_time": 13.316650171076544, + "step": 671 + }, + { + "epoch": 0.07168, + "grad_norm": 1.3648373599325205, + "learning_rate": 9.954679216695406e-06, + "loss": 0.4504, + "step": 672 + }, + { + "avg_step_time": 5.5000588388154, + "epoch": 0.07168, + "eta_time": 13.29639224283623, + "step": 672 + }, + { + "epoch": 0.07178666666666667, + "grad_norm": 1.6288291407171949, + "learning_rate": 9.95444685845805e-06, + "loss": 0.4394, + "step": 673 + }, + { + "avg_step_time": 5.4965928034348925, + "epoch": 0.07178666666666667, + "eta_time": 13.286486270969565, + "step": 673 + }, + { + "epoch": 0.07189333333333334, + "grad_norm": 1.6996493706739813, + "learning_rate": 9.954213908821762e-06, + "loss": 0.423, + "step": 674 + }, + { + "avg_step_time": 5.495028074341591, + "epoch": 0.07189333333333334, + "eta_time": 13.281177576346163, + "step": 674 + }, + { + "epoch": 0.072, + "grad_norm": 1.720261205725932, + "learning_rate": 9.953980367814354e-06, + "loss": 0.5451, + "step": 675 + }, + { + "avg_step_time": 5.474688426412717, + "epoch": 0.072, + "eta_time": 13.2304970304974, + "step": 675 + }, + { + "epoch": 0.07210666666666667, + "grad_norm": 1.89082147327199, + "learning_rate": 9.953746235463699e-06, + "loss": 0.5413, + "step": 676 + }, + { + "avg_step_time": 5.4750657202017425, + "epoch": 0.07210666666666667, + "eta_time": 13.229887972231932, + "step": 676 + }, + { + "epoch": 0.07221333333333334, + "grad_norm": 1.7041985115951854, + "learning_rate": 9.95351151179775e-06, + "loss": 0.5698, + "step": 677 + }, + { + "avg_step_time": 5.512938294747864, + "epoch": 0.07221333333333334, + "eta_time": 13.319871468810254, + "step": 677 + }, + { + "epoch": 0.07232, + "grad_norm": 1.6621201198794895, + "learning_rate": 9.953276196844519e-06, + "loss": 0.5661, + "step": 678 + }, + { + "avg_step_time": 5.550726230698403, + "epoch": 0.07232, + "eta_time": 13.409629452328891, + "step": 678 + }, + { + "epoch": 0.07242666666666667, + "grad_norm": 1.4362164791748342, + "learning_rate": 9.9530402906321e-06, + "loss": 0.3974, + "step": 679 + }, + { + "avg_step_time": 5.584270597708346, + "epoch": 0.07242666666666667, + "eta_time": 13.489115866019937, + "step": 679 + }, + { + "epoch": 0.07253333333333334, + "grad_norm": 1.644075661210843, + "learning_rate": 9.95280379318865e-06, + "loss": 0.5361, + "step": 680 + }, + { + "avg_step_time": 5.618922252847691, + "epoch": 0.07253333333333334, + "eta_time": 13.571258052364074, + "step": 680 + }, + { + "epoch": 0.07264, + "grad_norm": 1.4926227456073673, + "learning_rate": 9.9525667045424e-06, + "loss": 0.4701, + "step": 681 + }, + { + "avg_step_time": 5.6857294675075645, + "epoch": 0.07264, + "eta_time": 13.731036664030768, + "step": 681 + }, + { + "epoch": 0.07274666666666667, + "grad_norm": 1.4837179419540452, + "learning_rate": 9.95232902472165e-06, + "loss": 0.4793, + "step": 682 + }, + { + "avg_step_time": 5.6855202251010475, + "epoch": 0.07274666666666667, + "eta_time": 13.728952032445392, + "step": 682 + }, + { + "epoch": 0.07285333333333334, + "grad_norm": 0.6779691316896986, + "learning_rate": 9.952090753754772e-06, + "loss": 0.4466, + "step": 683 + }, + { + "avg_step_time": 5.64730854708739, + "epoch": 0.07285333333333334, + "eta_time": 13.635112747578777, + "step": 683 + }, + { + "epoch": 0.07296, + "grad_norm": 1.8569386773783187, + "learning_rate": 9.951851891670206e-06, + "loss": 0.5199, + "step": 684 + }, + { + "avg_step_time": 5.648492418154322, + "epoch": 0.07296, + "eta_time": 13.63640211282756, + "step": 684 + }, + { + "epoch": 0.07306666666666667, + "grad_norm": 1.730907127301447, + "learning_rate": 9.951612438496467e-06, + "loss": 0.4955, + "step": 685 + }, + { + "avg_step_time": 5.631530063320892, + "epoch": 0.07306666666666667, + "eta_time": 13.593887847294043, + "step": 685 + }, + { + "epoch": 0.07317333333333334, + "grad_norm": 1.9760266877705788, + "learning_rate": 9.951372394262135e-06, + "loss": 0.5264, + "step": 686 + }, + { + "avg_step_time": 5.635532186488913, + "epoch": 0.07317333333333334, + "eta_time": 13.601983102333936, + "step": 686 + }, + { + "epoch": 0.07328, + "grad_norm": 1.8835661242699757, + "learning_rate": 9.951131758995866e-06, + "loss": 0.5168, + "step": 687 + }, + { + "avg_step_time": 5.635954628087053, + "epoch": 0.07328, + "eta_time": 13.601437169116755, + "step": 687 + }, + { + "epoch": 0.07338666666666667, + "grad_norm": 1.6583875128516066, + "learning_rate": 9.950890532726382e-06, + "loss": 0.4621, + "step": 688 + }, + { + "avg_step_time": 5.638325724938904, + "epoch": 0.07338666666666667, + "eta_time": 13.605593214595627, + "step": 688 + }, + { + "epoch": 0.07349333333333333, + "grad_norm": 1.5595885233435103, + "learning_rate": 9.95064871548248e-06, + "loss": 0.415, + "step": 689 + }, + { + "avg_step_time": 5.5680585413268116, + "epoch": 0.07349333333333333, + "eta_time": 13.434487913879078, + "step": 689 + }, + { + "epoch": 0.0736, + "grad_norm": 1.6627617348510237, + "learning_rate": 9.950406307293023e-06, + "loss": 0.5142, + "step": 690 + }, + { + "avg_step_time": 5.572497627951882, + "epoch": 0.0736, + "eta_time": 13.443650527433915, + "step": 690 + }, + { + "epoch": 0.07370666666666667, + "grad_norm": 0.6769749105851044, + "learning_rate": 9.950163308186946e-06, + "loss": 0.4746, + "step": 691 + }, + { + "avg_step_time": 5.562813334994846, + "epoch": 0.07370666666666667, + "eta_time": 13.41874194474868, + "step": 691 + }, + { + "epoch": 0.07381333333333333, + "grad_norm": 1.521563210707938, + "learning_rate": 9.949919718193257e-06, + "loss": 0.4116, + "step": 692 + }, + { + "avg_step_time": 5.5741617872257425, + "epoch": 0.07381333333333333, + "eta_time": 13.444568555133644, + "step": 692 + }, + { + "epoch": 0.07392, + "grad_norm": 1.4616324443582949, + "learning_rate": 9.949675537341031e-06, + "loss": 0.4673, + "step": 693 + }, + { + "avg_step_time": 5.563710634154503, + "epoch": 0.07392, + "eta_time": 13.417815479369276, + "step": 693 + }, + { + "epoch": 0.07402666666666667, + "grad_norm": 1.7150945922688385, + "learning_rate": 9.949430765659417e-06, + "loss": 0.4435, + "step": 694 + }, + { + "avg_step_time": 5.542483194909915, + "epoch": 0.07402666666666667, + "eta_time": 13.36508239305916, + "step": 694 + }, + { + "epoch": 0.07413333333333333, + "grad_norm": 1.679543096495581, + "learning_rate": 9.949185403177632e-06, + "loss": 0.5196, + "step": 695 + }, + { + "avg_step_time": 5.540835409453421, + "epoch": 0.07413333333333333, + "eta_time": 13.359569820571027, + "step": 695 + }, + { + "epoch": 0.07424, + "grad_norm": 1.9416580136518775, + "learning_rate": 9.948939449924964e-06, + "loss": 0.5562, + "step": 696 + }, + { + "avg_step_time": 5.540663459084251, + "epoch": 0.07424, + "eta_time": 13.357616155942281, + "step": 696 + }, + { + "epoch": 0.07434666666666667, + "grad_norm": 1.6509823963316783, + "learning_rate": 9.94869290593077e-06, + "loss": 0.4468, + "step": 697 + }, + { + "avg_step_time": 5.573528417433151, + "epoch": 0.07434666666666667, + "eta_time": 13.435299890690246, + "step": 697 + }, + { + "epoch": 0.07445333333333333, + "grad_norm": 1.6663108550956396, + "learning_rate": 9.948445771224484e-06, + "loss": 0.5454, + "step": 698 + }, + { + "avg_step_time": 5.5765831831729775, + "epoch": 0.07445333333333333, + "eta_time": 13.441114522331091, + "step": 698 + }, + { + "epoch": 0.07456, + "grad_norm": 1.610718454344579, + "learning_rate": 9.948198045835601e-06, + "loss": 0.4724, + "step": 699 + }, + { + "avg_step_time": 5.5801953787755485, + "epoch": 0.07456, + "eta_time": 13.448270862849073, + "step": 699 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 1.7946508863916577, + "learning_rate": 9.947949729793693e-06, + "loss": 0.5194, + "step": 700 + }, + { + "avg_step_time": 5.581935858485674, + "epoch": 0.07466666666666667, + "eta_time": 13.450914881212007, + "step": 700 + }, + { + "epoch": 0.07477333333333333, + "grad_norm": 1.7015161789476196, + "learning_rate": 9.947700823128403e-06, + "loss": 0.5552, + "step": 701 + }, + { + "avg_step_time": 5.582809715559988, + "epoch": 0.07477333333333333, + "eta_time": 13.451469853546485, + "step": 701 + }, + { + "epoch": 0.07488, + "grad_norm": 1.6861766414902937, + "learning_rate": 9.94745132586944e-06, + "loss": 0.553, + "step": 702 + }, + { + "avg_step_time": 5.583864426372027, + "epoch": 0.07488, + "eta_time": 13.452460047201276, + "step": 702 + }, + { + "epoch": 0.07498666666666666, + "grad_norm": 1.8858088701940752, + "learning_rate": 9.947201238046585e-06, + "loss": 0.49, + "step": 703 + }, + { + "avg_step_time": 5.591467305867359, + "epoch": 0.07498666666666666, + "eta_time": 13.469223465689371, + "step": 703 + }, + { + "epoch": 0.07509333333333333, + "grad_norm": 1.7956385619923323, + "learning_rate": 9.946950559689691e-06, + "loss": 0.537, + "step": 704 + }, + { + "avg_step_time": 5.606232879137752, + "epoch": 0.07509333333333333, + "eta_time": 13.503234804167626, + "step": 704 + }, + { + "epoch": 0.0752, + "grad_norm": 1.6642055495692487, + "learning_rate": 9.946699290828683e-06, + "loss": 0.4604, + "step": 705 + }, + { + "avg_step_time": 5.637934282572583, + "epoch": 0.0752, + "eta_time": 13.578025063862302, + "step": 705 + }, + { + "epoch": 0.07530666666666666, + "grad_norm": 1.5499356823191155, + "learning_rate": 9.946447431493553e-06, + "loss": 0.5535, + "step": 706 + }, + { + "avg_step_time": 5.639568839410339, + "epoch": 0.07530666666666666, + "eta_time": 13.580395074680064, + "step": 706 + }, + { + "epoch": 0.07541333333333333, + "grad_norm": 1.5749841596424377, + "learning_rate": 9.946194981714364e-06, + "loss": 0.5148, + "step": 707 + }, + { + "avg_step_time": 5.634638950078174, + "epoch": 0.07541333333333333, + "eta_time": 13.566958449799337, + "step": 707 + }, + { + "epoch": 0.07552, + "grad_norm": 1.7407108396223163, + "learning_rate": 9.94594194152125e-06, + "loss": 0.4612, + "step": 708 + }, + { + "avg_step_time": 5.632941862549445, + "epoch": 0.07552, + "eta_time": 13.561307534087788, + "step": 708 + }, + { + "epoch": 0.07562666666666666, + "grad_norm": 1.6771920778372407, + "learning_rate": 9.945688310944415e-06, + "loss": 0.5739, + "step": 709 + }, + { + "avg_step_time": 5.628610100408997, + "epoch": 0.07562666666666666, + "eta_time": 13.549315313928991, + "step": 709 + }, + { + "epoch": 0.07573333333333333, + "grad_norm": 1.870368765214324, + "learning_rate": 9.945434090014136e-06, + "loss": 0.581, + "step": 710 + }, + { + "avg_step_time": 5.630125045776367, + "epoch": 0.07573333333333333, + "eta_time": 13.55139820045895, + "step": 710 + }, + { + "epoch": 0.07584, + "grad_norm": 1.5782005920517637, + "learning_rate": 9.945179278760759e-06, + "loss": 0.4717, + "step": 711 + }, + { + "avg_step_time": 5.650596180347481, + "epoch": 0.07584, + "eta_time": 13.599101474036273, + "step": 711 + }, + { + "epoch": 0.07594666666666666, + "grad_norm": 1.8699299369911206, + "learning_rate": 9.944923877214701e-06, + "loss": 0.5382, + "step": 712 + }, + { + "avg_step_time": 5.682008991337786, + "epoch": 0.07594666666666666, + "eta_time": 13.673123303322011, + "step": 712 + }, + { + "epoch": 0.07605333333333333, + "grad_norm": 1.5223875093796495, + "learning_rate": 9.944667885406445e-06, + "loss": 0.4377, + "step": 713 + }, + { + "avg_step_time": 5.682528026176222, + "epoch": 0.07605333333333333, + "eta_time": 13.672793822982898, + "step": 713 + }, + { + "epoch": 0.07616, + "grad_norm": 0.6124615216099616, + "learning_rate": 9.94441130336655e-06, + "loss": 0.4228, + "step": 714 + }, + { + "avg_step_time": 5.6470695432990485, + "epoch": 0.07616, + "eta_time": 13.585908142920294, + "step": 714 + }, + { + "epoch": 0.07626666666666666, + "grad_norm": 1.7130563444390323, + "learning_rate": 9.944154131125643e-06, + "loss": 0.5066, + "step": 715 + }, + { + "avg_step_time": 5.680591128089211, + "epoch": 0.07626666666666666, + "eta_time": 13.664977547014601, + "step": 715 + }, + { + "epoch": 0.07637333333333333, + "grad_norm": 2.3509577248319853, + "learning_rate": 9.943896368714423e-06, + "loss": 0.4603, + "step": 716 + }, + { + "avg_step_time": 5.707368633963845, + "epoch": 0.07637333333333333, + "eta_time": 13.727806944859148, + "step": 716 + }, + { + "epoch": 0.07648, + "grad_norm": 1.6725656657852523, + "learning_rate": 9.943638016163658e-06, + "loss": 0.4379, + "step": 717 + }, + { + "avg_step_time": 5.711329373446378, + "epoch": 0.07648, + "eta_time": 13.735747143138537, + "step": 717 + }, + { + "epoch": 0.07658666666666666, + "grad_norm": 0.6673743457675548, + "learning_rate": 9.943379073504187e-06, + "loss": 0.4308, + "step": 718 + }, + { + "avg_step_time": 5.676849141265407, + "epoch": 0.07658666666666666, + "eta_time": 13.651245282204064, + "step": 718 + }, + { + "epoch": 0.07669333333333334, + "grad_norm": 1.7454670140214745, + "learning_rate": 9.94311954076692e-06, + "loss": 0.4356, + "step": 719 + }, + { + "avg_step_time": 5.6771166926682595, + "epoch": 0.07669333333333334, + "eta_time": 13.650311692149016, + "step": 719 + }, + { + "epoch": 0.0768, + "grad_norm": 0.6149361367199496, + "learning_rate": 9.942859417982833e-06, + "loss": 0.4268, + "step": 720 + }, + { + "avg_step_time": 5.682281354461053, + "epoch": 0.0768, + "eta_time": 13.661151423016781, + "step": 720 + }, + { + "epoch": 0.07690666666666666, + "grad_norm": 1.5402902650393815, + "learning_rate": 9.94259870518298e-06, + "loss": 0.4148, + "step": 721 + }, + { + "avg_step_time": 5.682247747074474, + "epoch": 0.07690666666666666, + "eta_time": 13.659492223106248, + "step": 721 + }, + { + "epoch": 0.07701333333333334, + "grad_norm": 2.100608278347142, + "learning_rate": 9.942337402398481e-06, + "loss": 0.4288, + "step": 722 + }, + { + "avg_step_time": 5.682894415325588, + "epoch": 0.07701333333333334, + "eta_time": 13.659468159947865, + "step": 722 + }, + { + "epoch": 0.07712, + "grad_norm": 1.7528083598564674, + "learning_rate": 9.942075509660527e-06, + "loss": 0.5676, + "step": 723 + }, + { + "avg_step_time": 5.682443219001847, + "epoch": 0.07712, + "eta_time": 13.656805203001104, + "step": 723 + }, + { + "epoch": 0.07722666666666667, + "grad_norm": 1.5027528382251425, + "learning_rate": 9.941813027000377e-06, + "loss": 0.4631, + "step": 724 + }, + { + "avg_step_time": 5.666708190031726, + "epoch": 0.07722666666666667, + "eta_time": 13.617414597767906, + "step": 724 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 1.4681806915812852, + "learning_rate": 9.941549954449365e-06, + "loss": 0.4549, + "step": 725 + }, + { + "avg_step_time": 5.662302221914734, + "epoch": 0.07733333333333334, + "eta_time": 13.60525394987846, + "step": 725 + }, + { + "epoch": 0.07744, + "grad_norm": 1.5457474718818565, + "learning_rate": 9.941286292038894e-06, + "loss": 0.517, + "step": 726 + }, + { + "avg_step_time": 5.661642736858791, + "epoch": 0.07744, + "eta_time": 13.602096675303248, + "step": 726 + }, + { + "epoch": 0.07754666666666667, + "grad_norm": 2.083340796956408, + "learning_rate": 9.941022039800437e-06, + "loss": 0.5711, + "step": 727 + }, + { + "avg_step_time": 5.660508803646974, + "epoch": 0.07754666666666667, + "eta_time": 13.597800037205287, + "step": 727 + }, + { + "epoch": 0.07765333333333334, + "grad_norm": 1.9620025103088898, + "learning_rate": 9.940757197765533e-06, + "loss": 0.5056, + "step": 728 + }, + { + "avg_step_time": 5.663579817974206, + "epoch": 0.07765333333333334, + "eta_time": 13.603604079450822, + "step": 728 + }, + { + "epoch": 0.07776, + "grad_norm": 1.5417929368657424, + "learning_rate": 9.940491765965798e-06, + "loss": 0.4989, + "step": 729 + }, + { + "avg_step_time": 5.650080370180534, + "epoch": 0.07776, + "eta_time": 13.569609689050251, + "step": 729 + }, + { + "epoch": 0.07786666666666667, + "grad_norm": 1.851531820289441, + "learning_rate": 9.940225744432919e-06, + "loss": 0.4743, + "step": 730 + }, + { + "avg_step_time": 5.6489776625777735, + "epoch": 0.07786666666666667, + "eta_time": 13.565392192495791, + "step": 730 + }, + { + "epoch": 0.07797333333333334, + "grad_norm": 1.6003962314238684, + "learning_rate": 9.939959133198644e-06, + "loss": 0.5447, + "step": 731 + }, + { + "avg_step_time": 5.682523260212908, + "epoch": 0.07797333333333334, + "eta_time": 13.64436973924455, + "step": 731 + }, + { + "epoch": 0.07808, + "grad_norm": 0.6337912410699357, + "learning_rate": 9.939691932294804e-06, + "loss": 0.4303, + "step": 732 + }, + { + "avg_step_time": 5.646196505036017, + "epoch": 0.07808, + "eta_time": 13.555576775840638, + "step": 732 + }, + { + "epoch": 0.07818666666666667, + "grad_norm": 1.5782359200754204, + "learning_rate": 9.939424141753289e-06, + "loss": 0.5401, + "step": 733 + }, + { + "avg_step_time": 5.633098060434515, + "epoch": 0.07818666666666667, + "eta_time": 13.522564843965299, + "step": 733 + }, + { + "epoch": 0.07829333333333334, + "grad_norm": 1.7498093632699363, + "learning_rate": 9.939155761606066e-06, + "loss": 0.5359, + "step": 734 + }, + { + "avg_step_time": 5.634538657737501, + "epoch": 0.07829333333333334, + "eta_time": 13.524457928197151, + "step": 734 + }, + { + "epoch": 0.0784, + "grad_norm": 1.9550375165755727, + "learning_rate": 9.938886791885172e-06, + "loss": 0.4805, + "step": 735 + }, + { + "avg_step_time": 5.63019618843541, + "epoch": 0.0784, + "eta_time": 13.512470852244986, + "step": 735 + }, + { + "epoch": 0.07850666666666667, + "grad_norm": 1.477556579688246, + "learning_rate": 9.938617232622713e-06, + "loss": 0.4463, + "step": 736 + }, + { + "avg_step_time": 5.658856449705182, + "epoch": 0.07850666666666667, + "eta_time": 13.579683574723074, + "step": 736 + }, + { + "epoch": 0.07861333333333333, + "grad_norm": 1.6572610409648343, + "learning_rate": 9.938347083850866e-06, + "loss": 0.4787, + "step": 737 + }, + { + "avg_step_time": 5.6615864604410495, + "epoch": 0.07861333333333333, + "eta_time": 13.584662179247163, + "step": 737 + }, + { + "epoch": 0.07872, + "grad_norm": 0.6194150930645927, + "learning_rate": 9.938076345601875e-06, + "loss": 0.427, + "step": 738 + }, + { + "avg_step_time": 5.610859141205296, + "epoch": 0.07872, + "eta_time": 13.461386222941705, + "step": 738 + }, + { + "epoch": 0.07882666666666667, + "grad_norm": 1.6269656591786914, + "learning_rate": 9.93780501790806e-06, + "loss": 0.4699, + "step": 739 + }, + { + "avg_step_time": 5.611080889750009, + "epoch": 0.07882666666666667, + "eta_time": 13.460359601078077, + "step": 739 + }, + { + "epoch": 0.07893333333333333, + "grad_norm": 1.5068893651808266, + "learning_rate": 9.937533100801808e-06, + "loss": 0.5732, + "step": 740 + }, + { + "avg_step_time": 5.579604895427973, + "epoch": 0.07893333333333333, + "eta_time": 13.383302297783487, + "step": 740 + }, + { + "epoch": 0.07904, + "grad_norm": 1.6628119976645632, + "learning_rate": 9.937260594315578e-06, + "loss": 0.5918, + "step": 741 + }, + { + "avg_step_time": 5.580308728747898, + "epoch": 0.07904, + "eta_time": 13.383440434447042, + "step": 741 + }, + { + "epoch": 0.07914666666666667, + "grad_norm": 0.6449434804564538, + "learning_rate": 9.936987498481896e-06, + "loss": 0.4623, + "step": 742 + }, + { + "avg_step_time": 5.584061160232082, + "epoch": 0.07914666666666667, + "eta_time": 13.390888887856544, + "step": 742 + }, + { + "epoch": 0.07925333333333333, + "grad_norm": 1.6361422112788964, + "learning_rate": 9.936713813333362e-06, + "loss": 0.4744, + "step": 743 + }, + { + "avg_step_time": 5.585473299026489, + "epoch": 0.07925333333333333, + "eta_time": 13.39272375477685, + "step": 743 + }, + { + "epoch": 0.07936, + "grad_norm": 1.4094947605578734, + "learning_rate": 9.936439538902644e-06, + "loss": 0.4678, + "step": 744 + }, + { + "avg_step_time": 5.583648199986929, + "epoch": 0.07936, + "eta_time": 13.386796559468664, + "step": 744 + }, + { + "epoch": 0.07946666666666667, + "grad_norm": 1.7125592190057637, + "learning_rate": 9.936164675222485e-06, + "loss": 0.6022, + "step": 745 + }, + { + "avg_step_time": 5.585693730248345, + "epoch": 0.07946666666666667, + "eta_time": 13.390149136678673, + "step": 745 + }, + { + "epoch": 0.07957333333333333, + "grad_norm": 1.6493417992692865, + "learning_rate": 9.93588922232569e-06, + "loss": 0.4405, + "step": 746 + }, + { + "avg_step_time": 5.585616865543404, + "epoch": 0.07957333333333333, + "eta_time": 13.388413314659452, + "step": 746 + }, + { + "epoch": 0.07968, + "grad_norm": 1.6064692627325627, + "learning_rate": 9.935613180245143e-06, + "loss": 0.4577, + "step": 747 + }, + { + "avg_step_time": 5.61481746278628, + "epoch": 0.07968, + "eta_time": 13.456845852477784, + "step": 747 + }, + { + "epoch": 0.07978666666666667, + "grad_norm": 1.820739083056488, + "learning_rate": 9.935336549013791e-06, + "loss": 0.5832, + "step": 748 + }, + { + "avg_step_time": 5.621142067090429, + "epoch": 0.07978666666666667, + "eta_time": 13.470442392441425, + "step": 748 + }, + { + "epoch": 0.07989333333333333, + "grad_norm": 0.6394930506811983, + "learning_rate": 9.935059328664657e-06, + "loss": 0.4467, + "step": 749 + }, + { + "avg_step_time": 5.585651903441458, + "epoch": 0.07989333333333333, + "eta_time": 13.383842588635003, + "step": 749 + }, + { + "epoch": 0.08, + "grad_norm": 1.5008662802091626, + "learning_rate": 9.934781519230832e-06, + "loss": 0.4961, + "step": 750 + }, + { + "avg_step_time": 5.5810178578502, + "epoch": 0.08, + "eta_time": 13.371188617766105, + "step": 750 + }, + { + "epoch": 0.08010666666666667, + "grad_norm": 1.5373440883467397, + "learning_rate": 9.934503120745476e-06, + "loss": 0.4317, + "step": 751 + }, + { + "avg_step_time": 5.614432503478696, + "epoch": 0.08010666666666667, + "eta_time": 13.449684975000077, + "step": 751 + }, + { + "epoch": 0.08021333333333333, + "grad_norm": 0.6700731107084179, + "learning_rate": 9.934224133241823e-06, + "loss": 0.4583, + "step": 752 + }, + { + "avg_step_time": 5.613659285535716, + "epoch": 0.08021333333333333, + "eta_time": 13.446273338659578, + "step": 752 + }, + { + "epoch": 0.08032, + "grad_norm": 1.7090839723208864, + "learning_rate": 9.933944556753173e-06, + "loss": 0.5215, + "step": 753 + }, + { + "avg_step_time": 5.615043854472613, + "epoch": 0.08032, + "eta_time": 13.448030031461906, + "step": 753 + }, + { + "epoch": 0.08042666666666666, + "grad_norm": 1.7611310888073686, + "learning_rate": 9.933664391312897e-06, + "loss": 0.5378, + "step": 754 + }, + { + "avg_step_time": 5.614283106543801, + "epoch": 0.08042666666666666, + "eta_time": 13.444648517087252, + "step": 754 + }, + { + "epoch": 0.08053333333333333, + "grad_norm": 1.406793610193637, + "learning_rate": 9.93338363695444e-06, + "loss": 0.5341, + "step": 755 + }, + { + "avg_step_time": 5.5934601697054775, + "epoch": 0.08053333333333333, + "eta_time": 13.39322962857256, + "step": 755 + }, + { + "epoch": 0.08064, + "grad_norm": 1.3514816331365507, + "learning_rate": 9.933102293711314e-06, + "loss": 0.4092, + "step": 756 + }, + { + "avg_step_time": 5.594961626361115, + "epoch": 0.08064, + "eta_time": 13.395270627112902, + "step": 756 + }, + { + "epoch": 0.08074666666666666, + "grad_norm": 1.5766480284165474, + "learning_rate": 9.932820361617104e-06, + "loss": 0.4897, + "step": 757 + }, + { + "avg_step_time": 5.6280791952152445, + "epoch": 0.08074666666666666, + "eta_time": 13.472996251212495, + "step": 757 + }, + { + "epoch": 0.08085333333333333, + "grad_norm": 0.6538346725257991, + "learning_rate": 9.93253784070546e-06, + "loss": 0.4478, + "step": 758 + }, + { + "avg_step_time": 5.593096140659217, + "epoch": 0.08085333333333333, + "eta_time": 13.387697067794575, + "step": 758 + }, + { + "epoch": 0.08096, + "grad_norm": 1.6655551989869313, + "learning_rate": 9.932254731010108e-06, + "loss": 0.5048, + "step": 759 + }, + { + "avg_step_time": 5.594349425248425, + "epoch": 0.08096, + "eta_time": 13.38914295776123, + "step": 759 + }, + { + "epoch": 0.08106666666666666, + "grad_norm": 1.6496214169007772, + "learning_rate": 9.931971032564842e-06, + "loss": 0.617, + "step": 760 + }, + { + "avg_step_time": 5.593770971201887, + "epoch": 0.08106666666666666, + "eta_time": 13.386204699140071, + "step": 760 + }, + { + "epoch": 0.08117333333333333, + "grad_norm": 1.9441474092526505, + "learning_rate": 9.931686745403527e-06, + "loss": 0.5949, + "step": 761 + }, + { + "avg_step_time": 5.594911223710185, + "epoch": 0.08117333333333333, + "eta_time": 13.387379244733204, + "step": 761 + }, + { + "epoch": 0.08128, + "grad_norm": 1.67594952323371, + "learning_rate": 9.931401869560096e-06, + "loss": 0.5486, + "step": 762 + }, + { + "avg_step_time": 5.597181691063775, + "epoch": 0.08128, + "eta_time": 13.391257195870082, + "step": 762 + }, + { + "epoch": 0.08138666666666666, + "grad_norm": 1.48334030291088, + "learning_rate": 9.931116405068554e-06, + "loss": 0.4823, + "step": 763 + }, + { + "avg_step_time": 5.584065008645106, + "epoch": 0.08138666666666666, + "eta_time": 13.358324404014347, + "step": 763 + }, + { + "epoch": 0.08149333333333333, + "grad_norm": 1.8182623104013318, + "learning_rate": 9.930830351962976e-06, + "loss": 0.522, + "step": 764 + }, + { + "avg_step_time": 5.61525925963816, + "epoch": 0.08149333333333333, + "eta_time": 13.43138819020672, + "step": 764 + }, + { + "epoch": 0.0816, + "grad_norm": 1.9058329340587963, + "learning_rate": 9.93054371027751e-06, + "loss": 0.5165, + "step": 765 + }, + { + "avg_step_time": 5.595807718508171, + "epoch": 0.0816, + "eta_time": 13.383306793432043, + "step": 765 + }, + { + "epoch": 0.08170666666666666, + "grad_norm": 1.6103897739995112, + "learning_rate": 9.930256480046367e-06, + "loss": 0.5177, + "step": 766 + }, + { + "avg_step_time": 5.585445066895148, + "epoch": 0.08170666666666666, + "eta_time": 13.356971272472315, + "step": 766 + }, + { + "epoch": 0.08181333333333334, + "grad_norm": 1.6925863696482952, + "learning_rate": 9.929968661303837e-06, + "loss": 0.5354, + "step": 767 + }, + { + "avg_step_time": 5.601573681590533, + "epoch": 0.08181333333333334, + "eta_time": 13.393985069758696, + "step": 767 + }, + { + "epoch": 0.08192, + "grad_norm": 1.5696991144370513, + "learning_rate": 9.929680254084273e-06, + "loss": 0.5481, + "step": 768 + }, + { + "avg_step_time": 5.601534995165738, + "epoch": 0.08192, + "eta_time": 13.39233658427542, + "step": 768 + }, + { + "epoch": 0.08202666666666666, + "grad_norm": 1.3489297612472506, + "learning_rate": 9.929391258422106e-06, + "loss": 0.3897, + "step": 769 + }, + { + "avg_step_time": 5.610949521112924, + "epoch": 0.08202666666666666, + "eta_time": 13.413286549638286, + "step": 769 + }, + { + "epoch": 0.08213333333333334, + "grad_norm": 1.764181749290517, + "learning_rate": 9.929101674351827e-06, + "loss": 0.5819, + "step": 770 + }, + { + "avg_step_time": 5.602751825795029, + "epoch": 0.08213333333333334, + "eta_time": 13.392133183601729, + "step": 770 + }, + { + "epoch": 0.08224, + "grad_norm": 1.4166699447094973, + "learning_rate": 9.928811501908006e-06, + "loss": 0.5243, + "step": 771 + }, + { + "avg_step_time": 5.605266766114668, + "epoch": 0.08224, + "eta_time": 13.396587571014058, + "step": 771 + }, + { + "epoch": 0.08234666666666667, + "grad_norm": 1.5340881580190748, + "learning_rate": 9.92852074112528e-06, + "loss": 0.4863, + "step": 772 + }, + { + "avg_step_time": 5.633798736514467, + "epoch": 0.08234666666666667, + "eta_time": 13.4632140361761, + "step": 772 + }, + { + "epoch": 0.08245333333333334, + "grad_norm": 1.8677395939697836, + "learning_rate": 9.928229392038356e-06, + "loss": 0.5143, + "step": 773 + }, + { + "avg_step_time": 5.641975556961214, + "epoch": 0.08245333333333334, + "eta_time": 13.481187150272323, + "step": 773 + }, + { + "epoch": 0.08256, + "grad_norm": 1.6635124097956047, + "learning_rate": 9.92793745468201e-06, + "loss": 0.4878, + "step": 774 + }, + { + "avg_step_time": 5.655578745736016, + "epoch": 0.08256, + "eta_time": 13.512120220020966, + "step": 774 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 1.7027057973392141, + "learning_rate": 9.927644929091094e-06, + "loss": 0.47, + "step": 775 + }, + { + "avg_step_time": 5.662590816767529, + "epoch": 0.08266666666666667, + "eta_time": 13.527300284500207, + "step": 775 + }, + { + "epoch": 0.08277333333333334, + "grad_norm": 1.365534790170899, + "learning_rate": 9.927351815300522e-06, + "loss": 0.4109, + "step": 776 + }, + { + "avg_step_time": 5.659000765193593, + "epoch": 0.08277333333333334, + "eta_time": 13.517152105527696, + "step": 776 + }, + { + "epoch": 0.08288, + "grad_norm": 1.8812631200417909, + "learning_rate": 9.927058113345282e-06, + "loss": 0.5126, + "step": 777 + }, + { + "avg_step_time": 5.6604462970386855, + "epoch": 0.08288, + "eta_time": 13.519032572760729, + "step": 777 + }, + { + "epoch": 0.08298666666666667, + "grad_norm": 1.6142055671654252, + "learning_rate": 9.926763823260437e-06, + "loss": 0.4443, + "step": 778 + }, + { + "avg_step_time": 5.625388280309812, + "epoch": 0.08298666666666667, + "eta_time": 13.43373973495096, + "step": 778 + }, + { + "epoch": 0.08309333333333334, + "grad_norm": 1.4962087989097492, + "learning_rate": 9.926468945081109e-06, + "loss": 0.4012, + "step": 779 + }, + { + "avg_step_time": 5.621256048029119, + "epoch": 0.08309333333333334, + "eta_time": 13.422310274682863, + "step": 779 + }, + { + "epoch": 0.0832, + "grad_norm": 1.8586878260952866, + "learning_rate": 9.926173478842502e-06, + "loss": 0.4434, + "step": 780 + }, + { + "avg_step_time": 5.591474383768409, + "epoch": 0.0832, + "eta_time": 13.349645091247076, + "step": 780 + }, + { + "epoch": 0.08330666666666667, + "grad_norm": 1.6002830903227712, + "learning_rate": 9.925877424579884e-06, + "loss": 0.4052, + "step": 781 + }, + { + "avg_step_time": 5.590477757983738, + "epoch": 0.08330666666666667, + "eta_time": 13.345712736697847, + "step": 781 + }, + { + "epoch": 0.08341333333333334, + "grad_norm": 1.6442996001427337, + "learning_rate": 9.925580782328592e-06, + "loss": 0.495, + "step": 782 + }, + { + "avg_step_time": 5.62718641155898, + "epoch": 0.08341333333333334, + "eta_time": 13.431781342923976, + "step": 782 + }, + { + "epoch": 0.08352, + "grad_norm": 0.6641049519920208, + "learning_rate": 9.925283552124039e-06, + "loss": 0.4365, + "step": 783 + }, + { + "avg_step_time": 5.589841281524812, + "epoch": 0.08352, + "eta_time": 13.341087858572552, + "step": 783 + }, + { + "epoch": 0.08362666666666667, + "grad_norm": 1.6916873633005676, + "learning_rate": 9.9249857340017e-06, + "loss": 0.5461, + "step": 784 + }, + { + "avg_step_time": 5.585871910808062, + "epoch": 0.08362666666666667, + "eta_time": 13.330062662708904, + "step": 784 + }, + { + "epoch": 0.08373333333333334, + "grad_norm": 1.7198230713092775, + "learning_rate": 9.924687327997128e-06, + "loss": 0.4756, + "step": 785 + }, + { + "avg_step_time": 5.586178061938045, + "epoch": 0.08373333333333334, + "eta_time": 13.329241542235502, + "step": 785 + }, + { + "epoch": 0.08384, + "grad_norm": 1.6646267071631036, + "learning_rate": 9.924388334145943e-06, + "loss": 0.4916, + "step": 786 + }, + { + "avg_step_time": 5.585290232090035, + "epoch": 0.08384, + "eta_time": 13.325571612061475, + "step": 786 + }, + { + "epoch": 0.08394666666666667, + "grad_norm": 2.2644379659601075, + "learning_rate": 9.924088752483834e-06, + "loss": 0.4912, + "step": 787 + }, + { + "avg_step_time": 5.58316653906697, + "epoch": 0.08394666666666667, + "eta_time": 13.318953954863094, + "step": 787 + }, + { + "epoch": 0.08405333333333333, + "grad_norm": 1.586909554162558, + "learning_rate": 9.923788583046561e-06, + "loss": 0.481, + "step": 788 + }, + { + "avg_step_time": 5.586437088070494, + "epoch": 0.08405333333333333, + "eta_time": 13.325204243128146, + "step": 788 + }, + { + "epoch": 0.08416, + "grad_norm": 1.3926595513798194, + "learning_rate": 9.923487825869955e-06, + "loss": 0.4368, + "step": 789 + }, + { + "avg_step_time": 5.592543705545291, + "epoch": 0.08416, + "eta_time": 13.338216737725519, + "step": 789 + }, + { + "epoch": 0.08426666666666667, + "grad_norm": 1.9139780482414348, + "learning_rate": 9.923186480989916e-06, + "loss": 0.6815, + "step": 790 + }, + { + "avg_step_time": 5.6018240355482005, + "epoch": 0.08426666666666667, + "eta_time": 13.358794262550362, + "step": 790 + }, + { + "epoch": 0.08437333333333333, + "grad_norm": 1.4709087411675854, + "learning_rate": 9.922884548442416e-06, + "loss": 0.5156, + "step": 791 + }, + { + "avg_step_time": 5.621465692616472, + "epoch": 0.08437333333333333, + "eta_time": 13.404072640394388, + "step": 791 + }, + { + "epoch": 0.08448, + "grad_norm": 1.7270511426428048, + "learning_rate": 9.922582028263495e-06, + "loss": 0.4871, + "step": 792 + }, + { + "avg_step_time": 5.621068443914856, + "epoch": 0.08448, + "eta_time": 13.401564015033669, + "step": 792 + }, + { + "epoch": 0.08458666666666667, + "grad_norm": 0.6744887147446578, + "learning_rate": 9.922278920489262e-06, + "loss": 0.457, + "step": 793 + }, + { + "avg_step_time": 5.58511509798994, + "epoch": 0.08458666666666667, + "eta_time": 13.314293825263796, + "step": 793 + }, + { + "epoch": 0.08469333333333333, + "grad_norm": 1.882257785249503, + "learning_rate": 9.921975225155902e-06, + "loss": 0.5533, + "step": 794 + }, + { + "avg_step_time": 5.587537293482309, + "epoch": 0.08469333333333333, + "eta_time": 13.318515976492137, + "step": 794 + }, + { + "epoch": 0.0848, + "grad_norm": 1.4682367314869618, + "learning_rate": 9.921670942299664e-06, + "loss": 0.512, + "step": 795 + }, + { + "avg_step_time": 5.5930958901992955, + "epoch": 0.0848, + "eta_time": 13.330211871641655, + "step": 795 + }, + { + "epoch": 0.08490666666666667, + "grad_norm": 1.6166986360120055, + "learning_rate": 9.92136607195687e-06, + "loss": 0.4597, + "step": 796 + }, + { + "avg_step_time": 5.593473511512833, + "epoch": 0.08490666666666667, + "eta_time": 13.3295581264635, + "step": 796 + }, + { + "epoch": 0.08501333333333333, + "grad_norm": 1.8162229911144625, + "learning_rate": 9.921060614163911e-06, + "loss": 0.5384, + "step": 797 + }, + { + "avg_step_time": 5.5873058877810085, + "epoch": 0.08501333333333333, + "eta_time": 13.313308307051525, + "step": 797 + }, + { + "epoch": 0.08512, + "grad_norm": 1.7055116827528096, + "learning_rate": 9.92075456895725e-06, + "loss": 0.4741, + "step": 798 + }, + { + "avg_step_time": 5.583324042233554, + "epoch": 0.08512, + "eta_time": 13.302269530621441, + "step": 798 + }, + { + "epoch": 0.08522666666666667, + "grad_norm": 0.645938939499114, + "learning_rate": 9.920447936373418e-06, + "loss": 0.4591, + "step": 799 + }, + { + "avg_step_time": 5.570680866337786, + "epoch": 0.08522666666666667, + "eta_time": 13.270599752698013, + "step": 799 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 1.500022779123269, + "learning_rate": 9.920140716449016e-06, + "loss": 0.4567, + "step": 800 + }, + { + "avg_step_time": 5.612470174076582, + "epoch": 0.08533333333333333, + "eta_time": 13.368592150751857, + "step": 800 + }, + { + "epoch": 0.08544, + "grad_norm": 1.467509977802929, + "learning_rate": 9.919832909220717e-06, + "loss": 0.4926, + "step": 801 + }, + { + "avg_step_time": 5.61468011441857, + "epoch": 0.08544, + "eta_time": 13.372296472506894, + "step": 801 + }, + { + "epoch": 0.08554666666666666, + "grad_norm": 0.6270044890151336, + "learning_rate": 9.919524514725262e-06, + "loss": 0.4262, + "step": 802 + }, + { + "avg_step_time": 5.57673533275874, + "epoch": 0.08554666666666666, + "eta_time": 13.280375557705744, + "step": 802 + }, + { + "epoch": 0.08565333333333333, + "grad_norm": 1.3336139270051384, + "learning_rate": 9.919215532999467e-06, + "loss": 0.4714, + "step": 803 + }, + { + "avg_step_time": 5.564273559685909, + "epoch": 0.08565333333333333, + "eta_time": 13.249153598229894, + "step": 803 + }, + { + "epoch": 0.08576, + "grad_norm": 1.7555373601103448, + "learning_rate": 9.91890596408021e-06, + "loss": 0.4934, + "step": 804 + }, + { + "avg_step_time": 5.582006550798512, + "epoch": 0.08576, + "eta_time": 13.289827263026126, + "step": 804 + }, + { + "epoch": 0.08586666666666666, + "grad_norm": 1.7342089737244664, + "learning_rate": 9.918595808004444e-06, + "loss": 0.4469, + "step": 805 + }, + { + "avg_step_time": 5.582539657149652, + "epoch": 0.08586666666666666, + "eta_time": 13.289545794936808, + "step": 805 + }, + { + "epoch": 0.08597333333333333, + "grad_norm": 0.6441179597014317, + "learning_rate": 9.918285064809193e-06, + "loss": 0.4684, + "step": 806 + }, + { + "avg_step_time": 5.549167587299539, + "epoch": 0.08597333333333333, + "eta_time": 13.20856029321382, + "step": 806 + }, + { + "epoch": 0.08608, + "grad_norm": 1.795100810824331, + "learning_rate": 9.917973734531549e-06, + "loss": 0.5063, + "step": 807 + }, + { + "avg_step_time": 5.552750098584879, + "epoch": 0.08608, + "eta_time": 13.21554523463201, + "step": 807 + }, + { + "epoch": 0.08618666666666666, + "grad_norm": 2.038926664307826, + "learning_rate": 9.917661817208675e-06, + "loss": 0.5104, + "step": 808 + }, + { + "avg_step_time": 5.553760347944317, + "epoch": 0.08618666666666666, + "eta_time": 13.216406916899713, + "step": 808 + }, + { + "epoch": 0.08629333333333333, + "grad_norm": 1.5148490217663761, + "learning_rate": 9.917349312877802e-06, + "loss": 0.4998, + "step": 809 + }, + { + "avg_step_time": 5.561380461008862, + "epoch": 0.08629333333333333, + "eta_time": 13.23299584138942, + "step": 809 + }, + { + "epoch": 0.0864, + "grad_norm": 1.380718656084814, + "learning_rate": 9.917036221576235e-06, + "loss": 0.4849, + "step": 810 + }, + { + "avg_step_time": 5.5538367020963415, + "epoch": 0.0864, + "eta_time": 13.213503153737545, + "step": 810 + }, + { + "epoch": 0.08650666666666666, + "grad_norm": 1.7820319051829774, + "learning_rate": 9.916722543341345e-06, + "loss": 0.5512, + "step": 811 + }, + { + "avg_step_time": 5.520830679421473, + "epoch": 0.08650666666666666, + "eta_time": 13.133442760712638, + "step": 811 + }, + { + "epoch": 0.08661333333333333, + "grad_norm": 1.4781895390400341, + "learning_rate": 9.91640827821058e-06, + "loss": 0.5407, + "step": 812 + }, + { + "avg_step_time": 5.559053589599301, + "epoch": 0.08661333333333333, + "eta_time": 13.222826635483006, + "step": 812 + }, + { + "epoch": 0.08672, + "grad_norm": 1.8597447753746816, + "learning_rate": 9.916093426221445e-06, + "loss": 0.4477, + "step": 813 + }, + { + "avg_step_time": 5.587063524458143, + "epoch": 0.08672, + "eta_time": 13.287899415669617, + "step": 813 + }, + { + "epoch": 0.08682666666666666, + "grad_norm": 0.6399696892887705, + "learning_rate": 9.915777987411527e-06, + "loss": 0.4518, + "step": 814 + }, + { + "avg_step_time": 5.551476772385414, + "epoch": 0.08682666666666666, + "eta_time": 13.201720180108758, + "step": 814 + }, + { + "epoch": 0.08693333333333333, + "grad_norm": 1.6189909466974877, + "learning_rate": 9.91546196181848e-06, + "loss": 0.6321, + "step": 815 + }, + { + "avg_step_time": 5.5549125406477184, + "epoch": 0.08693333333333333, + "eta_time": 13.208347596651242, + "step": 815 + }, + { + "epoch": 0.08704, + "grad_norm": 1.5448398171817468, + "learning_rate": 9.915145349480027e-06, + "loss": 0.4559, + "step": 816 + }, + { + "avg_step_time": 5.55026800463898, + "epoch": 0.08704, + "eta_time": 13.195762181029174, + "step": 816 + }, + { + "epoch": 0.08714666666666666, + "grad_norm": 1.6841282025519821, + "learning_rate": 9.914828150433958e-06, + "loss": 0.489, + "step": 817 + }, + { + "avg_step_time": 5.586044313931706, + "epoch": 0.08714666666666666, + "eta_time": 13.279268677396537, + "step": 817 + }, + { + "epoch": 0.08725333333333334, + "grad_norm": 1.9934843310061454, + "learning_rate": 9.91451036471814e-06, + "loss": 0.601, + "step": 818 + }, + { + "avg_step_time": 5.589800275937475, + "epoch": 0.08725333333333334, + "eta_time": 13.286644711443603, + "step": 818 + }, + { + "epoch": 0.08736, + "grad_norm": 1.6449067999641256, + "learning_rate": 9.914191992370504e-06, + "loss": 0.5178, + "step": 819 + }, + { + "avg_step_time": 5.626150208290177, + "epoch": 0.08736, + "eta_time": 13.371483661702987, + "step": 819 + }, + { + "epoch": 0.08746666666666666, + "grad_norm": 1.4601313082151954, + "learning_rate": 9.913873033429054e-06, + "loss": 0.4561, + "step": 820 + }, + { + "avg_step_time": 5.624809041167751, + "epoch": 0.08746666666666666, + "eta_time": 13.366733707552807, + "step": 820 + }, + { + "epoch": 0.08757333333333334, + "grad_norm": 1.744213141420528, + "learning_rate": 9.913553487931865e-06, + "loss": 0.4729, + "step": 821 + }, + { + "avg_step_time": 5.6220563589924515, + "epoch": 0.08757333333333334, + "eta_time": 13.358630581894841, + "step": 821 + }, + { + "epoch": 0.08768, + "grad_norm": 0.6383587413101359, + "learning_rate": 9.913233355917075e-06, + "loss": 0.4417, + "step": 822 + }, + { + "avg_step_time": 5.597673413729427, + "epoch": 0.08768, + "eta_time": 13.299139085452165, + "step": 822 + }, + { + "epoch": 0.08778666666666667, + "grad_norm": 1.727480813566209, + "learning_rate": 9.912912637422905e-06, + "loss": 0.5624, + "step": 823 + }, + { + "avg_step_time": 5.5998376306861335, + "epoch": 0.08778666666666667, + "eta_time": 13.302725393785503, + "step": 823 + }, + { + "epoch": 0.08789333333333334, + "grad_norm": 1.8208016261812021, + "learning_rate": 9.912591332487631e-06, + "loss": 0.486, + "step": 824 + }, + { + "avg_step_time": 5.611405502666127, + "epoch": 0.08789333333333334, + "eta_time": 13.328646792582791, + "step": 824 + }, + { + "epoch": 0.088, + "grad_norm": 1.5451030124181127, + "learning_rate": 9.91226944114961e-06, + "loss": 0.5125, + "step": 825 + }, + { + "avg_step_time": 5.61021156022043, + "epoch": 0.088, + "eta_time": 13.32425245552352, + "step": 825 + }, + { + "epoch": 0.08810666666666667, + "grad_norm": 1.7209579669545194, + "learning_rate": 9.911946963447265e-06, + "loss": 0.5721, + "step": 826 + }, + { + "avg_step_time": 5.608623851429332, + "epoch": 0.08810666666666667, + "eta_time": 13.318923696074823, + "step": 826 + }, + { + "epoch": 0.08821333333333334, + "grad_norm": 0.6772662956431614, + "learning_rate": 9.911623899419089e-06, + "loss": 0.4226, + "step": 827 + }, + { + "avg_step_time": 5.618845997434674, + "epoch": 0.08821333333333334, + "eta_time": 13.341637662797664, + "step": 827 + }, + { + "epoch": 0.08832, + "grad_norm": 1.7925319842431509, + "learning_rate": 9.911300249103646e-06, + "loss": 0.4283, + "step": 828 + }, + { + "avg_step_time": 5.678618139690823, + "epoch": 0.08832, + "eta_time": 13.481985899982629, + "step": 828 + }, + { + "epoch": 0.08842666666666667, + "grad_norm": 1.7978767651331704, + "learning_rate": 9.910976012539567e-06, + "loss": 0.5612, + "step": 829 + }, + { + "avg_step_time": 5.681959101648042, + "epoch": 0.08842666666666667, + "eta_time": 13.48833957852338, + "step": 829 + }, + { + "epoch": 0.08853333333333334, + "grad_norm": 1.361527733348084, + "learning_rate": 9.910651189765557e-06, + "loss": 0.4834, + "step": 830 + }, + { + "avg_step_time": 5.683105952811964, + "epoch": 0.08853333333333334, + "eta_time": 13.489483435216174, + "step": 830 + }, + { + "epoch": 0.08864, + "grad_norm": 1.7228592506518527, + "learning_rate": 9.910325780820391e-06, + "loss": 0.4524, + "step": 831 + }, + { + "avg_step_time": 5.7189801558099616, + "epoch": 0.08864, + "eta_time": 13.573046236455642, + "step": 831 + }, + { + "epoch": 0.08874666666666667, + "grad_norm": 0.6947502801392955, + "learning_rate": 9.909999785742908e-06, + "loss": 0.4589, + "step": 832 + }, + { + "avg_step_time": 5.68573742201834, + "epoch": 0.08874666666666667, + "eta_time": 13.492570776750744, + "step": 832 + }, + { + "epoch": 0.08885333333333334, + "grad_norm": 1.7175361372414748, + "learning_rate": 9.909673204572023e-06, + "loss": 0.4401, + "step": 833 + }, + { + "avg_step_time": 5.677561947793672, + "epoch": 0.08885333333333334, + "eta_time": 13.47159282168154, + "step": 833 + }, + { + "epoch": 0.08896, + "grad_norm": 1.6796573785271827, + "learning_rate": 9.90934603734672e-06, + "loss": 0.3939, + "step": 834 + }, + { + "avg_step_time": 5.678123425955724, + "epoch": 0.08896, + "eta_time": 13.471347828079956, + "step": 834 + }, + { + "epoch": 0.08906666666666667, + "grad_norm": 1.7252561274662948, + "learning_rate": 9.909018284106054e-06, + "loss": 0.4717, + "step": 835 + }, + { + "avg_step_time": 5.652052677038944, + "epoch": 0.08906666666666667, + "eta_time": 13.407924961642385, + "step": 835 + }, + { + "epoch": 0.08917333333333333, + "grad_norm": 1.5077116971517184, + "learning_rate": 9.908689944889143e-06, + "loss": 0.4279, + "step": 836 + }, + { + "avg_step_time": 5.645797185223512, + "epoch": 0.08917333333333333, + "eta_time": 13.391517267950992, + "step": 836 + }, + { + "epoch": 0.08928, + "grad_norm": 0.6661906655288066, + "learning_rate": 9.908361019735181e-06, + "loss": 0.4559, + "step": 837 + }, + { + "avg_step_time": 5.645477251573042, + "epoch": 0.08928, + "eta_time": 13.389190214980731, + "step": 837 + }, + { + "epoch": 0.08938666666666667, + "grad_norm": 1.6448728271807747, + "learning_rate": 9.908031508683436e-06, + "loss": 0.536, + "step": 838 + }, + { + "avg_step_time": 5.664558877848616, + "epoch": 0.08938666666666667, + "eta_time": 13.43287198338712, + "step": 838 + }, + { + "epoch": 0.08949333333333333, + "grad_norm": 1.7721718892506118, + "learning_rate": 9.907701411773234e-06, + "loss": 0.5065, + "step": 839 + }, + { + "avg_step_time": 5.664886002588754, + "epoch": 0.08949333333333333, + "eta_time": 13.432074143916001, + "step": 839 + }, + { + "epoch": 0.0896, + "grad_norm": 1.517912931732173, + "learning_rate": 9.907370729043984e-06, + "loss": 0.3951, + "step": 840 + }, + { + "avg_step_time": 5.6640891619402955, + "epoch": 0.0896, + "eta_time": 13.428611388100117, + "step": 840 + }, + { + "epoch": 0.08970666666666667, + "grad_norm": 1.5786684560549349, + "learning_rate": 9.907039460535153e-06, + "loss": 0.4778, + "step": 841 + }, + { + "avg_step_time": 5.7022236091922025, + "epoch": 0.08970666666666667, + "eta_time": 13.517437855790627, + "step": 841 + }, + { + "epoch": 0.08981333333333333, + "grad_norm": 2.0198660169503855, + "learning_rate": 9.906707606286287e-06, + "loss": 0.4906, + "step": 842 + }, + { + "avg_step_time": 5.699800845348474, + "epoch": 0.08981333333333333, + "eta_time": 13.51011128148848, + "step": 842 + }, + { + "epoch": 0.08992, + "grad_norm": 1.548292341035029, + "learning_rate": 9.906375166336998e-06, + "loss": 0.5352, + "step": 843 + }, + { + "avg_step_time": 5.698860303320066, + "epoch": 0.08992, + "eta_time": 13.506298918868557, + "step": 843 + }, + { + "epoch": 0.09002666666666667, + "grad_norm": 0.662059664917195, + "learning_rate": 9.90604214072697e-06, + "loss": 0.4584, + "step": 844 + }, + { + "avg_step_time": 5.66465512429825, + "epoch": 0.09002666666666667, + "eta_time": 13.423659129274547, + "step": 844 + }, + { + "epoch": 0.09013333333333333, + "grad_norm": 1.8014077687742067, + "learning_rate": 9.905708529495953e-06, + "loss": 0.4829, + "step": 845 + }, + { + "avg_step_time": 5.667467360544687, + "epoch": 0.09013333333333333, + "eta_time": 13.428749051512828, + "step": 845 + }, + { + "epoch": 0.09024, + "grad_norm": 1.4895351477469907, + "learning_rate": 9.905374332683768e-06, + "loss": 0.4278, + "step": 846 + }, + { + "avg_step_time": 5.670149408205591, + "epoch": 0.09024, + "eta_time": 13.433528972940413, + "step": 846 + }, + { + "epoch": 0.09034666666666667, + "grad_norm": 1.5435288157856955, + "learning_rate": 9.90503955033031e-06, + "loss": 0.4567, + "step": 847 + }, + { + "avg_step_time": 5.6659244768547286, + "epoch": 0.09034666666666667, + "eta_time": 13.421945538504758, + "step": 847 + }, + { + "epoch": 0.09045333333333333, + "grad_norm": 0.6371744414097377, + "learning_rate": 9.904704182475542e-06, + "loss": 0.4289, + "step": 848 + }, + { + "avg_step_time": 5.666408353381687, + "epoch": 0.09045333333333333, + "eta_time": 13.42151778591268, + "step": 848 + }, + { + "epoch": 0.09056, + "grad_norm": 1.3995558208812255, + "learning_rate": 9.904368229159494e-06, + "loss": 0.5273, + "step": 849 + }, + { + "avg_step_time": 5.676319582293732, + "epoch": 0.09056, + "eta_time": 13.443416877398988, + "step": 849 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 0.6217135564154668, + "learning_rate": 9.904031690422266e-06, + "loss": 0.4538, + "step": 850 + }, + { + "avg_step_time": 5.646210193634033, + "epoch": 0.09066666666666667, + "eta_time": 13.370539416869482, + "step": 850 + }, + { + "epoch": 0.09077333333333333, + "grad_norm": 1.9550272064534933, + "learning_rate": 9.903694566304031e-06, + "loss": 0.5381, + "step": 851 + }, + { + "avg_step_time": 5.706023618428394, + "epoch": 0.09077333333333333, + "eta_time": 13.510595923189896, + "step": 851 + }, + { + "epoch": 0.09088, + "grad_norm": 1.6162231950472699, + "learning_rate": 9.903356856845035e-06, + "loss": 0.4814, + "step": 852 + }, + { + "avg_step_time": 5.70750472762368, + "epoch": 0.09088, + "eta_time": 13.512517442649061, + "step": 852 + }, + { + "epoch": 0.09098666666666666, + "grad_norm": 1.9704141899772696, + "learning_rate": 9.903018562085583e-06, + "loss": 0.468, + "step": 853 + }, + { + "avg_step_time": 5.709902996968741, + "epoch": 0.09098666666666666, + "eta_time": 13.51660926115767, + "step": 853 + }, + { + "epoch": 0.09109333333333333, + "grad_norm": 1.6193259080202762, + "learning_rate": 9.902679682066059e-06, + "loss": 0.51, + "step": 854 + }, + { + "avg_step_time": 5.718006914312189, + "epoch": 0.09109333333333333, + "eta_time": 13.534204699126157, + "step": 854 + }, + { + "epoch": 0.0912, + "grad_norm": 1.6362517026912164, + "learning_rate": 9.902340216826915e-06, + "loss": 0.5297, + "step": 855 + }, + { + "avg_step_time": 5.717150298031894, + "epoch": 0.0912, + "eta_time": 13.530589038675481, + "step": 855 + }, + { + "epoch": 0.09130666666666666, + "grad_norm": 1.7746248706134962, + "learning_rate": 9.902000166408672e-06, + "loss": 0.5184, + "step": 856 + }, + { + "avg_step_time": 5.714830006011809, + "epoch": 0.09130666666666666, + "eta_time": 13.523510228115166, + "step": 856 + }, + { + "epoch": 0.09141333333333333, + "grad_norm": 1.7678640859853616, + "learning_rate": 9.90165953085192e-06, + "loss": 0.5946, + "step": 857 + }, + { + "avg_step_time": 5.7478504421735055, + "epoch": 0.09141333333333333, + "eta_time": 13.600052796231644, + "step": 857 + }, + { + "epoch": 0.09152, + "grad_norm": 2.200229905028866, + "learning_rate": 9.90131831019732e-06, + "loss": 0.4653, + "step": 858 + }, + { + "avg_step_time": 5.746615279804576, + "epoch": 0.09152, + "eta_time": 13.595533982804326, + "step": 858 + }, + { + "epoch": 0.09162666666666666, + "grad_norm": 1.9143855527368336, + "learning_rate": 9.900976504485601e-06, + "loss": 0.4579, + "step": 859 + }, + { + "avg_step_time": 5.7488075121484625, + "epoch": 0.09162666666666666, + "eta_time": 13.599123548182307, + "step": 859 + }, + { + "epoch": 0.09173333333333333, + "grad_norm": 1.9814509521381667, + "learning_rate": 9.900634113757568e-06, + "loss": 0.5299, + "step": 860 + }, + { + "avg_step_time": 5.745607010041825, + "epoch": 0.09173333333333333, + "eta_time": 13.58995658069615, + "step": 860 + }, + { + "epoch": 0.09184, + "grad_norm": 1.571416763485523, + "learning_rate": 9.900291138054086e-06, + "loss": 0.5495, + "step": 861 + }, + { + "avg_step_time": 5.745348860519101, + "epoch": 0.09184, + "eta_time": 13.587750055127673, + "step": 861 + }, + { + "epoch": 0.09194666666666666, + "grad_norm": 1.6618291385628625, + "learning_rate": 9.899947577416097e-06, + "loss": 0.5811, + "step": 862 + }, + { + "avg_step_time": 5.766580733385953, + "epoch": 0.09194666666666666, + "eta_time": 13.636361606476283, + "step": 862 + }, + { + "epoch": 0.09205333333333333, + "grad_norm": 1.6993858634463896, + "learning_rate": 9.899603431884613e-06, + "loss": 0.5663, + "step": 863 + }, + { + "avg_step_time": 5.764889146342422, + "epoch": 0.09205333333333333, + "eta_time": 13.630760114907416, + "step": 863 + }, + { + "epoch": 0.09216, + "grad_norm": 1.925225590165804, + "learning_rate": 9.899258701500712e-06, + "loss": 0.5899, + "step": 864 + }, + { + "avg_step_time": 5.766712056265937, + "epoch": 0.09216, + "eta_time": 13.633468419688718, + "step": 864 + }, + { + "epoch": 0.09226666666666666, + "grad_norm": 0.6760152789240258, + "learning_rate": 9.898913386305542e-06, + "loss": 0.4481, + "step": 865 + }, + { + "avg_step_time": 5.733864991351812, + "epoch": 0.09226666666666666, + "eta_time": 13.554219743445534, + "step": 865 + }, + { + "epoch": 0.09237333333333334, + "grad_norm": 1.5677942431642653, + "learning_rate": 9.898567486340325e-06, + "loss": 0.5122, + "step": 866 + }, + { + "avg_step_time": 5.718291747449625, + "epoch": 0.09237333333333334, + "eta_time": 13.515817910846904, + "step": 866 + }, + { + "epoch": 0.09248, + "grad_norm": 1.4635428122516119, + "learning_rate": 9.89822100164635e-06, + "loss": 0.4723, + "step": 867 + }, + { + "avg_step_time": 5.719214588704736, + "epoch": 0.09248, + "eta_time": 13.516410477972192, + "step": 867 + }, + { + "epoch": 0.09258666666666666, + "grad_norm": 1.8262109405910996, + "learning_rate": 9.897873932264972e-06, + "loss": 0.5101, + "step": 868 + }, + { + "avg_step_time": 5.684939117142648, + "epoch": 0.09258666666666666, + "eta_time": 13.43382696375903, + "step": 868 + }, + { + "epoch": 0.09269333333333334, + "grad_norm": 1.4240920672611337, + "learning_rate": 9.897526278237624e-06, + "loss": 0.5228, + "step": 869 + }, + { + "avg_step_time": 5.686447068898365, + "epoch": 0.09269333333333334, + "eta_time": 13.435810768902636, + "step": 869 + }, + { + "epoch": 0.0928, + "grad_norm": 1.861256730738266, + "learning_rate": 9.897178039605803e-06, + "loss": 0.5161, + "step": 870 + }, + { + "avg_step_time": 5.734938999619147, + "epoch": 0.0928, + "eta_time": 13.548793386600236, + "step": 870 + }, + { + "epoch": 0.09290666666666667, + "grad_norm": 1.5406453710848256, + "learning_rate": 9.896829216411076e-06, + "loss": 0.4205, + "step": 871 + }, + { + "avg_step_time": 5.707374132040775, + "epoch": 0.09290666666666667, + "eta_time": 13.482086005242987, + "step": 871 + }, + { + "epoch": 0.09301333333333334, + "grad_norm": 0.6111988820588262, + "learning_rate": 9.896479808695086e-06, + "loss": 0.4338, + "step": 872 + }, + { + "avg_step_time": 5.669747306842996, + "epoch": 0.09301333333333334, + "eta_time": 13.391628152801667, + "step": 872 + }, + { + "epoch": 0.09312, + "grad_norm": 1.38355114411587, + "learning_rate": 9.896129816499535e-06, + "loss": 0.5156, + "step": 873 + }, + { + "avg_step_time": 5.6495698919199935, + "epoch": 0.09312, + "eta_time": 13.342400894751052, + "step": 873 + }, + { + "epoch": 0.09322666666666667, + "grad_norm": 1.7573306450021038, + "learning_rate": 9.895779239866204e-06, + "loss": 0.4912, + "step": 874 + }, + { + "avg_step_time": 5.64341498384572, + "epoch": 0.09322666666666667, + "eta_time": 13.326297438242353, + "step": 874 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 1.553283742368616, + "learning_rate": 9.89542807883694e-06, + "loss": 0.5123, + "step": 875 + }, + { + "avg_step_time": 5.6442017434823395, + "epoch": 0.09333333333333334, + "eta_time": 13.326587449888859, + "step": 875 + }, + { + "epoch": 0.09344, + "grad_norm": 0.6559942147968276, + "learning_rate": 9.89507633345366e-06, + "loss": 0.4552, + "step": 876 + }, + { + "avg_step_time": 5.605516337385081, + "epoch": 0.09344, + "eta_time": 13.23368981984328, + "step": 876 + }, + { + "epoch": 0.09354666666666667, + "grad_norm": 1.7278271166289965, + "learning_rate": 9.894724003758349e-06, + "loss": 0.4486, + "step": 877 + }, + { + "avg_step_time": 5.663422387055676, + "epoch": 0.09354666666666667, + "eta_time": 13.368823179221982, + "step": 877 + }, + { + "epoch": 0.09365333333333334, + "grad_norm": 0.6260981711430404, + "learning_rate": 9.894371089793065e-06, + "loss": 0.4218, + "step": 878 + }, + { + "avg_step_time": 5.633137134590534, + "epoch": 0.09365333333333334, + "eta_time": 13.295768397948823, + "step": 878 + }, + { + "epoch": 0.09376, + "grad_norm": 1.7400945786198485, + "learning_rate": 9.894017591599934e-06, + "loss": 0.5963, + "step": 879 + }, + { + "avg_step_time": 5.629223943960787, + "epoch": 0.09376, + "eta_time": 13.284968507747458, + "step": 879 + }, + { + "epoch": 0.09386666666666667, + "grad_norm": 1.6857301451475122, + "learning_rate": 9.893663509221155e-06, + "loss": 0.5121, + "step": 880 + }, + { + "avg_step_time": 5.628516026217528, + "epoch": 0.09386666666666667, + "eta_time": 13.281734345199416, + "step": 880 + }, + { + "epoch": 0.09397333333333334, + "grad_norm": 1.5716107197896039, + "learning_rate": 9.89330884269899e-06, + "loss": 0.5514, + "step": 881 + }, + { + "avg_step_time": 5.6451999346415205, + "epoch": 0.09397333333333334, + "eta_time": 13.319535623568077, + "step": 881 + }, + { + "epoch": 0.09408, + "grad_norm": 1.4903506165527414, + "learning_rate": 9.892953592075776e-06, + "loss": 0.4397, + "step": 882 + }, + { + "avg_step_time": 5.699278826665396, + "epoch": 0.09408, + "eta_time": 13.445548631908114, + "step": 882 + }, + { + "epoch": 0.09418666666666667, + "grad_norm": 1.5822840766384034, + "learning_rate": 9.892597757393918e-06, + "loss": 0.5423, + "step": 883 + }, + { + "avg_step_time": 5.702121455259998, + "epoch": 0.09418666666666667, + "eta_time": 13.45067094390775, + "step": 883 + }, + { + "epoch": 0.09429333333333334, + "grad_norm": 1.5382665222016108, + "learning_rate": 9.892241338695892e-06, + "loss": 0.5021, + "step": 884 + }, + { + "avg_step_time": 5.702632997975205, + "epoch": 0.09429333333333334, + "eta_time": 13.450293551613184, + "step": 884 + }, + { + "epoch": 0.0944, + "grad_norm": 1.6022225554446137, + "learning_rate": 9.891884336024242e-06, + "loss": 0.4705, + "step": 885 + }, + { + "avg_step_time": 5.699256270822852, + "epoch": 0.0944, + "eta_time": 13.44074603869056, + "step": 885 + }, + { + "epoch": 0.09450666666666667, + "grad_norm": 0.6881393565261847, + "learning_rate": 9.891526749421583e-06, + "loss": 0.4623, + "step": 886 + }, + { + "avg_step_time": 5.666118951758953, + "epoch": 0.09450666666666667, + "eta_time": 13.36102327263382, + "step": 886 + }, + { + "epoch": 0.09461333333333333, + "grad_norm": 1.5415613650807787, + "learning_rate": 9.891168578930597e-06, + "loss": 0.5176, + "step": 887 + }, + { + "avg_step_time": 5.666586466509886, + "epoch": 0.09461333333333333, + "eta_time": 13.36055164659331, + "step": 887 + }, + { + "epoch": 0.09472, + "grad_norm": 1.6546481047943877, + "learning_rate": 9.890809824594041e-06, + "loss": 0.4993, + "step": 888 + }, + { + "avg_step_time": 5.665411257984663, + "epoch": 0.09472, + "eta_time": 13.356207040698841, + "step": 888 + }, + { + "epoch": 0.09482666666666667, + "grad_norm": 1.6462375035289512, + "learning_rate": 9.890450486454736e-06, + "loss": 0.5122, + "step": 889 + }, + { + "avg_step_time": 5.671624094548852, + "epoch": 0.09482666666666667, + "eta_time": 13.369278351761544, + "step": 889 + }, + { + "epoch": 0.09493333333333333, + "grad_norm": 1.6538047695836808, + "learning_rate": 9.890090564555579e-06, + "loss": 0.6094, + "step": 890 + }, + { + "avg_step_time": 5.653689644553444, + "epoch": 0.09493333333333333, + "eta_time": 13.325432398343326, + "step": 890 + }, + { + "epoch": 0.09504, + "grad_norm": 1.9251243626556405, + "learning_rate": 9.889730058939529e-06, + "loss": 0.4741, + "step": 891 + }, + { + "avg_step_time": 5.652029502271402, + "epoch": 0.09504, + "eta_time": 13.319949527019604, + "step": 891 + }, + { + "epoch": 0.09514666666666667, + "grad_norm": 1.6996711623804805, + "learning_rate": 9.88936896964962e-06, + "loss": 0.5, + "step": 892 + }, + { + "avg_step_time": 5.688948113508899, + "epoch": 0.09514666666666667, + "eta_time": 13.405374124137776, + "step": 892 + }, + { + "epoch": 0.09525333333333333, + "grad_norm": 1.7413942334755912, + "learning_rate": 9.889007296728952e-06, + "loss": 0.5097, + "step": 893 + }, + { + "avg_step_time": 5.691307171426638, + "epoch": 0.09525333333333333, + "eta_time": 13.409352063344652, + "step": 893 + }, + { + "epoch": 0.09536, + "grad_norm": 0.6067689501421132, + "learning_rate": 9.8886450402207e-06, + "loss": 0.4145, + "step": 894 + }, + { + "avg_step_time": 5.652136424575189, + "epoch": 0.09536, + "eta_time": 13.315491393561715, + "step": 894 + }, + { + "epoch": 0.09546666666666667, + "grad_norm": 1.5348586389750927, + "learning_rate": 9.888282200168106e-06, + "loss": 0.4761, + "step": 895 + }, + { + "avg_step_time": 5.661513270753803, + "epoch": 0.09546666666666667, + "eta_time": 13.336009037775625, + "step": 895 + }, + { + "epoch": 0.09557333333333333, + "grad_norm": 1.5049851032542596, + "learning_rate": 9.887918776614479e-06, + "loss": 0.5412, + "step": 896 + }, + { + "avg_step_time": 5.672052241335011, + "epoch": 0.09557333333333333, + "eta_time": 13.359258598410989, + "step": 896 + }, + { + "epoch": 0.09568, + "grad_norm": 1.7169964445036077, + "learning_rate": 9.8875547696032e-06, + "loss": 0.5564, + "step": 897 + }, + { + "avg_step_time": 5.672871905143815, + "epoch": 0.09568, + "eta_time": 13.359613336613684, + "step": 897 + }, + { + "epoch": 0.09578666666666667, + "grad_norm": 1.638218848468168, + "learning_rate": 9.887190179177721e-06, + "loss": 0.4481, + "step": 898 + }, + { + "avg_step_time": 5.6847868110194355, + "epoch": 0.09578666666666667, + "eta_time": 13.386093832503265, + "step": 898 + }, + { + "epoch": 0.09589333333333333, + "grad_norm": 1.3938782231728513, + "learning_rate": 9.886825005381561e-06, + "loss": 0.4877, + "step": 899 + }, + { + "avg_step_time": 5.644448605450717, + "epoch": 0.09589333333333333, + "eta_time": 13.289540661055632, + "step": 899 + }, + { + "epoch": 0.096, + "grad_norm": 0.650989105400939, + "learning_rate": 9.88645924825831e-06, + "loss": 0.4522, + "step": 900 + }, + { + "avg_step_time": 5.611920814321499, + "epoch": 0.096, + "eta_time": 13.211396917048528, + "step": 900 + }, + { + "epoch": 0.09610666666666667, + "grad_norm": 1.7637734456586782, + "learning_rate": 9.886092907851627e-06, + "loss": 0.5141, + "step": 901 + }, + { + "avg_step_time": 5.643649862270163, + "epoch": 0.09610666666666667, + "eta_time": 13.284524703577045, + "step": 901 + }, + { + "epoch": 0.09621333333333333, + "grad_norm": 1.5113773306793836, + "learning_rate": 9.885725984205243e-06, + "loss": 0.4554, + "step": 902 + }, + { + "avg_step_time": 5.65223815946868, + "epoch": 0.09621333333333333, + "eta_time": 13.3031705347717, + "step": 902 + }, + { + "epoch": 0.09632, + "grad_norm": 1.7436547254060413, + "learning_rate": 9.885358477362956e-06, + "loss": 0.5014, + "step": 903 + }, + { + "avg_step_time": 5.636973200422345, + "epoch": 0.09632, + "eta_time": 13.265676931660584, + "step": 903 + }, + { + "epoch": 0.09642666666666666, + "grad_norm": 1.4987974615675377, + "learning_rate": 9.884990387368633e-06, + "loss": 0.4961, + "step": 904 + }, + { + "avg_step_time": 5.6522531196324515, + "epoch": 0.09642666666666666, + "eta_time": 13.30006560455736, + "step": 904 + }, + { + "epoch": 0.09653333333333333, + "grad_norm": 1.760847430392006, + "learning_rate": 9.884621714266212e-06, + "loss": 0.532, + "step": 905 + }, + { + "avg_step_time": 5.688045258473868, + "epoch": 0.09653333333333333, + "eta_time": 13.382706483131573, + "step": 905 + }, + { + "epoch": 0.09664, + "grad_norm": 1.9657007142062883, + "learning_rate": 9.8842524580997e-06, + "loss": 0.5401, + "step": 906 + }, + { + "avg_step_time": 5.6874650006342415, + "epoch": 0.09664, + "eta_time": 13.379761413992053, + "step": 906 + }, + { + "epoch": 0.09674666666666666, + "grad_norm": 1.7006144682672701, + "learning_rate": 9.883882618913178e-06, + "loss": 0.4799, + "step": 907 + }, + { + "avg_step_time": 5.686655001206831, + "epoch": 0.09674666666666666, + "eta_time": 13.376276263949846, + "step": 907 + }, + { + "epoch": 0.09685333333333333, + "grad_norm": 1.5483302227626494, + "learning_rate": 9.883512196750789e-06, + "loss": 0.5868, + "step": 908 + }, + { + "avg_step_time": 5.6747169904034545, + "epoch": 0.09685333333333333, + "eta_time": 13.346619099373903, + "step": 908 + }, + { + "epoch": 0.09696, + "grad_norm": 1.744754465616484, + "learning_rate": 9.883141191656748e-06, + "loss": 0.4722, + "step": 909 + }, + { + "avg_step_time": 5.674148747415254, + "epoch": 0.09696, + "eta_time": 13.343706471004872, + "step": 909 + }, + { + "epoch": 0.09706666666666666, + "grad_norm": 1.9364248009718152, + "learning_rate": 9.882769603675347e-06, + "loss": 0.5085, + "step": 910 + }, + { + "avg_step_time": 5.67944629746254, + "epoch": 0.09706666666666666, + "eta_time": 13.354586918894558, + "step": 910 + }, + { + "epoch": 0.09717333333333333, + "grad_norm": 1.7257367492396631, + "learning_rate": 9.882397432850935e-06, + "loss": 0.43, + "step": 911 + }, + { + "avg_step_time": 5.6406739480567705, + "epoch": 0.09717333333333333, + "eta_time": 13.261851193431252, + "step": 911 + }, + { + "epoch": 0.09728, + "grad_norm": 1.4678414778413615, + "learning_rate": 9.88202467922794e-06, + "loss": 0.4391, + "step": 912 + }, + { + "avg_step_time": 5.6426459081245195, + "epoch": 0.09728, + "eta_time": 13.264920089016059, + "step": 912 + }, + { + "epoch": 0.09738666666666666, + "grad_norm": 1.8002344411024982, + "learning_rate": 9.881651342850856e-06, + "loss": 0.4843, + "step": 913 + }, + { + "avg_step_time": 5.68138003590131, + "epoch": 0.09738666666666666, + "eta_time": 13.354399406610247, + "step": 913 + }, + { + "epoch": 0.09749333333333333, + "grad_norm": 1.9559065653074745, + "learning_rate": 9.881277423764246e-06, + "loss": 0.5222, + "step": 914 + }, + { + "avg_step_time": 5.676552594310105, + "epoch": 0.09749333333333333, + "eta_time": 13.341475416793832, + "step": 914 + }, + { + "epoch": 0.0976, + "grad_norm": 2.0548045968182413, + "learning_rate": 9.880902922012747e-06, + "loss": 0.5753, + "step": 915 + }, + { + "avg_step_time": 5.681763155291779, + "epoch": 0.0976, + "eta_time": 13.35214341493568, + "step": 915 + }, + { + "epoch": 0.09770666666666666, + "grad_norm": 2.101426168396075, + "learning_rate": 9.88052783764106e-06, + "loss": 0.5009, + "step": 916 + }, + { + "avg_step_time": 5.6825932444948135, + "epoch": 0.09770666666666666, + "eta_time": 13.35251562643934, + "step": 916 + }, + { + "epoch": 0.09781333333333334, + "grad_norm": 1.5213857409398854, + "learning_rate": 9.880152170693957e-06, + "loss": 0.5199, + "step": 917 + }, + { + "avg_step_time": 5.695507362635449, + "epoch": 0.09781333333333334, + "eta_time": 13.381278131436286, + "step": 917 + }, + { + "epoch": 0.09792, + "grad_norm": 0.6821731627644398, + "learning_rate": 9.879775921216284e-06, + "loss": 0.4502, + "step": 918 + }, + { + "avg_step_time": 5.656606115476049, + "epoch": 0.09792, + "eta_time": 13.288310532939152, + "step": 918 + }, + { + "epoch": 0.09802666666666666, + "grad_norm": 1.718548010686975, + "learning_rate": 9.879399089252947e-06, + "loss": 0.4913, + "step": 919 + }, + { + "avg_step_time": 5.654421059772222, + "epoch": 0.09802666666666666, + "eta_time": 13.28160680039831, + "step": 919 + }, + { + "epoch": 0.09813333333333334, + "grad_norm": 1.7357129906535753, + "learning_rate": 9.879021674848932e-06, + "loss": 0.4831, + "step": 920 + }, + { + "avg_step_time": 5.690553029378255, + "epoch": 0.09813333333333334, + "eta_time": 13.364896073164761, + "step": 920 + }, + { + "epoch": 0.09824, + "grad_norm": 1.6946501630870832, + "learning_rate": 9.87864367804929e-06, + "loss": 0.4835, + "step": 921 + }, + { + "avg_step_time": 5.712835851341787, + "epoch": 0.09824, + "eta_time": 13.415642857567631, + "step": 921 + }, + { + "epoch": 0.09834666666666667, + "grad_norm": 1.9337965178461367, + "learning_rate": 9.87826509889914e-06, + "loss": 0.5414, + "step": 922 + }, + { + "avg_step_time": 5.713569973454331, + "epoch": 0.09834666666666667, + "eta_time": 13.415779718224849, + "step": 922 + }, + { + "epoch": 0.09845333333333334, + "grad_norm": 0.6419114643982737, + "learning_rate": 9.87788593744367e-06, + "loss": 0.4363, + "step": 923 + }, + { + "avg_step_time": 5.6682973943575465, + "epoch": 0.09845333333333334, + "eta_time": 13.30790266030833, + "step": 923 + }, + { + "epoch": 0.09856, + "grad_norm": 1.6417729763838045, + "learning_rate": 9.877506193728144e-06, + "loss": 0.4911, + "step": 924 + }, + { + "avg_step_time": 5.669320973482999, + "epoch": 0.09856, + "eta_time": 13.30873098525134, + "step": 924 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 0.6297833328010861, + "learning_rate": 9.877125867797886e-06, + "loss": 0.4409, + "step": 925 + }, + { + "avg_step_time": 5.636806035282636, + "epoch": 0.09866666666666667, + "eta_time": 13.230836388371744, + "step": 925 + }, + { + "epoch": 0.09877333333333334, + "grad_norm": 1.431129567900323, + "learning_rate": 9.876744959698299e-06, + "loss": 0.4493, + "step": 926 + }, + { + "avg_step_time": 5.626079667698253, + "epoch": 0.09877333333333334, + "eta_time": 13.20409642010626, + "step": 926 + }, + { + "epoch": 0.09888, + "grad_norm": 1.755485012705029, + "learning_rate": 9.876363469474848e-06, + "loss": 0.4165, + "step": 927 + }, + { + "avg_step_time": 5.561725698336207, + "epoch": 0.09888, + "eta_time": 13.051516305428965, + "step": 927 + }, + { + "epoch": 0.09898666666666667, + "grad_norm": 1.5841799882541134, + "learning_rate": 9.875981397173071e-06, + "loss": 0.4839, + "step": 928 + }, + { + "avg_step_time": 5.5604481865661315, + "epoch": 0.09898666666666667, + "eta_time": 13.046973842201142, + "step": 928 + }, + { + "epoch": 0.09909333333333334, + "grad_norm": 1.686280178285897, + "learning_rate": 9.875598742838578e-06, + "loss": 0.5925, + "step": 929 + }, + { + "avg_step_time": 5.558793359332615, + "epoch": 0.09909333333333334, + "eta_time": 13.041546864700909, + "step": 929 + }, + { + "epoch": 0.0992, + "grad_norm": 1.5756815525708847, + "learning_rate": 9.87521550651704e-06, + "loss": 0.5353, + "step": 930 + }, + { + "avg_step_time": 5.559377872582638, + "epoch": 0.0992, + "eta_time": 13.041373926100103, + "step": 930 + }, + { + "epoch": 0.09930666666666667, + "grad_norm": 1.5031858669974711, + "learning_rate": 9.874831688254208e-06, + "loss": 0.5049, + "step": 931 + }, + { + "avg_step_time": 5.6111455108180195, + "epoch": 0.09930666666666667, + "eta_time": 13.161253525929823, + "step": 931 + }, + { + "epoch": 0.09941333333333334, + "grad_norm": 1.4943267871824457, + "learning_rate": 9.874447288095894e-06, + "loss": 0.4898, + "step": 932 + }, + { + "avg_step_time": 5.625099750480267, + "epoch": 0.09941333333333334, + "eta_time": 13.192421442584694, + "step": 932 + }, + { + "epoch": 0.09952, + "grad_norm": 1.8269861989041587, + "learning_rate": 9.874062306087983e-06, + "loss": 0.5911, + "step": 933 + }, + { + "avg_step_time": 5.63087010383606, + "epoch": 0.09952, + "eta_time": 13.20439039349556, + "step": 933 + }, + { + "epoch": 0.09962666666666667, + "grad_norm": 1.7579480836279906, + "learning_rate": 9.87367674227643e-06, + "loss": 0.4822, + "step": 934 + }, + { + "avg_step_time": 5.630627966890431, + "epoch": 0.09962666666666667, + "eta_time": 13.202258519033924, + "step": 934 + }, + { + "epoch": 0.09973333333333333, + "grad_norm": 1.5486337486448427, + "learning_rate": 9.87329059670726e-06, + "loss": 0.3959, + "step": 935 + }, + { + "avg_step_time": 5.635339500928166, + "epoch": 0.09973333333333333, + "eta_time": 13.211740385509366, + "step": 935 + }, + { + "epoch": 0.09984, + "grad_norm": 1.5009848051858405, + "learning_rate": 9.872903869426564e-06, + "loss": 0.4848, + "step": 936 + }, + { + "avg_step_time": 5.670750637247105, + "epoch": 0.09984, + "eta_time": 13.293184618813422, + "step": 936 + }, + { + "epoch": 0.09994666666666667, + "grad_norm": 1.7084285069016711, + "learning_rate": 9.872516560480508e-06, + "loss": 0.5601, + "step": 937 + }, + { + "avg_step_time": 5.6508750819196605, + "epoch": 0.09994666666666667, + "eta_time": 13.245023317010583, + "step": 937 + }, + { + "epoch": 0.10005333333333333, + "grad_norm": 1.7517192589444786, + "learning_rate": 9.872128669915319e-06, + "loss": 0.4809, + "step": 938 + }, + { + "avg_step_time": 5.648455925662108, + "epoch": 0.10005333333333333, + "eta_time": 13.237784068003114, + "step": 938 + }, + { + "epoch": 0.10016, + "grad_norm": 1.703220911903069, + "learning_rate": 9.8717401977773e-06, + "loss": 0.5513, + "step": 939 + }, + { + "avg_step_time": 5.65302022539004, + "epoch": 0.10016, + "eta_time": 13.246910728163993, + "step": 939 + }, + { + "epoch": 0.10026666666666667, + "grad_norm": 1.5408113353951374, + "learning_rate": 9.871351144112826e-06, + "loss": 0.5467, + "step": 940 + }, + { + "avg_step_time": 5.650208600843795, + "epoch": 0.10026666666666667, + "eta_time": 13.238752652254837, + "step": 940 + }, + { + "epoch": 0.10037333333333333, + "grad_norm": 1.6028489132980894, + "learning_rate": 9.870961508968333e-06, + "loss": 0.4667, + "step": 941 + }, + { + "avg_step_time": 5.652172866493765, + "epoch": 0.10037333333333333, + "eta_time": 13.241784987780115, + "step": 941 + }, + { + "epoch": 0.10048, + "grad_norm": 1.8515159509600587, + "learning_rate": 9.870571292390331e-06, + "loss": 0.6336, + "step": 942 + }, + { + "avg_step_time": 5.654293927279386, + "epoch": 0.10048, + "eta_time": 13.245183524651962, + "step": 942 + }, + { + "epoch": 0.10058666666666667, + "grad_norm": 1.522748741925625, + "learning_rate": 9.8701804944254e-06, + "loss": 0.5193, + "step": 943 + }, + { + "avg_step_time": 5.689720093601882, + "epoch": 0.10058666666666667, + "eta_time": 13.326588841458632, + "step": 943 + }, + { + "epoch": 0.10069333333333333, + "grad_norm": 1.5871573887134984, + "learning_rate": 9.86978911512019e-06, + "loss": 0.5248, + "step": 944 + }, + { + "avg_step_time": 5.689241828340473, + "epoch": 0.10069333333333333, + "eta_time": 13.323888292982923, + "step": 944 + }, + { + "epoch": 0.1008, + "grad_norm": 1.6604850236332864, + "learning_rate": 9.869397154521418e-06, + "loss": 0.447, + "step": 945 + }, + { + "avg_step_time": 5.688544986223934, + "epoch": 0.1008, + "eta_time": 13.320676176074377, + "step": 945 + }, + { + "epoch": 0.10090666666666667, + "grad_norm": 1.67748756072918, + "learning_rate": 9.869004612675867e-06, + "loss": 0.4771, + "step": 946 + }, + { + "avg_step_time": 5.69010717941053, + "epoch": 0.10090666666666667, + "eta_time": 13.32275372645871, + "step": 946 + }, + { + "epoch": 0.10101333333333333, + "grad_norm": 1.6504564610955335, + "learning_rate": 9.868611489630401e-06, + "loss": 0.4517, + "step": 947 + }, + { + "avg_step_time": 5.725895534862172, + "epoch": 0.10101333333333333, + "eta_time": 13.404957657727328, + "step": 947 + }, + { + "epoch": 0.10112, + "grad_norm": 1.6900131993192633, + "learning_rate": 9.868217785431942e-06, + "loss": 0.5211, + "step": 948 + }, + { + "avg_step_time": 5.719304568839796, + "epoch": 0.10112, + "eta_time": 13.387938778225822, + "step": 948 + }, + { + "epoch": 0.10122666666666667, + "grad_norm": 0.6690920405221167, + "learning_rate": 9.867823500127483e-06, + "loss": 0.4608, + "step": 949 + }, + { + "avg_step_time": 5.7130682661075785, + "epoch": 0.10122666666666667, + "eta_time": 13.371753669506237, + "step": 949 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 1.437046284818084, + "learning_rate": 9.867428633764093e-06, + "loss": 0.4613, + "step": 950 + }, + { + "avg_step_time": 5.692555100026757, + "epoch": 0.10133333333333333, + "eta_time": 13.322160199368174, + "step": 950 + }, + { + "epoch": 0.10144, + "grad_norm": 1.7961465908315002, + "learning_rate": 9.867033186388906e-06, + "loss": 0.5052, + "step": 951 + }, + { + "avg_step_time": 5.691821890647965, + "epoch": 0.10144, + "eta_time": 13.318863224116239, + "step": 951 + }, + { + "epoch": 0.10154666666666666, + "grad_norm": 0.6472008048427702, + "learning_rate": 9.866637158049122e-06, + "loss": 0.4438, + "step": 952 + }, + { + "avg_step_time": 5.653074589642611, + "epoch": 0.10154666666666666, + "eta_time": 13.226624241266588, + "step": 952 + }, + { + "epoch": 0.10165333333333333, + "grad_norm": 1.8700741502563933, + "learning_rate": 9.866240548792018e-06, + "loss": 0.519, + "step": 953 + }, + { + "avg_step_time": 5.670169541330049, + "epoch": 0.10165333333333333, + "eta_time": 13.265046632522687, + "step": 953 + }, + { + "epoch": 0.10176, + "grad_norm": 1.913145585895937, + "learning_rate": 9.865843358664933e-06, + "loss": 0.5171, + "step": 954 + }, + { + "avg_step_time": 5.66599254174666, + "epoch": 0.10176, + "eta_time": 13.253700887235729, + "step": 954 + }, + { + "epoch": 0.10186666666666666, + "grad_norm": 1.420149762606191, + "learning_rate": 9.86544558771528e-06, + "loss": 0.5253, + "step": 955 + }, + { + "avg_step_time": 5.6681020115361065, + "epoch": 0.10186666666666666, + "eta_time": 13.257060815870561, + "step": 955 + }, + { + "epoch": 0.10197333333333333, + "grad_norm": 1.5316705602767273, + "learning_rate": 9.86504723599054e-06, + "loss": 0.5532, + "step": 956 + }, + { + "avg_step_time": 5.685698624813195, + "epoch": 0.10197333333333333, + "eta_time": 13.296637978417303, + "step": 956 + }, + { + "epoch": 0.10208, + "grad_norm": 1.5880236580992453, + "learning_rate": 9.86464830353826e-06, + "loss": 0.4476, + "step": 957 + }, + { + "avg_step_time": 5.699768928566364, + "epoch": 0.10208, + "eta_time": 13.327959677964348, + "step": 957 + }, + { + "epoch": 0.10218666666666666, + "grad_norm": 2.1661205391115637, + "learning_rate": 9.864248790406063e-06, + "loss": 0.5403, + "step": 958 + }, + { + "avg_step_time": 5.7125125966890895, + "epoch": 0.10218666666666666, + "eta_time": 13.356171812870018, + "step": 958 + }, + { + "epoch": 0.10229333333333333, + "grad_norm": 1.8662016103056167, + "learning_rate": 9.86384869664164e-06, + "loss": 0.5194, + "step": 959 + }, + { + "avg_step_time": 5.714189086297546, + "epoch": 0.10229333333333333, + "eta_time": 13.358504263966708, + "step": 959 + }, + { + "epoch": 0.1024, + "grad_norm": 0.6490159237305614, + "learning_rate": 9.863448022292742e-06, + "loss": 0.4771, + "step": 960 + }, + { + "avg_step_time": 5.686566735758926, + "epoch": 0.1024, + "eta_time": 13.29234974483649, + "step": 960 + }, + { + "epoch": 0.10250666666666666, + "grad_norm": 1.8026715812918934, + "learning_rate": 9.863046767407205e-06, + "loss": 0.5456, + "step": 961 + }, + { + "avg_step_time": 5.6660098162564365, + "epoch": 0.10250666666666666, + "eta_time": 13.242724053883794, + "step": 961 + }, + { + "epoch": 0.10261333333333333, + "grad_norm": 1.866487610536544, + "learning_rate": 9.862644932032918e-06, + "loss": 0.4826, + "step": 962 + }, + { + "avg_step_time": 5.678695151300142, + "epoch": 0.10261333333333333, + "eta_time": 13.27079508552447, + "step": 962 + }, + { + "epoch": 0.10272, + "grad_norm": 0.6407494503157781, + "learning_rate": 9.86224251621785e-06, + "loss": 0.4457, + "step": 963 + }, + { + "avg_step_time": 5.64225161918486, + "epoch": 0.10272, + "eta_time": 13.18406128349529, + "step": 963 + }, + { + "epoch": 0.10282666666666666, + "grad_norm": 1.874546195159387, + "learning_rate": 9.861839520010038e-06, + "loss": 0.6267, + "step": 964 + }, + { + "avg_step_time": 5.673488860178476, + "epoch": 0.10282666666666666, + "eta_time": 13.255476334155878, + "step": 964 + }, + { + "epoch": 0.10293333333333334, + "grad_norm": 1.543284911116467, + "learning_rate": 9.861435943457585e-06, + "loss": 0.4604, + "step": 965 + }, + { + "avg_step_time": 5.677445744023179, + "epoch": 0.10293333333333334, + "eta_time": 13.263144085343036, + "step": 965 + }, + { + "epoch": 0.10304, + "grad_norm": 1.7640878048119297, + "learning_rate": 9.861031786608663e-06, + "loss": 0.582, + "step": 966 + }, + { + "avg_step_time": 5.680613089089442, + "epoch": 0.10304, + "eta_time": 13.268965407264753, + "step": 966 + }, + { + "epoch": 0.10314666666666666, + "grad_norm": 1.7174649854186412, + "learning_rate": 9.86062704951152e-06, + "loss": 0.4968, + "step": 967 + }, + { + "avg_step_time": 5.680678401330505, + "epoch": 0.10314666666666666, + "eta_time": 13.267539999551913, + "step": 967 + }, + { + "epoch": 0.10325333333333334, + "grad_norm": 1.8000617599207531, + "learning_rate": 9.860221732214463e-06, + "loss": 0.4471, + "step": 968 + }, + { + "avg_step_time": 5.679805823046752, + "epoch": 0.10325333333333334, + "eta_time": 13.2639243206539, + "step": 968 + }, + { + "epoch": 0.10336, + "grad_norm": 1.5721870638242388, + "learning_rate": 9.859815834765875e-06, + "loss": 0.5466, + "step": 969 + }, + { + "avg_step_time": 5.628447014876087, + "epoch": 0.10336, + "eta_time": 13.142423779735662, + "step": 969 + }, + { + "epoch": 0.10346666666666667, + "grad_norm": 1.5626190683908747, + "learning_rate": 9.859409357214211e-06, + "loss": 0.5006, + "step": 970 + }, + { + "avg_step_time": 5.6281710610245215, + "epoch": 0.10346666666666667, + "eta_time": 13.140216046641973, + "step": 970 + }, + { + "epoch": 0.10357333333333334, + "grad_norm": 0.6524018317239497, + "learning_rate": 9.859002299607987e-06, + "loss": 0.4245, + "step": 971 + }, + { + "avg_step_time": 5.628471152951019, + "epoch": 0.10357333333333334, + "eta_time": 13.139353213722323, + "step": 971 + }, + { + "epoch": 0.10368, + "grad_norm": 0.6618111964440457, + "learning_rate": 9.858594661995792e-06, + "loss": 0.4568, + "step": 972 + }, + { + "avg_step_time": 5.597643416337292, + "epoch": 0.10368, + "eta_time": 13.06583267430063, + "step": 972 + }, + { + "epoch": 0.10378666666666667, + "grad_norm": 1.7747851294657488, + "learning_rate": 9.858186444426288e-06, + "loss": 0.4832, + "step": 973 + }, + { + "avg_step_time": 5.597390092984594, + "epoch": 0.10378666666666667, + "eta_time": 13.06368654479349, + "step": 973 + }, + { + "epoch": 0.10389333333333334, + "grad_norm": 1.7134235752405949, + "learning_rate": 9.8577776469482e-06, + "loss": 0.5446, + "step": 974 + }, + { + "avg_step_time": 5.629907138419874, + "epoch": 0.10389333333333334, + "eta_time": 13.138013852740379, + "step": 974 + }, + { + "epoch": 0.104, + "grad_norm": 1.8673032736570683, + "learning_rate": 9.857368269610325e-06, + "loss": 0.4948, + "step": 975 + }, + { + "avg_step_time": 5.665068279613148, + "epoch": 0.104, + "eta_time": 13.218492652430681, + "step": 975 + }, + { + "epoch": 0.10410666666666667, + "grad_norm": 0.6393197156334692, + "learning_rate": 9.85695831246153e-06, + "loss": 0.4517, + "step": 976 + }, + { + "avg_step_time": 5.575112309118714, + "epoch": 0.10410666666666667, + "eta_time": 13.007046745635575, + "step": 976 + }, + { + "epoch": 0.10421333333333334, + "grad_norm": 1.8003292001256945, + "learning_rate": 9.856547775550752e-06, + "loss": 0.5352, + "step": 977 + }, + { + "avg_step_time": 5.610081171748614, + "epoch": 0.10421333333333334, + "eta_time": 13.087072688984684, + "step": 977 + }, + { + "epoch": 0.10432, + "grad_norm": 1.9213798006375151, + "learning_rate": 9.856136658926993e-06, + "loss": 0.5835, + "step": 978 + }, + { + "avg_step_time": 5.622959450037793, + "epoch": 0.10432, + "eta_time": 13.11555291721315, + "step": 978 + }, + { + "epoch": 0.10442666666666667, + "grad_norm": 1.8697819749844469, + "learning_rate": 9.85572496263933e-06, + "loss": 0.4578, + "step": 979 + }, + { + "avg_step_time": 5.624035076661543, + "epoch": 0.10442666666666667, + "eta_time": 13.11649958434731, + "step": 979 + }, + { + "epoch": 0.10453333333333334, + "grad_norm": 2.0432066343060025, + "learning_rate": 9.855312686736902e-06, + "loss": 0.6063, + "step": 980 + }, + { + "avg_step_time": 5.671705508472944, + "epoch": 0.10453333333333334, + "eta_time": 13.226102151008435, + "step": 980 + }, + { + "epoch": 0.10464, + "grad_norm": 0.6725380367847622, + "learning_rate": 9.854899831268926e-06, + "loss": 0.4418, + "step": 981 + }, + { + "avg_step_time": 5.619056104409574, + "epoch": 0.10464, + "eta_time": 13.101765816781656, + "step": 981 + }, + { + "epoch": 0.10474666666666667, + "grad_norm": 1.6623630997658358, + "learning_rate": 9.854486396284678e-06, + "loss": 0.4612, + "step": 982 + }, + { + "avg_step_time": 5.615150538357821, + "epoch": 0.10474666666666667, + "eta_time": 13.091099574565888, + "step": 982 + }, + { + "epoch": 0.10485333333333334, + "grad_norm": 1.5513541442296295, + "learning_rate": 9.854072381833512e-06, + "loss": 0.4206, + "step": 983 + }, + { + "avg_step_time": 5.612058415557399, + "epoch": 0.10485333333333334, + "eta_time": 13.082331728710471, + "step": 983 + }, + { + "epoch": 0.10496, + "grad_norm": 1.41828983359499, + "learning_rate": 9.85365778796485e-06, + "loss": 0.558, + "step": 984 + }, + { + "avg_step_time": 5.616033881601661, + "epoch": 0.10496, + "eta_time": 13.09003897236654, + "step": 984 + }, + { + "epoch": 0.10506666666666667, + "grad_norm": 1.776064440969778, + "learning_rate": 9.853242614728175e-06, + "loss": 0.497, + "step": 985 + }, + { + "avg_step_time": 5.650530213057393, + "epoch": 0.10506666666666667, + "eta_time": 13.168874579875425, + "step": 985 + }, + { + "epoch": 0.10517333333333333, + "grad_norm": 0.6308812696219558, + "learning_rate": 9.852826862173052e-06, + "loss": 0.4246, + "step": 986 + }, + { + "avg_step_time": 5.613492238401163, + "epoch": 0.10517333333333333, + "eta_time": 13.080996218874265, + "step": 986 + }, + { + "epoch": 0.10528, + "grad_norm": 1.4916683447823185, + "learning_rate": 9.852410530349102e-06, + "loss": 0.5189, + "step": 987 + }, + { + "avg_step_time": 5.604712076861449, + "epoch": 0.10528, + "eta_time": 13.058979139087176, + "step": 987 + }, + { + "epoch": 0.10538666666666667, + "grad_norm": 1.5036493963716993, + "learning_rate": 9.851993619306024e-06, + "loss": 0.5176, + "step": 988 + }, + { + "avg_step_time": 5.5993670526176995, + "epoch": 0.10538666666666667, + "eta_time": 13.044969852862401, + "step": 988 + }, + { + "epoch": 0.10549333333333333, + "grad_norm": 0.6631718911054757, + "learning_rate": 9.851576129093584e-06, + "loss": 0.4227, + "step": 989 + }, + { + "avg_step_time": 5.564562306259617, + "epoch": 0.10549333333333333, + "eta_time": 12.96233875008143, + "step": 989 + }, + { + "epoch": 0.1056, + "grad_norm": 1.8538009542227398, + "learning_rate": 9.851158059761617e-06, + "loss": 0.5147, + "step": 990 + }, + { + "avg_step_time": 5.565736698381828, + "epoch": 0.1056, + "eta_time": 12.963528393314341, + "step": 990 + }, + { + "epoch": 0.10570666666666667, + "grad_norm": 1.80906125923744, + "learning_rate": 9.850739411360027e-06, + "loss": 0.5245, + "step": 991 + }, + { + "avg_step_time": 5.569864615045413, + "epoch": 0.10570666666666667, + "eta_time": 12.97159581459465, + "step": 991 + }, + { + "epoch": 0.10581333333333333, + "grad_norm": 1.851384566464647, + "learning_rate": 9.850320183938784e-06, + "loss": 0.5447, + "step": 992 + }, + { + "avg_step_time": 5.56893354473692, + "epoch": 0.10581333333333333, + "eta_time": 12.967880529313778, + "step": 992 + }, + { + "epoch": 0.10592, + "grad_norm": 0.6532581006710849, + "learning_rate": 9.849900377547933e-06, + "loss": 0.4791, + "step": 993 + }, + { + "avg_step_time": 5.570186817284786, + "epoch": 0.10592, + "eta_time": 12.969251639578077, + "step": 993 + }, + { + "epoch": 0.10602666666666667, + "grad_norm": 1.474595097776765, + "learning_rate": 9.849479992237583e-06, + "loss": 0.4945, + "step": 994 + }, + { + "avg_step_time": 5.561599471352317, + "epoch": 0.10602666666666667, + "eta_time": 12.947712547056604, + "step": 994 + }, + { + "epoch": 0.10613333333333333, + "grad_norm": 1.704268415083654, + "learning_rate": 9.849059028057917e-06, + "loss": 0.4275, + "step": 995 + }, + { + "avg_step_time": 5.565140367758395, + "epoch": 0.10613333333333333, + "eta_time": 12.954410078282041, + "step": 995 + }, + { + "epoch": 0.10624, + "grad_norm": 1.5363502207387774, + "learning_rate": 9.848637485059183e-06, + "loss": 0.5293, + "step": 996 + }, + { + "avg_step_time": 5.567042553063595, + "epoch": 0.10624, + "eta_time": 12.957291542255517, + "step": 996 + }, + { + "epoch": 0.10634666666666667, + "grad_norm": 1.778211483389114, + "learning_rate": 9.848215363291697e-06, + "loss": 0.5673, + "step": 997 + }, + { + "avg_step_time": 5.56656614457718, + "epoch": 0.10634666666666667, + "eta_time": 12.954636433129894, + "step": 997 + }, + { + "epoch": 0.10645333333333333, + "grad_norm": 1.7322397089004702, + "learning_rate": 9.84779266280585e-06, + "loss": 0.5785, + "step": 998 + }, + { + "avg_step_time": 5.566640328879308, + "epoch": 0.10645333333333333, + "eta_time": 12.9532627875061, + "step": 998 + }, + { + "epoch": 0.10656, + "grad_norm": 0.6613568054499013, + "learning_rate": 9.8473693836521e-06, + "loss": 0.4352, + "step": 999 + }, + { + "avg_step_time": 5.563761886924204, + "epoch": 0.10656, + "eta_time": 12.94501932357698, + "step": 999 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 1.5944001742923088, + "learning_rate": 9.846945525880966e-06, + "loss": 0.5831, + "step": 1000 + }, + { + "avg_step_time": 5.560459083980984, + "epoch": 0.10666666666666667, + "eta_time": 12.93579023009465, + "step": 1000 + }, + { + "epoch": 0.10677333333333333, + "grad_norm": 0.6711843276297882, + "learning_rate": 9.84652108954305e-06, + "loss": 0.4618, + "step": 1001 + }, + { + "avg_step_time": 5.531229517676613, + "epoch": 0.10677333333333333, + "eta_time": 12.866254439173321, + "step": 1001 + }, + { + "epoch": 0.10688, + "grad_norm": 1.6281786194908812, + "learning_rate": 9.846096074689012e-06, + "loss": 0.4827, + "step": 1002 + }, + { + "avg_step_time": 5.531493172501072, + "epoch": 0.10688, + "eta_time": 12.865331203708744, + "step": 1002 + }, + { + "epoch": 0.10698666666666666, + "grad_norm": 1.6701341775348495, + "learning_rate": 9.845670481369585e-06, + "loss": 0.4612, + "step": 1003 + }, + { + "avg_step_time": 5.534386584253022, + "epoch": 0.10698666666666666, + "eta_time": 12.870523467601751, + "step": 1003 + }, + { + "epoch": 0.10709333333333333, + "grad_norm": 1.7895532130948744, + "learning_rate": 9.845244309635571e-06, + "loss": 0.5012, + "step": 1004 + }, + { + "avg_step_time": 5.54326654684664, + "epoch": 0.10709333333333333, + "eta_time": 12.88963451768145, + "step": 1004 + }, + { + "epoch": 0.1072, + "grad_norm": 1.8192021511485614, + "learning_rate": 9.844817559537841e-06, + "loss": 0.5352, + "step": 1005 + }, + { + "avg_step_time": 5.546780352640634, + "epoch": 0.1072, + "eta_time": 12.896264319889474, + "step": 1005 + }, + { + "epoch": 0.10730666666666666, + "grad_norm": 1.9887454701004716, + "learning_rate": 9.844390231127337e-06, + "loss": 0.5378, + "step": 1006 + }, + { + "avg_step_time": 5.546888153962414, + "epoch": 0.10730666666666666, + "eta_time": 12.894974155697625, + "step": 1006 + }, + { + "epoch": 0.10741333333333333, + "grad_norm": 1.613161506824205, + "learning_rate": 9.843962324455064e-06, + "loss": 0.5746, + "step": 1007 + }, + { + "avg_step_time": 5.5522187743524105, + "epoch": 0.10741333333333333, + "eta_time": 12.905824084383603, + "step": 1007 + }, + { + "epoch": 0.10752, + "grad_norm": 2.0812765126581554, + "learning_rate": 9.843533839572105e-06, + "loss": 0.5576, + "step": 1008 + }, + { + "avg_step_time": 5.53984758348176, + "epoch": 0.10752, + "eta_time": 12.87552909194219, + "step": 1008 + }, + { + "epoch": 0.10762666666666666, + "grad_norm": 1.4484447977877573, + "learning_rate": 9.843104776529606e-06, + "loss": 0.4057, + "step": 1009 + }, + { + "avg_step_time": 5.534734258748064, + "epoch": 0.10762666666666666, + "eta_time": 12.862107446857307, + "step": 1009 + }, + { + "epoch": 0.10773333333333333, + "grad_norm": 1.9151153097920286, + "learning_rate": 9.842675135378779e-06, + "loss": 0.4926, + "step": 1010 + }, + { + "avg_step_time": 5.533435118318808, + "epoch": 0.10773333333333333, + "eta_time": 12.857551323538008, + "step": 1010 + }, + { + "epoch": 0.10784, + "grad_norm": 1.8982871791270346, + "learning_rate": 9.842244916170913e-06, + "loss": 0.4916, + "step": 1011 + }, + { + "avg_step_time": 5.536521403476446, + "epoch": 0.10784, + "eta_time": 12.863184727410276, + "step": 1011 + }, + { + "epoch": 0.10794666666666666, + "grad_norm": 1.450565532661768, + "learning_rate": 9.84181411895736e-06, + "loss": 0.4826, + "step": 1012 + }, + { + "avg_step_time": 5.532922650828506, + "epoch": 0.10794666666666666, + "eta_time": 12.853286702466331, + "step": 1012 + }, + { + "epoch": 0.10805333333333333, + "grad_norm": 1.7537146804523265, + "learning_rate": 9.841382743789544e-06, + "loss": 0.4695, + "step": 1013 + }, + { + "avg_step_time": 5.534195184707642, + "epoch": 0.10805333333333333, + "eta_time": 12.854705592923693, + "step": 1013 + }, + { + "epoch": 0.10816, + "grad_norm": 1.8685274428897605, + "learning_rate": 9.840950790718959e-06, + "loss": 0.4981, + "step": 1014 + }, + { + "avg_step_time": 5.548671414153745, + "epoch": 0.10816, + "eta_time": 12.886789359372074, + "step": 1014 + }, + { + "epoch": 0.10826666666666666, + "grad_norm": 2.1477637818888473, + "learning_rate": 9.840518259797163e-06, + "loss": 0.6269, + "step": 1015 + }, + { + "avg_step_time": 5.547940097673975, + "epoch": 0.10826666666666666, + "eta_time": 12.88354978237623, + "step": 1015 + }, + { + "epoch": 0.10837333333333334, + "grad_norm": 1.8161877066171812, + "learning_rate": 9.840085151075787e-06, + "loss": 0.602, + "step": 1016 + }, + { + "avg_step_time": 5.530746553883408, + "epoch": 0.10837333333333334, + "eta_time": 12.842086234419835, + "step": 1016 + }, + { + "epoch": 0.10848, + "grad_norm": 0.6669684145068872, + "learning_rate": 9.83965146460653e-06, + "loss": 0.4237, + "step": 1017 + }, + { + "avg_step_time": 5.545842652369028, + "epoch": 0.10848, + "eta_time": 12.875598024583427, + "step": 1017 + }, + { + "epoch": 0.10858666666666666, + "grad_norm": 1.3356522933620927, + "learning_rate": 9.83921720044116e-06, + "loss": 0.5016, + "step": 1018 + }, + { + "avg_step_time": 5.5464941130744085, + "epoch": 0.10858666666666666, + "eta_time": 12.875569806378564, + "step": 1018 + }, + { + "epoch": 0.10869333333333334, + "grad_norm": 0.6583959300598403, + "learning_rate": 9.838782358631516e-06, + "loss": 0.4536, + "step": 1019 + }, + { + "avg_step_time": 5.47966077351811, + "epoch": 0.10869333333333334, + "eta_time": 12.71890150653259, + "step": 1019 + }, + { + "epoch": 0.1088, + "grad_norm": 2.3081247947756354, + "learning_rate": 9.838346939229501e-06, + "loss": 0.5276, + "step": 1020 + }, + { + "avg_step_time": 5.48056435585022, + "epoch": 0.1088, + "eta_time": 12.719476442535719, + "step": 1020 + }, + { + "epoch": 0.10890666666666667, + "grad_norm": 2.2905018175993113, + "learning_rate": 9.837910942287091e-06, + "loss": 0.5066, + "step": 1021 + }, + { + "avg_step_time": 5.479344958006734, + "epoch": 0.10890666666666667, + "eta_time": 12.715124383107849, + "step": 1021 + }, + { + "epoch": 0.10901333333333334, + "grad_norm": 1.9324417584927644, + "learning_rate": 9.83747436785633e-06, + "loss": 0.5746, + "step": 1022 + }, + { + "avg_step_time": 5.520190535169659, + "epoch": 0.10901333333333334, + "eta_time": 12.80837542785338, + "step": 1022 + }, + { + "epoch": 0.10912, + "grad_norm": 0.670618892843604, + "learning_rate": 9.83703721598933e-06, + "loss": 0.4714, + "step": 1023 + }, + { + "avg_step_time": 5.4849410851796465, + "epoch": 0.10912, + "eta_time": 12.725063317616781, + "step": 1023 + }, + { + "epoch": 0.10922666666666667, + "grad_norm": 1.7264714698911718, + "learning_rate": 9.836599486738271e-06, + "loss": 0.4932, + "step": 1024 + }, + { + "avg_step_time": 5.5196866362985935, + "epoch": 0.10922666666666667, + "eta_time": 12.804139749924877, + "step": 1024 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 1.6697474513955786, + "learning_rate": 9.83616118015541e-06, + "loss": 0.4437, + "step": 1025 + }, + { + "avg_step_time": 5.519890074778085, + "epoch": 0.10933333333333334, + "eta_time": 12.803078367888059, + "step": 1025 + }, + { + "epoch": 0.10944, + "grad_norm": 1.3166507520128543, + "learning_rate": 9.835722296293058e-06, + "loss": 0.4149, + "step": 1026 + }, + { + "avg_step_time": 5.524691771979284, + "epoch": 0.10944, + "eta_time": 12.812681001181957, + "step": 1026 + }, + { + "epoch": 0.10954666666666667, + "grad_norm": 1.7343983080930712, + "learning_rate": 9.83528283520361e-06, + "loss": 0.4988, + "step": 1027 + }, + { + "avg_step_time": 5.528362257312042, + "epoch": 0.10954666666666667, + "eta_time": 12.819657812233592, + "step": 1027 + }, + { + "epoch": 0.10965333333333334, + "grad_norm": 1.7291459610321462, + "learning_rate": 9.83484279693952e-06, + "loss": 0.5328, + "step": 1028 + }, + { + "avg_step_time": 5.532698985302087, + "epoch": 0.10965333333333334, + "eta_time": 12.82817734175459, + "step": 1028 + }, + { + "epoch": 0.10976, + "grad_norm": 1.880291898233122, + "learning_rate": 9.834402181553314e-06, + "loss": 0.4708, + "step": 1029 + }, + { + "avg_step_time": 5.529724894147931, + "epoch": 0.10976, + "eta_time": 12.819745546266287, + "step": 1029 + }, + { + "epoch": 0.10986666666666667, + "grad_norm": 1.8226913705459038, + "learning_rate": 9.83396098909759e-06, + "loss": 0.4802, + "step": 1030 + }, + { + "avg_step_time": 5.5096851671584925, + "epoch": 0.10986666666666667, + "eta_time": 12.771756311093784, + "step": 1030 + }, + { + "epoch": 0.10997333333333334, + "grad_norm": 1.9119196621513221, + "learning_rate": 9.833519219625008e-06, + "loss": 0.4897, + "step": 1031 + }, + { + "avg_step_time": 5.495875864317923, + "epoch": 0.10997333333333334, + "eta_time": 12.73821894774132, + "step": 1031 + }, + { + "epoch": 0.11008, + "grad_norm": 1.6029759509825592, + "learning_rate": 9.833076873188303e-06, + "loss": 0.5088, + "step": 1032 + }, + { + "avg_step_time": 5.488411496383975, + "epoch": 0.11008, + "eta_time": 12.719393642869862, + "step": 1032 + }, + { + "epoch": 0.11018666666666667, + "grad_norm": 1.824994760462913, + "learning_rate": 9.832633949840277e-06, + "loss": 0.5709, + "step": 1033 + }, + { + "avg_step_time": 5.495472982676342, + "epoch": 0.11018666666666667, + "eta_time": 12.734232117079458, + "step": 1033 + }, + { + "epoch": 0.11029333333333333, + "grad_norm": 1.7264584841989294, + "learning_rate": 9.832190449633801e-06, + "loss": 0.4625, + "step": 1034 + }, + { + "avg_step_time": 5.49198630361846, + "epoch": 0.11029333333333333, + "eta_time": 12.72462715513377, + "step": 1034 + }, + { + "epoch": 0.1104, + "grad_norm": 1.6304143827257016, + "learning_rate": 9.831746372621811e-06, + "loss": 0.4454, + "step": 1035 + }, + { + "avg_step_time": 5.494037242850872, + "epoch": 0.1104, + "eta_time": 12.727852945937855, + "step": 1035 + }, + { + "epoch": 0.11050666666666667, + "grad_norm": 1.7996360697762923, + "learning_rate": 9.83130171885732e-06, + "loss": 0.524, + "step": 1036 + }, + { + "avg_step_time": 5.4951960269850915, + "epoch": 0.11050666666666667, + "eta_time": 12.729011019174633, + "step": 1036 + }, + { + "epoch": 0.11061333333333333, + "grad_norm": 1.8731263301000949, + "learning_rate": 9.830856488393401e-06, + "loss": 0.5339, + "step": 1037 + }, + { + "avg_step_time": 5.4999268994186865, + "epoch": 0.11061333333333333, + "eta_time": 12.738441802042502, + "step": 1037 + }, + { + "epoch": 0.11072, + "grad_norm": 1.669232151135803, + "learning_rate": 9.830410681283203e-06, + "loss": 0.5228, + "step": 1038 + }, + { + "avg_step_time": 5.49703857152149, + "epoch": 0.11072, + "eta_time": 12.730225158548516, + "step": 1038 + }, + { + "epoch": 0.11082666666666667, + "grad_norm": 1.917485762645193, + "learning_rate": 9.82996429757994e-06, + "loss": 0.5666, + "step": 1039 + }, + { + "avg_step_time": 5.493516469242597, + "epoch": 0.11082666666666667, + "eta_time": 12.720542579890635, + "step": 1039 + }, + { + "epoch": 0.11093333333333333, + "grad_norm": 1.605271025288255, + "learning_rate": 9.829517337336893e-06, + "loss": 0.5181, + "step": 1040 + }, + { + "avg_step_time": 5.494648822630294, + "epoch": 0.11093333333333333, + "eta_time": 12.72163831572875, + "step": 1040 + }, + { + "epoch": 0.11104, + "grad_norm": 1.7087527632658033, + "learning_rate": 9.829069800607418e-06, + "loss": 0.5465, + "step": 1041 + }, + { + "avg_step_time": 5.49477499181574, + "epoch": 0.11104, + "eta_time": 12.72040410605344, + "step": 1041 + }, + { + "epoch": 0.11114666666666667, + "grad_norm": 1.6029734709375025, + "learning_rate": 9.828621687444935e-06, + "loss": 0.4787, + "step": 1042 + }, + { + "avg_step_time": 5.495513641473019, + "epoch": 0.11114666666666667, + "eta_time": 12.720587548442962, + "step": 1042 + }, + { + "epoch": 0.11125333333333333, + "grad_norm": 1.7726665102936456, + "learning_rate": 9.828172997902934e-06, + "loss": 0.5006, + "step": 1043 + }, + { + "avg_step_time": 5.493889078949437, + "epoch": 0.11125333333333333, + "eta_time": 12.715301057168528, + "step": 1043 + }, + { + "epoch": 0.11136, + "grad_norm": 1.55751496254016, + "learning_rate": 9.827723732034972e-06, + "loss": 0.4342, + "step": 1044 + }, + { + "avg_step_time": 5.502863154266819, + "epoch": 0.11136, + "eta_time": 12.734542482832463, + "step": 1044 + }, + { + "epoch": 0.11146666666666667, + "grad_norm": 1.3898046120608007, + "learning_rate": 9.82727388989468e-06, + "loss": 0.3858, + "step": 1045 + }, + { + "avg_step_time": 5.5084913138187295, + "epoch": 0.11146666666666667, + "eta_time": 12.746036845586115, + "step": 1045 + }, + { + "epoch": 0.11157333333333333, + "grad_norm": 1.7093491283635522, + "learning_rate": 9.826823471535754e-06, + "loss": 0.5594, + "step": 1046 + }, + { + "avg_step_time": 5.515403747558594, + "epoch": 0.11157333333333333, + "eta_time": 12.760499392615424, + "step": 1046 + }, + { + "epoch": 0.11168, + "grad_norm": 1.524694695131956, + "learning_rate": 9.826372477011956e-06, + "loss": 0.4883, + "step": 1047 + }, + { + "avg_step_time": 5.515038668507278, + "epoch": 0.11168, + "eta_time": 12.758122786480168, + "step": 1047 + }, + { + "epoch": 0.11178666666666667, + "grad_norm": 1.691322782367819, + "learning_rate": 9.825920906377124e-06, + "loss": 0.5373, + "step": 1048 + }, + { + "avg_step_time": 5.551300352269953, + "epoch": 0.11178666666666667, + "eta_time": 12.840466120375527, + "step": 1048 + }, + { + "epoch": 0.11189333333333333, + "grad_norm": 1.4753130195400184, + "learning_rate": 9.825468759685157e-06, + "loss": 0.4936, + "step": 1049 + }, + { + "avg_step_time": 5.548247956266307, + "epoch": 0.11189333333333333, + "eta_time": 12.831864578853686, + "step": 1049 + }, + { + "epoch": 0.112, + "grad_norm": 1.8791816771681067, + "learning_rate": 9.825016036990029e-06, + "loss": 0.5508, + "step": 1050 + }, + { + "avg_step_time": 5.574348921727652, + "epoch": 0.112, + "eta_time": 12.890681881495196, + "step": 1050 + }, + { + "epoch": 0.11210666666666666, + "grad_norm": 1.577393185522094, + "learning_rate": 9.824562738345781e-06, + "loss": 0.4897, + "step": 1051 + }, + { + "avg_step_time": 5.613426095307475, + "epoch": 0.11210666666666666, + "eta_time": 12.979488560372063, + "step": 1051 + }, + { + "epoch": 0.11221333333333333, + "grad_norm": 1.5445831005116633, + "learning_rate": 9.82410886380652e-06, + "loss": 0.5222, + "step": 1052 + }, + { + "avg_step_time": 5.586025791938859, + "epoch": 0.11221333333333333, + "eta_time": 12.914581296196424, + "step": 1052 + }, + { + "epoch": 0.11232, + "grad_norm": 1.8656336255835624, + "learning_rate": 9.823654413426424e-06, + "loss": 0.4885, + "step": 1053 + }, + { + "avg_step_time": 5.609836113573325, + "epoch": 0.11232, + "eta_time": 12.968071149210335, + "step": 1053 + }, + { + "epoch": 0.11242666666666666, + "grad_norm": 1.7715456102075418, + "learning_rate": 9.82319938725974e-06, + "loss": 0.5706, + "step": 1054 + }, + { + "avg_step_time": 5.606580698128902, + "epoch": 0.11242666666666666, + "eta_time": 12.958988330314055, + "step": 1054 + }, + { + "epoch": 0.11253333333333333, + "grad_norm": 25.237397079702987, + "learning_rate": 9.822743785360783e-06, + "loss": 0.5842, + "step": 1055 + }, + { + "avg_step_time": 5.590701360895176, + "epoch": 0.11253333333333333, + "eta_time": 12.920732034068852, + "step": 1055 + }, + { + "epoch": 0.11264, + "grad_norm": 0.7019324020776619, + "learning_rate": 9.822287607783938e-06, + "loss": 0.433, + "step": 1056 + }, + { + "avg_step_time": 5.545773681968149, + "epoch": 0.11264, + "eta_time": 12.81535868341473, + "step": 1056 + }, + { + "epoch": 0.11274666666666666, + "grad_norm": 1.837606513275721, + "learning_rate": 9.821830854583657e-06, + "loss": 0.5508, + "step": 1057 + }, + { + "avg_step_time": 5.5323144089091905, + "epoch": 0.11274666666666666, + "eta_time": 12.78271979258518, + "step": 1057 + }, + { + "epoch": 0.11285333333333333, + "grad_norm": 1.569538839935085, + "learning_rate": 9.82137352581446e-06, + "loss": 0.4647, + "step": 1058 + }, + { + "avg_step_time": 5.534597794214885, + "epoch": 0.11285333333333333, + "eta_time": 12.786458292912556, + "step": 1058 + }, + { + "epoch": 0.11296, + "grad_norm": 1.638915124537632, + "learning_rate": 9.820915621530939e-06, + "loss": 0.4782, + "step": 1059 + }, + { + "avg_step_time": 5.5620946354336205, + "epoch": 0.11296, + "eta_time": 12.848438607851664, + "step": 1059 + }, + { + "epoch": 0.11306666666666666, + "grad_norm": 1.703797352484976, + "learning_rate": 9.820457141787753e-06, + "loss": 0.4634, + "step": 1060 + }, + { + "avg_step_time": 5.577536826181894, + "epoch": 0.11306666666666666, + "eta_time": 12.882560752695126, + "step": 1060 + }, + { + "epoch": 0.11317333333333333, + "grad_norm": 1.6662397811072067, + "learning_rate": 9.819998086639628e-06, + "loss": 0.6046, + "step": 1061 + }, + { + "avg_step_time": 5.568517766817652, + "epoch": 0.11317333333333333, + "eta_time": 12.860182420367211, + "step": 1061 + }, + { + "epoch": 0.11328, + "grad_norm": 1.5151239601299284, + "learning_rate": 9.81953845614136e-06, + "loss": 0.5148, + "step": 1062 + }, + { + "avg_step_time": 5.6061547813993515, + "epoch": 0.11328, + "eta_time": 12.945545749381337, + "step": 1062 + }, + { + "epoch": 0.11338666666666666, + "grad_norm": 1.7282671186926644, + "learning_rate": 9.819078250347817e-06, + "loss": 0.5163, + "step": 1063 + }, + { + "avg_step_time": 5.607817382523508, + "epoch": 0.11338666666666666, + "eta_time": 12.9478272454265, + "step": 1063 + }, + { + "epoch": 0.11349333333333333, + "grad_norm": 1.6274626577180273, + "learning_rate": 9.81861746931393e-06, + "loss": 0.5383, + "step": 1064 + }, + { + "avg_step_time": 5.6066858985207295, + "epoch": 0.11349333333333333, + "eta_time": 12.943657361834939, + "step": 1064 + }, + { + "epoch": 0.1136, + "grad_norm": 1.4580188531891478, + "learning_rate": 9.818156113094699e-06, + "loss": 0.5296, + "step": 1065 + }, + { + "avg_step_time": 5.607964099055589, + "epoch": 0.1136, + "eta_time": 12.94505046198665, + "step": 1065 + }, + { + "epoch": 0.11370666666666666, + "grad_norm": 1.6927267311887397, + "learning_rate": 9.8176941817452e-06, + "loss": 0.5038, + "step": 1066 + }, + { + "avg_step_time": 5.608560533234567, + "epoch": 0.11370666666666666, + "eta_time": 12.944869297401672, + "step": 1066 + }, + { + "epoch": 0.11381333333333334, + "grad_norm": 1.6435075744636436, + "learning_rate": 9.817231675320566e-06, + "loss": 0.5186, + "step": 1067 + }, + { + "avg_step_time": 5.6383007174790505, + "epoch": 0.11381333333333334, + "eta_time": 13.011945100226654, + "step": 1067 + }, + { + "epoch": 0.11392, + "grad_norm": 1.8205693062997295, + "learning_rate": 9.816768593876012e-06, + "loss": 0.4685, + "step": 1068 + }, + { + "avg_step_time": 5.637133155206238, + "epoch": 0.11392, + "eta_time": 13.007684755638394, + "step": 1068 + }, + { + "epoch": 0.11402666666666667, + "grad_norm": 1.4942248577433876, + "learning_rate": 9.81630493746681e-06, + "loss": 0.5222, + "step": 1069 + }, + { + "avg_step_time": 5.641426014177727, + "epoch": 0.11402666666666667, + "eta_time": 13.016023464933388, + "step": 1069 + }, + { + "epoch": 0.11413333333333334, + "grad_norm": 1.5959102658825963, + "learning_rate": 9.815840706148308e-06, + "loss": 0.4745, + "step": 1070 + }, + { + "avg_step_time": 5.671641087291216, + "epoch": 0.11413333333333334, + "eta_time": 13.084160897209319, + "step": 1070 + }, + { + "epoch": 0.11424, + "grad_norm": 1.474050029549588, + "learning_rate": 9.81537589997592e-06, + "loss": 0.505, + "step": 1071 + }, + { + "avg_step_time": 5.718741664982805, + "epoch": 0.11424, + "eta_time": 13.19123077389367, + "step": 1071 + }, + { + "epoch": 0.11434666666666667, + "grad_norm": 1.7013258612458333, + "learning_rate": 9.814910519005126e-06, + "loss": 0.4952, + "step": 1072 + }, + { + "avg_step_time": 5.718903274247141, + "epoch": 0.11434666666666667, + "eta_time": 13.190014968353891, + "step": 1072 + }, + { + "epoch": 0.11445333333333334, + "grad_norm": 1.4978653548426357, + "learning_rate": 9.814444563291478e-06, + "loss": 0.4637, + "step": 1073 + }, + { + "avg_step_time": 5.687198075381192, + "epoch": 0.11445333333333334, + "eta_time": 13.115310672726293, + "step": 1073 + }, + { + "epoch": 0.11456, + "grad_norm": 1.735649255023223, + "learning_rate": 9.8139780328906e-06, + "loss": 0.5525, + "step": 1074 + }, + { + "avg_step_time": 5.6910430855221215, + "epoch": 0.11456, + "eta_time": 13.12259684803309, + "step": 1074 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 0.6620403660096753, + "learning_rate": 9.813510927858177e-06, + "loss": 0.4484, + "step": 1075 + }, + { + "avg_step_time": 5.691481274787826, + "epoch": 0.11466666666666667, + "eta_time": 13.122026272427487, + "step": 1075 + }, + { + "epoch": 0.11477333333333334, + "grad_norm": 1.4570630918898997, + "learning_rate": 9.813043248249965e-06, + "loss": 0.5539, + "step": 1076 + }, + { + "avg_step_time": 5.685389326076315, + "epoch": 0.11477333333333334, + "eta_time": 13.106401671418704, + "step": 1076 + }, + { + "epoch": 0.11488, + "grad_norm": 1.7015523398258383, + "learning_rate": 9.812574994121791e-06, + "loss": 0.4767, + "step": 1077 + }, + { + "avg_step_time": 5.672339615195688, + "epoch": 0.11488, + "eta_time": 13.074742813026061, + "step": 1077 + }, + { + "epoch": 0.11498666666666667, + "grad_norm": 1.509881306106761, + "learning_rate": 9.81210616552955e-06, + "loss": 0.4352, + "step": 1078 + }, + { + "avg_step_time": 5.673599004745483, + "epoch": 0.11498666666666667, + "eta_time": 13.076069706214799, + "step": 1078 + }, + { + "epoch": 0.11509333333333334, + "grad_norm": 0.6349100871196431, + "learning_rate": 9.811636762529205e-06, + "loss": 0.4283, + "step": 1079 + }, + { + "avg_step_time": 5.577660358313358, + "epoch": 0.11509333333333334, + "eta_time": 12.853408425713228, + "step": 1079 + }, + { + "epoch": 0.1152, + "grad_norm": 1.9905341653601534, + "learning_rate": 9.811166785176785e-06, + "loss": 0.5531, + "step": 1080 + }, + { + "avg_step_time": 5.612857240619081, + "epoch": 0.1152, + "eta_time": 12.932958558593134, + "step": 1080 + }, + { + "epoch": 0.11530666666666667, + "grad_norm": 1.6797866748618049, + "learning_rate": 9.810696233528391e-06, + "loss": 0.5079, + "step": 1081 + }, + { + "avg_step_time": 5.6198080910576715, + "epoch": 0.11530666666666667, + "eta_time": 12.947413418675646, + "step": 1081 + }, + { + "epoch": 0.11541333333333334, + "grad_norm": 1.510936298337283, + "learning_rate": 9.810225107640195e-06, + "loss": 0.4915, + "step": 1082 + }, + { + "avg_step_time": 5.620205014643043, + "epoch": 0.11541333333333334, + "eta_time": 12.946766718454098, + "step": 1082 + }, + { + "epoch": 0.11552, + "grad_norm": 2.0057830289778513, + "learning_rate": 9.809753407568427e-06, + "loss": 0.5254, + "step": 1083 + }, + { + "avg_step_time": 5.618671277556756, + "epoch": 0.11552, + "eta_time": 12.941672842639063, + "step": 1083 + }, + { + "epoch": 0.11562666666666667, + "grad_norm": 1.5481883091016813, + "learning_rate": 9.809281133369399e-06, + "loss": 0.5449, + "step": 1084 + }, + { + "avg_step_time": 5.618665059407552, + "epoch": 0.11562666666666667, + "eta_time": 12.940097779874447, + "step": 1084 + }, + { + "epoch": 0.11573333333333333, + "grad_norm": 0.666250417912742, + "learning_rate": 9.808808285099483e-06, + "loss": 0.4308, + "step": 1085 + }, + { + "avg_step_time": 5.618160062366062, + "epoch": 0.11573333333333333, + "eta_time": 12.937374143615182, + "step": 1085 + }, + { + "epoch": 0.11584, + "grad_norm": 2.0202989965524103, + "learning_rate": 9.80833486281512e-06, + "loss": 0.5501, + "step": 1086 + }, + { + "avg_step_time": 5.62040820747915, + "epoch": 0.11584, + "eta_time": 12.940989897720742, + "step": 1086 + }, + { + "epoch": 0.11594666666666667, + "grad_norm": 1.5043198185906974, + "learning_rate": 9.807860866572822e-06, + "loss": 0.4525, + "step": 1087 + }, + { + "avg_step_time": 5.619901864215581, + "epoch": 0.11594666666666667, + "eta_time": 12.938262958505206, + "step": 1087 + }, + { + "epoch": 0.11605333333333333, + "grad_norm": 2.309632077735684, + "learning_rate": 9.807386296429168e-06, + "loss": 0.5715, + "step": 1088 + }, + { + "avg_step_time": 5.6556917681838526, + "epoch": 0.11605333333333333, + "eta_time": 13.019088245260996, + "step": 1088 + }, + { + "epoch": 0.11616, + "grad_norm": 1.635150410972152, + "learning_rate": 9.80691115244081e-06, + "loss": 0.4767, + "step": 1089 + }, + { + "avg_step_time": 5.6933179889062435, + "epoch": 0.11616, + "eta_time": 13.104120237799204, + "step": 1089 + }, + { + "epoch": 0.11626666666666667, + "grad_norm": 1.792138991800945, + "learning_rate": 9.806435434664461e-06, + "loss": 0.4645, + "step": 1090 + }, + { + "avg_step_time": 5.687289062172476, + "epoch": 0.11626666666666667, + "eta_time": 13.088663855583047, + "step": 1090 + }, + { + "epoch": 0.11637333333333333, + "grad_norm": 1.7470299707366626, + "learning_rate": 9.805959143156905e-06, + "loss": 0.5979, + "step": 1091 + }, + { + "avg_step_time": 5.68317950614775, + "epoch": 0.11637333333333333, + "eta_time": 13.077627508035546, + "step": 1091 + }, + { + "epoch": 0.11648, + "grad_norm": 0.6686924547413186, + "learning_rate": 9.805482277974999e-06, + "loss": 0.4545, + "step": 1092 + }, + { + "avg_step_time": 5.684560303736215, + "epoch": 0.11648, + "eta_time": 13.079225832179741, + "step": 1092 + }, + { + "epoch": 0.11658666666666667, + "grad_norm": 0.6259752319122469, + "learning_rate": 9.805004839175664e-06, + "loss": 0.4375, + "step": 1093 + }, + { + "avg_step_time": 5.649598832082266, + "epoch": 0.11658666666666667, + "eta_time": 12.997215979807036, + "step": 1093 + }, + { + "epoch": 0.11669333333333333, + "grad_norm": 1.5001954298589122, + "learning_rate": 9.80452682681589e-06, + "loss": 0.5609, + "step": 1094 + }, + { + "avg_step_time": 5.640979220168759, + "epoch": 0.11669333333333333, + "eta_time": 12.975819145060415, + "step": 1094 + }, + { + "epoch": 0.1168, + "grad_norm": 1.6101527607186623, + "learning_rate": 9.804048240952736e-06, + "loss": 0.5434, + "step": 1095 + }, + { + "avg_step_time": 5.643393278121948, + "epoch": 0.1168, + "eta_time": 12.979804539680481, + "step": 1095 + }, + { + "epoch": 0.11690666666666667, + "grad_norm": 1.5707481322663337, + "learning_rate": 9.80356908164333e-06, + "loss": 0.5411, + "step": 1096 + }, + { + "avg_step_time": 5.644600345630838, + "epoch": 0.11690666666666667, + "eta_time": 12.981012850410476, + "step": 1096 + }, + { + "epoch": 0.11701333333333333, + "grad_norm": 1.6285432367274026, + "learning_rate": 9.803089348944868e-06, + "loss": 0.4296, + "step": 1097 + }, + { + "avg_step_time": 5.646089402112094, + "epoch": 0.11701333333333333, + "eta_time": 12.98286890852331, + "step": 1097 + }, + { + "epoch": 0.11712, + "grad_norm": 1.7827867625722966, + "learning_rate": 9.802609042914614e-06, + "loss": 0.5614, + "step": 1098 + }, + { + "avg_step_time": 5.683328467186051, + "epoch": 0.11712, + "eta_time": 13.06691936747193, + "step": 1098 + }, + { + "epoch": 0.11722666666666667, + "grad_norm": 1.4496620105173617, + "learning_rate": 9.802128163609901e-06, + "loss": 0.4291, + "step": 1099 + }, + { + "avg_step_time": 5.686010637668648, + "epoch": 0.11722666666666667, + "eta_time": 13.07150667704048, + "step": 1099 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 1.5260947662609208, + "learning_rate": 9.80164671108813e-06, + "loss": 0.4158, + "step": 1100 + }, + { + "avg_step_time": 5.709021300980539, + "epoch": 0.11733333333333333, + "eta_time": 13.122819796003878, + "step": 1100 + }, + { + "epoch": 0.11744, + "grad_norm": 1.859728202221353, + "learning_rate": 9.80116468540677e-06, + "loss": 0.5763, + "step": 1101 + }, + { + "avg_step_time": 5.708683510019322, + "epoch": 0.11744, + "eta_time": 13.12045760052774, + "step": 1101 + }, + { + "epoch": 0.11754666666666666, + "grad_norm": 1.5070780990647286, + "learning_rate": 9.800682086623363e-06, + "loss": 0.5066, + "step": 1102 + }, + { + "avg_step_time": 5.68996543836112, + "epoch": 0.11754666666666666, + "eta_time": 13.075856686544872, + "step": 1102 + }, + { + "epoch": 0.11765333333333333, + "grad_norm": 1.647912492192484, + "learning_rate": 9.80019891479551e-06, + "loss": 0.536, + "step": 1103 + }, + { + "avg_step_time": 5.677094307812777, + "epoch": 0.11765333333333333, + "eta_time": 13.044701142840916, + "step": 1103 + }, + { + "epoch": 0.11776, + "grad_norm": 1.6892796069617189, + "learning_rate": 9.79971516998089e-06, + "loss": 0.4472, + "step": 1104 + }, + { + "avg_step_time": 5.675390479540584, + "epoch": 0.11776, + "eta_time": 13.039209626744492, + "step": 1104 + }, + { + "epoch": 0.11786666666666666, + "grad_norm": 1.8890924277983494, + "learning_rate": 9.799230852237243e-06, + "loss": 0.4817, + "step": 1105 + }, + { + "avg_step_time": 5.679929511715668, + "epoch": 0.11786666666666666, + "eta_time": 13.048060294969046, + "step": 1105 + }, + { + "epoch": 0.11797333333333333, + "grad_norm": 1.597697477013097, + "learning_rate": 9.798745961622383e-06, + "loss": 0.5298, + "step": 1106 + }, + { + "avg_step_time": 5.676878543815228, + "epoch": 0.11797333333333333, + "eta_time": 13.039474633002254, + "step": 1106 + }, + { + "epoch": 0.11808, + "grad_norm": 1.6783366791432435, + "learning_rate": 9.79826049819419e-06, + "loss": 0.5437, + "step": 1107 + }, + { + "avg_step_time": 5.6777483068331325, + "epoch": 0.11808, + "eta_time": 13.03989527802676, + "step": 1107 + }, + { + "epoch": 0.11818666666666666, + "grad_norm": 1.8032466461636487, + "learning_rate": 9.797774462010611e-06, + "loss": 0.5045, + "step": 1108 + }, + { + "avg_step_time": 5.675816384228793, + "epoch": 0.11818666666666666, + "eta_time": 13.03388168011651, + "step": 1108 + }, + { + "epoch": 0.11829333333333333, + "grad_norm": 1.5734546734431782, + "learning_rate": 9.797287853129666e-06, + "loss": 0.4782, + "step": 1109 + }, + { + "avg_step_time": 5.6772001873363145, + "epoch": 0.11829333333333333, + "eta_time": 13.035482430144992, + "step": 1109 + }, + { + "epoch": 0.1184, + "grad_norm": 1.8004352332746238, + "learning_rate": 9.796800671609436e-06, + "loss": 0.5089, + "step": 1110 + }, + { + "avg_step_time": 5.676131366479276, + "epoch": 0.1184, + "eta_time": 13.031451595542006, + "step": 1110 + }, + { + "epoch": 0.11850666666666666, + "grad_norm": 0.6547765914516338, + "learning_rate": 9.796312917508078e-06, + "loss": 0.4348, + "step": 1111 + }, + { + "avg_step_time": 5.645792065244732, + "epoch": 0.11850666666666666, + "eta_time": 12.96022934088402, + "step": 1111 + }, + { + "epoch": 0.11861333333333333, + "grad_norm": 2.01152730470709, + "learning_rate": 9.795824590883812e-06, + "loss": 0.5142, + "step": 1112 + }, + { + "avg_step_time": 5.646065962435019, + "epoch": 0.11861333333333333, + "eta_time": 12.9592897354446, + "step": 1112 + }, + { + "epoch": 0.11872, + "grad_norm": 1.6034433706310194, + "learning_rate": 9.795335691794929e-06, + "loss": 0.4527, + "step": 1113 + }, + { + "avg_step_time": 5.62856849516281, + "epoch": 0.11872, + "eta_time": 12.917564696398648, + "step": 1113 + }, + { + "epoch": 0.11882666666666666, + "grad_norm": 1.7023576326869636, + "learning_rate": 9.794846220299787e-06, + "loss": 0.5283, + "step": 1114 + }, + { + "avg_step_time": 5.628899778982605, + "epoch": 0.11882666666666666, + "eta_time": 12.91676140949314, + "step": 1114 + }, + { + "epoch": 0.11893333333333334, + "grad_norm": 1.711713885927092, + "learning_rate": 9.794356176456813e-06, + "loss": 0.5163, + "step": 1115 + }, + { + "avg_step_time": 5.632624919968422, + "epoch": 0.11893333333333334, + "eta_time": 12.92374495526088, + "step": 1115 + }, + { + "epoch": 0.11904, + "grad_norm": 1.5139312612825553, + "learning_rate": 9.793865560324503e-06, + "loss": 0.4614, + "step": 1116 + }, + { + "avg_step_time": 5.648999650068958, + "epoch": 0.11904, + "eta_time": 12.959746697199868, + "step": 1116 + }, + { + "epoch": 0.11914666666666666, + "grad_norm": 1.782770076987529, + "learning_rate": 9.793374371961418e-06, + "loss": 0.4718, + "step": 1117 + }, + { + "avg_step_time": 5.649273621915567, + "epoch": 0.11914666666666666, + "eta_time": 12.958805991605209, + "step": 1117 + }, + { + "epoch": 0.11925333333333334, + "grad_norm": 1.6158477982884683, + "learning_rate": 9.792882611426193e-06, + "loss": 0.5414, + "step": 1118 + }, + { + "avg_step_time": 5.687845550402247, + "epoch": 0.11925333333333334, + "eta_time": 13.045705752686487, + "step": 1118 + }, + { + "epoch": 0.11936, + "grad_norm": 1.7809734793198198, + "learning_rate": 9.792390278777527e-06, + "loss": 0.4824, + "step": 1119 + }, + { + "avg_step_time": 5.688734362823794, + "epoch": 0.11936, + "eta_time": 13.046164138742569, + "step": 1119 + }, + { + "epoch": 0.11946666666666667, + "grad_norm": 1.6949140453871423, + "learning_rate": 9.791897374074188e-06, + "loss": 0.5838, + "step": 1120 + }, + { + "avg_step_time": 5.688211318218347, + "epoch": 0.11946666666666667, + "eta_time": 13.04338456441457, + "step": 1120 + }, + { + "epoch": 0.11957333333333334, + "grad_norm": 1.7215824385701641, + "learning_rate": 9.791403897375013e-06, + "loss": 0.539, + "step": 1121 + }, + { + "avg_step_time": 5.6829075138978284, + "epoch": 0.11957333333333334, + "eta_time": 13.0296440610313, + "step": 1121 + }, + { + "epoch": 0.11968, + "grad_norm": 1.8072843121624869, + "learning_rate": 9.790909848738907e-06, + "loss": 0.4566, + "step": 1122 + }, + { + "avg_step_time": 5.714787377251519, + "epoch": 0.11968, + "eta_time": 13.101150062349108, + "step": 1122 + }, + { + "epoch": 0.11978666666666667, + "grad_norm": 1.542117495589797, + "learning_rate": 9.790415228224843e-06, + "loss": 0.427, + "step": 1123 + }, + { + "avg_step_time": 5.7156262205104635, + "epoch": 0.11978666666666667, + "eta_time": 13.101485436570096, + "step": 1123 + }, + { + "epoch": 0.11989333333333334, + "grad_norm": 1.364311392848873, + "learning_rate": 9.789920035891863e-06, + "loss": 0.5108, + "step": 1124 + }, + { + "avg_step_time": 5.717193297665529, + "epoch": 0.11989333333333334, + "eta_time": 13.103489416399523, + "step": 1124 + }, + { + "epoch": 0.12, + "grad_norm": 1.3491300538600228, + "learning_rate": 9.789424271799075e-06, + "loss": 0.468, + "step": 1125 + }, + { + "avg_step_time": 5.7143991956807145, + "epoch": 0.12, + "eta_time": 13.095498156768304, + "step": 1125 + }, + { + "epoch": 0.12010666666666667, + "grad_norm": 1.7786230533581866, + "learning_rate": 9.78892793600566e-06, + "loss": 0.4972, + "step": 1126 + }, + { + "avg_step_time": 5.709086981686679, + "epoch": 0.12010666666666667, + "eta_time": 13.081738475537058, + "step": 1126 + }, + { + "epoch": 0.12021333333333334, + "grad_norm": 1.9735213334926565, + "learning_rate": 9.788431028570861e-06, + "loss": 0.4774, + "step": 1127 + }, + { + "avg_step_time": 5.7065637063498444, + "epoch": 0.12021333333333334, + "eta_time": 13.074371513881532, + "step": 1127 + }, + { + "epoch": 0.12032, + "grad_norm": 1.5454584010933385, + "learning_rate": 9.787933549553996e-06, + "loss": 0.455, + "step": 1128 + }, + { + "avg_step_time": 5.705796872726594, + "epoch": 0.12032, + "eta_time": 13.071029669271173, + "step": 1128 + }, + { + "epoch": 0.12042666666666667, + "grad_norm": 1.5441099443677357, + "learning_rate": 9.787435499014446e-06, + "loss": 0.5053, + "step": 1129 + }, + { + "avg_step_time": 5.70418320039306, + "epoch": 0.12042666666666667, + "eta_time": 13.065748519566993, + "step": 1129 + }, + { + "epoch": 0.12053333333333334, + "grad_norm": 0.662464865859712, + "learning_rate": 9.786936877011662e-06, + "loss": 0.4479, + "step": 1130 + }, + { + "avg_step_time": 5.667500481461033, + "epoch": 0.12053333333333334, + "eta_time": 12.98015040823506, + "step": 1130 + }, + { + "epoch": 0.12064, + "grad_norm": 0.6494768620933932, + "learning_rate": 9.786437683605161e-06, + "loss": 0.4498, + "step": 1131 + }, + { + "avg_step_time": 5.635587408085062, + "epoch": 0.12064, + "eta_time": 12.905495164514791, + "step": 1131 + }, + { + "epoch": 0.12074666666666667, + "grad_norm": 1.4840714888130275, + "learning_rate": 9.785937918854536e-06, + "loss": 0.4811, + "step": 1132 + }, + { + "avg_step_time": 5.626656243295381, + "epoch": 0.12074666666666667, + "eta_time": 12.883479837078841, + "step": 1132 + }, + { + "epoch": 0.12085333333333333, + "grad_norm": 1.8340601724901322, + "learning_rate": 9.785437582819436e-06, + "loss": 0.5513, + "step": 1133 + }, + { + "avg_step_time": 5.6281501114970505, + "epoch": 0.12085333333333333, + "eta_time": 12.885337005266303, + "step": 1133 + }, + { + "epoch": 0.12096, + "grad_norm": 1.6440949069384159, + "learning_rate": 9.78493667555959e-06, + "loss": 0.4565, + "step": 1134 + }, + { + "avg_step_time": 5.624867949822937, + "epoch": 0.12096, + "eta_time": 12.87626021513634, + "step": 1134 + }, + { + "epoch": 0.12106666666666667, + "grad_norm": 1.7642280879745733, + "learning_rate": 9.784435197134785e-06, + "loss": 0.5171, + "step": 1135 + }, + { + "avg_step_time": 5.6248204491355205, + "epoch": 0.12106666666666667, + "eta_time": 12.874589028021301, + "step": 1135 + }, + { + "epoch": 0.12117333333333333, + "grad_norm": 1.6966853703422389, + "learning_rate": 9.783933147604885e-06, + "loss": 0.5022, + "step": 1136 + }, + { + "avg_step_time": 5.61994481086731, + "epoch": 0.12117333333333333, + "eta_time": 12.861868137982157, + "step": 1136 + }, + { + "epoch": 0.12128, + "grad_norm": 1.8575032311829265, + "learning_rate": 9.783430527029818e-06, + "loss": 0.5555, + "step": 1137 + }, + { + "avg_step_time": 5.617159429222647, + "epoch": 0.12128, + "eta_time": 12.853933160537823, + "step": 1137 + }, + { + "epoch": 0.12138666666666667, + "grad_norm": 1.6085437338261959, + "learning_rate": 9.782927335469579e-06, + "loss": 0.4188, + "step": 1138 + }, + { + "avg_step_time": 5.621398220158587, + "epoch": 0.12138666666666667, + "eta_time": 12.862071427623965, + "step": 1138 + }, + { + "epoch": 0.12149333333333333, + "grad_norm": 1.627059703496123, + "learning_rate": 9.782423572984234e-06, + "loss": 0.5077, + "step": 1139 + }, + { + "avg_step_time": 5.622138466497864, + "epoch": 0.12149333333333333, + "eta_time": 12.862203447243447, + "step": 1139 + }, + { + "epoch": 0.1216, + "grad_norm": 1.6333412885684235, + "learning_rate": 9.781919239633912e-06, + "loss": 0.4753, + "step": 1140 + }, + { + "avg_step_time": 5.620106123914622, + "epoch": 0.1216, + "eta_time": 12.855992758454699, + "step": 1140 + }, + { + "epoch": 0.12170666666666667, + "grad_norm": 1.8136528065327087, + "learning_rate": 9.781414335478821e-06, + "loss": 0.528, + "step": 1141 + }, + { + "avg_step_time": 5.62427961705911, + "epoch": 0.12170666666666667, + "eta_time": 12.863977324129086, + "step": 1141 + }, + { + "epoch": 0.12181333333333333, + "grad_norm": 1.7197688539363474, + "learning_rate": 9.780908860579223e-06, + "loss": 0.5619, + "step": 1142 + }, + { + "avg_step_time": 5.625702684575861, + "epoch": 0.12181333333333333, + "eta_time": 12.865669500586963, + "step": 1142 + }, + { + "epoch": 0.12192, + "grad_norm": 1.6613473523480389, + "learning_rate": 9.780402814995458e-06, + "loss": 0.4199, + "step": 1143 + }, + { + "avg_step_time": 5.615329024767635, + "epoch": 0.12192, + "eta_time": 12.840385703301992, + "step": 1143 + }, + { + "epoch": 0.12202666666666667, + "grad_norm": 1.5955378006541459, + "learning_rate": 9.779896198787933e-06, + "loss": 0.4807, + "step": 1144 + }, + { + "avg_step_time": 5.611696038583313, + "epoch": 0.12202666666666667, + "eta_time": 12.830519470438679, + "step": 1144 + }, + { + "epoch": 0.12213333333333333, + "grad_norm": 1.6015454637475537, + "learning_rate": 9.77938901201712e-06, + "loss": 0.5828, + "step": 1145 + }, + { + "avg_step_time": 5.605455263696536, + "epoch": 0.12213333333333333, + "eta_time": 12.814693561172913, + "step": 1145 + }, + { + "epoch": 0.12224, + "grad_norm": 1.8822645185032174, + "learning_rate": 9.77888125474356e-06, + "loss": 0.5325, + "step": 1146 + }, + { + "avg_step_time": 5.610079319790156, + "epoch": 0.12224, + "eta_time": 12.823706311820331, + "step": 1146 + }, + { + "epoch": 0.12234666666666667, + "grad_norm": 1.8587356002370088, + "learning_rate": 9.778372927027861e-06, + "loss": 0.5401, + "step": 1147 + }, + { + "avg_step_time": 5.6100958092044095, + "epoch": 0.12234666666666667, + "eta_time": 12.822185643926078, + "step": 1147 + }, + { + "epoch": 0.12245333333333333, + "grad_norm": 1.818670318915816, + "learning_rate": 9.777864028930705e-06, + "loss": 0.5632, + "step": 1148 + }, + { + "avg_step_time": 5.6090941669965035, + "epoch": 0.12245333333333333, + "eta_time": 12.818338253300064, + "step": 1148 + }, + { + "epoch": 0.12256, + "grad_norm": 0.6861963191267081, + "learning_rate": 9.777354560512835e-06, + "loss": 0.4596, + "step": 1149 + }, + { + "avg_step_time": 5.550898101594713, + "epoch": 0.12256, + "eta_time": 12.68380216214392, + "step": 1149 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 1.6727586054828563, + "learning_rate": 9.776844521835064e-06, + "loss": 0.4646, + "step": 1150 + }, + { + "avg_step_time": 5.548070481329253, + "epoch": 0.12266666666666666, + "eta_time": 12.675799919148085, + "step": 1150 + }, + { + "epoch": 0.12277333333333333, + "grad_norm": 1.776910358903093, + "learning_rate": 9.776333912958276e-06, + "loss": 0.5302, + "step": 1151 + }, + { + "avg_step_time": 5.5404754624222265, + "epoch": 0.12277333333333333, + "eta_time": 12.65690838971122, + "step": 1151 + }, + { + "epoch": 0.12288, + "grad_norm": 1.5839825436775725, + "learning_rate": 9.77582273394342e-06, + "loss": 0.5091, + "step": 1152 + }, + { + "avg_step_time": 5.518672762495099, + "epoch": 0.12288, + "eta_time": 12.605568368332554, + "step": 1152 + }, + { + "epoch": 0.12298666666666666, + "grad_norm": 0.6592880595090445, + "learning_rate": 9.775310984851513e-06, + "loss": 0.4306, + "step": 1153 + }, + { + "avg_step_time": 5.483288254400696, + "epoch": 0.12298666666666666, + "eta_time": 12.5232211188007, + "step": 1153 + }, + { + "epoch": 0.12309333333333333, + "grad_norm": 1.4074195675926475, + "learning_rate": 9.774798665743646e-06, + "loss": 0.4389, + "step": 1154 + }, + { + "avg_step_time": 5.483396681872281, + "epoch": 0.12309333333333333, + "eta_time": 12.521945589353342, + "step": 1154 + }, + { + "epoch": 0.1232, + "grad_norm": 1.8475828297616588, + "learning_rate": 9.774285776680967e-06, + "loss": 0.5454, + "step": 1155 + }, + { + "avg_step_time": 5.516972695938264, + "epoch": 0.1232, + "eta_time": 12.597087655725703, + "step": 1155 + }, + { + "epoch": 0.12330666666666666, + "grad_norm": 1.496817537357747, + "learning_rate": 9.7737723177247e-06, + "loss": 0.4931, + "step": 1156 + }, + { + "avg_step_time": 5.545281581204347, + "epoch": 0.12330666666666666, + "eta_time": 12.66018592108848, + "step": 1156 + }, + { + "epoch": 0.12341333333333333, + "grad_norm": 0.6526790032034165, + "learning_rate": 9.773258288936139e-06, + "loss": 0.4426, + "step": 1157 + }, + { + "avg_step_time": 5.5063028287405915, + "epoch": 0.12341333333333333, + "eta_time": 12.569665735163941, + "step": 1157 + }, + { + "epoch": 0.12352, + "grad_norm": 1.543041108539479, + "learning_rate": 9.772743690376636e-06, + "loss": 0.4908, + "step": 1158 + }, + { + "avg_step_time": 5.511371133303402, + "epoch": 0.12352, + "eta_time": 12.579704611765013, + "step": 1158 + }, + { + "epoch": 0.12362666666666666, + "grad_norm": 1.4739595374035033, + "learning_rate": 9.77222852210762e-06, + "loss": 0.5133, + "step": 1159 + }, + { + "avg_step_time": 5.520873508068046, + "epoch": 0.12362666666666666, + "eta_time": 12.599860206190852, + "step": 1159 + }, + { + "epoch": 0.12373333333333333, + "grad_norm": 1.6278931152773426, + "learning_rate": 9.771712784190588e-06, + "loss": 0.4501, + "step": 1160 + }, + { + "avg_step_time": 5.518360417298596, + "epoch": 0.12373333333333333, + "eta_time": 12.592591896696657, + "step": 1160 + }, + { + "epoch": 0.12384, + "grad_norm": 1.9113862580076046, + "learning_rate": 9.7711964766871e-06, + "loss": 0.5273, + "step": 1161 + }, + { + "avg_step_time": 5.516036758519182, + "epoch": 0.12384, + "eta_time": 12.585757204021267, + "step": 1161 + }, + { + "epoch": 0.12394666666666666, + "grad_norm": 1.6971719779679049, + "learning_rate": 9.770679599658786e-06, + "loss": 0.4585, + "step": 1162 + }, + { + "avg_step_time": 5.514847562770651, + "epoch": 0.12394666666666666, + "eta_time": 12.581511953620932, + "step": 1162 + }, + { + "epoch": 0.12405333333333333, + "grad_norm": 1.6671761546664223, + "learning_rate": 9.770162153167343e-06, + "loss": 0.5718, + "step": 1163 + }, + { + "avg_step_time": 5.5296300709849655, + "epoch": 0.12405333333333333, + "eta_time": 12.613700595257926, + "step": 1163 + }, + { + "epoch": 0.12416, + "grad_norm": 1.6625211558364925, + "learning_rate": 9.76964413727454e-06, + "loss": 0.4395, + "step": 1164 + }, + { + "avg_step_time": 5.553350812256938, + "epoch": 0.12416, + "eta_time": 12.666267644289366, + "step": 1164 + }, + { + "epoch": 0.12426666666666666, + "grad_norm": 1.4764361253370417, + "learning_rate": 9.769125552042207e-06, + "loss": 0.4985, + "step": 1165 + }, + { + "avg_step_time": 5.552039201813515, + "epoch": 0.12426666666666666, + "eta_time": 12.661733846358045, + "step": 1165 + }, + { + "epoch": 0.12437333333333334, + "grad_norm": 1.6558881736694502, + "learning_rate": 9.76860639753225e-06, + "loss": 0.5012, + "step": 1166 + }, + { + "avg_step_time": 5.522766363741171, + "epoch": 0.12437333333333334, + "eta_time": 12.593441411097576, + "step": 1166 + }, + { + "epoch": 0.12448, + "grad_norm": 1.7215022176639645, + "learning_rate": 9.768086673806638e-06, + "loss": 0.4938, + "step": 1167 + }, + { + "avg_step_time": 5.526534769270155, + "epoch": 0.12448, + "eta_time": 12.600499273935954, + "step": 1167 + }, + { + "epoch": 0.12458666666666667, + "grad_norm": 1.831472294368178, + "learning_rate": 9.76756638092741e-06, + "loss": 0.5174, + "step": 1168 + }, + { + "avg_step_time": 5.523467379386979, + "epoch": 0.12458666666666667, + "eta_time": 12.591971328508038, + "step": 1168 + }, + { + "epoch": 0.12469333333333334, + "grad_norm": 1.5966433482696865, + "learning_rate": 9.767045518956671e-06, + "loss": 0.5634, + "step": 1169 + }, + { + "avg_step_time": 5.522382986665976, + "epoch": 0.12469333333333334, + "eta_time": 12.587965219050277, + "step": 1169 + }, + { + "epoch": 0.1248, + "grad_norm": 1.387203007440844, + "learning_rate": 9.766524087956592e-06, + "loss": 0.45, + "step": 1170 + }, + { + "avg_step_time": 5.507841293257896, + "epoch": 0.1248, + "eta_time": 12.553288280883622, + "step": 1170 + }, + { + "epoch": 0.12490666666666667, + "grad_norm": 1.5060734176843438, + "learning_rate": 9.76600208798942e-06, + "loss": 0.5368, + "step": 1171 + }, + { + "avg_step_time": 5.510304477479723, + "epoch": 0.12490666666666667, + "eta_time": 12.557371648123237, + "step": 1171 + }, + { + "epoch": 0.12501333333333334, + "grad_norm": 1.7079113630271012, + "learning_rate": 9.765479519117461e-06, + "loss": 0.5343, + "step": 1172 + }, + { + "avg_step_time": 5.50895802661626, + "epoch": 0.12501333333333334, + "eta_time": 12.55277297009255, + "step": 1172 + }, + { + "epoch": 0.12512, + "grad_norm": 1.6089952985125477, + "learning_rate": 9.764956381403095e-06, + "loss": 0.4815, + "step": 1173 + }, + { + "avg_step_time": 5.50553475004254, + "epoch": 0.12512, + "eta_time": 12.54344333884692, + "step": 1173 + }, + { + "epoch": 0.12522666666666665, + "grad_norm": 1.5575360577269977, + "learning_rate": 9.764432674908766e-06, + "loss": 0.4934, + "step": 1174 + }, + { + "avg_step_time": 5.550612353315257, + "epoch": 0.12522666666666665, + "eta_time": 12.644603308205118, + "step": 1174 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 1.494738415760422, + "learning_rate": 9.763908399696986e-06, + "loss": 0.4982, + "step": 1175 + }, + { + "avg_step_time": 5.5506431767434785, + "epoch": 0.12533333333333332, + "eta_time": 12.643131680360145, + "step": 1175 + }, + { + "epoch": 0.12544, + "grad_norm": 1.502401101250434, + "learning_rate": 9.76338355583034e-06, + "loss": 0.5127, + "step": 1176 + }, + { + "avg_step_time": 5.549680391947429, + "epoch": 0.12544, + "eta_time": 12.639397092660268, + "step": 1176 + }, + { + "epoch": 0.12554666666666667, + "grad_norm": 0.6984311942693409, + "learning_rate": 9.762858143371476e-06, + "loss": 0.4661, + "step": 1177 + }, + { + "avg_step_time": 5.512227292012686, + "epoch": 0.12554666666666667, + "eta_time": 12.55256648331111, + "step": 1177 + }, + { + "epoch": 0.12565333333333334, + "grad_norm": 1.6557172980674546, + "learning_rate": 9.76233216238311e-06, + "loss": 0.5761, + "step": 1178 + }, + { + "avg_step_time": 5.546423815717601, + "epoch": 0.12565333333333334, + "eta_time": 12.628898893732549, + "step": 1178 + }, + { + "epoch": 0.12576, + "grad_norm": 1.3920877934094875, + "learning_rate": 9.761805612928025e-06, + "loss": 0.4513, + "step": 1179 + }, + { + "avg_step_time": 5.562927749421862, + "epoch": 0.12576, + "eta_time": 12.664932176183772, + "step": 1179 + }, + { + "epoch": 0.12586666666666665, + "grad_norm": 1.397369693959446, + "learning_rate": 9.76127849506908e-06, + "loss": 0.4464, + "step": 1180 + }, + { + "avg_step_time": 5.571950019007981, + "epoch": 0.12586666666666665, + "eta_time": 12.683925112714, + "step": 1180 + }, + { + "epoch": 0.12597333333333333, + "grad_norm": 1.5240427124740907, + "learning_rate": 9.760750808869188e-06, + "loss": 0.5369, + "step": 1181 + }, + { + "avg_step_time": 5.583431017519247, + "epoch": 0.12597333333333333, + "eta_time": 12.708509377097975, + "step": 1181 + }, + { + "epoch": 0.12608, + "grad_norm": 1.592596210055865, + "learning_rate": 9.760222554391343e-06, + "loss": 0.4808, + "step": 1182 + }, + { + "avg_step_time": 5.57877581528943, + "epoch": 0.12608, + "eta_time": 12.696363959629528, + "step": 1182 + }, + { + "epoch": 0.12618666666666667, + "grad_norm": 1.61919994972328, + "learning_rate": 9.7596937316986e-06, + "loss": 0.466, + "step": 1183 + }, + { + "avg_step_time": 5.577597622919565, + "epoch": 0.12618666666666667, + "eta_time": 12.692133257488075, + "step": 1183 + }, + { + "epoch": 0.12629333333333334, + "grad_norm": 1.6068138885423129, + "learning_rate": 9.759164340854082e-06, + "loss": 0.5021, + "step": 1184 + }, + { + "avg_step_time": 5.614916909824718, + "epoch": 0.12629333333333334, + "eta_time": 12.77549566899285, + "step": 1184 + }, + { + "epoch": 0.1264, + "grad_norm": 1.7301067111944501, + "learning_rate": 9.758634381920982e-06, + "loss": 0.5223, + "step": 1185 + }, + { + "avg_step_time": 5.613413136414807, + "epoch": 0.1264, + "eta_time": 12.770514885343685, + "step": 1185 + }, + { + "epoch": 0.12650666666666666, + "grad_norm": 1.6100779061617456, + "learning_rate": 9.75810385496256e-06, + "loss": 0.4844, + "step": 1186 + }, + { + "avg_step_time": 5.6139332357079095, + "epoch": 0.12650666666666666, + "eta_time": 12.770138685336686, + "step": 1186 + }, + { + "epoch": 0.12661333333333333, + "grad_norm": 1.5530798773575276, + "learning_rate": 9.757572760042141e-06, + "loss": 0.4721, + "step": 1187 + }, + { + "avg_step_time": 5.610926228340226, + "epoch": 0.12661333333333333, + "eta_time": 12.761739988236046, + "step": 1187 + }, + { + "epoch": 0.12672, + "grad_norm": 1.6056870413109248, + "learning_rate": 9.757041097223123e-06, + "loss": 0.5541, + "step": 1188 + }, + { + "avg_step_time": 5.597366072914817, + "epoch": 0.12672, + "eta_time": 12.729343344153781, + "step": 1188 + }, + { + "epoch": 0.12682666666666667, + "grad_norm": 1.7484531187370318, + "learning_rate": 9.75650886656897e-06, + "loss": 0.5623, + "step": 1189 + }, + { + "avg_step_time": 5.597618110252149, + "epoch": 0.12682666666666667, + "eta_time": 12.728361625145581, + "step": 1189 + }, + { + "epoch": 0.12693333333333334, + "grad_norm": 1.6791483312087225, + "learning_rate": 9.75597606814321e-06, + "loss": 0.4209, + "step": 1190 + }, + { + "avg_step_time": 5.621403593005556, + "epoch": 0.12693333333333334, + "eta_time": 12.780885669097353, + "step": 1190 + }, + { + "epoch": 0.12704, + "grad_norm": 1.6563322052244507, + "learning_rate": 9.755442702009443e-06, + "loss": 0.5028, + "step": 1191 + }, + { + "avg_step_time": 5.660704824659559, + "epoch": 0.12704, + "eta_time": 12.868668968059398, + "step": 1191 + }, + { + "epoch": 0.12714666666666666, + "grad_norm": 1.5798385733693618, + "learning_rate": 9.754908768231337e-06, + "loss": 0.5612, + "step": 1192 + }, + { + "avg_step_time": 5.696282579441263, + "epoch": 0.12714666666666666, + "eta_time": 12.947966763213293, + "step": 1192 + }, + { + "epoch": 0.12725333333333333, + "grad_norm": 1.766663986063016, + "learning_rate": 9.754374266872624e-06, + "loss": 0.507, + "step": 1193 + }, + { + "avg_step_time": 5.6932648287879095, + "epoch": 0.12725333333333333, + "eta_time": 12.939525785872965, + "step": 1193 + }, + { + "epoch": 0.12736, + "grad_norm": 1.6822910582337174, + "learning_rate": 9.753839197997105e-06, + "loss": 0.4392, + "step": 1194 + }, + { + "avg_step_time": 5.688596446104724, + "epoch": 0.12736, + "eta_time": 12.927335423772986, + "step": 1194 + }, + { + "epoch": 0.12746666666666667, + "grad_norm": 1.796019933415855, + "learning_rate": 9.753303561668654e-06, + "loss": 0.5932, + "step": 1195 + }, + { + "avg_step_time": 5.685641544033783, + "epoch": 0.12746666666666667, + "eta_time": 12.919041063943428, + "step": 1195 + }, + { + "epoch": 0.12757333333333334, + "grad_norm": 1.9461852337525434, + "learning_rate": 9.752767357951206e-06, + "loss": 0.5733, + "step": 1196 + }, + { + "avg_step_time": 5.689273550052835, + "epoch": 0.12757333333333334, + "eta_time": 12.925713434967262, + "step": 1196 + }, + { + "epoch": 0.12768, + "grad_norm": 1.6961855577069342, + "learning_rate": 9.752230586908767e-06, + "loss": 0.5291, + "step": 1197 + }, + { + "avg_step_time": 5.684500643701265, + "epoch": 0.12768, + "eta_time": 12.913290628941374, + "step": 1197 + }, + { + "epoch": 0.12778666666666666, + "grad_norm": 1.8123553719553882, + "learning_rate": 9.751693248605406e-06, + "loss": 0.4891, + "step": 1198 + }, + { + "avg_step_time": 5.746897545727816, + "epoch": 0.12778666666666666, + "eta_time": 13.053439230948987, + "step": 1198 + }, + { + "epoch": 0.12789333333333333, + "grad_norm": 1.4662482186993855, + "learning_rate": 9.751155343105269e-06, + "loss": 0.468, + "step": 1199 + }, + { + "avg_step_time": 5.7474515991981585, + "epoch": 0.12789333333333333, + "eta_time": 13.053101187512263, + "step": 1199 + }, + { + "epoch": 0.128, + "grad_norm": 1.9109822641733842, + "learning_rate": 9.75061687047256e-06, + "loss": 0.6018, + "step": 1200 + }, + { + "avg_step_time": 5.746716518594761, + "epoch": 0.128, + "eta_time": 13.04983542764227, + "step": 1200 + }, + { + "epoch": 0.12810666666666667, + "grad_norm": 2.2715242701752305, + "learning_rate": 9.75007783077156e-06, + "loss": 0.493, + "step": 1201 + }, + { + "avg_step_time": 5.758377677262431, + "epoch": 0.12810666666666667, + "eta_time": 13.074716426095309, + "step": 1201 + }, + { + "epoch": 0.12821333333333335, + "grad_norm": 1.765631206902759, + "learning_rate": 9.749538224066607e-06, + "loss": 0.5594, + "step": 1202 + }, + { + "avg_step_time": 5.760358222807296, + "epoch": 0.12821333333333335, + "eta_time": 13.077613265278897, + "step": 1202 + }, + { + "epoch": 0.12832, + "grad_norm": 1.4949602819168237, + "learning_rate": 9.748998050422117e-06, + "loss": 0.5658, + "step": 1203 + }, + { + "avg_step_time": 5.781032636912182, + "epoch": 0.12832, + "eta_time": 13.122944085790653, + "step": 1203 + }, + { + "epoch": 0.12842666666666666, + "grad_norm": 0.6140554035655409, + "learning_rate": 9.748457309902566e-06, + "loss": 0.4551, + "step": 1204 + }, + { + "avg_step_time": 5.742194633291225, + "epoch": 0.12842666666666666, + "eta_time": 13.033186763506277, + "step": 1204 + }, + { + "epoch": 0.12853333333333333, + "grad_norm": 1.6496783068738152, + "learning_rate": 9.747916002572502e-06, + "loss": 0.5997, + "step": 1205 + }, + { + "avg_step_time": 5.747893759698579, + "epoch": 0.12853333333333333, + "eta_time": 13.04452556020483, + "step": 1205 + }, + { + "epoch": 0.12864, + "grad_norm": 1.6952497830231756, + "learning_rate": 9.747374128496541e-06, + "loss": 0.5921, + "step": 1206 + }, + { + "avg_step_time": 5.752992750418307, + "epoch": 0.12864, + "eta_time": 13.05449938282421, + "step": 1206 + }, + { + "epoch": 0.12874666666666668, + "grad_norm": 0.6553778849715646, + "learning_rate": 9.746831687739361e-06, + "loss": 0.4461, + "step": 1207 + }, + { + "avg_step_time": 5.718260632620917, + "epoch": 0.12874666666666668, + "eta_time": 12.97409801312435, + "step": 1207 + }, + { + "epoch": 0.12885333333333332, + "grad_norm": 0.6268931152441947, + "learning_rate": 9.746288680365716e-06, + "loss": 0.4132, + "step": 1208 + }, + { + "avg_step_time": 5.6875692714344375, + "epoch": 0.12885333333333332, + "eta_time": 12.902882844390293, + "step": 1208 + }, + { + "epoch": 0.12896, + "grad_norm": 1.5720458527777998, + "learning_rate": 9.745745106440422e-06, + "loss": 0.4802, + "step": 1209 + }, + { + "avg_step_time": 5.6855974847620185, + "epoch": 0.12896, + "eta_time": 12.896830294601845, + "step": 1209 + }, + { + "epoch": 0.12906666666666666, + "grad_norm": 1.6421255700560176, + "learning_rate": 9.745200966028362e-06, + "loss": 0.4991, + "step": 1210 + }, + { + "avg_step_time": 5.734714267229793, + "epoch": 0.12906666666666666, + "eta_time": 13.00665055331424, + "step": 1210 + }, + { + "epoch": 0.12917333333333333, + "grad_norm": 1.6144816731887124, + "learning_rate": 9.74465625919449e-06, + "loss": 0.4541, + "step": 1211 + }, + { + "avg_step_time": 5.748479797382547, + "epoch": 0.12917333333333333, + "eta_time": 13.036274740508643, + "step": 1211 + }, + { + "epoch": 0.12928, + "grad_norm": 2.070483286461966, + "learning_rate": 9.744110986003826e-06, + "loss": 0.5047, + "step": 1212 + }, + { + "avg_step_time": 5.747301881963557, + "epoch": 0.12928, + "eta_time": 13.032007017352365, + "step": 1212 + }, + { + "epoch": 0.12938666666666668, + "grad_norm": 1.701541498292213, + "learning_rate": 9.743565146521459e-06, + "loss": 0.4188, + "step": 1213 + }, + { + "avg_step_time": 5.745067858936811, + "epoch": 0.12938666666666668, + "eta_time": 13.02534551795618, + "step": 1213 + }, + { + "epoch": 0.12949333333333332, + "grad_norm": 1.6796039399331353, + "learning_rate": 9.743018740812541e-06, + "loss": 0.5386, + "step": 1214 + }, + { + "avg_step_time": 5.739493931182707, + "epoch": 0.12949333333333332, + "eta_time": 13.011113881217243, + "step": 1214 + }, + { + "epoch": 0.1296, + "grad_norm": 1.5420203108685928, + "learning_rate": 9.742471768942299e-06, + "loss": 0.5523, + "step": 1215 + }, + { + "avg_step_time": 5.766062266898878, + "epoch": 0.1296, + "eta_time": 13.069741138304124, + "step": 1215 + }, + { + "epoch": 0.12970666666666666, + "grad_norm": 1.6119123355208695, + "learning_rate": 9.741924230976023e-06, + "loss": 0.5508, + "step": 1216 + }, + { + "avg_step_time": 5.767933676941226, + "epoch": 0.12970666666666666, + "eta_time": 13.072380797267629, + "step": 1216 + }, + { + "epoch": 0.12981333333333334, + "grad_norm": 1.5801622982727268, + "learning_rate": 9.741376126979069e-06, + "loss": 0.4737, + "step": 1217 + }, + { + "avg_step_time": 5.76346590783861, + "epoch": 0.12981333333333334, + "eta_time": 13.060654132263162, + "step": 1217 + }, + { + "epoch": 0.12992, + "grad_norm": 1.6607179806563799, + "learning_rate": 9.740827457016863e-06, + "loss": 0.4477, + "step": 1218 + }, + { + "avg_step_time": 5.763110001881917, + "epoch": 0.12992, + "eta_time": 13.058246745930777, + "step": 1218 + }, + { + "epoch": 0.13002666666666668, + "grad_norm": 1.8165558957750763, + "learning_rate": 9.740278221154899e-06, + "loss": 0.4444, + "step": 1219 + }, + { + "avg_step_time": 5.7654594195009485, + "epoch": 0.13002666666666668, + "eta_time": 13.061968618180481, + "step": 1219 + }, + { + "epoch": 0.13013333333333332, + "grad_norm": 1.4053906233561806, + "learning_rate": 9.739728419458738e-06, + "loss": 0.553, + "step": 1220 + }, + { + "avg_step_time": 5.764851025860719, + "epoch": 0.13013333333333332, + "eta_time": 13.058988921081713, + "step": 1220 + }, + { + "epoch": 0.13024, + "grad_norm": 1.5908842818824023, + "learning_rate": 9.739178051994008e-06, + "loss": 0.5358, + "step": 1221 + }, + { + "avg_step_time": 5.795624566800667, + "epoch": 0.13024, + "eta_time": 13.127089643803512, + "step": 1221 + }, + { + "epoch": 0.13034666666666667, + "grad_norm": 1.8195702760357952, + "learning_rate": 9.738627118826404e-06, + "loss": 0.524, + "step": 1222 + }, + { + "avg_step_time": 5.794035018092454, + "epoch": 0.13034666666666667, + "eta_time": 13.121879861807717, + "step": 1222 + }, + { + "epoch": 0.13045333333333334, + "grad_norm": 1.4949314220677719, + "learning_rate": 9.738075620021691e-06, + "loss": 0.4485, + "step": 1223 + }, + { + "avg_step_time": 5.816848598345362, + "epoch": 0.13045333333333334, + "eta_time": 13.171930492697609, + "step": 1223 + }, + { + "epoch": 0.13056, + "grad_norm": 1.4577505522097767, + "learning_rate": 9.7375235556457e-06, + "loss": 0.4598, + "step": 1224 + }, + { + "avg_step_time": 5.816945523926706, + "epoch": 0.13056, + "eta_time": 13.170534157090717, + "step": 1224 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 1.8495567839591112, + "learning_rate": 9.736970925764326e-06, + "loss": 0.4771, + "step": 1225 + }, + { + "avg_step_time": 5.816289056431163, + "epoch": 0.13066666666666665, + "eta_time": 13.16743216942055, + "step": 1225 + }, + { + "epoch": 0.13077333333333332, + "grad_norm": 1.527396239763545, + "learning_rate": 9.73641773044354e-06, + "loss": 0.398, + "step": 1226 + }, + { + "avg_step_time": 5.814747388916786, + "epoch": 0.13077333333333332, + "eta_time": 13.162326797856359, + "step": 1226 + }, + { + "epoch": 0.13088, + "grad_norm": 1.8719802678190212, + "learning_rate": 9.735863969749373e-06, + "loss": 0.5091, + "step": 1227 + }, + { + "avg_step_time": 5.816053823991255, + "epoch": 0.13088, + "eta_time": 13.163668488300207, + "step": 1227 + }, + { + "epoch": 0.13098666666666667, + "grad_norm": 1.96410758926065, + "learning_rate": 9.735309643747926e-06, + "loss": 0.5376, + "step": 1228 + }, + { + "avg_step_time": 5.824993251550077, + "epoch": 0.13098666666666667, + "eta_time": 13.18228333899402, + "step": 1228 + }, + { + "epoch": 0.13109333333333334, + "grad_norm": 1.3904137325331933, + "learning_rate": 9.734754752505366e-06, + "loss": 0.4973, + "step": 1229 + }, + { + "avg_step_time": 5.862210333949387, + "epoch": 0.13109333333333334, + "eta_time": 13.26487927231992, + "step": 1229 + }, + { + "epoch": 0.1312, + "grad_norm": 2.5737201057328307, + "learning_rate": 9.734199296087932e-06, + "loss": 0.423, + "step": 1230 + }, + { + "avg_step_time": 5.893453200658162, + "epoch": 0.1312, + "eta_time": 13.333937866489093, + "step": 1230 + }, + { + "epoch": 0.13130666666666665, + "grad_norm": 0.6610359931508257, + "learning_rate": 9.733643274561924e-06, + "loss": 0.4363, + "step": 1231 + }, + { + "avg_step_time": 5.862312637194239, + "epoch": 0.13130666666666665, + "eta_time": 13.261853921474966, + "step": 1231 + }, + { + "epoch": 0.13141333333333333, + "grad_norm": 1.739333873314091, + "learning_rate": 9.733086687993714e-06, + "loss": 0.5277, + "step": 1232 + }, + { + "avg_step_time": 5.865890281368988, + "epoch": 0.13141333333333333, + "eta_time": 13.26831793366324, + "step": 1232 + }, + { + "epoch": 0.13152, + "grad_norm": 1.8549016021671978, + "learning_rate": 9.732529536449741e-06, + "loss": 0.6014, + "step": 1233 + }, + { + "avg_step_time": 5.868747879760434, + "epoch": 0.13152, + "eta_time": 13.273151454724848, + "step": 1233 + }, + { + "epoch": 0.13162666666666667, + "grad_norm": 1.4315787094229997, + "learning_rate": 9.731971819996513e-06, + "loss": 0.4778, + "step": 1234 + }, + { + "avg_step_time": 5.875544644365407, + "epoch": 0.13162666666666667, + "eta_time": 13.28689137493855, + "step": 1234 + }, + { + "epoch": 0.13173333333333334, + "grad_norm": 1.7460218574358004, + "learning_rate": 9.731413538700597e-06, + "loss": 0.4675, + "step": 1235 + }, + { + "avg_step_time": 5.87791534144469, + "epoch": 0.13173333333333334, + "eta_time": 13.290619688711049, + "step": 1235 + }, + { + "epoch": 0.13184, + "grad_norm": 1.808243047382617, + "learning_rate": 9.730854692628637e-06, + "loss": 0.5597, + "step": 1236 + }, + { + "avg_step_time": 5.883317220090616, + "epoch": 0.13184, + "eta_time": 13.301199681754866, + "step": 1236 + }, + { + "epoch": 0.13194666666666666, + "grad_norm": 1.6394489859936612, + "learning_rate": 9.730295281847342e-06, + "loss": 0.4965, + "step": 1237 + }, + { + "avg_step_time": 5.878268290047694, + "epoch": 0.13194666666666666, + "eta_time": 13.28815204011337, + "step": 1237 + }, + { + "epoch": 0.13205333333333333, + "grad_norm": 1.901846249126985, + "learning_rate": 9.729735306423486e-06, + "loss": 0.494, + "step": 1238 + }, + { + "avg_step_time": 5.8758275171723024, + "epoch": 0.13205333333333333, + "eta_time": 13.281002363119729, + "step": 1238 + }, + { + "epoch": 0.13216, + "grad_norm": 1.5090401481942712, + "learning_rate": 9.729174766423912e-06, + "loss": 0.5217, + "step": 1239 + }, + { + "avg_step_time": 5.873029022505789, + "epoch": 0.13216, + "eta_time": 13.273045590863084, + "step": 1239 + }, + { + "epoch": 0.13226666666666667, + "grad_norm": 1.5284914113639476, + "learning_rate": 9.72861366191553e-06, + "loss": 0.5015, + "step": 1240 + }, + { + "avg_step_time": 5.909819431979247, + "epoch": 0.13226666666666667, + "eta_time": 13.354550299764215, + "step": 1240 + }, + { + "epoch": 0.13237333333333334, + "grad_norm": 0.6755177913113076, + "learning_rate": 9.728051992965316e-06, + "loss": 0.4478, + "step": 1241 + }, + { + "avg_step_time": 5.878236760996809, + "epoch": 0.13237333333333334, + "eta_time": 13.281549392763345, + "step": 1241 + }, + { + "epoch": 0.13248, + "grad_norm": 1.5020708879408078, + "learning_rate": 9.72748975964032e-06, + "loss": 0.517, + "step": 1242 + }, + { + "avg_step_time": 5.879329170843567, + "epoch": 0.13248, + "eta_time": 13.282384485130759, + "step": 1242 + }, + { + "epoch": 0.13258666666666666, + "grad_norm": 1.7079714321175707, + "learning_rate": 9.726926962007647e-06, + "loss": 0.4512, + "step": 1243 + }, + { + "avg_step_time": 5.873377002850927, + "epoch": 0.13258666666666666, + "eta_time": 13.267306051995483, + "step": 1243 + }, + { + "epoch": 0.13269333333333333, + "grad_norm": 1.6504730761676674, + "learning_rate": 9.726363600134482e-06, + "loss": 0.5235, + "step": 1244 + }, + { + "avg_step_time": 5.872675864383428, + "epoch": 0.13269333333333333, + "eta_time": 13.26409095925046, + "step": 1244 + }, + { + "epoch": 0.1328, + "grad_norm": 0.6279543829055179, + "learning_rate": 9.725799674088072e-06, + "loss": 0.4384, + "step": 1245 + }, + { + "avg_step_time": 5.83429746675973, + "epoch": 0.1328, + "eta_time": 13.175788445765724, + "step": 1245 + }, + { + "epoch": 0.13290666666666667, + "grad_norm": 1.527862746877716, + "learning_rate": 9.725235183935729e-06, + "loss": 0.4975, + "step": 1246 + }, + { + "avg_step_time": 5.8311259987378365, + "epoch": 0.13290666666666667, + "eta_time": 13.16700645659441, + "step": 1246 + }, + { + "epoch": 0.13301333333333334, + "grad_norm": 1.842418061302128, + "learning_rate": 9.724670129744834e-06, + "loss": 0.513, + "step": 1247 + }, + { + "avg_step_time": 5.831268493575279, + "epoch": 0.13301333333333334, + "eta_time": 13.165708421049963, + "step": 1247 + }, + { + "epoch": 0.13312, + "grad_norm": 1.4364460752938657, + "learning_rate": 9.724104511582838e-06, + "loss": 0.5566, + "step": 1248 + }, + { + "avg_step_time": 5.865423797356962, + "epoch": 0.13312, + "eta_time": 13.241194222533341, + "step": 1248 + }, + { + "epoch": 0.13322666666666666, + "grad_norm": 1.6252782121337548, + "learning_rate": 9.723538329517257e-06, + "loss": 0.5358, + "step": 1249 + }, + { + "avg_step_time": 5.866503898543541, + "epoch": 0.13322666666666666, + "eta_time": 13.242002966545781, + "step": 1249 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 1.5735654376458512, + "learning_rate": 9.722971583615674e-06, + "loss": 0.5314, + "step": 1250 + }, + { + "avg_step_time": 5.871867439963601, + "epoch": 0.13333333333333333, + "eta_time": 13.25247859714007, + "step": 1250 + }, + { + "epoch": 0.13344, + "grad_norm": 1.6871353413738004, + "learning_rate": 9.72240427394574e-06, + "loss": 0.5591, + "step": 1251 + }, + { + "avg_step_time": 5.874796050967592, + "epoch": 0.13344, + "eta_time": 13.257456421683532, + "step": 1251 + }, + { + "epoch": 0.13354666666666667, + "grad_norm": 1.6894131789683404, + "learning_rate": 9.721836400575173e-06, + "loss": 0.4924, + "step": 1252 + }, + { + "avg_step_time": 5.913344532552392, + "epoch": 0.13354666666666667, + "eta_time": 13.342804899423077, + "step": 1252 + }, + { + "epoch": 0.13365333333333335, + "grad_norm": 1.6839650869557683, + "learning_rate": 9.72126796357176e-06, + "loss": 0.4838, + "step": 1253 + }, + { + "avg_step_time": 5.921252262712729, + "epoch": 0.13365333333333335, + "eta_time": 13.359003021597996, + "step": 1253 + }, + { + "epoch": 0.13376, + "grad_norm": 1.7050198016590097, + "learning_rate": 9.720698963003351e-06, + "loss": 0.4442, + "step": 1254 + }, + { + "avg_step_time": 5.918940621193009, + "epoch": 0.13376, + "eta_time": 13.352143551307897, + "step": 1254 + }, + { + "epoch": 0.13386666666666666, + "grad_norm": 1.7180563797945192, + "learning_rate": 9.720129398937871e-06, + "loss": 0.5353, + "step": 1255 + }, + { + "avg_step_time": 5.896394618833908, + "epoch": 0.13386666666666666, + "eta_time": 13.299645640258703, + "step": 1255 + }, + { + "epoch": 0.13397333333333333, + "grad_norm": 1.5038828399792485, + "learning_rate": 9.719559271443303e-06, + "loss": 0.4659, + "step": 1256 + }, + { + "avg_step_time": 5.934005308632899, + "epoch": 0.13397333333333333, + "eta_time": 13.38283030577514, + "step": 1256 + }, + { + "epoch": 0.13408, + "grad_norm": 1.464344137760175, + "learning_rate": 9.7189885805877e-06, + "loss": 0.529, + "step": 1257 + }, + { + "avg_step_time": 5.929453991880321, + "epoch": 0.13408, + "eta_time": 13.370918751690123, + "step": 1257 + }, + { + "epoch": 0.13418666666666668, + "grad_norm": 1.5862945203156122, + "learning_rate": 9.71841732643919e-06, + "loss": 0.4951, + "step": 1258 + }, + { + "avg_step_time": 5.9064215578214085, + "epoch": 0.13418666666666668, + "eta_time": 13.317339940232324, + "step": 1258 + }, + { + "epoch": 0.13429333333333332, + "grad_norm": 1.5015012736977449, + "learning_rate": 9.717845509065958e-06, + "loss": 0.4299, + "step": 1259 + }, + { + "avg_step_time": 5.905756061727351, + "epoch": 0.13429333333333332, + "eta_time": 13.314198943605328, + "step": 1259 + }, + { + "epoch": 0.1344, + "grad_norm": 1.7422853004835253, + "learning_rate": 9.717273128536259e-06, + "loss": 0.6328, + "step": 1260 + }, + { + "avg_step_time": 5.906869507799245, + "epoch": 0.1344, + "eta_time": 13.315068348830797, + "step": 1260 + }, + { + "epoch": 0.13450666666666666, + "grad_norm": 1.5282132196564793, + "learning_rate": 9.716700184918419e-06, + "loss": 0.5775, + "step": 1261 + }, + { + "avg_step_time": 5.904685369645707, + "epoch": 0.13450666666666666, + "eta_time": 13.30850474702924, + "step": 1261 + }, + { + "epoch": 0.13461333333333333, + "grad_norm": 2.477010380613809, + "learning_rate": 9.716126678280829e-06, + "loss": 0.5771, + "step": 1262 + }, + { + "avg_step_time": 5.887157432960741, + "epoch": 0.13461333333333333, + "eta_time": 13.267363403780694, + "step": 1262 + }, + { + "epoch": 0.13472, + "grad_norm": 1.7387408542754605, + "learning_rate": 9.715552608691944e-06, + "loss": 0.5331, + "step": 1263 + }, + { + "avg_step_time": 5.860818588372433, + "epoch": 0.13472, + "eta_time": 13.206377885799215, + "step": 1263 + }, + { + "epoch": 0.13482666666666668, + "grad_norm": 2.022921865295834, + "learning_rate": 9.714977976220295e-06, + "loss": 0.5343, + "step": 1264 + }, + { + "avg_step_time": 5.861387960838549, + "epoch": 0.13482666666666668, + "eta_time": 13.206032708433742, + "step": 1264 + }, + { + "epoch": 0.13493333333333332, + "grad_norm": 1.7152569510044715, + "learning_rate": 9.714402780934467e-06, + "loss": 0.4658, + "step": 1265 + }, + { + "avg_step_time": 5.865076857383805, + "epoch": 0.13493333333333332, + "eta_time": 13.212714809272962, + "step": 1265 + }, + { + "epoch": 0.13504, + "grad_norm": 0.666559693358871, + "learning_rate": 9.713827022903124e-06, + "loss": 0.4346, + "step": 1266 + }, + { + "avg_step_time": 5.833093501100636, + "epoch": 0.13504, + "eta_time": 13.139043111229185, + "step": 1266 + }, + { + "epoch": 0.13514666666666666, + "grad_norm": 1.7329004740231788, + "learning_rate": 9.713250702194993e-06, + "loss": 0.5403, + "step": 1267 + }, + { + "avg_step_time": 5.831206800961735, + "epoch": 0.13514666666666666, + "eta_time": 13.133173539499374, + "step": 1267 + }, + { + "epoch": 0.13525333333333334, + "grad_norm": 1.7403372488532105, + "learning_rate": 9.712673818878867e-06, + "loss": 0.4986, + "step": 1268 + }, + { + "avg_step_time": 5.838140624942201, + "epoch": 0.13525333333333334, + "eta_time": 13.147168346224007, + "step": 1268 + }, + { + "epoch": 0.13536, + "grad_norm": 1.6292010225096527, + "learning_rate": 9.712096373023603e-06, + "loss": 0.5231, + "step": 1269 + }, + { + "avg_step_time": 5.839409770387592, + "epoch": 0.13536, + "eta_time": 13.148404332989394, + "step": 1269 + }, + { + "epoch": 0.13546666666666668, + "grad_norm": 1.7619449324395415, + "learning_rate": 9.711518364698136e-06, + "loss": 0.5175, + "step": 1270 + }, + { + "avg_step_time": 5.836215115556813, + "epoch": 0.13546666666666668, + "eta_time": 13.139589864329992, + "step": 1270 + }, + { + "epoch": 0.13557333333333332, + "grad_norm": 1.5225831034133768, + "learning_rate": 9.710939793971456e-06, + "loss": 0.4654, + "step": 1271 + }, + { + "avg_step_time": 5.8364694214830495, + "epoch": 0.13557333333333332, + "eta_time": 13.138541164360733, + "step": 1271 + }, + { + "epoch": 0.13568, + "grad_norm": 1.603222936604911, + "learning_rate": 9.710360660912629e-06, + "loss": 0.5119, + "step": 1272 + }, + { + "avg_step_time": 5.837749262048741, + "epoch": 0.13568, + "eta_time": 13.139800630661373, + "step": 1272 + }, + { + "epoch": 0.13578666666666667, + "grad_norm": 1.6508753312683129, + "learning_rate": 9.709780965590782e-06, + "loss": 0.5722, + "step": 1273 + }, + { + "avg_step_time": 5.826322760244812, + "epoch": 0.13578666666666667, + "eta_time": 13.11246305652874, + "step": 1273 + }, + { + "epoch": 0.13589333333333334, + "grad_norm": 1.4662932263312605, + "learning_rate": 9.709200708075114e-06, + "loss": 0.4588, + "step": 1274 + }, + { + "avg_step_time": 5.8307405312856035, + "epoch": 0.13589333333333334, + "eta_time": 13.120785845540187, + "step": 1274 + }, + { + "epoch": 0.136, + "grad_norm": 1.8130298608159519, + "learning_rate": 9.708619888434887e-06, + "loss": 0.5951, + "step": 1275 + }, + { + "avg_step_time": 5.831858618090851, + "epoch": 0.136, + "eta_time": 13.121681890704414, + "step": 1275 + }, + { + "epoch": 0.13610666666666665, + "grad_norm": 1.7036844619170752, + "learning_rate": 9.70803850673943e-06, + "loss": 0.465, + "step": 1276 + }, + { + "avg_step_time": 5.890001441493179, + "epoch": 0.13610666666666665, + "eta_time": 13.250867131848125, + "step": 1276 + }, + { + "epoch": 0.13621333333333333, + "grad_norm": 1.7960984250840397, + "learning_rate": 9.707456563058146e-06, + "loss": 0.4986, + "step": 1277 + }, + { + "avg_step_time": 5.887119729109485, + "epoch": 0.13621333333333333, + "eta_time": 13.242748768424613, + "step": 1277 + }, + { + "epoch": 0.13632, + "grad_norm": 1.8350706097564529, + "learning_rate": 9.706874057460497e-06, + "loss": 0.5355, + "step": 1278 + }, + { + "avg_step_time": 5.870090104112721, + "epoch": 0.13632, + "eta_time": 13.202810992500195, + "step": 1278 + }, + { + "epoch": 0.13642666666666667, + "grad_norm": 1.775407020967931, + "learning_rate": 9.706290990016013e-06, + "loss": 0.5068, + "step": 1279 + }, + { + "avg_step_time": 5.8550686499085085, + "epoch": 0.13642666666666667, + "eta_time": 13.167398830460911, + "step": 1279 + }, + { + "epoch": 0.13653333333333334, + "grad_norm": 0.6352075913390874, + "learning_rate": 9.705707360794299e-06, + "loss": 0.4678, + "step": 1280 + }, + { + "avg_step_time": 5.809053760586363, + "epoch": 0.13653333333333334, + "eta_time": 13.06230283109628, + "step": 1280 + }, + { + "epoch": 0.13664, + "grad_norm": 1.6815151319398052, + "learning_rate": 9.705123169865016e-06, + "loss": 0.533, + "step": 1281 + }, + { + "avg_step_time": 5.810790102891247, + "epoch": 0.13664, + "eta_time": 13.064593081333822, + "step": 1281 + }, + { + "epoch": 0.13674666666666666, + "grad_norm": 1.671781338212006, + "learning_rate": 9.704538417297899e-06, + "loss": 0.4896, + "step": 1282 + }, + { + "avg_step_time": 5.816309897586553, + "epoch": 0.13674666666666666, + "eta_time": 13.075387778102215, + "step": 1282 + }, + { + "epoch": 0.13685333333333333, + "grad_norm": 1.74175034899023, + "learning_rate": 9.703953103162748e-06, + "loss": 0.563, + "step": 1283 + }, + { + "avg_step_time": 5.81851258663216, + "epoch": 0.13685333333333333, + "eta_time": 13.078723291952066, + "step": 1283 + }, + { + "epoch": 0.13696, + "grad_norm": 2.0785092198038218, + "learning_rate": 9.703367227529432e-06, + "loss": 0.5914, + "step": 1284 + }, + { + "avg_step_time": 5.815770505654691, + "epoch": 0.13696, + "eta_time": 13.070944211458919, + "step": 1284 + }, + { + "epoch": 0.13706666666666667, + "grad_norm": 1.5395040015162464, + "learning_rate": 9.702780790467884e-06, + "loss": 0.4869, + "step": 1285 + }, + { + "avg_step_time": 5.8170414934254655, + "epoch": 0.13706666666666667, + "eta_time": 13.072184911614448, + "step": 1285 + }, + { + "epoch": 0.13717333333333334, + "grad_norm": 1.7359896519671574, + "learning_rate": 9.702193792048104e-06, + "loss": 0.5512, + "step": 1286 + }, + { + "avg_step_time": 5.847953158195573, + "epoch": 0.13717333333333334, + "eta_time": 13.140025860178884, + "step": 1286 + }, + { + "epoch": 0.13728, + "grad_norm": 1.706631976500925, + "learning_rate": 9.701606232340165e-06, + "loss": 0.4988, + "step": 1287 + }, + { + "avg_step_time": 5.8240884000604805, + "epoch": 0.13728, + "eta_time": 13.084785272135878, + "step": 1287 + }, + { + "epoch": 0.13738666666666666, + "grad_norm": 1.9843606168646721, + "learning_rate": 9.701018111414198e-06, + "loss": 0.5551, + "step": 1288 + }, + { + "avg_step_time": 5.885977109273274, + "epoch": 0.13738666666666666, + "eta_time": 13.222193578525825, + "step": 1288 + }, + { + "epoch": 0.13749333333333333, + "grad_norm": 1.5600541800778225, + "learning_rate": 9.700429429340407e-06, + "loss": 0.4826, + "step": 1289 + }, + { + "avg_step_time": 5.859300856638437, + "epoch": 0.13749333333333333, + "eta_time": 13.160640757438443, + "step": 1289 + }, + { + "epoch": 0.1376, + "grad_norm": 1.9332599710708467, + "learning_rate": 9.699840186189061e-06, + "loss": 0.5405, + "step": 1290 + }, + { + "avg_step_time": 5.85361879762977, + "epoch": 0.1376, + "eta_time": 13.146252216343527, + "step": 1290 + }, + { + "epoch": 0.13770666666666667, + "grad_norm": 1.5591356523525726, + "learning_rate": 9.699250382030496e-06, + "loss": 0.5006, + "step": 1291 + }, + { + "avg_step_time": 5.854997343487209, + "epoch": 0.13770666666666667, + "eta_time": 13.147721812430722, + "step": 1291 + }, + { + "epoch": 0.13781333333333334, + "grad_norm": 1.7839031778263712, + "learning_rate": 9.698660016935117e-06, + "loss": 0.4825, + "step": 1292 + }, + { + "avg_step_time": 5.858851700118094, + "epoch": 0.13781333333333334, + "eta_time": 13.154749525570708, + "step": 1292 + }, + { + "epoch": 0.13792, + "grad_norm": 1.5253028768092982, + "learning_rate": 9.698069090973391e-06, + "loss": 0.4619, + "step": 1293 + }, + { + "avg_step_time": 5.857727806977551, + "epoch": 0.13792, + "eta_time": 13.150598926664603, + "step": 1293 + }, + { + "epoch": 0.13802666666666666, + "grad_norm": 0.6651021947716043, + "learning_rate": 9.69747760421586e-06, + "loss": 0.4587, + "step": 1294 + }, + { + "avg_step_time": 5.825498520725906, + "epoch": 0.13802666666666666, + "eta_time": 13.076625984996124, + "step": 1294 + }, + { + "epoch": 0.13813333333333333, + "grad_norm": 1.4401578967443924, + "learning_rate": 9.696885556733126e-06, + "loss": 0.4742, + "step": 1295 + }, + { + "avg_step_time": 5.820321075844042, + "epoch": 0.13813333333333333, + "eta_time": 13.063387303561074, + "step": 1295 + }, + { + "epoch": 0.13824, + "grad_norm": 1.896591821947996, + "learning_rate": 9.696292948595857e-06, + "loss": 0.5348, + "step": 1296 + }, + { + "avg_step_time": 5.819908734523889, + "epoch": 0.13824, + "eta_time": 13.060845185060694, + "step": 1296 + }, + { + "epoch": 0.13834666666666667, + "grad_norm": 1.5364911700460167, + "learning_rate": 9.695699779874796e-06, + "loss": 0.4987, + "step": 1297 + }, + { + "avg_step_time": 5.753418623799026, + "epoch": 0.13834666666666667, + "eta_time": 12.910032123069035, + "step": 1297 + }, + { + "epoch": 0.13845333333333334, + "grad_norm": 1.612379649899484, + "learning_rate": 9.695106050640745e-06, + "loss": 0.4605, + "step": 1298 + }, + { + "avg_step_time": 5.7518028514553805, + "epoch": 0.13845333333333334, + "eta_time": 12.904808786445862, + "step": 1298 + }, + { + "epoch": 0.13856, + "grad_norm": 1.5077404466596231, + "learning_rate": 9.694511760964578e-06, + "loss": 0.493, + "step": 1299 + }, + { + "avg_step_time": 5.757488337430087, + "epoch": 0.13856, + "eta_time": 12.915965503634828, + "step": 1299 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 1.6513939174247718, + "learning_rate": 9.69391691091723e-06, + "loss": 0.4534, + "step": 1300 + }, + { + "avg_step_time": 5.746365075159555, + "epoch": 0.13866666666666666, + "eta_time": 12.889416106087056, + "step": 1300 + }, + { + "epoch": 0.13877333333333333, + "grad_norm": 0.6326708624522039, + "learning_rate": 9.69332150056971e-06, + "loss": 0.4499, + "step": 1301 + }, + { + "avg_step_time": 5.71460254746254, + "epoch": 0.13877333333333333, + "eta_time": 12.816583602281264, + "step": 1301 + }, + { + "epoch": 0.13888, + "grad_norm": 1.3478324135866375, + "learning_rate": 9.69272552999309e-06, + "loss": 0.4855, + "step": 1302 + }, + { + "avg_step_time": 5.69643829326437, + "epoch": 0.13888, + "eta_time": 12.774262872645348, + "step": 1302 + }, + { + "epoch": 0.13898666666666668, + "grad_norm": 1.6010511286296913, + "learning_rate": 9.692128999258508e-06, + "loss": 0.577, + "step": 1303 + }, + { + "avg_step_time": 5.7305935874129785, + "epoch": 0.13898666666666668, + "eta_time": 12.849264288221546, + "step": 1303 + }, + { + "epoch": 0.13909333333333335, + "grad_norm": 1.5400433882252464, + "learning_rate": 9.691531908437171e-06, + "loss": 0.4271, + "step": 1304 + }, + { + "avg_step_time": 5.740832716527612, + "epoch": 0.13909333333333335, + "eta_time": 12.870628015303987, + "step": 1304 + }, + { + "epoch": 0.1392, + "grad_norm": 2.2360575905504114, + "learning_rate": 9.690934257600353e-06, + "loss": 0.4616, + "step": 1305 + }, + { + "avg_step_time": 5.734745719216087, + "epoch": 0.1392, + "eta_time": 12.855388320576061, + "step": 1305 + }, + { + "epoch": 0.13930666666666666, + "grad_norm": 1.6382361507737724, + "learning_rate": 9.690336046819393e-06, + "loss": 0.5628, + "step": 1306 + }, + { + "avg_step_time": 5.772101770747792, + "epoch": 0.13930666666666666, + "eta_time": 12.937524774489981, + "step": 1306 + }, + { + "epoch": 0.13941333333333333, + "grad_norm": 1.8724727867682833, + "learning_rate": 9.689737276165698e-06, + "loss": 0.5229, + "step": 1307 + }, + { + "avg_step_time": 5.803032489738079, + "epoch": 0.13941333333333333, + "eta_time": 13.005240590890786, + "step": 1307 + }, + { + "epoch": 0.13952, + "grad_norm": 1.6575185516939381, + "learning_rate": 9.689137945710742e-06, + "loss": 0.4522, + "step": 1308 + }, + { + "avg_step_time": 5.870216273298167, + "epoch": 0.13952, + "eta_time": 13.154176299082309, + "step": 1308 + }, + { + "epoch": 0.13962666666666668, + "grad_norm": 1.7441150306326856, + "learning_rate": 9.688538055526065e-06, + "loss": 0.5398, + "step": 1309 + }, + { + "avg_step_time": 5.854878940967598, + "epoch": 0.13962666666666668, + "eta_time": 13.118181538290179, + "step": 1309 + }, + { + "epoch": 0.13973333333333332, + "grad_norm": 2.0263319882157496, + "learning_rate": 9.687937605683274e-06, + "loss": 0.4848, + "step": 1310 + }, + { + "avg_step_time": 5.838611838793514, + "epoch": 0.13973333333333332, + "eta_time": 13.08011235551936, + "step": 1310 + }, + { + "epoch": 0.13984, + "grad_norm": 1.7944031713225477, + "learning_rate": 9.687336596254045e-06, + "loss": 0.5016, + "step": 1311 + }, + { + "avg_step_time": 5.857512112819787, + "epoch": 0.13984, + "eta_time": 13.120827132716324, + "step": 1311 + }, + { + "epoch": 0.13994666666666666, + "grad_norm": 1.550588141825153, + "learning_rate": 9.686735027310115e-06, + "loss": 0.4746, + "step": 1312 + }, + { + "avg_step_time": 5.873811343703607, + "epoch": 0.13994666666666666, + "eta_time": 13.155705795633938, + "step": 1312 + }, + { + "epoch": 0.14005333333333334, + "grad_norm": 1.747502748001054, + "learning_rate": 9.686132898923295e-06, + "loss": 0.492, + "step": 1313 + }, + { + "avg_step_time": 5.8898636475958, + "epoch": 0.14005333333333334, + "eta_time": 13.190022424143706, + "step": 1313 + }, + { + "epoch": 0.14016, + "grad_norm": 1.5946108964433425, + "learning_rate": 9.685530211165459e-06, + "loss": 0.4861, + "step": 1314 + }, + { + "avg_step_time": 5.864457626535435, + "epoch": 0.14016, + "eta_time": 13.131498035417263, + "step": 1314 + }, + { + "epoch": 0.14026666666666668, + "grad_norm": 1.6453967234578892, + "learning_rate": 9.684926964108546e-06, + "loss": 0.5415, + "step": 1315 + }, + { + "avg_step_time": 5.864100287658999, + "epoch": 0.14026666666666668, + "eta_time": 13.129068977369872, + "step": 1315 + }, + { + "epoch": 0.14037333333333332, + "grad_norm": 1.6153498007529794, + "learning_rate": 9.684323157824567e-06, + "loss": 0.4737, + "step": 1316 + }, + { + "avg_step_time": 5.8630509111616345, + "epoch": 0.14037333333333332, + "eta_time": 13.125090914736559, + "step": 1316 + }, + { + "epoch": 0.14048, + "grad_norm": 1.53991917938314, + "learning_rate": 9.683718792385595e-06, + "loss": 0.535, + "step": 1317 + }, + { + "avg_step_time": 5.865071744629831, + "epoch": 0.14048, + "eta_time": 13.12798558839644, + "step": 1317 + }, + { + "epoch": 0.14058666666666667, + "grad_norm": 1.8575590234862398, + "learning_rate": 9.683113867863772e-06, + "loss": 0.5256, + "step": 1318 + }, + { + "avg_step_time": 5.86656243873365, + "epoch": 0.14058666666666667, + "eta_time": 13.129692658021394, + "step": 1318 + }, + { + "epoch": 0.14069333333333334, + "grad_norm": 0.6593296032584649, + "learning_rate": 9.682508384331306e-06, + "loss": 0.4455, + "step": 1319 + }, + { + "avg_step_time": 5.836438210323603, + "epoch": 0.14069333333333334, + "eta_time": 13.060651728435264, + "step": 1319 + }, + { + "epoch": 0.1408, + "grad_norm": 1.4608111510838968, + "learning_rate": 9.681902341860471e-06, + "loss": 0.4264, + "step": 1320 + }, + { + "avg_step_time": 5.830831840784863, + "epoch": 0.1408, + "eta_time": 13.046486243756132, + "step": 1320 + }, + { + "epoch": 0.14090666666666668, + "grad_norm": 1.5061703252522876, + "learning_rate": 9.68129574052361e-06, + "loss": 0.4318, + "step": 1321 + }, + { + "avg_step_time": 5.838170311667702, + "epoch": 0.14090666666666668, + "eta_time": 13.061284358381021, + "step": 1321 + }, + { + "epoch": 0.14101333333333332, + "grad_norm": 1.6610318725165207, + "learning_rate": 9.680688580393133e-06, + "loss": 0.4425, + "step": 1322 + }, + { + "avg_step_time": 5.814339281332614, + "epoch": 0.14101333333333332, + "eta_time": 13.006353953492093, + "step": 1322 + }, + { + "epoch": 0.14112, + "grad_norm": 1.6418382657677186, + "learning_rate": 9.680080861541511e-06, + "loss": 0.4749, + "step": 1323 + }, + { + "avg_step_time": 5.8117127177691215, + "epoch": 0.14112, + "eta_time": 12.998864112076935, + "step": 1323 + }, + { + "epoch": 0.14122666666666667, + "grad_norm": 1.7660338275518936, + "learning_rate": 9.679472584041289e-06, + "loss": 0.5435, + "step": 1324 + }, + { + "avg_step_time": 5.810577744185323, + "epoch": 0.14122666666666667, + "eta_time": 12.99471150512112, + "step": 1324 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 1.6034091469916, + "learning_rate": 9.678863747965073e-06, + "loss": 0.5045, + "step": 1325 + }, + { + "avg_step_time": 5.809606761643381, + "epoch": 0.14133333333333334, + "eta_time": 12.990926230897005, + "step": 1325 + }, + { + "epoch": 0.14144, + "grad_norm": 1.6539246401312047, + "learning_rate": 9.678254353385538e-06, + "loss": 0.533, + "step": 1326 + }, + { + "avg_step_time": 5.8113071653578015, + "epoch": 0.14144, + "eta_time": 12.993114270545817, + "step": 1326 + }, + { + "epoch": 0.14154666666666665, + "grad_norm": 1.764892028070391, + "learning_rate": 9.67764440037543e-06, + "loss": 0.5133, + "step": 1327 + }, + { + "avg_step_time": 5.8079780424484095, + "epoch": 0.14154666666666665, + "eta_time": 12.984057579340222, + "step": 1327 + }, + { + "epoch": 0.14165333333333333, + "grad_norm": 1.6798325543947825, + "learning_rate": 9.677033889007554e-06, + "loss": 0.5531, + "step": 1328 + }, + { + "avg_step_time": 5.804335676058375, + "epoch": 0.14165333333333333, + "eta_time": 12.97430255145604, + "step": 1328 + }, + { + "epoch": 0.14176, + "grad_norm": 1.5414341322510516, + "learning_rate": 9.676422819354785e-06, + "loss": 0.5093, + "step": 1329 + }, + { + "avg_step_time": 5.837751744973539, + "epoch": 0.14176, + "eta_time": 13.047375150015858, + "step": 1329 + }, + { + "epoch": 0.14186666666666667, + "grad_norm": 1.6482671720061224, + "learning_rate": 9.675811191490065e-06, + "loss": 0.5298, + "step": 1330 + }, + { + "avg_step_time": 5.8670196966691455, + "epoch": 0.14186666666666667, + "eta_time": 13.111159294362022, + "step": 1330 + }, + { + "epoch": 0.14197333333333334, + "grad_norm": 0.6579224809816033, + "learning_rate": 9.675199005486404e-06, + "loss": 0.4499, + "step": 1331 + }, + { + "avg_step_time": 5.833763787240693, + "epoch": 0.14197333333333334, + "eta_time": 13.03522108460115, + "step": 1331 + }, + { + "epoch": 0.14208, + "grad_norm": 1.6305458130041177, + "learning_rate": 9.674586261416874e-06, + "loss": 0.5311, + "step": 1332 + }, + { + "avg_step_time": 5.8462704624792545, + "epoch": 0.14208, + "eta_time": 13.061542591589067, + "step": 1332 + }, + { + "epoch": 0.14218666666666666, + "grad_norm": 1.4315938350103896, + "learning_rate": 9.673972959354621e-06, + "loss": 0.4474, + "step": 1333 + }, + { + "avg_step_time": 5.84518934259511, + "epoch": 0.14218666666666666, + "eta_time": 13.057503525874965, + "step": 1333 + }, + { + "epoch": 0.14229333333333333, + "grad_norm": 1.8320187383147228, + "learning_rate": 9.673359099372847e-06, + "loss": 0.4632, + "step": 1334 + }, + { + "avg_step_time": 5.841750113651006, + "epoch": 0.14229333333333333, + "eta_time": 13.048197962185483, + "step": 1334 + }, + { + "epoch": 0.1424, + "grad_norm": 1.4643780628286747, + "learning_rate": 9.672744681544834e-06, + "loss": 0.5369, + "step": 1335 + }, + { + "avg_step_time": 5.839668454545917, + "epoch": 0.1424, + "eta_time": 13.041926215152548, + "step": 1335 + }, + { + "epoch": 0.14250666666666667, + "grad_norm": 1.5245514368175563, + "learning_rate": 9.672129705943917e-06, + "loss": 0.5204, + "step": 1336 + }, + { + "avg_step_time": 5.841946194870303, + "epoch": 0.14250666666666667, + "eta_time": 13.04539040571177, + "step": 1336 + }, + { + "epoch": 0.14261333333333334, + "grad_norm": 1.6316212797987468, + "learning_rate": 9.671514172643508e-06, + "loss": 0.5002, + "step": 1337 + }, + { + "avg_step_time": 5.84028322528107, + "epoch": 0.14261333333333334, + "eta_time": 13.0400546013359, + "step": 1337 + }, + { + "epoch": 0.14272, + "grad_norm": 1.4645227196060566, + "learning_rate": 9.670898081717079e-06, + "loss": 0.5054, + "step": 1338 + }, + { + "avg_step_time": 5.8435251423806855, + "epoch": 0.14272, + "eta_time": 13.04566988036488, + "step": 1338 + }, + { + "epoch": 0.14282666666666666, + "grad_norm": 0.6577164078787316, + "learning_rate": 9.670281433238173e-06, + "loss": 0.4546, + "step": 1339 + }, + { + "avg_step_time": 5.767080966872398, + "epoch": 0.14282666666666666, + "eta_time": 12.873406291607386, + "step": 1339 + }, + { + "epoch": 0.14293333333333333, + "grad_norm": 1.5881194778398653, + "learning_rate": 9.669664227280398e-06, + "loss": 0.4908, + "step": 1340 + }, + { + "avg_step_time": 5.797781055623835, + "epoch": 0.14293333333333333, + "eta_time": 12.940325217204865, + "step": 1340 + }, + { + "epoch": 0.14304, + "grad_norm": 1.948185233998752, + "learning_rate": 9.669046463917427e-06, + "loss": 0.5294, + "step": 1341 + }, + { + "avg_step_time": 5.797929783060093, + "epoch": 0.14304, + "eta_time": 12.939046632529108, + "step": 1341 + }, + { + "epoch": 0.14314666666666667, + "grad_norm": 1.8139441786177772, + "learning_rate": 9.668428143223e-06, + "loss": 0.5083, + "step": 1342 + }, + { + "avg_step_time": 5.799022561371928, + "epoch": 0.14314666666666667, + "eta_time": 12.939874509861307, + "step": 1342 + }, + { + "epoch": 0.14325333333333334, + "grad_norm": 1.634933387977091, + "learning_rate": 9.667809265270926e-06, + "loss": 0.5034, + "step": 1343 + }, + { + "avg_step_time": 5.797435902585887, + "epoch": 0.14325333333333334, + "eta_time": 12.934723658213844, + "step": 1343 + }, + { + "epoch": 0.14336, + "grad_norm": 1.5954847621640853, + "learning_rate": 9.667189830135078e-06, + "loss": 0.5305, + "step": 1344 + }, + { + "avg_step_time": 5.830414454142253, + "epoch": 0.14336, + "eta_time": 13.006682911449008, + "step": 1344 + }, + { + "epoch": 0.14346666666666666, + "grad_norm": 1.7280059865109823, + "learning_rate": 9.666569837889396e-06, + "loss": 0.5341, + "step": 1345 + }, + { + "avg_step_time": 5.8359013567067155, + "epoch": 0.14346666666666666, + "eta_time": 13.017302192876368, + "step": 1345 + }, + { + "epoch": 0.14357333333333333, + "grad_norm": 1.6801628667114954, + "learning_rate": 9.665949288607889e-06, + "loss": 0.5994, + "step": 1346 + }, + { + "avg_step_time": 5.8457498285505505, + "epoch": 0.14357333333333333, + "eta_time": 13.037645937064548, + "step": 1346 + }, + { + "epoch": 0.14368, + "grad_norm": 1.8009698046300109, + "learning_rate": 9.665328182364627e-06, + "loss": 0.5176, + "step": 1347 + }, + { + "avg_step_time": 5.841492696241899, + "epoch": 0.14368, + "eta_time": 13.026528712619436, + "step": 1347 + }, + { + "epoch": 0.14378666666666667, + "grad_norm": 1.7380829330049636, + "learning_rate": 9.66470651923375e-06, + "loss": 0.51, + "step": 1348 + }, + { + "avg_step_time": 5.840059263537628, + "epoch": 0.14378666666666667, + "eta_time": 13.021709919004595, + "step": 1348 + }, + { + "epoch": 0.14389333333333335, + "grad_norm": 1.3894646523279626, + "learning_rate": 9.664084299289467e-06, + "loss": 0.5106, + "step": 1349 + }, + { + "avg_step_time": 5.84020602582681, + "epoch": 0.14389333333333335, + "eta_time": 13.02041487869055, + "step": 1349 + }, + { + "epoch": 0.144, + "grad_norm": 0.6960166427647495, + "learning_rate": 9.663461522606049e-06, + "loss": 0.4774, + "step": 1350 + }, + { + "avg_step_time": 5.807506561279297, + "epoch": 0.144, + "eta_time": 12.945900042851767, + "step": 1350 + }, + { + "epoch": 0.14410666666666666, + "grad_norm": 0.6347664520562347, + "learning_rate": 9.662838189257836e-06, + "loss": 0.4419, + "step": 1351 + }, + { + "avg_step_time": 5.7697388692335645, + "epoch": 0.14410666666666666, + "eta_time": 12.860106857425032, + "step": 1351 + }, + { + "epoch": 0.14421333333333333, + "grad_norm": 2.055241486829757, + "learning_rate": 9.662214299319231e-06, + "loss": 0.4125, + "step": 1352 + }, + { + "avg_step_time": 5.7618679783561015, + "epoch": 0.14421333333333333, + "eta_time": 12.840962997319723, + "step": 1352 + }, + { + "epoch": 0.14432, + "grad_norm": 1.7892720092893135, + "learning_rate": 9.66158985286471e-06, + "loss": 0.5005, + "step": 1353 + }, + { + "avg_step_time": 5.763383359620065, + "epoch": 0.14432, + "eta_time": 12.842739253020046, + "step": 1353 + }, + { + "epoch": 0.14442666666666668, + "grad_norm": 1.8234039607850117, + "learning_rate": 9.660964849968809e-06, + "loss": 0.4795, + "step": 1354 + }, + { + "avg_step_time": 5.81457652226843, + "epoch": 0.14442666666666668, + "eta_time": 12.955199523643078, + "step": 1354 + }, + { + "epoch": 0.14453333333333335, + "grad_norm": 2.0398242734570626, + "learning_rate": 9.660339290706132e-06, + "loss": 0.5726, + "step": 1355 + }, + { + "avg_step_time": 5.86839110682709, + "epoch": 0.14453333333333335, + "eta_time": 13.073471299098127, + "step": 1355 + }, + { + "epoch": 0.14464, + "grad_norm": 1.6187114687899513, + "learning_rate": 9.659713175151352e-06, + "loss": 0.4454, + "step": 1356 + }, + { + "avg_step_time": 5.8686615505603825, + "epoch": 0.14464, + "eta_time": 13.072443603873253, + "step": 1356 + }, + { + "epoch": 0.14474666666666666, + "grad_norm": 1.7845005257055504, + "learning_rate": 9.659086503379208e-06, + "loss": 0.5412, + "step": 1357 + }, + { + "avg_step_time": 5.878424437359126, + "epoch": 0.14474666666666666, + "eta_time": 13.092557538540408, + "step": 1357 + }, + { + "epoch": 0.14485333333333333, + "grad_norm": 1.5909113311683172, + "learning_rate": 9.658459275464502e-06, + "loss": 0.5315, + "step": 1358 + }, + { + "avg_step_time": 5.881956608608515, + "epoch": 0.14485333333333333, + "eta_time": 13.098790592004018, + "step": 1358 + }, + { + "epoch": 0.14496, + "grad_norm": 1.5331824337036717, + "learning_rate": 9.657831491482103e-06, + "loss": 0.4519, + "step": 1359 + }, + { + "avg_step_time": 5.880831826816905, + "epoch": 0.14496, + "eta_time": 13.094652201045642, + "step": 1359 + }, + { + "epoch": 0.14506666666666668, + "grad_norm": 1.6300867721456969, + "learning_rate": 9.657203151506953e-06, + "loss": 0.4884, + "step": 1360 + }, + { + "avg_step_time": 5.881748257261334, + "epoch": 0.14506666666666668, + "eta_time": 13.095058967208221, + "step": 1360 + }, + { + "epoch": 0.14517333333333332, + "grad_norm": 1.4129313370354113, + "learning_rate": 9.656574255614051e-06, + "loss": 0.5166, + "step": 1361 + }, + { + "avg_step_time": 5.8902317297579065, + "epoch": 0.14517333333333332, + "eta_time": 13.112310300633295, + "step": 1361 + }, + { + "epoch": 0.14528, + "grad_norm": 1.6965838967307496, + "learning_rate": 9.655944803878467e-06, + "loss": 0.5137, + "step": 1362 + }, + { + "avg_step_time": 5.8855802699773, + "epoch": 0.14528, + "eta_time": 13.100320750924473, + "step": 1362 + }, + { + "epoch": 0.14538666666666666, + "grad_norm": 1.6528305676114752, + "learning_rate": 9.65531479637534e-06, + "loss": 0.4322, + "step": 1363 + }, + { + "avg_step_time": 5.8921590501611885, + "epoch": 0.14538666666666666, + "eta_time": 13.113327308303178, + "step": 1363 + }, + { + "epoch": 0.14549333333333334, + "grad_norm": 1.5441054874392126, + "learning_rate": 9.654684233179867e-06, + "loss": 0.5399, + "step": 1364 + }, + { + "avg_step_time": 5.890611918285639, + "epoch": 0.14549333333333334, + "eta_time": 13.108247799273961, + "step": 1364 + }, + { + "epoch": 0.1456, + "grad_norm": 1.702204910764284, + "learning_rate": 9.654053114367321e-06, + "loss": 0.4895, + "step": 1365 + }, + { + "avg_step_time": 5.919668520339812, + "epoch": 0.1456, + "eta_time": 13.17126245775608, + "step": 1365 + }, + { + "epoch": 0.14570666666666668, + "grad_norm": 1.4356530737333972, + "learning_rate": 9.653421440013037e-06, + "loss": 0.4779, + "step": 1366 + }, + { + "avg_step_time": 5.9453448237794815, + "epoch": 0.14570666666666668, + "eta_time": 13.226740748236073, + "step": 1366 + }, + { + "epoch": 0.14581333333333332, + "grad_norm": 1.4910817660204791, + "learning_rate": 9.652789210192412e-06, + "loss": 0.448, + "step": 1367 + }, + { + "avg_step_time": 5.940454620303529, + "epoch": 0.14581333333333332, + "eta_time": 13.214211277608518, + "step": 1367 + }, + { + "epoch": 0.14592, + "grad_norm": 1.8621206704127287, + "learning_rate": 9.65215642498092e-06, + "loss": 0.4537, + "step": 1368 + }, + { + "avg_step_time": 5.939740585558342, + "epoch": 0.14592, + "eta_time": 13.210973019046012, + "step": 1368 + }, + { + "epoch": 0.14602666666666667, + "grad_norm": 1.88892019890542, + "learning_rate": 9.65152308445409e-06, + "loss": 0.4767, + "step": 1369 + }, + { + "avg_step_time": 5.938536774028432, + "epoch": 0.14602666666666667, + "eta_time": 13.206645948019894, + "step": 1369 + }, + { + "epoch": 0.14613333333333334, + "grad_norm": 1.657844685803626, + "learning_rate": 9.650889188687522e-06, + "loss": 0.4855, + "step": 1370 + }, + { + "avg_step_time": 5.941025365482677, + "epoch": 0.14613333333333334, + "eta_time": 13.21053001408023, + "step": 1370 + }, + { + "epoch": 0.14624, + "grad_norm": 2.0718893273563084, + "learning_rate": 9.650254737756883e-06, + "loss": 0.4775, + "step": 1371 + }, + { + "avg_step_time": 5.942900067628032, + "epoch": 0.14624, + "eta_time": 13.213047817026325, + "step": 1371 + }, + { + "epoch": 0.14634666666666668, + "grad_norm": 0.7132874151352795, + "learning_rate": 9.64961973173791e-06, + "loss": 0.4355, + "step": 1372 + }, + { + "avg_step_time": 5.917380270331797, + "epoch": 0.14634666666666668, + "eta_time": 13.154665084295935, + "step": 1372 + }, + { + "epoch": 0.14645333333333332, + "grad_norm": 1.4745436579263027, + "learning_rate": 9.648984170706395e-06, + "loss": 0.5272, + "step": 1373 + }, + { + "avg_step_time": 5.916381941901313, + "epoch": 0.14645333333333332, + "eta_time": 13.150802305303973, + "step": 1373 + }, + { + "epoch": 0.14656, + "grad_norm": 1.6954374181300478, + "learning_rate": 9.648348054738208e-06, + "loss": 0.4427, + "step": 1374 + }, + { + "avg_step_time": 5.917124892726089, + "epoch": 0.14656, + "eta_time": 13.150810074083733, + "step": 1374 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 1.585123370703711, + "learning_rate": 9.64771138390928e-06, + "loss": 0.5373, + "step": 1375 + }, + { + "avg_step_time": 5.8922901876045, + "epoch": 0.14666666666666667, + "eta_time": 13.093978194676666, + "step": 1375 + }, + { + "epoch": 0.14677333333333334, + "grad_norm": 2.1068526912921994, + "learning_rate": 9.647074158295608e-06, + "loss": 0.5586, + "step": 1376 + }, + { + "avg_step_time": 5.891220078323826, + "epoch": 0.14677333333333334, + "eta_time": 13.08996372403119, + "step": 1376 + }, + { + "epoch": 0.14688, + "grad_norm": 1.491272080669838, + "learning_rate": 9.646436377973253e-06, + "loss": 0.4905, + "step": 1377 + }, + { + "avg_step_time": 5.895435904011582, + "epoch": 0.14688, + "eta_time": 13.097693433412397, + "step": 1377 + }, + { + "epoch": 0.14698666666666665, + "grad_norm": 1.4811856660095013, + "learning_rate": 9.645798043018352e-06, + "loss": 0.5664, + "step": 1378 + }, + { + "avg_step_time": 5.89308958583408, + "epoch": 0.14698666666666665, + "eta_time": 13.090843727198648, + "step": 1378 + }, + { + "epoch": 0.14709333333333333, + "grad_norm": 2.145011846811384, + "learning_rate": 9.645159153507095e-06, + "loss": 0.4933, + "step": 1379 + }, + { + "avg_step_time": 5.927487197548452, + "epoch": 0.14709333333333333, + "eta_time": 13.165607675443729, + "step": 1379 + }, + { + "epoch": 0.1472, + "grad_norm": 2.1720433870781917, + "learning_rate": 9.644519709515746e-06, + "loss": 0.4552, + "step": 1380 + }, + { + "avg_step_time": 5.932627458765049, + "epoch": 0.1472, + "eta_time": 13.175376814674047, + "step": 1380 + }, + { + "epoch": 0.14730666666666667, + "grad_norm": 1.5953832279055966, + "learning_rate": 9.643879711120636e-06, + "loss": 0.5489, + "step": 1381 + }, + { + "avg_step_time": 5.929394620837587, + "epoch": 0.14730666666666667, + "eta_time": 13.16655016638213, + "step": 1381 + }, + { + "epoch": 0.14741333333333334, + "grad_norm": 1.8922374599452159, + "learning_rate": 9.643239158398157e-06, + "loss": 0.496, + "step": 1382 + }, + { + "avg_step_time": 5.925082563149808, + "epoch": 0.14741333333333334, + "eta_time": 13.155329146460117, + "step": 1382 + }, + { + "epoch": 0.14752, + "grad_norm": 1.5584467313327226, + "learning_rate": 9.642598051424772e-06, + "loss": 0.5171, + "step": 1383 + }, + { + "avg_step_time": 5.928192292801057, + "epoch": 0.14752, + "eta_time": 13.160586890018347, + "step": 1383 + }, + { + "epoch": 0.14762666666666666, + "grad_norm": 1.47113788859298, + "learning_rate": 9.641956390277007e-06, + "loss": 0.5721, + "step": 1384 + }, + { + "avg_step_time": 5.93204911549886, + "epoch": 0.14762666666666666, + "eta_time": 13.167501244986498, + "step": 1384 + }, + { + "epoch": 0.14773333333333333, + "grad_norm": 1.6078508788173957, + "learning_rate": 9.641314175031456e-06, + "loss": 0.4799, + "step": 1385 + }, + { + "avg_step_time": 5.900490440503515, + "epoch": 0.14773333333333333, + "eta_time": 13.09581072767308, + "step": 1385 + }, + { + "epoch": 0.14784, + "grad_norm": 1.7303294676917127, + "learning_rate": 9.640671405764777e-06, + "loss": 0.4576, + "step": 1386 + }, + { + "avg_step_time": 5.8981093517457595, + "epoch": 0.14784, + "eta_time": 13.08888766974913, + "step": 1386 + }, + { + "epoch": 0.14794666666666667, + "grad_norm": 1.9056886803327873, + "learning_rate": 9.640028082553699e-06, + "loss": 0.5844, + "step": 1387 + }, + { + "avg_step_time": 5.842635857938516, + "epoch": 0.14794666666666667, + "eta_time": 12.964159787003576, + "step": 1387 + }, + { + "epoch": 0.14805333333333334, + "grad_norm": 1.6212323935319433, + "learning_rate": 9.639384205475012e-06, + "loss": 0.4972, + "step": 1388 + }, + { + "avg_step_time": 5.845600159481318, + "epoch": 0.14805333333333334, + "eta_time": 12.969113464938136, + "step": 1388 + }, + { + "epoch": 0.14816, + "grad_norm": 1.5209979167625178, + "learning_rate": 9.638739774605572e-06, + "loss": 0.4716, + "step": 1389 + }, + { + "avg_step_time": 5.844010276023788, + "epoch": 0.14816, + "eta_time": 12.963962795646102, + "step": 1389 + }, + { + "epoch": 0.14826666666666666, + "grad_norm": 1.609911781319275, + "learning_rate": 9.638094790022306e-06, + "loss": 0.515, + "step": 1390 + }, + { + "avg_step_time": 5.848579064764158, + "epoch": 0.14826666666666666, + "eta_time": 12.972473286706055, + "step": 1390 + }, + { + "epoch": 0.14837333333333333, + "grad_norm": 1.666732261938984, + "learning_rate": 9.6374492518022e-06, + "loss": 0.4992, + "step": 1391 + }, + { + "avg_step_time": 5.843101104100545, + "epoch": 0.14837333333333333, + "eta_time": 12.958699781982986, + "step": 1391 + }, + { + "epoch": 0.14848, + "grad_norm": 2.0639657015669486, + "learning_rate": 9.636803160022314e-06, + "loss": 0.5022, + "step": 1392 + }, + { + "avg_step_time": 5.846501282971315, + "epoch": 0.14848, + "eta_time": 12.964616594988891, + "step": 1392 + }, + { + "epoch": 0.14858666666666667, + "grad_norm": 1.7840622824917107, + "learning_rate": 9.636156514759771e-06, + "loss": 0.524, + "step": 1393 + }, + { + "avg_step_time": 5.879901563278352, + "epoch": 0.14858666666666667, + "eta_time": 13.037048410579947, + "step": 1393 + }, + { + "epoch": 0.14869333333333334, + "grad_norm": 0.7074419046320818, + "learning_rate": 9.635509316091756e-06, + "loss": 0.4656, + "step": 1394 + }, + { + "avg_step_time": 5.855509252259226, + "epoch": 0.14869333333333334, + "eta_time": 12.981338706189133, + "step": 1394 + }, + { + "epoch": 0.1488, + "grad_norm": 1.875410239051872, + "learning_rate": 9.634861564095525e-06, + "loss": 0.5168, + "step": 1395 + }, + { + "avg_step_time": 5.858531568989609, + "epoch": 0.1488, + "eta_time": 12.986411644593636, + "step": 1395 + }, + { + "epoch": 0.14890666666666666, + "grad_norm": 0.6936107331278037, + "learning_rate": 9.634213258848397e-06, + "loss": 0.4611, + "step": 1396 + }, + { + "avg_step_time": 5.822218085780288, + "epoch": 0.14890666666666666, + "eta_time": 12.904299474011367, + "step": 1396 + }, + { + "epoch": 0.14901333333333333, + "grad_norm": 1.442078617673062, + "learning_rate": 9.63356440042776e-06, + "loss": 0.5153, + "step": 1397 + }, + { + "avg_step_time": 5.853602801910554, + "epoch": 0.14901333333333333, + "eta_time": 12.97223420934511, + "step": 1397 + }, + { + "epoch": 0.14912, + "grad_norm": 0.6643814082262244, + "learning_rate": 9.632914988911066e-06, + "loss": 0.4583, + "step": 1398 + }, + { + "avg_step_time": 5.836151168803976, + "epoch": 0.14912, + "eta_time": 12.931938298208143, + "step": 1398 + }, + { + "epoch": 0.14922666666666667, + "grad_norm": 1.6787514339855438, + "learning_rate": 9.632265024375835e-06, + "loss": 0.4679, + "step": 1399 + }, + { + "avg_step_time": 5.834940645429823, + "epoch": 0.14922666666666667, + "eta_time": 12.927635163318964, + "step": 1399 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 1.561577166679193, + "learning_rate": 9.631614506899648e-06, + "loss": 0.5417, + "step": 1400 + }, + { + "avg_step_time": 5.866217998543171, + "epoch": 0.14933333333333335, + "eta_time": 12.995302371772718, + "step": 1400 + }, + { + "epoch": 0.14944, + "grad_norm": 1.860363283243015, + "learning_rate": 9.63096343656016e-06, + "loss": 0.5004, + "step": 1401 + }, + { + "avg_step_time": 5.860965902155096, + "epoch": 0.14944, + "eta_time": 12.982039473273538, + "step": 1401 + }, + { + "epoch": 0.14954666666666666, + "grad_norm": 1.9924109455856502, + "learning_rate": 9.630311813435082e-06, + "loss": 0.5468, + "step": 1402 + }, + { + "avg_step_time": 5.8647897773318824, + "epoch": 0.14954666666666666, + "eta_time": 12.988880248518639, + "step": 1402 + }, + { + "epoch": 0.14965333333333333, + "grad_norm": 1.7032516937215274, + "learning_rate": 9.6296596376022e-06, + "loss": 0.4758, + "step": 1403 + }, + { + "avg_step_time": 5.848282329963915, + "epoch": 0.14965333333333333, + "eta_time": 12.950696315131202, + "step": 1403 + }, + { + "epoch": 0.14976, + "grad_norm": 1.7142173062277586, + "learning_rate": 9.629006909139363e-06, + "loss": 0.4796, + "step": 1404 + }, + { + "avg_step_time": 5.848580856515904, + "epoch": 0.14976, + "eta_time": 12.949732779802297, + "step": 1404 + }, + { + "epoch": 0.14986666666666668, + "grad_norm": 0.6896285648709688, + "learning_rate": 9.628353628124484e-06, + "loss": 0.4434, + "step": 1405 + }, + { + "avg_step_time": 5.813910294060755, + "epoch": 0.14986666666666668, + "eta_time": 12.871351401017838, + "step": 1405 + }, + { + "epoch": 0.14997333333333332, + "grad_norm": 1.8075520571846162, + "learning_rate": 9.627699794635545e-06, + "loss": 0.4897, + "step": 1406 + }, + { + "avg_step_time": 5.8138450757421625, + "epoch": 0.14997333333333332, + "eta_time": 12.86959205794147, + "step": 1406 + }, + { + "epoch": 0.15008, + "grad_norm": 1.729924124936007, + "learning_rate": 9.62704540875059e-06, + "loss": 0.5993, + "step": 1407 + }, + { + "avg_step_time": 5.748507124004942, + "epoch": 0.15008, + "eta_time": 12.723362434464272, + "step": 1407 + }, + { + "epoch": 0.15018666666666666, + "grad_norm": 1.6752744007596296, + "learning_rate": 9.626390470547733e-06, + "loss": 0.5924, + "step": 1408 + }, + { + "avg_step_time": 5.742855045530531, + "epoch": 0.15018666666666666, + "eta_time": 12.709257263261595, + "step": 1408 + }, + { + "epoch": 0.15029333333333333, + "grad_norm": 1.8914787148226313, + "learning_rate": 9.62573498010515e-06, + "loss": 0.5083, + "step": 1409 + }, + { + "avg_step_time": 5.74548750694352, + "epoch": 0.15029333333333333, + "eta_time": 12.713487077864466, + "step": 1409 + }, + { + "epoch": 0.1504, + "grad_norm": 1.500986105245184, + "learning_rate": 9.625078937501089e-06, + "loss": 0.5406, + "step": 1410 + }, + { + "avg_step_time": 5.728008347328263, + "epoch": 0.1504, + "eta_time": 12.673218468463782, + "step": 1410 + }, + { + "epoch": 0.15050666666666668, + "grad_norm": 1.7036126804729221, + "learning_rate": 9.624422342813857e-06, + "loss": 0.5551, + "step": 1411 + }, + { + "avg_step_time": 5.741213593820129, + "epoch": 0.15050666666666668, + "eta_time": 12.700840294773197, + "step": 1411 + }, + { + "epoch": 0.15061333333333332, + "grad_norm": 1.7237391697663513, + "learning_rate": 9.62376519612183e-06, + "loss": 0.523, + "step": 1412 + }, + { + "avg_step_time": 5.72575994212218, + "epoch": 0.15061333333333332, + "eta_time": 12.665062894199702, + "step": 1412 + }, + { + "epoch": 0.15072, + "grad_norm": 0.6810344407499301, + "learning_rate": 9.62310749750345e-06, + "loss": 0.4375, + "step": 1413 + }, + { + "avg_step_time": 5.689367270228838, + "epoch": 0.15072, + "eta_time": 12.582983945989447, + "step": 1413 + }, + { + "epoch": 0.15082666666666666, + "grad_norm": 1.739558041372612, + "learning_rate": 9.622449247037227e-06, + "loss": 0.4822, + "step": 1414 + }, + { + "avg_step_time": 5.688358400807236, + "epoch": 0.15082666666666666, + "eta_time": 12.57917256356289, + "step": 1414 + }, + { + "epoch": 0.15093333333333334, + "grad_norm": 1.5851454819353283, + "learning_rate": 9.621790444801732e-06, + "loss": 0.4679, + "step": 1415 + }, + { + "avg_step_time": 5.688903259508537, + "epoch": 0.15093333333333334, + "eta_time": 12.578797207135544, + "step": 1415 + }, + { + "epoch": 0.15104, + "grad_norm": 1.8985847327188796, + "learning_rate": 9.621131090875603e-06, + "loss": 0.4816, + "step": 1416 + }, + { + "avg_step_time": 5.685150030887488, + "epoch": 0.15104, + "eta_time": 12.568919193287089, + "step": 1416 + }, + { + "epoch": 0.15114666666666668, + "grad_norm": 1.6973157241687138, + "learning_rate": 9.620471185337552e-06, + "loss": 0.5029, + "step": 1417 + }, + { + "avg_step_time": 5.680182546076148, + "epoch": 0.15114666666666668, + "eta_time": 12.556359083798329, + "step": 1417 + }, + { + "epoch": 0.15125333333333332, + "grad_norm": 1.7878121009016974, + "learning_rate": 9.619810728266344e-06, + "loss": 0.4475, + "step": 1418 + }, + { + "avg_step_time": 5.709075313625914, + "epoch": 0.15125333333333332, + "eta_time": 12.618642297367055, + "step": 1418 + }, + { + "epoch": 0.15136, + "grad_norm": 1.7300413329755246, + "learning_rate": 9.619149719740817e-06, + "loss": 0.5693, + "step": 1419 + }, + { + "avg_step_time": 5.6875836728799225, + "epoch": 0.15136, + "eta_time": 12.569559917064629, + "step": 1419 + }, + { + "epoch": 0.15146666666666667, + "grad_norm": 2.2212731231515352, + "learning_rate": 9.618488159839874e-06, + "loss": 0.5852, + "step": 1420 + }, + { + "avg_step_time": 5.6809364063571195, + "epoch": 0.15146666666666667, + "eta_time": 12.553291420158578, + "step": 1420 + }, + { + "epoch": 0.15157333333333334, + "grad_norm": 1.3968027417644264, + "learning_rate": 9.617826048642484e-06, + "loss": 0.3938, + "step": 1421 + }, + { + "avg_step_time": 5.683245499928792, + "epoch": 0.15157333333333334, + "eta_time": 12.556815196231558, + "step": 1421 + }, + { + "epoch": 0.15168, + "grad_norm": 1.745269745562003, + "learning_rate": 9.617163386227683e-06, + "loss": 0.5232, + "step": 1422 + }, + { + "avg_step_time": 5.685807278662017, + "epoch": 0.15168, + "eta_time": 12.560895913110839, + "step": 1422 + }, + { + "epoch": 0.15178666666666665, + "grad_norm": 1.5061395815825258, + "learning_rate": 9.616500172674568e-06, + "loss": 0.5587, + "step": 1423 + }, + { + "avg_step_time": 5.687181277708574, + "epoch": 0.15178666666666665, + "eta_time": 12.562351533427385, + "step": 1423 + }, + { + "epoch": 0.15189333333333332, + "grad_norm": 1.7994198429687625, + "learning_rate": 9.615836408062307e-06, + "loss": 0.5283, + "step": 1424 + }, + { + "avg_step_time": 5.688670782127765, + "epoch": 0.15189333333333332, + "eta_time": 12.564061496860518, + "step": 1424 + }, + { + "epoch": 0.152, + "grad_norm": 1.5597459300921679, + "learning_rate": 9.615172092470134e-06, + "loss": 0.4987, + "step": 1425 + }, + { + "avg_step_time": 5.685502562860046, + "epoch": 0.152, + "eta_time": 12.555484826315935, + "step": 1425 + }, + { + "epoch": 0.15210666666666667, + "grad_norm": 1.521156583494122, + "learning_rate": 9.614507225977342e-06, + "loss": 0.4942, + "step": 1426 + }, + { + "avg_step_time": 5.6810150796716865, + "epoch": 0.15210666666666667, + "eta_time": 12.543996907863955, + "step": 1426 + }, + { + "epoch": 0.15221333333333334, + "grad_norm": 1.6813317623063853, + "learning_rate": 9.613841808663296e-06, + "loss": 0.4292, + "step": 1427 + }, + { + "avg_step_time": 5.684046290137551, + "epoch": 0.15221333333333334, + "eta_time": 12.549111087225903, + "step": 1427 + }, + { + "epoch": 0.15232, + "grad_norm": 1.5328296471315592, + "learning_rate": 9.613175840607428e-06, + "loss": 0.4865, + "step": 1428 + }, + { + "avg_step_time": 5.659601991826838, + "epoch": 0.15232, + "eta_time": 12.493571396957744, + "step": 1428 + }, + { + "epoch": 0.15242666666666665, + "grad_norm": 1.9391817057966954, + "learning_rate": 9.612509321889228e-06, + "loss": 0.4402, + "step": 1429 + }, + { + "avg_step_time": 5.6725839219912135, + "epoch": 0.15242666666666665, + "eta_time": 12.520653290039496, + "step": 1429 + }, + { + "epoch": 0.15253333333333333, + "grad_norm": 1.5238158193216946, + "learning_rate": 9.611842252588259e-06, + "loss": 0.4463, + "step": 1430 + }, + { + "avg_step_time": 5.702948196969851, + "epoch": 0.15253333333333333, + "eta_time": 12.586089840257074, + "step": 1430 + }, + { + "epoch": 0.15264, + "grad_norm": 1.5604763459495212, + "learning_rate": 9.611174632784147e-06, + "loss": 0.5212, + "step": 1431 + }, + { + "avg_step_time": 5.689411401748657, + "epoch": 0.15264, + "eta_time": 12.554634493192037, + "step": 1431 + }, + { + "epoch": 0.15274666666666667, + "grad_norm": 1.6736117479212598, + "learning_rate": 9.610506462556583e-06, + "loss": 0.5303, + "step": 1432 + }, + { + "avg_step_time": 5.6810914747642745, + "epoch": 0.15274666666666667, + "eta_time": 12.534697106681287, + "step": 1432 + }, + { + "epoch": 0.15285333333333334, + "grad_norm": 1.653589575650438, + "learning_rate": 9.60983774198533e-06, + "loss": 0.548, + "step": 1433 + }, + { + "avg_step_time": 5.685388928712016, + "epoch": 0.15285333333333334, + "eta_time": 12.542599686619676, + "step": 1433 + }, + { + "epoch": 0.15296, + "grad_norm": 1.6680477443315738, + "learning_rate": 9.609168471150202e-06, + "loss": 0.4492, + "step": 1434 + }, + { + "avg_step_time": 5.70980364866931, + "epoch": 0.15296, + "eta_time": 12.594875215023054, + "step": 1434 + }, + { + "epoch": 0.15306666666666666, + "grad_norm": 1.6768461244663562, + "learning_rate": 9.608498650131095e-06, + "loss": 0.4974, + "step": 1435 + }, + { + "avg_step_time": 5.709819454135316, + "epoch": 0.15306666666666666, + "eta_time": 12.593324018287337, + "step": 1435 + }, + { + "epoch": 0.15317333333333333, + "grad_norm": 1.7576829116570913, + "learning_rate": 9.607828279007962e-06, + "loss": 0.536, + "step": 1436 + }, + { + "avg_step_time": 5.711598321644947, + "epoch": 0.15317333333333333, + "eta_time": 12.595660854316453, + "step": 1436 + }, + { + "epoch": 0.15328, + "grad_norm": 1.6863822323297635, + "learning_rate": 9.607157357860823e-06, + "loss": 0.5199, + "step": 1437 + }, + { + "avg_step_time": 5.711847548532968, + "epoch": 0.15328, + "eta_time": 12.594623844515194, + "step": 1437 + }, + { + "epoch": 0.15338666666666667, + "grad_norm": 1.4814932973065185, + "learning_rate": 9.606485886769766e-06, + "loss": 0.4733, + "step": 1438 + }, + { + "avg_step_time": 5.746898056280734, + "epoch": 0.15338666666666667, + "eta_time": 12.67031385352783, + "step": 1438 + }, + { + "epoch": 0.15349333333333334, + "grad_norm": 1.5704506919400594, + "learning_rate": 9.60581386581494e-06, + "loss": 0.5403, + "step": 1439 + }, + { + "avg_step_time": 5.7533873163088405, + "epoch": 0.15349333333333334, + "eta_time": 12.683022706174155, + "step": 1439 + }, + { + "epoch": 0.1536, + "grad_norm": 2.1138437907419645, + "learning_rate": 9.605141295076561e-06, + "loss": 0.5197, + "step": 1440 + }, + { + "avg_step_time": 5.754329849975278, + "epoch": 0.1536, + "eta_time": 12.683502044320509, + "step": 1440 + }, + { + "epoch": 0.15370666666666666, + "grad_norm": 1.4198384984353356, + "learning_rate": 9.604468174634917e-06, + "loss": 0.4598, + "step": 1441 + }, + { + "avg_step_time": 5.755734768780795, + "epoch": 0.15370666666666666, + "eta_time": 12.684999904307452, + "step": 1441 + }, + { + "epoch": 0.15381333333333333, + "grad_norm": 1.6635792096965136, + "learning_rate": 9.603794504570352e-06, + "loss": 0.431, + "step": 1442 + }, + { + "avg_step_time": 5.758588730686843, + "epoch": 0.15381333333333333, + "eta_time": 12.689690111260758, + "step": 1442 + }, + { + "epoch": 0.15392, + "grad_norm": 0.6686840845686407, + "learning_rate": 9.603120284963284e-06, + "loss": 0.4448, + "step": 1443 + }, + { + "avg_step_time": 5.735888264395974, + "epoch": 0.15392, + "eta_time": 12.63807380921913, + "step": 1443 + }, + { + "epoch": 0.15402666666666667, + "grad_norm": 1.8488088350589416, + "learning_rate": 9.60244551589419e-06, + "loss": 0.4746, + "step": 1444 + }, + { + "avg_step_time": 5.732269241352274, + "epoch": 0.15402666666666667, + "eta_time": 12.628507598101356, + "step": 1444 + }, + { + "epoch": 0.15413333333333334, + "grad_norm": 1.6223078939328524, + "learning_rate": 9.601770197443615e-06, + "loss": 0.5578, + "step": 1445 + }, + { + "avg_step_time": 5.726523635363338, + "epoch": 0.15413333333333334, + "eta_time": 12.614259007897575, + "step": 1445 + }, + { + "epoch": 0.15424, + "grad_norm": 0.6454228803274054, + "learning_rate": 9.601094329692173e-06, + "loss": 0.4273, + "step": 1446 + }, + { + "avg_step_time": 5.692901599286783, + "epoch": 0.15424, + "eta_time": 12.53861577242914, + "step": 1446 + }, + { + "epoch": 0.15434666666666666, + "grad_norm": 1.3093591269639253, + "learning_rate": 9.600417912720537e-06, + "loss": 0.4367, + "step": 1447 + }, + { + "avg_step_time": 5.695870845004766, + "epoch": 0.15434666666666666, + "eta_time": 12.543573349777162, + "step": 1447 + }, + { + "epoch": 0.15445333333333333, + "grad_norm": 1.5374108812172396, + "learning_rate": 9.599740946609451e-06, + "loss": 0.6311, + "step": 1448 + }, + { + "avg_step_time": 5.696181398449522, + "epoch": 0.15445333333333333, + "eta_time": 12.542674984863712, + "step": 1448 + }, + { + "epoch": 0.15456, + "grad_norm": 0.6545718952065502, + "learning_rate": 9.599063431439721e-06, + "loss": 0.4716, + "step": 1449 + }, + { + "avg_step_time": 5.690885625704371, + "epoch": 0.15456, + "eta_time": 12.52943318592579, + "step": 1449 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 1.7232074571766511, + "learning_rate": 9.598385367292224e-06, + "loss": 0.5416, + "step": 1450 + }, + { + "avg_step_time": 5.726544539133708, + "epoch": 0.15466666666666667, + "eta_time": 12.606351520176288, + "step": 1450 + }, + { + "epoch": 0.15477333333333335, + "grad_norm": 1.5847104498980087, + "learning_rate": 9.597706754247895e-06, + "loss": 0.5352, + "step": 1451 + }, + { + "avg_step_time": 5.736043154591262, + "epoch": 0.15477333333333335, + "eta_time": 12.625668321383655, + "step": 1451 + }, + { + "epoch": 0.15488, + "grad_norm": 0.652034650252136, + "learning_rate": 9.597027592387739e-06, + "loss": 0.4618, + "step": 1452 + }, + { + "avg_step_time": 5.709461987620652, + "epoch": 0.15488, + "eta_time": 12.565574257755118, + "step": 1452 + }, + { + "epoch": 0.15498666666666666, + "grad_norm": 1.7487397952949688, + "learning_rate": 9.596347881792827e-06, + "loss": 0.486, + "step": 1453 + }, + { + "avg_step_time": 5.6527891351719095, + "epoch": 0.15498666666666666, + "eta_time": 12.43927653578663, + "step": 1453 + }, + { + "epoch": 0.15509333333333333, + "grad_norm": 1.7904596083638795, + "learning_rate": 9.595667622544291e-06, + "loss": 0.6087, + "step": 1454 + }, + { + "avg_step_time": 5.59861999810344, + "epoch": 0.15509333333333333, + "eta_time": 12.318519168049264, + "step": 1454 + }, + { + "epoch": 0.1552, + "grad_norm": 1.4257506582377861, + "learning_rate": 9.594986814723335e-06, + "loss": 0.5313, + "step": 1455 + }, + { + "avg_step_time": 5.598639088447648, + "epoch": 0.1552, + "eta_time": 12.317005994584825, + "step": 1455 + }, + { + "epoch": 0.15530666666666668, + "grad_norm": 1.7087491192353426, + "learning_rate": 9.594305458411225e-06, + "loss": 0.5671, + "step": 1456 + }, + { + "avg_step_time": 5.607693493968308, + "epoch": 0.15530666666666668, + "eta_time": 12.335367994093065, + "step": 1456 + }, + { + "epoch": 0.15541333333333332, + "grad_norm": 1.851958284362688, + "learning_rate": 9.59362355368929e-06, + "loss": 0.5341, + "step": 1457 + }, + { + "avg_step_time": 5.60589386236788, + "epoch": 0.15541333333333332, + "eta_time": 12.329852111730244, + "step": 1457 + }, + { + "epoch": 0.15552, + "grad_norm": 1.5253705735459444, + "learning_rate": 9.59294110063893e-06, + "loss": 0.4914, + "step": 1458 + }, + { + "avg_step_time": 5.605154391491052, + "epoch": 0.15552, + "eta_time": 12.326668699287405, + "step": 1458 + }, + { + "epoch": 0.15562666666666666, + "grad_norm": 1.8882083180699452, + "learning_rate": 9.592258099341608e-06, + "loss": 0.5186, + "step": 1459 + }, + { + "avg_step_time": 5.606246599043258, + "epoch": 0.15562666666666666, + "eta_time": 12.327513355007342, + "step": 1459 + }, + { + "epoch": 0.15573333333333333, + "grad_norm": 0.6892296426643713, + "learning_rate": 9.591574549878848e-06, + "loss": 0.4723, + "step": 1460 + }, + { + "avg_step_time": 5.564767613555446, + "epoch": 0.15573333333333333, + "eta_time": 12.234759905914267, + "step": 1460 + }, + { + "epoch": 0.15584, + "grad_norm": 1.735431525222656, + "learning_rate": 9.590890452332249e-06, + "loss": 0.5318, + "step": 1461 + }, + { + "avg_step_time": 5.568526219840002, + "epoch": 0.15584, + "eta_time": 12.241476806614937, + "step": 1461 + }, + { + "epoch": 0.15594666666666668, + "grad_norm": 1.894981373710271, + "learning_rate": 9.590205806783463e-06, + "loss": 0.5097, + "step": 1462 + }, + { + "avg_step_time": 5.575542336762553, + "epoch": 0.15594666666666668, + "eta_time": 12.255351808556135, + "step": 1462 + }, + { + "epoch": 0.15605333333333332, + "grad_norm": 0.6577086528313499, + "learning_rate": 9.58952061331422e-06, + "loss": 0.4567, + "step": 1463 + }, + { + "avg_step_time": 5.539293279551496, + "epoch": 0.15605333333333332, + "eta_time": 12.174135674392067, + "step": 1463 + }, + { + "epoch": 0.15616, + "grad_norm": 1.6981103406626583, + "learning_rate": 9.588834872006308e-06, + "loss": 0.5476, + "step": 1464 + }, + { + "avg_step_time": 5.53867487955575, + "epoch": 0.15616, + "eta_time": 12.171238047823762, + "step": 1464 + }, + { + "epoch": 0.15626666666666666, + "grad_norm": 1.3133622817943897, + "learning_rate": 9.588148582941583e-06, + "loss": 0.4299, + "step": 1465 + }, + { + "avg_step_time": 5.518607943949073, + "epoch": 0.15626666666666666, + "eta_time": 12.12560801017699, + "step": 1465 + }, + { + "epoch": 0.15637333333333334, + "grad_norm": 1.6904677779228279, + "learning_rate": 9.587461746201963e-06, + "loss": 0.4881, + "step": 1466 + }, + { + "avg_step_time": 5.518419706460201, + "epoch": 0.15637333333333334, + "eta_time": 12.12366151622048, + "step": 1466 + }, + { + "epoch": 0.15648, + "grad_norm": 1.7573573760791552, + "learning_rate": 9.586774361869436e-06, + "loss": 0.504, + "step": 1467 + }, + { + "avg_step_time": 5.523618081603387, + "epoch": 0.15648, + "eta_time": 12.133547719255441, + "step": 1467 + }, + { + "epoch": 0.15658666666666668, + "grad_norm": 2.029890479682205, + "learning_rate": 9.58608643002605e-06, + "loss": 0.5046, + "step": 1468 + }, + { + "avg_step_time": 5.524267940810232, + "epoch": 0.15658666666666668, + "eta_time": 12.133440724440698, + "step": 1468 + }, + { + "epoch": 0.15669333333333332, + "grad_norm": 1.74467617999333, + "learning_rate": 9.585397950753926e-06, + "loss": 0.5086, + "step": 1469 + }, + { + "avg_step_time": 5.522048008562338, + "epoch": 0.15669333333333332, + "eta_time": 12.127030987692734, + "step": 1469 + }, + { + "epoch": 0.1568, + "grad_norm": 1.640405052913084, + "learning_rate": 9.584708924135245e-06, + "loss": 0.5074, + "step": 1470 + }, + { + "avg_step_time": 5.5185294295802265, + "epoch": 0.1568, + "eta_time": 12.117770872453246, + "step": 1470 + }, + { + "epoch": 0.15690666666666667, + "grad_norm": 1.8607841310394122, + "learning_rate": 9.58401935025225e-06, + "loss": 0.5463, + "step": 1471 + }, + { + "avg_step_time": 5.547337690989177, + "epoch": 0.15690666666666667, + "eta_time": 12.179488085994015, + "step": 1471 + }, + { + "epoch": 0.15701333333333334, + "grad_norm": 1.6160763058313803, + "learning_rate": 9.583329229187259e-06, + "loss": 0.5453, + "step": 1472 + }, + { + "avg_step_time": 5.543773051464196, + "epoch": 0.15701333333333334, + "eta_time": 12.170121784922651, + "step": 1472 + }, + { + "epoch": 0.15712, + "grad_norm": 1.3996593625779945, + "learning_rate": 9.582638561022646e-06, + "loss": 0.3827, + "step": 1473 + }, + { + "avg_step_time": 5.544791761070791, + "epoch": 0.15712, + "eta_time": 12.170817915550387, + "step": 1473 + }, + { + "epoch": 0.15722666666666665, + "grad_norm": 1.5987857066305704, + "learning_rate": 9.581947345840858e-06, + "loss": 0.4885, + "step": 1474 + }, + { + "avg_step_time": 5.548461870713667, + "epoch": 0.15722666666666665, + "eta_time": 12.177332566807967, + "step": 1474 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 1.6325017446470733, + "learning_rate": 9.5812555837244e-06, + "loss": 0.544, + "step": 1475 + }, + { + "avg_step_time": 5.571033764367152, + "epoch": 0.15733333333333333, + "eta_time": 12.225324094027917, + "step": 1475 + }, + { + "epoch": 0.15744, + "grad_norm": 1.5543618705999653, + "learning_rate": 9.580563274755848e-06, + "loss": 0.5068, + "step": 1476 + }, + { + "avg_step_time": 5.5679473009976475, + "epoch": 0.15744, + "eta_time": 12.21700436960567, + "step": 1476 + }, + { + "epoch": 0.15754666666666667, + "grad_norm": 1.5722956602484808, + "learning_rate": 9.579870419017838e-06, + "loss": 0.4653, + "step": 1477 + }, + { + "avg_step_time": 5.572027998741227, + "epoch": 0.15754666666666667, + "eta_time": 12.22441031501617, + "step": 1477 + }, + { + "epoch": 0.15765333333333334, + "grad_norm": 0.6726989611220783, + "learning_rate": 9.579177016593077e-06, + "loss": 0.468, + "step": 1478 + }, + { + "avg_step_time": 5.539456422882851, + "epoch": 0.15765333333333334, + "eta_time": 12.151413158751632, + "step": 1478 + }, + { + "epoch": 0.15776, + "grad_norm": 1.5701709402226312, + "learning_rate": 9.578483067564335e-06, + "loss": 0.5014, + "step": 1479 + }, + { + "avg_step_time": 5.535526998115309, + "epoch": 0.15776, + "eta_time": 12.14125588253291, + "step": 1479 + }, + { + "epoch": 0.15786666666666666, + "grad_norm": 1.716497007223794, + "learning_rate": 9.577788572014447e-06, + "loss": 0.5112, + "step": 1480 + }, + { + "avg_step_time": 5.533125807540586, + "epoch": 0.15786666666666666, + "eta_time": 12.134452291814702, + "step": 1480 + }, + { + "epoch": 0.15797333333333333, + "grad_norm": 1.6768135581626995, + "learning_rate": 9.577093530026309e-06, + "loss": 0.5734, + "step": 1481 + }, + { + "avg_step_time": 5.533836017955434, + "epoch": 0.15797333333333333, + "eta_time": 12.134472646038944, + "step": 1481 + }, + { + "epoch": 0.15808, + "grad_norm": 1.9078983042198254, + "learning_rate": 9.576397941682891e-06, + "loss": 0.6002, + "step": 1482 + }, + { + "avg_step_time": 5.539512759507304, + "epoch": 0.15808, + "eta_time": 12.145381725219766, + "step": 1482 + }, + { + "epoch": 0.15818666666666667, + "grad_norm": 1.9447998055642681, + "learning_rate": 9.57570180706722e-06, + "loss": 0.5539, + "step": 1483 + }, + { + "avg_step_time": 5.569109283312403, + "epoch": 0.15818666666666667, + "eta_time": 12.208725128861524, + "step": 1483 + }, + { + "epoch": 0.15829333333333334, + "grad_norm": 1.6185221272929642, + "learning_rate": 9.575005126262395e-06, + "loss": 0.4519, + "step": 1484 + }, + { + "avg_step_time": 5.570081491662998, + "epoch": 0.15829333333333334, + "eta_time": 12.209309180753532, + "step": 1484 + }, + { + "epoch": 0.1584, + "grad_norm": 1.3939396871811196, + "learning_rate": 9.574307899351574e-06, + "loss": 0.4851, + "step": 1485 + }, + { + "avg_step_time": 5.578681502679382, + "epoch": 0.1584, + "eta_time": 12.226610293372314, + "step": 1485 + }, + { + "epoch": 0.15850666666666666, + "grad_norm": 1.9797829654493997, + "learning_rate": 9.573610126417985e-06, + "loss": 0.5819, + "step": 1486 + }, + { + "avg_step_time": 5.608631538622307, + "epoch": 0.15850666666666666, + "eta_time": 12.290692835608716, + "step": 1486 + }, + { + "epoch": 0.15861333333333333, + "grad_norm": 1.6696515183024523, + "learning_rate": 9.57291180754492e-06, + "loss": 0.5058, + "step": 1487 + }, + { + "avg_step_time": 5.610422187381321, + "epoch": 0.15861333333333333, + "eta_time": 12.293058392795517, + "step": 1487 + }, + { + "epoch": 0.15872, + "grad_norm": 1.8613360436088686, + "learning_rate": 9.572212942815734e-06, + "loss": 0.5257, + "step": 1488 + }, + { + "avg_step_time": 5.610430074460579, + "epoch": 0.15872, + "eta_time": 12.291517221464051, + "step": 1488 + }, + { + "epoch": 0.15882666666666667, + "grad_norm": 1.6590633079098625, + "learning_rate": 9.571513532313844e-06, + "loss": 0.4976, + "step": 1489 + }, + { + "avg_step_time": 5.602425837757612, + "epoch": 0.15882666666666667, + "eta_time": 12.272425043487925, + "step": 1489 + }, + { + "epoch": 0.15893333333333334, + "grad_norm": 1.7899376565831528, + "learning_rate": 9.570813576122746e-06, + "loss": 0.462, + "step": 1490 + }, + { + "avg_step_time": 5.607748431388778, + "epoch": 0.15893333333333334, + "eta_time": 12.282526772639033, + "step": 1490 + }, + { + "epoch": 0.15904, + "grad_norm": 2.1261617663505015, + "learning_rate": 9.570113074325986e-06, + "loss": 0.4842, + "step": 1491 + }, + { + "avg_step_time": 5.607330406555022, + "epoch": 0.15904, + "eta_time": 12.280053590355498, + "step": 1491 + }, + { + "epoch": 0.15914666666666666, + "grad_norm": 1.8075890947771893, + "learning_rate": 9.569412027007183e-06, + "loss": 0.5535, + "step": 1492 + }, + { + "avg_step_time": 5.609186369963367, + "epoch": 0.15914666666666666, + "eta_time": 12.282560042894783, + "step": 1492 + }, + { + "epoch": 0.15925333333333333, + "grad_norm": 1.976629570752732, + "learning_rate": 9.568710434250017e-06, + "loss": 0.549, + "step": 1493 + }, + { + "avg_step_time": 5.634541106946541, + "epoch": 0.15925333333333333, + "eta_time": 12.336514723597954, + "step": 1493 + }, + { + "epoch": 0.15936, + "grad_norm": 1.6458882755772286, + "learning_rate": 9.568008296138238e-06, + "loss": 0.4998, + "step": 1494 + }, + { + "avg_step_time": 5.643844438321663, + "epoch": 0.15936, + "eta_time": 12.35531611622584, + "step": 1494 + }, + { + "epoch": 0.15946666666666667, + "grad_norm": 1.5752489034666124, + "learning_rate": 9.567305612755654e-06, + "loss": 0.4866, + "step": 1495 + }, + { + "avg_step_time": 5.679962656714699, + "epoch": 0.15946666666666667, + "eta_time": 12.432807148586619, + "step": 1495 + }, + { + "epoch": 0.15957333333333334, + "grad_norm": 0.6715000473107569, + "learning_rate": 9.56660238418615e-06, + "loss": 0.4694, + "step": 1496 + }, + { + "avg_step_time": 5.6118430754151, + "epoch": 0.15957333333333334, + "eta_time": 12.282142108665438, + "step": 1496 + }, + { + "epoch": 0.15968, + "grad_norm": 1.6603790744994493, + "learning_rate": 9.565898610513661e-06, + "loss": 0.5254, + "step": 1497 + }, + { + "avg_step_time": 5.636809264770662, + "epoch": 0.15968, + "eta_time": 12.335217607739798, + "step": 1497 + }, + { + "epoch": 0.15978666666666666, + "grad_norm": 0.6425706600490675, + "learning_rate": 9.565194291822198e-06, + "loss": 0.4405, + "step": 1498 + }, + { + "avg_step_time": 5.601137139580467, + "epoch": 0.15978666666666666, + "eta_time": 12.255599235687592, + "step": 1498 + }, + { + "epoch": 0.15989333333333333, + "grad_norm": 1.51706580432005, + "learning_rate": 9.564489428195834e-06, + "loss": 0.4746, + "step": 1499 + }, + { + "avg_step_time": 5.625067474866154, + "epoch": 0.15989333333333333, + "eta_time": 12.30639762001273, + "step": 1499 + }, + { + "epoch": 0.16, + "grad_norm": 1.607611375007665, + "learning_rate": 9.563784019718704e-06, + "loss": 0.4296, + "step": 1500 + }, + { + "avg_step_time": 5.62916799265929, + "epoch": 0.16, + "eta_time": 12.313804983942196, + "step": 1500 + }, + { + "epoch": 0.16010666666666667, + "grad_norm": 1.7784519979554632, + "learning_rate": 9.563078066475012e-06, + "loss": 0.5862, + "step": 1501 + }, + { + "avg_step_time": 5.626882524201364, + "epoch": 0.16010666666666667, + "eta_time": 12.307242498767094, + "step": 1501 + }, + { + "epoch": 0.16021333333333335, + "grad_norm": 2.0705759359359357, + "learning_rate": 9.562371568549027e-06, + "loss": 0.4433, + "step": 1502 + }, + { + "avg_step_time": 5.628843909562236, + "epoch": 0.16021333333333335, + "eta_time": 12.30996891666208, + "step": 1502 + }, + { + "epoch": 0.16032, + "grad_norm": 1.7128194752186388, + "learning_rate": 9.561664526025082e-06, + "loss": 0.5012, + "step": 1503 + }, + { + "avg_step_time": 5.629014860499989, + "epoch": 0.16032, + "eta_time": 12.308779161626644, + "step": 1503 + }, + { + "epoch": 0.16042666666666666, + "grad_norm": 1.7525217944096854, + "learning_rate": 9.560956938987573e-06, + "loss": 0.5947, + "step": 1504 + }, + { + "avg_step_time": 5.669078646284161, + "epoch": 0.16042666666666666, + "eta_time": 12.394810562472953, + "step": 1504 + }, + { + "epoch": 0.16053333333333333, + "grad_norm": 1.7215062948136604, + "learning_rate": 9.560248807520963e-06, + "loss": 0.5191, + "step": 1505 + }, + { + "avg_step_time": 5.66864985408205, + "epoch": 0.16053333333333333, + "eta_time": 12.392298431007148, + "step": 1505 + }, + { + "epoch": 0.16064, + "grad_norm": 0.6391326808267467, + "learning_rate": 9.55954013170978e-06, + "loss": 0.4116, + "step": 1506 + }, + { + "avg_step_time": 5.643310479443483, + "epoch": 0.16064, + "eta_time": 12.33533615631688, + "step": 1506 + }, + { + "epoch": 0.16074666666666668, + "grad_norm": 1.5333218574031466, + "learning_rate": 9.558830911638616e-06, + "loss": 0.4881, + "step": 1507 + }, + { + "avg_step_time": 5.648098476005323, + "epoch": 0.16074666666666668, + "eta_time": 12.344233002558301, + "step": 1507 + }, + { + "epoch": 0.16085333333333332, + "grad_norm": 1.7040627880611228, + "learning_rate": 9.558121147392132e-06, + "loss": 0.5105, + "step": 1508 + }, + { + "avg_step_time": 5.649136254281709, + "epoch": 0.16085333333333332, + "eta_time": 12.344931920120612, + "step": 1508 + }, + { + "epoch": 0.16096, + "grad_norm": 1.7284806108545125, + "learning_rate": 9.557410839055047e-06, + "loss": 0.5176, + "step": 1509 + }, + { + "avg_step_time": 5.646640274259779, + "epoch": 0.16096, + "eta_time": 12.337908999257618, + "step": 1509 + }, + { + "epoch": 0.16106666666666666, + "grad_norm": 1.7489143229477773, + "learning_rate": 9.55669998671215e-06, + "loss": 0.4764, + "step": 1510 + }, + { + "avg_step_time": 5.617953683390762, + "epoch": 0.16106666666666666, + "eta_time": 12.273668255518983, + "step": 1510 + }, + { + "epoch": 0.16117333333333334, + "grad_norm": 1.8152323581747003, + "learning_rate": 9.555988590448292e-06, + "loss": 0.5471, + "step": 1511 + }, + { + "avg_step_time": 5.619868714400012, + "epoch": 0.16117333333333334, + "eta_time": 12.27629099167825, + "step": 1511 + }, + { + "epoch": 0.16128, + "grad_norm": 1.3629740198253413, + "learning_rate": 9.555276650348393e-06, + "loss": 0.4425, + "step": 1512 + }, + { + "avg_step_time": 5.652744192065614, + "epoch": 0.16128, + "eta_time": 12.346535439503311, + "step": 1512 + }, + { + "epoch": 0.16138666666666668, + "grad_norm": 1.5867501852387127, + "learning_rate": 9.554564166497434e-06, + "loss": 0.4181, + "step": 1513 + }, + { + "avg_step_time": 5.65767054124312, + "epoch": 0.16138666666666668, + "eta_time": 12.355723832014837, + "step": 1513 + }, + { + "epoch": 0.16149333333333332, + "grad_norm": 1.4842491090075867, + "learning_rate": 9.553851138980462e-06, + "loss": 0.4777, + "step": 1514 + }, + { + "avg_step_time": 5.684175460025518, + "epoch": 0.16149333333333332, + "eta_time": 12.412028692016833, + "step": 1514 + }, + { + "epoch": 0.1616, + "grad_norm": 1.7380710379612738, + "learning_rate": 9.55313756788259e-06, + "loss": 0.5062, + "step": 1515 + }, + { + "avg_step_time": 5.685440509006231, + "epoch": 0.1616, + "eta_time": 12.413211777996937, + "step": 1515 + }, + { + "epoch": 0.16170666666666667, + "grad_norm": 1.9119973647006765, + "learning_rate": 9.552423453288995e-06, + "loss": 0.5667, + "step": 1516 + }, + { + "avg_step_time": 5.68656323654483, + "epoch": 0.16170666666666667, + "eta_time": 12.414083465557171, + "step": 1516 + }, + { + "epoch": 0.16181333333333334, + "grad_norm": 1.62238621030541, + "learning_rate": 9.551708795284917e-06, + "loss": 0.5682, + "step": 1517 + }, + { + "avg_step_time": 5.699759341249562, + "epoch": 0.16181333333333334, + "eta_time": 12.44130802876085, + "step": 1517 + }, + { + "epoch": 0.16192, + "grad_norm": 1.754787153414887, + "learning_rate": 9.550993593955665e-06, + "loss": 0.4988, + "step": 1518 + }, + { + "avg_step_time": 5.704456006637727, + "epoch": 0.16192, + "eta_time": 12.44997523448684, + "step": 1518 + }, + { + "epoch": 0.16202666666666668, + "grad_norm": 1.780975108665488, + "learning_rate": 9.55027784938661e-06, + "loss": 0.6237, + "step": 1519 + }, + { + "avg_step_time": 5.702105151282416, + "epoch": 0.16202666666666668, + "eta_time": 12.443260574576295, + "step": 1519 + }, + { + "epoch": 0.16213333333333332, + "grad_norm": 1.5206817934897754, + "learning_rate": 9.54956156166319e-06, + "loss": 0.527, + "step": 1520 + }, + { + "avg_step_time": 5.73719461036451, + "epoch": 0.16213333333333332, + "eta_time": 12.518239906781451, + "step": 1520 + }, + { + "epoch": 0.16224, + "grad_norm": 1.5066970181478614, + "learning_rate": 9.548844730870903e-06, + "loss": 0.5024, + "step": 1521 + }, + { + "avg_step_time": 5.737242159217295, + "epoch": 0.16224, + "eta_time": 12.516749977359064, + "step": 1521 + }, + { + "epoch": 0.16234666666666667, + "grad_norm": 1.6801080626929172, + "learning_rate": 9.548127357095316e-06, + "loss": 0.5094, + "step": 1522 + }, + { + "avg_step_time": 5.737648985602639, + "epoch": 0.16234666666666667, + "eta_time": 12.516043745538202, + "step": 1522 + }, + { + "epoch": 0.16245333333333334, + "grad_norm": 1.7931419761604976, + "learning_rate": 9.547409440422061e-06, + "loss": 0.5868, + "step": 1523 + }, + { + "avg_step_time": 5.738473950010357, + "epoch": 0.16245333333333334, + "eta_time": 12.516249293189256, + "step": 1523 + }, + { + "epoch": 0.16256, + "grad_norm": 1.5073988232023041, + "learning_rate": 9.546690980936836e-06, + "loss": 0.5676, + "step": 1524 + }, + { + "avg_step_time": 5.738253511563696, + "epoch": 0.16256, + "eta_time": 12.51417453313516, + "step": 1524 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 1.8200384499116447, + "learning_rate": 9.545971978725399e-06, + "loss": 0.5016, + "step": 1525 + }, + { + "avg_step_time": 5.738734620990175, + "epoch": 0.16266666666666665, + "eta_time": 12.51362965965913, + "step": 1525 + }, + { + "epoch": 0.16277333333333333, + "grad_norm": 0.6180839452707633, + "learning_rate": 9.545252433873574e-06, + "loss": 0.437, + "step": 1526 + }, + { + "avg_step_time": 5.7048360723437685, + "epoch": 0.16277333333333333, + "eta_time": 12.438127314396178, + "step": 1526 + }, + { + "epoch": 0.16288, + "grad_norm": 2.011034849209429, + "learning_rate": 9.544532346467254e-06, + "loss": 0.5478, + "step": 1527 + }, + { + "avg_step_time": 5.708019976664072, + "epoch": 0.16288, + "eta_time": 12.443483549127675, + "step": 1527 + }, + { + "epoch": 0.16298666666666667, + "grad_norm": 1.358903103670413, + "learning_rate": 9.543811716592391e-06, + "loss": 0.4525, + "step": 1528 + }, + { + "avg_step_time": 5.693071001707906, + "epoch": 0.16298666666666667, + "eta_time": 12.40931337511165, + "step": 1528 + }, + { + "epoch": 0.16309333333333334, + "grad_norm": 1.4181901807154773, + "learning_rate": 9.543090544335008e-06, + "loss": 0.5294, + "step": 1529 + }, + { + "avg_step_time": 5.697373368523338, + "epoch": 0.16309333333333334, + "eta_time": 12.41710873595392, + "step": 1529 + }, + { + "epoch": 0.1632, + "grad_norm": 1.6758642167978595, + "learning_rate": 9.542368829781186e-06, + "loss": 0.4882, + "step": 1530 + }, + { + "avg_step_time": 5.698721235448664, + "epoch": 0.1632, + "eta_time": 12.418463358915215, + "step": 1530 + }, + { + "epoch": 0.16330666666666666, + "grad_norm": 1.5356696574615818, + "learning_rate": 9.541646573017077e-06, + "loss": 0.4753, + "step": 1531 + }, + { + "avg_step_time": 5.697567202828147, + "epoch": 0.16330666666666666, + "eta_time": 12.414365871939996, + "step": 1531 + }, + { + "epoch": 0.16341333333333333, + "grad_norm": 1.6324562126879285, + "learning_rate": 9.540923774128893e-06, + "loss": 0.4844, + "step": 1532 + }, + { + "avg_step_time": 5.69354639872156, + "epoch": 0.16341333333333333, + "eta_time": 12.404023445881444, + "step": 1532 + }, + { + "epoch": 0.16352, + "grad_norm": 1.7715716830186112, + "learning_rate": 9.540200433202913e-06, + "loss": 0.5407, + "step": 1533 + }, + { + "avg_step_time": 5.667206166970609, + "epoch": 0.16352, + "eta_time": 12.34506410038431, + "step": 1533 + }, + { + "epoch": 0.16362666666666667, + "grad_norm": 1.693174398822322, + "learning_rate": 9.539476550325481e-06, + "loss": 0.5326, + "step": 1534 + }, + { + "avg_step_time": 5.665474595445575, + "epoch": 0.16362666666666667, + "eta_time": 12.339718417469099, + "step": 1534 + }, + { + "epoch": 0.16373333333333334, + "grad_norm": 1.437756409279967, + "learning_rate": 9.538752125583003e-06, + "loss": 0.5085, + "step": 1535 + }, + { + "avg_step_time": 5.665056387583415, + "epoch": 0.16373333333333334, + "eta_time": 12.337233910737215, + "step": 1535 + }, + { + "epoch": 0.16384, + "grad_norm": 2.004514408143426, + "learning_rate": 9.538027159061955e-06, + "loss": 0.5609, + "step": 1536 + }, + { + "avg_step_time": 5.663880986396713, + "epoch": 0.16384, + "eta_time": 12.333100847878843, + "step": 1536 + }, + { + "epoch": 0.16394666666666666, + "grad_norm": 0.6783326345298705, + "learning_rate": 9.537301650848872e-06, + "loss": 0.428, + "step": 1537 + }, + { + "avg_step_time": 5.631450038967711, + "epoch": 0.16394666666666666, + "eta_time": 12.2609181681747, + "step": 1537 + }, + { + "epoch": 0.16405333333333333, + "grad_norm": 1.6994717479669994, + "learning_rate": 9.536575601030355e-06, + "loss": 0.4812, + "step": 1538 + }, + { + "avg_step_time": 5.623575523646191, + "epoch": 0.16405333333333333, + "eta_time": 12.242211494115333, + "step": 1538 + }, + { + "epoch": 0.16416, + "grad_norm": 1.7715832149150215, + "learning_rate": 9.535849009693072e-06, + "loss": 0.4539, + "step": 1539 + }, + { + "avg_step_time": 5.657596368982334, + "epoch": 0.16416, + "eta_time": 12.314701429818214, + "step": 1539 + }, + { + "epoch": 0.16426666666666667, + "grad_norm": 0.6541106409884906, + "learning_rate": 9.535121876923754e-06, + "loss": 0.4316, + "step": 1540 + }, + { + "avg_step_time": 5.624618720526647, + "epoch": 0.16426666666666667, + "eta_time": 12.241357687590634, + "step": 1540 + }, + { + "epoch": 0.16437333333333334, + "grad_norm": 1.4478353921330234, + "learning_rate": 9.534394202809198e-06, + "loss": 0.4734, + "step": 1541 + }, + { + "avg_step_time": 5.639803806940715, + "epoch": 0.16437333333333334, + "eta_time": 12.272839728770434, + "step": 1541 + }, + { + "epoch": 0.16448, + "grad_norm": 1.766693723309426, + "learning_rate": 9.533665987436262e-06, + "loss": 0.5578, + "step": 1542 + }, + { + "avg_step_time": 5.66468414874992, + "epoch": 0.16448, + "eta_time": 12.325408593655036, + "step": 1542 + }, + { + "epoch": 0.16458666666666666, + "grad_norm": 1.6275111722141644, + "learning_rate": 9.532937230891874e-06, + "loss": 0.5579, + "step": 1543 + }, + { + "avg_step_time": 5.681547964462126, + "epoch": 0.16458666666666666, + "eta_time": 12.360523238240937, + "step": 1543 + }, + { + "epoch": 0.16469333333333333, + "grad_norm": 0.6138460557041442, + "learning_rate": 9.53220793326302e-06, + "loss": 0.4189, + "step": 1544 + }, + { + "avg_step_time": 5.64703200080178, + "epoch": 0.16469333333333333, + "eta_time": 12.283863221744095, + "step": 1544 + }, + { + "epoch": 0.1648, + "grad_norm": 1.8187237615530651, + "learning_rate": 9.531478094636758e-06, + "loss": 0.5065, + "step": 1545 + }, + { + "avg_step_time": 5.680659884154195, + "epoch": 0.1648, + "eta_time": 12.355435248035374, + "step": 1545 + }, + { + "epoch": 0.16490666666666667, + "grad_norm": 1.3728427771485237, + "learning_rate": 9.530747715100205e-06, + "loss": 0.4843, + "step": 1546 + }, + { + "avg_step_time": 5.679950314338761, + "epoch": 0.16490666666666667, + "eta_time": 12.3523141697106, + "step": 1546 + }, + { + "epoch": 0.16501333333333335, + "grad_norm": 1.6389983433794026, + "learning_rate": 9.530016794740546e-06, + "loss": 0.4544, + "step": 1547 + }, + { + "avg_step_time": 5.6760703794883955, + "epoch": 0.16501333333333335, + "eta_time": 12.342299702954211, + "step": 1547 + }, + { + "epoch": 0.16512, + "grad_norm": 1.7038693853749922, + "learning_rate": 9.529285333645027e-06, + "loss": 0.515, + "step": 1548 + }, + { + "avg_step_time": 5.715311539293539, + "epoch": 0.16512, + "eta_time": 12.42603983834737, + "step": 1548 + }, + { + "epoch": 0.16522666666666666, + "grad_norm": 1.416680925784662, + "learning_rate": 9.52855333190096e-06, + "loss": 0.4457, + "step": 1549 + }, + { + "avg_step_time": 5.71603672432177, + "epoch": 0.16522666666666666, + "eta_time": 12.426028723483936, + "step": 1549 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 0.6895138146636107, + "learning_rate": 9.527820789595725e-06, + "loss": 0.4542, + "step": 1550 + }, + { + "avg_step_time": 5.694598920417555, + "epoch": 0.16533333333333333, + "eta_time": 12.377843486740934, + "step": 1550 + }, + { + "epoch": 0.16544, + "grad_norm": 1.8608523387040121, + "learning_rate": 9.527087706816762e-06, + "loss": 0.5349, + "step": 1551 + }, + { + "avg_step_time": 5.719683415961988, + "epoch": 0.16544, + "eta_time": 12.430778624024054, + "step": 1551 + }, + { + "epoch": 0.16554666666666668, + "grad_norm": 1.624505170436292, + "learning_rate": 9.526354083651576e-06, + "loss": 0.5287, + "step": 1552 + }, + { + "avg_step_time": 5.719195736779107, + "epoch": 0.16554666666666668, + "eta_time": 12.428130069117488, + "step": 1552 + }, + { + "epoch": 0.16565333333333335, + "grad_norm": 0.6478994502229641, + "learning_rate": 9.52561992018774e-06, + "loss": 0.4605, + "step": 1553 + }, + { + "avg_step_time": 5.684129079182942, + "epoch": 0.16565333333333335, + "eta_time": 12.350349349269159, + "step": 1553 + }, + { + "epoch": 0.16576, + "grad_norm": 0.6412518013007529, + "learning_rate": 9.524885216512887e-06, + "loss": 0.4563, + "step": 1554 + }, + { + "avg_step_time": 5.6728012995286425, + "epoch": 0.16576, + "eta_time": 12.324160823225975, + "step": 1554 + }, + { + "epoch": 0.16586666666666666, + "grad_norm": 0.6595611922520842, + "learning_rate": 9.524149972714717e-06, + "loss": 0.4641, + "step": 1555 + }, + { + "avg_step_time": 5.617710450682977, + "epoch": 0.16586666666666666, + "eta_time": 12.202915478983577, + "step": 1555 + }, + { + "epoch": 0.16597333333333333, + "grad_norm": 1.8543840018435822, + "learning_rate": 9.523414188880994e-06, + "loss": 0.5353, + "step": 1556 + }, + { + "avg_step_time": 5.619136314199428, + "epoch": 0.16597333333333333, + "eta_time": 12.20445190020148, + "step": 1556 + }, + { + "epoch": 0.16608, + "grad_norm": 0.6104531340928148, + "learning_rate": 9.522677865099548e-06, + "loss": 0.4558, + "step": 1557 + }, + { + "avg_step_time": 5.583551315346149, + "epoch": 0.16608, + "eta_time": 12.125612273160053, + "step": 1557 + }, + { + "epoch": 0.16618666666666668, + "grad_norm": 0.6361330498826222, + "learning_rate": 9.521941001458272e-06, + "loss": 0.4534, + "step": 1558 + }, + { + "avg_step_time": 5.547355468827065, + "epoch": 0.16618666666666668, + "eta_time": 12.045466027728102, + "step": 1558 + }, + { + "epoch": 0.16629333333333332, + "grad_norm": 1.6669751718646661, + "learning_rate": 9.521203598045122e-06, + "loss": 0.4857, + "step": 1559 + }, + { + "avg_step_time": 5.582892600936119, + "epoch": 0.16629333333333332, + "eta_time": 12.121080158032418, + "step": 1559 + }, + { + "epoch": 0.1664, + "grad_norm": 1.839385921517707, + "learning_rate": 9.520465654948119e-06, + "loss": 0.5313, + "step": 1560 + }, + { + "avg_step_time": 5.580505491507174, + "epoch": 0.1664, + "eta_time": 12.11434733781349, + "step": 1560 + }, + { + "epoch": 0.16650666666666666, + "grad_norm": 0.629422571039848, + "learning_rate": 9.519727172255351e-06, + "loss": 0.4468, + "step": 1561 + }, + { + "avg_step_time": 5.539847128319018, + "epoch": 0.16650666666666666, + "eta_time": 12.024545961301335, + "step": 1561 + }, + { + "epoch": 0.16661333333333334, + "grad_norm": 1.7568264748070155, + "learning_rate": 9.518988150054968e-06, + "loss": 0.6119, + "step": 1562 + }, + { + "avg_step_time": 5.582520186299026, + "epoch": 0.16661333333333334, + "eta_time": 12.115619504320636, + "step": 1562 + }, + { + "epoch": 0.16672, + "grad_norm": 0.6375511857489132, + "learning_rate": 9.518248588435185e-06, + "loss": 0.4569, + "step": 1563 + }, + { + "avg_step_time": 5.548087849761501, + "epoch": 0.16672, + "eta_time": 12.039350633982457, + "step": 1563 + }, + { + "epoch": 0.16682666666666668, + "grad_norm": 0.6142521314111823, + "learning_rate": 9.517508487484283e-06, + "loss": 0.4217, + "step": 1564 + }, + { + "avg_step_time": 5.508171194731587, + "epoch": 0.16682666666666668, + "eta_time": 11.951201445013453, + "step": 1564 + }, + { + "epoch": 0.16693333333333332, + "grad_norm": 1.5170168359016951, + "learning_rate": 9.516767847290603e-06, + "loss": 0.4611, + "step": 1565 + }, + { + "avg_step_time": 5.511601891180481, + "epoch": 0.16693333333333332, + "eta_time": 11.957114102810989, + "step": 1565 + }, + { + "epoch": 0.16704, + "grad_norm": 1.6404591974701097, + "learning_rate": 9.516026667942557e-06, + "loss": 0.5487, + "step": 1566 + }, + { + "avg_step_time": 5.510266884408816, + "epoch": 0.16704, + "eta_time": 11.952687250096789, + "step": 1566 + }, + { + "epoch": 0.16714666666666667, + "grad_norm": 1.5370962510146424, + "learning_rate": 9.515284949528614e-06, + "loss": 0.5635, + "step": 1567 + }, + { + "avg_step_time": 5.520864693805425, + "epoch": 0.16714666666666667, + "eta_time": 11.974142091453546, + "step": 1567 + }, + { + "epoch": 0.16725333333333334, + "grad_norm": 1.625585448155397, + "learning_rate": 9.514542692137311e-06, + "loss": 0.439, + "step": 1568 + }, + { + "avg_step_time": 5.524017808413265, + "epoch": 0.16725333333333334, + "eta_time": 11.979446397300656, + "step": 1568 + }, + { + "epoch": 0.16736, + "grad_norm": 1.8380156660442917, + "learning_rate": 9.513799895857252e-06, + "loss": 0.4648, + "step": 1569 + }, + { + "avg_step_time": 5.522780488235782, + "epoch": 0.16736, + "eta_time": 11.975229025324586, + "step": 1569 + }, + { + "epoch": 0.16746666666666668, + "grad_norm": 0.6449124847021702, + "learning_rate": 9.513056560777102e-06, + "loss": 0.455, + "step": 1570 + }, + { + "avg_step_time": 5.490275667171286, + "epoch": 0.16746666666666668, + "eta_time": 11.90322266174219, + "step": 1570 + }, + { + "epoch": 0.16757333333333332, + "grad_norm": 1.718215821732629, + "learning_rate": 9.512312686985589e-06, + "loss": 0.4979, + "step": 1571 + }, + { + "avg_step_time": 5.501874169918022, + "epoch": 0.16757333333333332, + "eta_time": 11.926840561677844, + "step": 1571 + }, + { + "epoch": 0.16768, + "grad_norm": 1.8097075364821793, + "learning_rate": 9.511568274571508e-06, + "loss": 0.5528, + "step": 1572 + }, + { + "avg_step_time": 5.5051578969666455, + "epoch": 0.16768, + "eta_time": 11.932429741675204, + "step": 1572 + }, + { + "epoch": 0.16778666666666667, + "grad_norm": 1.795192553845302, + "learning_rate": 9.510823323623718e-06, + "loss": 0.552, + "step": 1573 + }, + { + "avg_step_time": 5.50408527827022, + "epoch": 0.16778666666666667, + "eta_time": 11.928575928073405, + "step": 1573 + }, + { + "epoch": 0.16789333333333334, + "grad_norm": 0.6814615642359675, + "learning_rate": 9.510077834231141e-06, + "loss": 0.4483, + "step": 1574 + }, + { + "avg_step_time": 5.445892290635542, + "epoch": 0.16789333333333334, + "eta_time": 11.800946044235518, + "step": 1574 + }, + { + "epoch": 0.168, + "grad_norm": 0.6908553573576217, + "learning_rate": 9.509331806482767e-06, + "loss": 0.4609, + "step": 1575 + }, + { + "avg_step_time": 5.407429174943403, + "epoch": 0.168, + "eta_time": 11.716096545710707, + "step": 1575 + }, + { + "epoch": 0.16810666666666665, + "grad_norm": 1.7599297726706264, + "learning_rate": 9.508585240467642e-06, + "loss": 0.4693, + "step": 1576 + }, + { + "avg_step_time": 5.413125623356212, + "epoch": 0.16810666666666665, + "eta_time": 11.72693520459864, + "step": 1576 + }, + { + "epoch": 0.16821333333333333, + "grad_norm": 1.5988340631031754, + "learning_rate": 9.507838136274887e-06, + "loss": 0.5195, + "step": 1577 + }, + { + "avg_step_time": 5.446959078913987, + "epoch": 0.16821333333333333, + "eta_time": 11.798718582603131, + "step": 1577 + }, + { + "epoch": 0.16832, + "grad_norm": 2.003223753026246, + "learning_rate": 9.507090493993677e-06, + "loss": 0.506, + "step": 1578 + }, + { + "avg_step_time": 5.446331525089765, + "epoch": 0.16832, + "eta_time": 11.795846361423584, + "step": 1578 + }, + { + "epoch": 0.16842666666666667, + "grad_norm": 1.6945614539103737, + "learning_rate": 9.50634231371326e-06, + "loss": 0.5366, + "step": 1579 + }, + { + "avg_step_time": 5.448030536825007, + "epoch": 0.16842666666666667, + "eta_time": 11.798012795857709, + "step": 1579 + }, + { + "epoch": 0.16853333333333334, + "grad_norm": 1.9114709642019485, + "learning_rate": 9.505593595522941e-06, + "loss": 0.5015, + "step": 1580 + }, + { + "avg_step_time": 5.446935569397127, + "epoch": 0.16853333333333334, + "eta_time": 11.794128545402947, + "step": 1580 + }, + { + "epoch": 0.16864, + "grad_norm": 1.6803999729555725, + "learning_rate": 9.504844339512096e-06, + "loss": 0.4879, + "step": 1581 + }, + { + "avg_step_time": 5.443241210898968, + "epoch": 0.16864, + "eta_time": 11.784617221596266, + "step": 1581 + }, + { + "epoch": 0.16874666666666666, + "grad_norm": 1.5920114123244027, + "learning_rate": 9.50409454577016e-06, + "loss": 0.519, + "step": 1582 + }, + { + "avg_step_time": 5.407097676787713, + "epoch": 0.16874666666666666, + "eta_time": 11.704864498668513, + "step": 1582 + }, + { + "epoch": 0.16885333333333333, + "grad_norm": 1.8443532617555227, + "learning_rate": 9.503344214386632e-06, + "loss": 0.4528, + "step": 1583 + }, + { + "avg_step_time": 5.407331558189007, + "epoch": 0.16885333333333333, + "eta_time": 11.703868750391319, + "step": 1583 + }, + { + "epoch": 0.16896, + "grad_norm": 1.4835337730965559, + "learning_rate": 9.502593345451078e-06, + "loss": 0.5287, + "step": 1584 + }, + { + "avg_step_time": 5.398904224838874, + "epoch": 0.16896, + "eta_time": 11.68412855992213, + "step": 1584 + }, + { + "epoch": 0.16906666666666667, + "grad_norm": 1.5985774040546261, + "learning_rate": 9.50184193905313e-06, + "loss": 0.4511, + "step": 1585 + }, + { + "avg_step_time": 5.362797366248237, + "epoch": 0.16906666666666667, + "eta_time": 11.604497634187156, + "step": 1585 + }, + { + "epoch": 0.16917333333333334, + "grad_norm": 1.3613409951752347, + "learning_rate": 9.501089995282478e-06, + "loss": 0.4433, + "step": 1586 + }, + { + "avg_step_time": 5.364484929075145, + "epoch": 0.16917333333333334, + "eta_time": 11.606659197935084, + "step": 1586 + }, + { + "epoch": 0.16928, + "grad_norm": 1.4522501624291912, + "learning_rate": 9.500337514228878e-06, + "loss": 0.4533, + "step": 1587 + }, + { + "avg_step_time": 5.3642776879397305, + "epoch": 0.16928, + "eta_time": 11.604720731576284, + "step": 1587 + }, + { + "epoch": 0.16938666666666666, + "grad_norm": 1.6342768432729384, + "learning_rate": 9.499584495982157e-06, + "loss": 0.4512, + "step": 1588 + }, + { + "avg_step_time": 5.36884976396657, + "epoch": 0.16938666666666666, + "eta_time": 11.613120308891022, + "step": 1588 + }, + { + "epoch": 0.16949333333333333, + "grad_norm": 0.6974391115811079, + "learning_rate": 9.498830940632199e-06, + "loss": 0.4253, + "step": 1589 + }, + { + "avg_step_time": 5.353152660408405, + "epoch": 0.16949333333333333, + "eta_time": 11.577679614983289, + "step": 1589 + }, + { + "epoch": 0.1696, + "grad_norm": 0.7070868924894546, + "learning_rate": 9.49807684826895e-06, + "loss": 0.4704, + "step": 1590 + }, + { + "avg_step_time": 5.316237189553001, + "epoch": 0.1696, + "eta_time": 11.496362922408364, + "step": 1590 + }, + { + "epoch": 0.16970666666666667, + "grad_norm": 1.8691172770933155, + "learning_rate": 9.49732221898243e-06, + "loss": 0.516, + "step": 1591 + }, + { + "avg_step_time": 5.312493319463248, + "epoch": 0.16970666666666667, + "eta_time": 11.486791110750534, + "step": 1591 + }, + { + "epoch": 0.16981333333333334, + "grad_norm": 1.7235647993486796, + "learning_rate": 9.496567052862713e-06, + "loss": 0.5435, + "step": 1592 + }, + { + "avg_step_time": 5.310856783028805, + "epoch": 0.16981333333333334, + "eta_time": 11.481777317309218, + "step": 1592 + }, + { + "epoch": 0.16992, + "grad_norm": 1.8313812078831202, + "learning_rate": 9.495811349999941e-06, + "loss": 0.5685, + "step": 1593 + }, + { + "avg_step_time": 5.3018484428675485, + "epoch": 0.16992, + "eta_time": 11.460829050665351, + "step": 1593 + }, + { + "epoch": 0.17002666666666666, + "grad_norm": 1.7907044240549679, + "learning_rate": 9.495055110484322e-06, + "loss": 0.5548, + "step": 1594 + }, + { + "avg_step_time": 5.308936569425795, + "epoch": 0.17002666666666666, + "eta_time": 11.474676512972808, + "step": 1594 + }, + { + "epoch": 0.17013333333333333, + "grad_norm": 0.6491859930602668, + "learning_rate": 9.494298334406125e-06, + "loss": 0.4528, + "step": 1595 + }, + { + "avg_step_time": 5.312944539869674, + "epoch": 0.17013333333333333, + "eta_time": 11.481863477829464, + "step": 1595 + }, + { + "epoch": 0.17024, + "grad_norm": 1.8204457999301564, + "learning_rate": 9.493541021855685e-06, + "loss": 0.6274, + "step": 1596 + }, + { + "avg_step_time": 5.2987610330485335, + "epoch": 0.17024, + "eta_time": 11.44973946557904, + "step": 1596 + }, + { + "epoch": 0.17034666666666667, + "grad_norm": 1.9077784052284634, + "learning_rate": 9.4927831729234e-06, + "loss": 0.5293, + "step": 1597 + }, + { + "avg_step_time": 5.392988347043895, + "epoch": 0.17034666666666667, + "eta_time": 11.65185093425206, + "step": 1597 + }, + { + "epoch": 0.17045333333333335, + "grad_norm": 0.6823961919719371, + "learning_rate": 9.492024787699733e-06, + "loss": 0.4704, + "step": 1598 + }, + { + "avg_step_time": 5.332811444696754, + "epoch": 0.17045333333333335, + "eta_time": 11.520354057057403, + "step": 1598 + }, + { + "epoch": 0.17056, + "grad_norm": 1.4976967653976216, + "learning_rate": 9.49126586627521e-06, + "loss": 0.6032, + "step": 1599 + }, + { + "avg_step_time": 5.33055539323826, + "epoch": 0.17056, + "eta_time": 11.513999649394641, + "step": 1599 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 1.416737485414391, + "learning_rate": 9.49050640874042e-06, + "loss": 0.4604, + "step": 1600 + }, + { + "avg_step_time": 5.32884659911647, + "epoch": 0.17066666666666666, + "eta_time": 11.508828418925154, + "step": 1600 + }, + { + "epoch": 0.17077333333333333, + "grad_norm": 1.5727771792409242, + "learning_rate": 9.48974641518602e-06, + "loss": 0.537, + "step": 1601 + }, + { + "avg_step_time": 5.335398849814829, + "epoch": 0.17077333333333333, + "eta_time": 11.52149740512791, + "step": 1601 + }, + { + "epoch": 0.17088, + "grad_norm": 1.6480582141230948, + "learning_rate": 9.488985885702728e-06, + "loss": 0.4408, + "step": 1602 + }, + { + "avg_step_time": 5.3381990423106185, + "epoch": 0.17088, + "eta_time": 11.52606143218901, + "step": 1602 + }, + { + "epoch": 0.17098666666666668, + "grad_norm": 1.6772084797120064, + "learning_rate": 9.488224820381324e-06, + "loss": 0.5181, + "step": 1603 + }, + { + "avg_step_time": 5.329083912300341, + "epoch": 0.17098666666666668, + "eta_time": 11.504900046221735, + "step": 1603 + }, + { + "epoch": 0.17109333333333332, + "grad_norm": 1.78611399082792, + "learning_rate": 9.487463219312657e-06, + "loss": 0.6493, + "step": 1604 + }, + { + "avg_step_time": 5.329895460244381, + "epoch": 0.17109333333333332, + "eta_time": 11.50517156154419, + "step": 1604 + }, + { + "epoch": 0.1712, + "grad_norm": 1.3143521359594095, + "learning_rate": 9.486701082587635e-06, + "loss": 0.4297, + "step": 1605 + }, + { + "avg_step_time": 5.355144695802168, + "epoch": 0.1712, + "eta_time": 11.558187301773012, + "step": 1605 + }, + { + "epoch": 0.17130666666666666, + "grad_norm": 1.4738578087032441, + "learning_rate": 9.485938410297233e-06, + "loss": 0.4606, + "step": 1606 + }, + { + "avg_step_time": 5.353527240078859, + "epoch": 0.17130666666666666, + "eta_time": 11.55320920227018, + "step": 1606 + }, + { + "epoch": 0.17141333333333333, + "grad_norm": 1.4817151230331194, + "learning_rate": 9.48517520253249e-06, + "loss": 0.4547, + "step": 1607 + }, + { + "avg_step_time": 5.350996542458582, + "epoch": 0.17141333333333333, + "eta_time": 11.546261428282852, + "step": 1607 + }, + { + "epoch": 0.17152, + "grad_norm": 1.4492774396969912, + "learning_rate": 9.484411459384508e-06, + "loss": 0.5694, + "step": 1608 + }, + { + "avg_step_time": 5.35887551789332, + "epoch": 0.17152, + "eta_time": 11.561773929854837, + "step": 1608 + }, + { + "epoch": 0.17162666666666668, + "grad_norm": 1.4322208060160821, + "learning_rate": 9.48364718094445e-06, + "loss": 0.4143, + "step": 1609 + }, + { + "avg_step_time": 5.359308854498044, + "epoch": 0.17162666666666668, + "eta_time": 11.561220156675503, + "step": 1609 + }, + { + "epoch": 0.17173333333333332, + "grad_norm": 1.408356859555189, + "learning_rate": 9.482882367303552e-06, + "loss": 0.5302, + "step": 1610 + }, + { + "avg_step_time": 5.372828825555667, + "epoch": 0.17173333333333332, + "eta_time": 11.588893286233263, + "step": 1610 + }, + { + "epoch": 0.17184, + "grad_norm": 1.9094552227522044, + "learning_rate": 9.482117018553101e-06, + "loss": 0.4655, + "step": 1611 + }, + { + "avg_step_time": 5.432115195977567, + "epoch": 0.17184, + "eta_time": 11.715261772658287, + "step": 1611 + }, + { + "epoch": 0.17194666666666666, + "grad_norm": 1.570494995225723, + "learning_rate": 9.481351134784458e-06, + "loss": 0.5141, + "step": 1612 + }, + { + "avg_step_time": 5.433656781610816, + "epoch": 0.17194666666666666, + "eta_time": 11.717077109901323, + "step": 1612 + }, + { + "epoch": 0.17205333333333334, + "grad_norm": 1.8493811875404116, + "learning_rate": 9.480584716089045e-06, + "loss": 0.5718, + "step": 1613 + }, + { + "avg_step_time": 5.404971763341114, + "epoch": 0.17205333333333334, + "eta_time": 11.65371967418159, + "step": 1613 + }, + { + "epoch": 0.17216, + "grad_norm": 1.7450011250579274, + "learning_rate": 9.479817762558345e-06, + "loss": 0.438, + "step": 1614 + }, + { + "avg_step_time": 5.442013193862607, + "epoch": 0.17216, + "eta_time": 11.732073443768805, + "step": 1614 + }, + { + "epoch": 0.17226666666666668, + "grad_norm": 1.669638937752463, + "learning_rate": 9.47905027428391e-06, + "loss": 0.5281, + "step": 1615 + }, + { + "avg_step_time": 5.44349127345615, + "epoch": 0.17226666666666668, + "eta_time": 11.73374785611659, + "step": 1615 + }, + { + "epoch": 0.17237333333333332, + "grad_norm": 1.745659954036874, + "learning_rate": 9.478282251357352e-06, + "loss": 0.5123, + "step": 1616 + }, + { + "avg_step_time": 5.433706334142974, + "epoch": 0.17237333333333332, + "eta_time": 11.711146512948703, + "step": 1616 + }, + { + "epoch": 0.17248, + "grad_norm": 1.4671604567444634, + "learning_rate": 9.477513693870347e-06, + "loss": 0.5124, + "step": 1617 + }, + { + "avg_step_time": 5.428289023312655, + "epoch": 0.17248, + "eta_time": 11.697962845238772, + "step": 1617 + }, + { + "epoch": 0.17258666666666667, + "grad_norm": 1.3805557885586146, + "learning_rate": 9.476744601914634e-06, + "loss": 0.4578, + "step": 1618 + }, + { + "avg_step_time": 5.431161273609508, + "epoch": 0.17258666666666667, + "eta_time": 11.702643888719154, + "step": 1618 + }, + { + "epoch": 0.17269333333333334, + "grad_norm": 1.548309698439479, + "learning_rate": 9.475974975582021e-06, + "loss": 0.5705, + "step": 1619 + }, + { + "avg_step_time": 5.39494566724758, + "epoch": 0.17269333333333334, + "eta_time": 11.623110720881176, + "step": 1619 + }, + { + "epoch": 0.1728, + "grad_norm": 2.0468445822629038, + "learning_rate": 9.475204814964374e-06, + "loss": 0.616, + "step": 1620 + }, + { + "avg_step_time": 5.396532239335956, + "epoch": 0.1728, + "eta_time": 11.62502986556954, + "step": 1620 + }, + { + "epoch": 0.17290666666666665, + "grad_norm": 1.6567269397818114, + "learning_rate": 9.474434120153626e-06, + "loss": 0.5992, + "step": 1621 + }, + { + "avg_step_time": 5.397890611128374, + "epoch": 0.17290666666666665, + "eta_time": 11.62645661074706, + "step": 1621 + }, + { + "epoch": 0.17301333333333332, + "grad_norm": 1.7851597455559771, + "learning_rate": 9.473662891241773e-06, + "loss": 0.5177, + "step": 1622 + }, + { + "avg_step_time": 5.398395906795155, + "epoch": 0.17301333333333332, + "eta_time": 11.626045407050787, + "step": 1622 + }, + { + "epoch": 0.17312, + "grad_norm": 1.9378814764367438, + "learning_rate": 9.472891128320874e-06, + "loss": 0.519, + "step": 1623 + }, + { + "avg_step_time": 5.400979909029874, + "epoch": 0.17312, + "eta_time": 11.630110070777661, + "step": 1623 + }, + { + "epoch": 0.17322666666666667, + "grad_norm": 1.888037201742301, + "learning_rate": 9.472118831483052e-06, + "loss": 0.5515, + "step": 1624 + }, + { + "avg_step_time": 5.401188229069565, + "epoch": 0.17322666666666667, + "eta_time": 11.629058323199502, + "step": 1624 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 1.650808277024016, + "learning_rate": 9.471346000820493e-06, + "loss": 0.3861, + "step": 1625 + }, + { + "avg_step_time": 5.432159640572288, + "epoch": 0.17333333333333334, + "eta_time": 11.694232559565343, + "step": 1625 + }, + { + "epoch": 0.17344, + "grad_norm": 1.4417490720624981, + "learning_rate": 9.470572636425451e-06, + "loss": 0.4582, + "step": 1626 + }, + { + "avg_step_time": 5.425731933478153, + "epoch": 0.17344, + "eta_time": 11.678887986811725, + "step": 1626 + }, + { + "epoch": 0.17354666666666665, + "grad_norm": 1.5779418630195745, + "learning_rate": 9.469798738390236e-06, + "loss": 0.5358, + "step": 1627 + }, + { + "avg_step_time": 5.426767421491219, + "epoch": 0.17354666666666665, + "eta_time": 11.67960943936499, + "step": 1627 + }, + { + "epoch": 0.17365333333333333, + "grad_norm": 1.5386478820395204, + "learning_rate": 9.469024306807229e-06, + "loss": 0.4629, + "step": 1628 + }, + { + "avg_step_time": 5.421567854255136, + "epoch": 0.17365333333333333, + "eta_time": 11.666912824142928, + "step": 1628 + }, + { + "epoch": 0.17376, + "grad_norm": 1.8686531119050405, + "learning_rate": 9.46824934176887e-06, + "loss": 0.5445, + "step": 1629 + }, + { + "avg_step_time": 5.418911310157391, + "epoch": 0.17376, + "eta_time": 11.659690835688652, + "step": 1629 + }, + { + "epoch": 0.17386666666666667, + "grad_norm": 1.6203745523590416, + "learning_rate": 9.467473843367668e-06, + "loss": 0.5024, + "step": 1630 + }, + { + "avg_step_time": 5.4161594805091315, + "epoch": 0.17386666666666667, + "eta_time": 11.652265326817561, + "step": 1630 + }, + { + "epoch": 0.17397333333333334, + "grad_norm": 1.6106058227478344, + "learning_rate": 9.46669781169619e-06, + "loss": 0.4501, + "step": 1631 + }, + { + "avg_step_time": 5.4166915151807995, + "epoch": 0.17397333333333334, + "eta_time": 11.651905303766696, + "step": 1631 + }, + { + "epoch": 0.17408, + "grad_norm": 1.7575642900666375, + "learning_rate": 9.465921246847067e-06, + "loss": 0.6096, + "step": 1632 + }, + { + "avg_step_time": 5.420138908155037, + "epoch": 0.17408, + "eta_time": 11.657815434956792, + "step": 1632 + }, + { + "epoch": 0.17418666666666666, + "grad_norm": 1.6838639542238307, + "learning_rate": 9.465144148912997e-06, + "loss": 0.5065, + "step": 1633 + }, + { + "avg_step_time": 5.418495048176158, + "epoch": 0.17418666666666666, + "eta_time": 11.652774628605506, + "step": 1633 + }, + { + "epoch": 0.17429333333333333, + "grad_norm": 1.6236913338633128, + "learning_rate": 9.46436651798674e-06, + "loss": 0.5039, + "step": 1634 + }, + { + "avg_step_time": 5.41676139831543, + "epoch": 0.17429333333333333, + "eta_time": 11.64754166232215, + "step": 1634 + }, + { + "epoch": 0.1744, + "grad_norm": 0.6766648037706999, + "learning_rate": 9.463588354161122e-06, + "loss": 0.4379, + "step": 1635 + }, + { + "avg_step_time": 5.382250378830264, + "epoch": 0.1744, + "eta_time": 11.571838314485067, + "step": 1635 + }, + { + "epoch": 0.17450666666666667, + "grad_norm": 1.6972855006640606, + "learning_rate": 9.462809657529025e-06, + "loss": 0.475, + "step": 1636 + }, + { + "avg_step_time": 5.4534847760441325, + "epoch": 0.17450666666666667, + "eta_time": 11.72347741161265, + "step": 1636 + }, + { + "epoch": 0.17461333333333334, + "grad_norm": 1.5657164019582361, + "learning_rate": 9.462030428183406e-06, + "loss": 0.4891, + "step": 1637 + }, + { + "avg_step_time": 5.46061840442696, + "epoch": 0.17461333333333334, + "eta_time": 11.737295892626616, + "step": 1637 + }, + { + "epoch": 0.17472, + "grad_norm": 1.6401220316935827, + "learning_rate": 9.461250666217277e-06, + "loss": 0.5388, + "step": 1638 + }, + { + "avg_step_time": 5.424986947666515, + "epoch": 0.17472, + "eta_time": 11.659201115026619, + "step": 1638 + }, + { + "epoch": 0.17482666666666666, + "grad_norm": 1.7508017781284966, + "learning_rate": 9.460470371723714e-06, + "loss": 0.5091, + "step": 1639 + }, + { + "avg_step_time": 5.458226644631588, + "epoch": 0.17482666666666666, + "eta_time": 11.729122589686101, + "step": 1639 + }, + { + "epoch": 0.17493333333333333, + "grad_norm": 1.69626277998981, + "learning_rate": 9.459689544795859e-06, + "loss": 0.5312, + "step": 1640 + }, + { + "avg_step_time": 5.445315934190846, + "epoch": 0.17493333333333333, + "eta_time": 11.699866319712832, + "step": 1640 + }, + { + "epoch": 0.17504, + "grad_norm": 1.7575690899670646, + "learning_rate": 9.458908185526921e-06, + "loss": 0.4214, + "step": 1641 + }, + { + "avg_step_time": 5.44710802068614, + "epoch": 0.17504, + "eta_time": 11.70220373110739, + "step": 1641 + }, + { + "epoch": 0.17514666666666667, + "grad_norm": 1.831566557185548, + "learning_rate": 9.458126294010164e-06, + "loss": 0.5155, + "step": 1642 + }, + { + "avg_step_time": 5.430526384199508, + "epoch": 0.17514666666666667, + "eta_time": 11.665072369170778, + "step": 1642 + }, + { + "epoch": 0.17525333333333334, + "grad_norm": 1.7078873772985004, + "learning_rate": 9.457343870338924e-06, + "loss": 0.4768, + "step": 1643 + }, + { + "avg_step_time": 5.47791004421735, + "epoch": 0.17525333333333334, + "eta_time": 11.76533346163571, + "step": 1643 + }, + { + "epoch": 0.17536, + "grad_norm": 2.1067951188259855, + "learning_rate": 9.456560914606594e-06, + "loss": 0.5546, + "step": 1644 + }, + { + "avg_step_time": 5.480499204963144, + "epoch": 0.17536, + "eta_time": 11.769372042658352, + "step": 1644 + }, + { + "epoch": 0.17546666666666666, + "grad_norm": 1.774153023814097, + "learning_rate": 9.455777426906635e-06, + "loss": 0.5421, + "step": 1645 + }, + { + "avg_step_time": 5.476899840615013, + "epoch": 0.17546666666666666, + "eta_time": 11.760121046653902, + "step": 1645 + }, + { + "epoch": 0.17557333333333333, + "grad_norm": 0.6545873426269414, + "learning_rate": 9.454993407332572e-06, + "loss": 0.4455, + "step": 1646 + }, + { + "avg_step_time": 5.441593957669808, + "epoch": 0.17557333333333333, + "eta_time": 11.68279991634165, + "step": 1646 + }, + { + "epoch": 0.17568, + "grad_norm": 1.6191016745312423, + "learning_rate": 9.454208855977986e-06, + "loss": 0.561, + "step": 1647 + }, + { + "avg_step_time": 5.467531873722269, + "epoch": 0.17568, + "eta_time": 11.736968422257137, + "step": 1647 + }, + { + "epoch": 0.17578666666666667, + "grad_norm": 1.712570359247082, + "learning_rate": 9.453423772936529e-06, + "loss": 0.4476, + "step": 1648 + }, + { + "avg_step_time": 5.468183765507708, + "epoch": 0.17578666666666667, + "eta_time": 11.73684887668835, + "step": 1648 + }, + { + "epoch": 0.17589333333333335, + "grad_norm": 1.776047829088188, + "learning_rate": 9.452638158301917e-06, + "loss": 0.461, + "step": 1649 + }, + { + "avg_step_time": 5.477724263162324, + "epoch": 0.17589333333333335, + "eta_time": 11.755804904775587, + "step": 1649 + }, + { + "epoch": 0.176, + "grad_norm": 1.636947493578849, + "learning_rate": 9.451852012167924e-06, + "loss": 0.4546, + "step": 1650 + }, + { + "avg_step_time": 5.478900875708069, + "epoch": 0.176, + "eta_time": 11.756808129123565, + "step": 1650 + }, + { + "epoch": 0.17610666666666666, + "grad_norm": 1.726182693400025, + "learning_rate": 9.45106533462839e-06, + "loss": 0.5509, + "step": 1651 + }, + { + "avg_step_time": 5.479906674587365, + "epoch": 0.17610666666666666, + "eta_time": 11.757444209586891, + "step": 1651 + }, + { + "epoch": 0.17621333333333333, + "grad_norm": 1.7422434533729054, + "learning_rate": 9.45027812577722e-06, + "loss": 0.5277, + "step": 1652 + }, + { + "avg_step_time": 5.51555094574437, + "epoch": 0.17621333333333333, + "eta_time": 11.832388876106604, + "step": 1652 + }, + { + "epoch": 0.17632, + "grad_norm": 1.608434563749906, + "learning_rate": 9.449490385708378e-06, + "loss": 0.5214, + "step": 1653 + }, + { + "avg_step_time": 5.557199454066729, + "epoch": 0.17632, + "eta_time": 11.920192828973134, + "step": 1653 + }, + { + "epoch": 0.17642666666666668, + "grad_norm": 0.6568439945745779, + "learning_rate": 9.448702114515897e-06, + "loss": 0.4497, + "step": 1654 + }, + { + "avg_step_time": 5.557660175092293, + "epoch": 0.17642666666666668, + "eta_time": 11.919637281079888, + "step": 1654 + }, + { + "epoch": 0.17653333333333332, + "grad_norm": 0.6409433909307524, + "learning_rate": 9.447913312293872e-06, + "loss": 0.4484, + "step": 1655 + }, + { + "avg_step_time": 5.523659927676422, + "epoch": 0.17653333333333332, + "eta_time": 11.845181844906106, + "step": 1655 + }, + { + "epoch": 0.17664, + "grad_norm": 1.8202416422875531, + "learning_rate": 9.447123979136457e-06, + "loss": 0.5919, + "step": 1656 + }, + { + "avg_step_time": 5.5616821472090905, + "epoch": 0.17664, + "eta_time": 11.925173470640825, + "step": 1656 + }, + { + "epoch": 0.17674666666666666, + "grad_norm": 1.6399572539107354, + "learning_rate": 9.446334115137876e-06, + "loss": 0.4803, + "step": 1657 + }, + { + "avg_step_time": 5.599940882788764, + "epoch": 0.17674666666666666, + "eta_time": 12.005651037045467, + "step": 1657 + }, + { + "epoch": 0.17685333333333333, + "grad_norm": 1.6869658221101984, + "learning_rate": 9.44554372039241e-06, + "loss": 0.5564, + "step": 1658 + }, + { + "avg_step_time": 5.601742527701638, + "epoch": 0.17685333333333333, + "eta_time": 12.00795752396487, + "step": 1658 + }, + { + "epoch": 0.17696, + "grad_norm": 1.6879787303354237, + "learning_rate": 9.444752794994408e-06, + "loss": 0.509, + "step": 1659 + }, + { + "avg_step_time": 5.603650242391259, + "epoch": 0.17696, + "eta_time": 12.010490352858598, + "step": 1659 + }, + { + "epoch": 0.17706666666666668, + "grad_norm": 1.7098909898143801, + "learning_rate": 9.443961339038278e-06, + "loss": 0.5017, + "step": 1660 + }, + { + "avg_step_time": 5.647112711511477, + "epoch": 0.17706666666666668, + "eta_time": 12.102076269253068, + "step": 1660 + }, + { + "epoch": 0.17717333333333332, + "grad_norm": 1.5545815384857429, + "learning_rate": 9.443169352618498e-06, + "loss": 0.4571, + "step": 1661 + }, + { + "avg_step_time": 5.638766175568706, + "epoch": 0.17717333333333332, + "eta_time": 12.082622855093609, + "step": 1661 + }, + { + "epoch": 0.17728, + "grad_norm": 1.518285957846043, + "learning_rate": 9.4423768358296e-06, + "loss": 0.4802, + "step": 1662 + }, + { + "avg_step_time": 5.677012694002402, + "epoch": 0.17728, + "eta_time": 12.162999696900146, + "step": 1662 + }, + { + "epoch": 0.17738666666666666, + "grad_norm": 1.4778447356315785, + "learning_rate": 9.441583788766191e-06, + "loss": 0.4926, + "step": 1663 + }, + { + "avg_step_time": 5.712255865636498, + "epoch": 0.17738666666666666, + "eta_time": 12.236921454385744, + "step": 1663 + }, + { + "epoch": 0.17749333333333334, + "grad_norm": 1.7830625963341418, + "learning_rate": 9.44079021152293e-06, + "loss": 0.5187, + "step": 1664 + }, + { + "avg_step_time": 5.708538503357858, + "epoch": 0.17749333333333334, + "eta_time": 12.227372333164569, + "step": 1664 + }, + { + "epoch": 0.1776, + "grad_norm": 1.741981525659213, + "learning_rate": 9.439996104194546e-06, + "loss": 0.5317, + "step": 1665 + }, + { + "avg_step_time": 5.7087316103655885, + "epoch": 0.1776, + "eta_time": 12.226200198866302, + "step": 1665 + }, + { + "epoch": 0.17770666666666668, + "grad_norm": 1.8705173895754117, + "learning_rate": 9.439201466875831e-06, + "loss": 0.4414, + "step": 1666 + }, + { + "avg_step_time": 5.697001601710464, + "epoch": 0.17770666666666668, + "eta_time": 12.199495929884991, + "step": 1666 + }, + { + "epoch": 0.17781333333333332, + "grad_norm": 1.829450129500759, + "learning_rate": 9.438406299661636e-06, + "loss": 0.4926, + "step": 1667 + }, + { + "avg_step_time": 5.70010604280414, + "epoch": 0.17781333333333332, + "eta_time": 12.204560382759531, + "step": 1667 + }, + { + "epoch": 0.17792, + "grad_norm": 1.777412166855773, + "learning_rate": 9.437610602646878e-06, + "loss": 0.6237, + "step": 1668 + }, + { + "avg_step_time": 5.700560863571938, + "epoch": 0.17792, + "eta_time": 12.203950715430258, + "step": 1668 + }, + { + "epoch": 0.17802666666666667, + "grad_norm": 1.7323030774277832, + "learning_rate": 9.43681437592654e-06, + "loss": 0.4722, + "step": 1669 + }, + { + "avg_step_time": 5.726540986937706, + "epoch": 0.17802666666666667, + "eta_time": 12.2579791237061, + "step": 1669 + }, + { + "epoch": 0.17813333333333334, + "grad_norm": 1.490629296856326, + "learning_rate": 9.43601761959566e-06, + "loss": 0.4841, + "step": 1670 + }, + { + "avg_step_time": 5.7173214608972724, + "epoch": 0.17813333333333334, + "eta_time": 12.236656071170414, + "step": 1670 + }, + { + "epoch": 0.17824, + "grad_norm": 1.8882183111978998, + "learning_rate": 9.43522033374935e-06, + "loss": 0.436, + "step": 1671 + }, + { + "avg_step_time": 5.714944738330263, + "epoch": 0.17824, + "eta_time": 12.229981740026762, + "step": 1671 + }, + { + "epoch": 0.17834666666666665, + "grad_norm": 1.6267725079896604, + "learning_rate": 9.43442251848278e-06, + "loss": 0.513, + "step": 1672 + }, + { + "avg_step_time": 5.712202611595694, + "epoch": 0.17834666666666665, + "eta_time": 12.222526865867119, + "step": 1672 + }, + { + "epoch": 0.17845333333333332, + "grad_norm": 1.6033961636208645, + "learning_rate": 9.433624173891181e-06, + "loss": 0.5956, + "step": 1673 + }, + { + "avg_step_time": 5.748108741008874, + "epoch": 0.17845333333333332, + "eta_time": 12.297759312013987, + "step": 1673 + }, + { + "epoch": 0.17856, + "grad_norm": 1.8146789060172102, + "learning_rate": 9.432825300069848e-06, + "loss": 0.5593, + "step": 1674 + }, + { + "avg_step_time": 5.783249154235378, + "epoch": 0.17856, + "eta_time": 12.371333815768512, + "step": 1674 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 0.8167047691394574, + "learning_rate": 9.43202589711414e-06, + "loss": 0.4614, + "step": 1675 + }, + { + "avg_step_time": 5.738968743218316, + "epoch": 0.17866666666666667, + "eta_time": 12.275016478550286, + "step": 1675 + }, + { + "epoch": 0.17877333333333334, + "grad_norm": 1.674781886681226, + "learning_rate": 9.431225965119483e-06, + "loss": 0.5234, + "step": 1676 + }, + { + "avg_step_time": 5.738006285946779, + "epoch": 0.17877333333333334, + "eta_time": 12.27136399875118, + "step": 1676 + }, + { + "epoch": 0.17888, + "grad_norm": 1.569785662697745, + "learning_rate": 9.430425504181361e-06, + "loss": 0.5239, + "step": 1677 + }, + { + "avg_step_time": 5.739075583640975, + "epoch": 0.17888, + "eta_time": 12.272056623018951, + "step": 1677 + }, + { + "epoch": 0.17898666666666666, + "grad_norm": 1.6727803445847134, + "learning_rate": 9.429624514395324e-06, + "loss": 0.4784, + "step": 1678 + }, + { + "avg_step_time": 5.755830957431986, + "epoch": 0.17898666666666666, + "eta_time": 12.306286355376109, + "step": 1678 + }, + { + "epoch": 0.17909333333333333, + "grad_norm": 1.7442055867688961, + "learning_rate": 9.428822995856984e-06, + "loss": 0.4241, + "step": 1679 + }, + { + "avg_step_time": 5.757684406608042, + "epoch": 0.17909333333333333, + "eta_time": 12.308649775904303, + "step": 1679 + }, + { + "epoch": 0.1792, + "grad_norm": 1.5532886137178596, + "learning_rate": 9.428020948662012e-06, + "loss": 0.5194, + "step": 1680 + }, + { + "avg_step_time": 5.759226370339442, + "epoch": 0.1792, + "eta_time": 12.310346366600555, + "step": 1680 + }, + { + "epoch": 0.17930666666666667, + "grad_norm": 1.7630661316264258, + "learning_rate": 9.427218372906151e-06, + "loss": 0.4743, + "step": 1681 + }, + { + "avg_step_time": 5.762901383216935, + "epoch": 0.17930666666666667, + "eta_time": 12.316600900686415, + "step": 1681 + }, + { + "epoch": 0.17941333333333334, + "grad_norm": 1.7502563647265796, + "learning_rate": 9.426415268685198e-06, + "loss": 0.4774, + "step": 1682 + }, + { + "avg_step_time": 5.761547584726353, + "epoch": 0.17941333333333334, + "eta_time": 12.312107102583287, + "step": 1682 + }, + { + "epoch": 0.17952, + "grad_norm": 1.5957758529039214, + "learning_rate": 9.425611636095023e-06, + "loss": 0.4725, + "step": 1683 + }, + { + "avg_step_time": 5.767453232196846, + "epoch": 0.17952, + "eta_time": 12.323125072793928, + "step": 1683 + }, + { + "epoch": 0.17962666666666666, + "grad_norm": 1.3973692178110002, + "learning_rate": 9.424807475231548e-06, + "loss": 0.4947, + "step": 1684 + }, + { + "avg_step_time": 5.767731172869904, + "epoch": 0.17962666666666666, + "eta_time": 12.322116791817342, + "step": 1684 + }, + { + "epoch": 0.17973333333333333, + "grad_norm": 0.6782112072338429, + "learning_rate": 9.424002786190768e-06, + "loss": 0.4555, + "step": 1685 + }, + { + "avg_step_time": 5.7299749297325056, + "epoch": 0.17973333333333333, + "eta_time": 12.239863113789712, + "step": 1685 + }, + { + "epoch": 0.17984, + "grad_norm": 1.6048244158798861, + "learning_rate": 9.423197569068733e-06, + "loss": 0.4447, + "step": 1686 + }, + { + "avg_step_time": 5.727926418034717, + "epoch": 0.17984, + "eta_time": 12.23389617451915, + "step": 1686 + }, + { + "epoch": 0.17994666666666667, + "grad_norm": 1.5084367478277516, + "learning_rate": 9.42239182396156e-06, + "loss": 0.4792, + "step": 1687 + }, + { + "avg_step_time": 5.723036265132403, + "epoch": 0.17994666666666667, + "eta_time": 12.22186189064942, + "step": 1687 + }, + { + "epoch": 0.18005333333333334, + "grad_norm": 1.7194243073036037, + "learning_rate": 9.421585550965432e-06, + "loss": 0.5128, + "step": 1688 + }, + { + "avg_step_time": 5.734608958465884, + "epoch": 0.18005333333333334, + "eta_time": 12.24498307325757, + "step": 1688 + }, + { + "epoch": 0.18016, + "grad_norm": 0.6314828990147136, + "learning_rate": 9.420778750176588e-06, + "loss": 0.4505, + "step": 1689 + }, + { + "avg_step_time": 5.734463515907827, + "epoch": 0.18016, + "eta_time": 12.243079606463212, + "step": 1689 + }, + { + "epoch": 0.18026666666666666, + "grad_norm": 1.4652752500178927, + "learning_rate": 9.419971421691335e-06, + "loss": 0.498, + "step": 1690 + }, + { + "avg_step_time": 5.73677992339086, + "epoch": 0.18026666666666666, + "eta_time": 12.246431586460767, + "step": 1690 + }, + { + "epoch": 0.18037333333333333, + "grad_norm": 1.9036039045736333, + "learning_rate": 9.419163565606042e-06, + "loss": 0.5111, + "step": 1691 + }, + { + "avg_step_time": 5.736847752272481, + "epoch": 0.18037333333333333, + "eta_time": 12.244982813461595, + "step": 1691 + }, + { + "epoch": 0.18048, + "grad_norm": 2.10147658997637, + "learning_rate": 9.418355182017138e-06, + "loss": 0.5408, + "step": 1692 + }, + { + "avg_step_time": 5.733405214367491, + "epoch": 0.18048, + "eta_time": 12.236042294995954, + "step": 1692 + }, + { + "epoch": 0.18058666666666667, + "grad_norm": 1.814329735999027, + "learning_rate": 9.417546271021122e-06, + "loss": 0.5131, + "step": 1693 + }, + { + "avg_step_time": 5.726905338691942, + "epoch": 0.18058666666666667, + "eta_time": 12.220579669953196, + "step": 1693 + }, + { + "epoch": 0.18069333333333334, + "grad_norm": 1.8650224281828784, + "learning_rate": 9.416736832714547e-06, + "loss": 0.5406, + "step": 1694 + }, + { + "avg_step_time": 5.763358087250681, + "epoch": 0.18069333333333334, + "eta_time": 12.296764852270133, + "step": 1694 + }, + { + "epoch": 0.1808, + "grad_norm": 1.8556832060533288, + "learning_rate": 9.41592686719404e-06, + "loss": 0.5568, + "step": 1695 + }, + { + "avg_step_time": 5.769139265773272, + "epoch": 0.1808, + "eta_time": 12.307497100316313, + "step": 1695 + }, + { + "epoch": 0.18090666666666666, + "grad_norm": 0.6125483299902595, + "learning_rate": 9.415116374556276e-06, + "loss": 0.4362, + "step": 1696 + }, + { + "avg_step_time": 5.699631943847194, + "epoch": 0.18090666666666666, + "eta_time": 12.157631582445168, + "step": 1696 + }, + { + "epoch": 0.18101333333333333, + "grad_norm": 0.6662575152029757, + "learning_rate": 9.414305354898005e-06, + "loss": 0.4747, + "step": 1697 + }, + { + "avg_step_time": 5.702097302735454, + "epoch": 0.18101333333333333, + "eta_time": 12.161306414000782, + "step": 1697 + }, + { + "epoch": 0.18112, + "grad_norm": 1.4902752658430543, + "learning_rate": 9.413493808316038e-06, + "loss": 0.4605, + "step": 1698 + }, + { + "avg_step_time": 5.703790907907968, + "epoch": 0.18112, + "eta_time": 12.163334111113741, + "step": 1698 + }, + { + "epoch": 0.18122666666666667, + "grad_norm": 1.9389818848906186, + "learning_rate": 9.412681734907246e-06, + "loss": 0.5781, + "step": 1699 + }, + { + "avg_step_time": 5.705312952850804, + "epoch": 0.18122666666666667, + "eta_time": 12.16499506280077, + "step": 1699 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 1.7107878955668583, + "learning_rate": 9.411869134768563e-06, + "loss": 0.4616, + "step": 1700 + }, + { + "avg_step_time": 5.6958417820208, + "epoch": 0.18133333333333335, + "eta_time": 12.143218243613788, + "step": 1700 + }, + { + "epoch": 0.18144, + "grad_norm": 1.7101971261102236, + "learning_rate": 9.411056007996989e-06, + "loss": 0.4875, + "step": 1701 + }, + { + "avg_step_time": 5.693997026693942, + "epoch": 0.18144, + "eta_time": 12.137703661902586, + "step": 1701 + }, + { + "epoch": 0.18154666666666666, + "grad_norm": 1.6715400669867524, + "learning_rate": 9.410242354689582e-06, + "loss": 0.4327, + "step": 1702 + }, + { + "avg_step_time": 5.697023793904468, + "epoch": 0.18154666666666666, + "eta_time": 12.142573214063606, + "step": 1702 + }, + { + "epoch": 0.18165333333333333, + "grad_norm": 1.6958914280876365, + "learning_rate": 9.409428174943468e-06, + "loss": 0.486, + "step": 1703 + }, + { + "avg_step_time": 5.703699044506959, + "epoch": 0.18165333333333333, + "eta_time": 12.155216408182609, + "step": 1703 + }, + { + "epoch": 0.18176, + "grad_norm": 1.828850660465412, + "learning_rate": 9.408613468855829e-06, + "loss": 0.4688, + "step": 1704 + }, + { + "avg_step_time": 5.7037352817227145, + "epoch": 0.18176, + "eta_time": 12.15370926280415, + "step": 1704 + }, + { + "epoch": 0.18186666666666668, + "grad_norm": 1.7933088928544594, + "learning_rate": 9.407798236523921e-06, + "loss": 0.5393, + "step": 1705 + }, + { + "avg_step_time": 5.702144959960321, + "epoch": 0.18186666666666668, + "eta_time": 12.148736623026572, + "step": 1705 + }, + { + "epoch": 0.18197333333333332, + "grad_norm": 1.7128185457299385, + "learning_rate": 9.406982478045052e-06, + "loss": 0.4927, + "step": 1706 + }, + { + "avg_step_time": 5.711771671218101, + "epoch": 0.18197333333333332, + "eta_time": 12.167660262936561, + "step": 1706 + }, + { + "epoch": 0.18208, + "grad_norm": 2.504438285860609, + "learning_rate": 9.406166193516596e-06, + "loss": 0.57, + "step": 1707 + }, + { + "avg_step_time": 5.734514265349417, + "epoch": 0.18208, + "eta_time": 12.21451538519426, + "step": 1707 + }, + { + "epoch": 0.18218666666666666, + "grad_norm": 1.6802051190520824, + "learning_rate": 9.405349383035995e-06, + "loss": 0.4796, + "step": 1708 + }, + { + "avg_step_time": 5.737656273023046, + "epoch": 0.18218666666666666, + "eta_time": 12.219614068129916, + "step": 1708 + }, + { + "epoch": 0.18229333333333334, + "grad_norm": 0.6858757328256209, + "learning_rate": 9.404532046700745e-06, + "loss": 0.4506, + "step": 1709 + }, + { + "avg_step_time": 5.690533430889399, + "epoch": 0.18229333333333334, + "eta_time": 12.117674800332814, + "step": 1709 + }, + { + "epoch": 0.1824, + "grad_norm": 0.7072407281763738, + "learning_rate": 9.403714184608411e-06, + "loss": 0.4652, + "step": 1710 + }, + { + "avg_step_time": 5.623738746450405, + "epoch": 0.1824, + "eta_time": 11.973877080983986, + "step": 1710 + }, + { + "epoch": 0.18250666666666668, + "grad_norm": 1.8251789247596792, + "learning_rate": 9.402895796856619e-06, + "loss": 0.5106, + "step": 1711 + }, + { + "avg_step_time": 5.623960449238016, + "epoch": 0.18250666666666668, + "eta_time": 11.972786911933376, + "step": 1711 + }, + { + "epoch": 0.18261333333333332, + "grad_norm": 1.5747581747218846, + "learning_rate": 9.40207688354306e-06, + "loss": 0.5281, + "step": 1712 + }, + { + "avg_step_time": 5.62952905231052, + "epoch": 0.18261333333333332, + "eta_time": 11.983078091070977, + "step": 1712 + }, + { + "epoch": 0.18272, + "grad_norm": 1.653231567275593, + "learning_rate": 9.40125744476548e-06, + "loss": 0.4288, + "step": 1713 + }, + { + "avg_step_time": 5.59128816440852, + "epoch": 0.18272, + "eta_time": 11.9001249765828, + "step": 1713 + }, + { + "epoch": 0.18282666666666667, + "grad_norm": 1.9655963588876078, + "learning_rate": 9.400437480621697e-06, + "loss": 0.5273, + "step": 1714 + }, + { + "avg_step_time": 5.590011534064707, + "epoch": 0.18282666666666667, + "eta_time": 11.895855100686033, + "step": 1714 + }, + { + "epoch": 0.18293333333333334, + "grad_norm": 1.46105771511556, + "learning_rate": 9.399616991209587e-06, + "loss": 0.4418, + "step": 1715 + }, + { + "avg_step_time": 5.587161056923144, + "epoch": 0.18293333333333334, + "eta_time": 11.888237137786467, + "step": 1715 + }, + { + "epoch": 0.18304, + "grad_norm": 1.6982994906504902, + "learning_rate": 9.398795976627091e-06, + "loss": 0.456, + "step": 1716 + }, + { + "avg_step_time": 5.62145736964062, + "epoch": 0.18304, + "eta_time": 11.959650553910418, + "step": 1716 + }, + { + "epoch": 0.18314666666666668, + "grad_norm": 0.6806626578972257, + "learning_rate": 9.397974436972208e-06, + "loss": 0.4581, + "step": 1717 + }, + { + "avg_step_time": 5.590456632652668, + "epoch": 0.18314666666666668, + "eta_time": 11.89214358134837, + "step": 1717 + }, + { + "epoch": 0.18325333333333332, + "grad_norm": 1.7107182989430318, + "learning_rate": 9.397152372343008e-06, + "loss": 0.4909, + "step": 1718 + }, + { + "avg_step_time": 5.601880752679073, + "epoch": 0.18325333333333332, + "eta_time": 11.914889145351017, + "step": 1718 + }, + { + "epoch": 0.18336, + "grad_norm": 1.6595804145695225, + "learning_rate": 9.396329782837614e-06, + "loss": 0.4825, + "step": 1719 + }, + { + "avg_step_time": 5.598736124809342, + "epoch": 0.18336, + "eta_time": 11.906645492094533, + "step": 1719 + }, + { + "epoch": 0.18346666666666667, + "grad_norm": 1.8020653385859662, + "learning_rate": 9.395506668554218e-06, + "loss": 0.5388, + "step": 1720 + }, + { + "avg_step_time": 5.6007437079843845, + "epoch": 0.18346666666666667, + "eta_time": 11.909359190172351, + "step": 1720 + }, + { + "epoch": 0.18357333333333334, + "grad_norm": 1.6009938133199004, + "learning_rate": 9.394683029591074e-06, + "loss": 0.5193, + "step": 1721 + }, + { + "avg_step_time": 5.5991337636504515, + "epoch": 0.18357333333333334, + "eta_time": 11.904380507494599, + "step": 1721 + }, + { + "epoch": 0.18368, + "grad_norm": 1.5686871508014568, + "learning_rate": 9.393858866046494e-06, + "loss": 0.4739, + "step": 1722 + }, + { + "avg_step_time": 5.5971336485159515, + "epoch": 0.18368, + "eta_time": 11.898573281136827, + "step": 1722 + }, + { + "epoch": 0.18378666666666665, + "grad_norm": 1.582712353611938, + "learning_rate": 9.39303417801886e-06, + "loss": 0.5419, + "step": 1723 + }, + { + "avg_step_time": 5.595411808803828, + "epoch": 0.18378666666666665, + "eta_time": 11.893358655824136, + "step": 1723 + }, + { + "epoch": 0.18389333333333333, + "grad_norm": 1.6471624443371278, + "learning_rate": 9.392208965606613e-06, + "loss": 0.5218, + "step": 1724 + }, + { + "avg_step_time": 5.594825648298167, + "epoch": 0.18389333333333333, + "eta_time": 11.890558620869243, + "step": 1724 + }, + { + "epoch": 0.184, + "grad_norm": 1.8706591680826161, + "learning_rate": 9.391383228908253e-06, + "loss": 0.4994, + "step": 1725 + }, + { + "avg_step_time": 5.590407335396969, + "epoch": 0.184, + "eta_time": 11.87961558771856, + "step": 1725 + }, + { + "epoch": 0.18410666666666667, + "grad_norm": 1.5045021031460302, + "learning_rate": 9.390556968022348e-06, + "loss": 0.5259, + "step": 1726 + }, + { + "avg_step_time": 5.5922416340221055, + "epoch": 0.18410666666666667, + "eta_time": 11.88196007184308, + "step": 1726 + }, + { + "epoch": 0.18421333333333334, + "grad_norm": 1.968781395667417, + "learning_rate": 9.389730183047528e-06, + "loss": 0.531, + "step": 1727 + }, + { + "avg_step_time": 5.59151573132987, + "epoch": 0.18421333333333334, + "eta_time": 11.878864531447457, + "step": 1727 + }, + { + "epoch": 0.18432, + "grad_norm": 1.72755418757999, + "learning_rate": 9.388902874082482e-06, + "loss": 0.5082, + "step": 1728 + }, + { + "avg_step_time": 5.592656923062874, + "epoch": 0.18432, + "eta_time": 11.879735414072721, + "step": 1728 + }, + { + "epoch": 0.18442666666666666, + "grad_norm": 1.5506894096066288, + "learning_rate": 9.388075041225962e-06, + "loss": 0.434, + "step": 1729 + }, + { + "avg_step_time": 5.601676456856005, + "epoch": 0.18442666666666666, + "eta_time": 11.897338385866947, + "step": 1729 + }, + { + "epoch": 0.18453333333333333, + "grad_norm": 1.7268230229266561, + "learning_rate": 9.387246684576788e-06, + "loss": 0.4947, + "step": 1730 + }, + { + "avg_step_time": 5.609776405373005, + "epoch": 0.18453333333333333, + "eta_time": 11.912983505299062, + "step": 1730 + }, + { + "epoch": 0.18464, + "grad_norm": 1.5879631890373451, + "learning_rate": 9.386417804233836e-06, + "loss": 0.5629, + "step": 1731 + }, + { + "avg_step_time": 5.615294138590495, + "epoch": 0.18464, + "eta_time": 11.923141220940485, + "step": 1731 + }, + { + "epoch": 0.18474666666666667, + "grad_norm": 1.6714418922263032, + "learning_rate": 9.385588400296049e-06, + "loss": 0.5484, + "step": 1732 + }, + { + "avg_step_time": 5.616795739742241, + "epoch": 0.18474666666666667, + "eta_time": 11.924769399680539, + "step": 1732 + }, + { + "epoch": 0.18485333333333334, + "grad_norm": 1.8316000217285926, + "learning_rate": 9.384758472862428e-06, + "loss": 0.5622, + "step": 1733 + }, + { + "avg_step_time": 5.616633003408259, + "epoch": 0.18485333333333334, + "eta_time": 11.922863725568309, + "step": 1733 + }, + { + "epoch": 0.18496, + "grad_norm": 1.9157347385591537, + "learning_rate": 9.383928022032044e-06, + "loss": 0.5577, + "step": 1734 + }, + { + "avg_step_time": 5.651917394965586, + "epoch": 0.18496, + "eta_time": 11.996194670814456, + "step": 1734 + }, + { + "epoch": 0.18506666666666666, + "grad_norm": 1.7788641183359828, + "learning_rate": 9.38309704790402e-06, + "loss": 0.5064, + "step": 1735 + }, + { + "avg_step_time": 5.610201951229211, + "epoch": 0.18506666666666666, + "eta_time": 11.906095252053104, + "step": 1735 + }, + { + "epoch": 0.18517333333333333, + "grad_norm": 1.6363642821387425, + "learning_rate": 9.382265550577549e-06, + "loss": 0.5143, + "step": 1736 + }, + { + "avg_step_time": 5.626803118773181, + "epoch": 0.18517333333333333, + "eta_time": 11.939763617863425, + "step": 1736 + }, + { + "epoch": 0.18528, + "grad_norm": 0.6387407864586508, + "learning_rate": 9.381433530151887e-06, + "loss": 0.4624, + "step": 1737 + }, + { + "avg_step_time": 5.5929796334468955, + "epoch": 0.18528, + "eta_time": 11.86643845562983, + "step": 1737 + }, + { + "epoch": 0.18538666666666667, + "grad_norm": 1.8432815143083787, + "learning_rate": 9.380600986726349e-06, + "loss": 0.5826, + "step": 1738 + }, + { + "avg_step_time": 5.593017534776167, + "epoch": 0.18538666666666667, + "eta_time": 11.864965253634885, + "step": 1738 + }, + { + "epoch": 0.18549333333333334, + "grad_norm": 0.6666549025726031, + "learning_rate": 9.379767920400313e-06, + "loss": 0.4639, + "step": 1739 + }, + { + "avg_step_time": 5.557103763927113, + "epoch": 0.18549333333333334, + "eta_time": 11.787234539263176, + "step": 1739 + }, + { + "epoch": 0.1856, + "grad_norm": 1.6461318833990175, + "learning_rate": 9.37893433127322e-06, + "loss": 0.4436, + "step": 1740 + }, + { + "avg_step_time": 5.554632206155796, + "epoch": 0.1856, + "eta_time": 11.780449137222085, + "step": 1740 + }, + { + "epoch": 0.18570666666666666, + "grad_norm": 0.6253710134179288, + "learning_rate": 9.37810021944457e-06, + "loss": 0.4519, + "step": 1741 + }, + { + "avg_step_time": 5.52479473027316, + "epoch": 0.18570666666666666, + "eta_time": 11.715634158584807, + "step": 1741 + }, + { + "epoch": 0.18581333333333333, + "grad_norm": 1.661755779369273, + "learning_rate": 9.377265585013934e-06, + "loss": 0.5195, + "step": 1742 + }, + { + "avg_step_time": 5.50896017479174, + "epoch": 0.18581333333333333, + "eta_time": 11.68052583727371, + "step": 1742 + }, + { + "epoch": 0.18592, + "grad_norm": 1.8470036121244184, + "learning_rate": 9.376430428080939e-06, + "loss": 0.5488, + "step": 1743 + }, + { + "avg_step_time": 5.504144047245835, + "epoch": 0.18592, + "eta_time": 11.668785380161172, + "step": 1743 + }, + { + "epoch": 0.18602666666666667, + "grad_norm": 0.6695149925541045, + "learning_rate": 9.375594748745271e-06, + "loss": 0.4675, + "step": 1744 + }, + { + "avg_step_time": 5.46984910724139, + "epoch": 0.18602666666666667, + "eta_time": 11.594560704821957, + "step": 1744 + }, + { + "epoch": 0.18613333333333335, + "grad_norm": 1.6770483793123805, + "learning_rate": 9.374758547106689e-06, + "loss": 0.526, + "step": 1745 + }, + { + "avg_step_time": 5.504828243544607, + "epoch": 0.18613333333333335, + "eta_time": 11.667177638401487, + "step": 1745 + }, + { + "epoch": 0.18624, + "grad_norm": 1.6091237405499483, + "learning_rate": 9.373921823265004e-06, + "loss": 0.5534, + "step": 1746 + }, + { + "avg_step_time": 5.475971662636959, + "epoch": 0.18624, + "eta_time": 11.60449661507149, + "step": 1746 + }, + { + "epoch": 0.18634666666666666, + "grad_norm": 0.6464935578373303, + "learning_rate": 9.373084577320092e-06, + "loss": 0.4767, + "step": 1747 + }, + { + "avg_step_time": 5.440324525640468, + "epoch": 0.18634666666666666, + "eta_time": 11.527443189329302, + "step": 1747 + }, + { + "epoch": 0.18645333333333333, + "grad_norm": 1.5373298459106952, + "learning_rate": 9.372246809371898e-06, + "loss": 0.4927, + "step": 1748 + }, + { + "avg_step_time": 5.454688115553423, + "epoch": 0.18645333333333333, + "eta_time": 11.55636284925721, + "step": 1748 + }, + { + "epoch": 0.18656, + "grad_norm": 0.63944709379287, + "learning_rate": 9.371408519520421e-06, + "loss": 0.4605, + "step": 1749 + }, + { + "avg_step_time": 5.418143621598832, + "epoch": 0.18656, + "eta_time": 11.477434238420193, + "step": 1749 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 1.9150149107806491, + "learning_rate": 9.370569707865727e-06, + "loss": 0.5688, + "step": 1750 + }, + { + "avg_step_time": 5.42520984495529, + "epoch": 0.18666666666666668, + "eta_time": 11.490895852162247, + "step": 1750 + }, + { + "epoch": 0.18677333333333335, + "grad_norm": 1.8456430465330609, + "learning_rate": 9.369730374507942e-06, + "loss": 0.572, + "step": 1751 + }, + { + "avg_step_time": 5.423345146757184, + "epoch": 0.18677333333333335, + "eta_time": 11.485439833021324, + "step": 1751 + }, + { + "epoch": 0.18688, + "grad_norm": 1.5329763667481053, + "learning_rate": 9.36889051954725e-06, + "loss": 0.4762, + "step": 1752 + }, + { + "avg_step_time": 5.400338589543044, + "epoch": 0.18688, + "eta_time": 11.435216963357396, + "step": 1752 + }, + { + "epoch": 0.18698666666666666, + "grad_norm": 1.9449581501868016, + "learning_rate": 9.368050143083912e-06, + "loss": 0.4508, + "step": 1753 + }, + { + "avg_step_time": 5.434676278721202, + "epoch": 0.18698666666666666, + "eta_time": 11.506417387892501, + "step": 1753 + }, + { + "epoch": 0.18709333333333333, + "grad_norm": 0.6587272965504793, + "learning_rate": 9.367209245218234e-06, + "loss": 0.4644, + "step": 1754 + }, + { + "avg_step_time": 5.43646930684947, + "epoch": 0.18709333333333333, + "eta_time": 11.508703496527726, + "step": 1754 + }, + { + "epoch": 0.1872, + "grad_norm": 1.7896807348486041, + "learning_rate": 9.366367826050593e-06, + "loss": 0.4767, + "step": 1755 + }, + { + "avg_step_time": 5.443767988320553, + "epoch": 0.1872, + "eta_time": 11.522642241945169, + "step": 1755 + }, + { + "epoch": 0.18730666666666668, + "grad_norm": 2.008636602784472, + "learning_rate": 9.36552588568143e-06, + "loss": 0.5878, + "step": 1756 + }, + { + "avg_step_time": 5.4484067228105335, + "epoch": 0.18730666666666668, + "eta_time": 11.530947450303739, + "step": 1756 + }, + { + "epoch": 0.18741333333333332, + "grad_norm": 1.8108256792499093, + "learning_rate": 9.364683424211241e-06, + "loss": 0.5865, + "step": 1757 + }, + { + "avg_step_time": 5.4445660595942025, + "epoch": 0.18741333333333332, + "eta_time": 11.521306733885732, + "step": 1757 + }, + { + "epoch": 0.18752, + "grad_norm": 2.0650194461619065, + "learning_rate": 9.36384044174059e-06, + "loss": 0.5818, + "step": 1758 + }, + { + "avg_step_time": 5.44229689270559, + "epoch": 0.18752, + "eta_time": 11.51499317548291, + "step": 1758 + }, + { + "epoch": 0.18762666666666666, + "grad_norm": 1.512693108893204, + "learning_rate": 9.362996938370103e-06, + "loss": 0.5299, + "step": 1759 + }, + { + "avg_step_time": 5.42982028229068, + "epoch": 0.18762666666666666, + "eta_time": 11.487086463868282, + "step": 1759 + }, + { + "epoch": 0.18773333333333334, + "grad_norm": 1.4132462280936906, + "learning_rate": 9.362152914200465e-06, + "loss": 0.4886, + "step": 1760 + }, + { + "avg_step_time": 5.428229018895313, + "epoch": 0.18773333333333334, + "eta_time": 11.482212216357723, + "step": 1760 + }, + { + "epoch": 0.18784, + "grad_norm": 1.5813614278083987, + "learning_rate": 9.361308369332426e-06, + "loss": 0.4981, + "step": 1761 + }, + { + "avg_step_time": 5.426003521138972, + "epoch": 0.18784, + "eta_time": 11.475997447208925, + "step": 1761 + }, + { + "epoch": 0.18794666666666668, + "grad_norm": 1.7494599586655626, + "learning_rate": 9.360463303866795e-06, + "loss": 0.6053, + "step": 1762 + }, + { + "avg_step_time": 5.426570986256455, + "epoch": 0.18794666666666668, + "eta_time": 11.475690255102887, + "step": 1762 + }, + { + "epoch": 0.18805333333333332, + "grad_norm": 1.7213659686474307, + "learning_rate": 9.359617717904447e-06, + "loss": 0.4883, + "step": 1763 + }, + { + "avg_step_time": 5.4323090832642835, + "epoch": 0.18805333333333332, + "eta_time": 11.486315761613257, + "step": 1763 + }, + { + "epoch": 0.18816, + "grad_norm": 2.059591713855106, + "learning_rate": 9.358771611546319e-06, + "loss": 0.5553, + "step": 1764 + }, + { + "avg_step_time": 5.427333359766489, + "epoch": 0.18816, + "eta_time": 11.474287278106319, + "step": 1764 + }, + { + "epoch": 0.18826666666666667, + "grad_norm": 1.5188561104964788, + "learning_rate": 9.357924984893405e-06, + "loss": 0.507, + "step": 1765 + }, + { + "avg_step_time": 5.431627752804997, + "epoch": 0.18826666666666667, + "eta_time": 11.481857555235008, + "step": 1765 + }, + { + "epoch": 0.18837333333333334, + "grad_norm": 1.6808687190325664, + "learning_rate": 9.357077838046766e-06, + "loss": 0.5279, + "step": 1766 + }, + { + "avg_step_time": 5.427166883391563, + "epoch": 0.18837333333333334, + "eta_time": 11.47092022659067, + "step": 1766 + }, + { + "epoch": 0.18848, + "grad_norm": 1.6415774478034382, + "learning_rate": 9.356230171107524e-06, + "loss": 0.5408, + "step": 1767 + }, + { + "avg_step_time": 5.4296503958075935, + "epoch": 0.18848, + "eta_time": 11.474661169806714, + "step": 1767 + }, + { + "epoch": 0.18858666666666668, + "grad_norm": 0.637222327160268, + "learning_rate": 9.355381984176861e-06, + "loss": 0.4308, + "step": 1768 + }, + { + "avg_step_time": 5.398298396004571, + "epoch": 0.18858666666666668, + "eta_time": 11.406904416224103, + "step": 1768 + }, + { + "epoch": 0.18869333333333332, + "grad_norm": 1.9150442228242182, + "learning_rate": 9.354533277356026e-06, + "loss": 0.4902, + "step": 1769 + }, + { + "avg_step_time": 5.397535201274987, + "epoch": 0.18869333333333332, + "eta_time": 11.403792428027097, + "step": 1769 + }, + { + "epoch": 0.1888, + "grad_norm": 1.3598085425534516, + "learning_rate": 9.353684050746323e-06, + "loss": 0.4985, + "step": 1770 + }, + { + "avg_step_time": 5.405732407714382, + "epoch": 0.1888, + "eta_time": 11.419609711296632, + "step": 1770 + }, + { + "epoch": 0.18890666666666667, + "grad_norm": 1.4630086469008603, + "learning_rate": 9.352834304449124e-06, + "loss": 0.3932, + "step": 1771 + }, + { + "avg_step_time": 5.40673766473327, + "epoch": 0.18890666666666667, + "eta_time": 11.420231445175496, + "step": 1771 + }, + { + "epoch": 0.18901333333333334, + "grad_norm": 1.5612955957939159, + "learning_rate": 9.351984038565862e-06, + "loss": 0.4266, + "step": 1772 + }, + { + "avg_step_time": 5.4075791065139, + "epoch": 0.18901333333333334, + "eta_time": 11.420506651895884, + "step": 1772 + }, + { + "epoch": 0.18912, + "grad_norm": 1.4189892786503397, + "learning_rate": 9.351133253198027e-06, + "loss": 0.5554, + "step": 1773 + }, + { + "avg_step_time": 5.412032572910039, + "epoch": 0.18912, + "eta_time": 11.428408783128367, + "step": 1773 + }, + { + "epoch": 0.18922666666666665, + "grad_norm": 1.8267749863357083, + "learning_rate": 9.350281948447181e-06, + "loss": 0.5679, + "step": 1774 + }, + { + "avg_step_time": 5.448059094072592, + "epoch": 0.18922666666666665, + "eta_time": 11.502971437234937, + "step": 1774 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 1.5494920291724075, + "learning_rate": 9.349430124414936e-06, + "loss": 0.5279, + "step": 1775 + }, + { + "avg_step_time": 5.445962443496242, + "epoch": 0.18933333333333333, + "eta_time": 11.497031825158734, + "step": 1775 + }, + { + "epoch": 0.18944, + "grad_norm": 1.739011986315918, + "learning_rate": 9.348577781202976e-06, + "loss": 0.5842, + "step": 1776 + }, + { + "avg_step_time": 5.446923123465644, + "epoch": 0.18944, + "eta_time": 11.497546893115398, + "step": 1776 + }, + { + "epoch": 0.18954666666666667, + "grad_norm": 0.6515520162233934, + "learning_rate": 9.34772491891304e-06, + "loss": 0.4327, + "step": 1777 + }, + { + "avg_step_time": 5.394811452037156, + "epoch": 0.18954666666666667, + "eta_time": 11.386049281271752, + "step": 1777 + }, + { + "epoch": 0.18965333333333334, + "grad_norm": 1.380792276509723, + "learning_rate": 9.346871537646934e-06, + "loss": 0.4262, + "step": 1778 + }, + { + "avg_step_time": 5.391898518860942, + "epoch": 0.18965333333333334, + "eta_time": 11.378403624385161, + "step": 1778 + }, + { + "epoch": 0.18976, + "grad_norm": 1.7023029261048817, + "learning_rate": 9.346017637506523e-06, + "loss": 0.4073, + "step": 1779 + }, + { + "avg_step_time": 5.388893866779829, + "epoch": 0.18976, + "eta_time": 11.370566058905439, + "step": 1779 + }, + { + "epoch": 0.18986666666666666, + "grad_norm": 1.772131797465773, + "learning_rate": 9.345163218593735e-06, + "loss": 0.4735, + "step": 1780 + }, + { + "avg_step_time": 5.390485310795332, + "epoch": 0.18986666666666666, + "eta_time": 11.372426648747373, + "step": 1780 + }, + { + "epoch": 0.18997333333333333, + "grad_norm": 1.6914699992887474, + "learning_rate": 9.34430828101056e-06, + "loss": 0.4665, + "step": 1781 + }, + { + "avg_step_time": 5.395217666722307, + "epoch": 0.18997333333333333, + "eta_time": 11.38091193363589, + "step": 1781 + }, + { + "epoch": 0.19008, + "grad_norm": 1.658116409650804, + "learning_rate": 9.343452824859048e-06, + "loss": 0.51, + "step": 1782 + }, + { + "avg_step_time": 5.394312177041565, + "epoch": 0.19008, + "eta_time": 11.377503433410167, + "step": 1782 + }, + { + "epoch": 0.19018666666666667, + "grad_norm": 0.6777081809772423, + "learning_rate": 9.342596850241313e-06, + "loss": 0.4429, + "step": 1783 + }, + { + "avg_step_time": 5.359704643788964, + "epoch": 0.19018666666666667, + "eta_time": 11.303021571012728, + "step": 1783 + }, + { + "epoch": 0.19029333333333334, + "grad_norm": 1.7070807298243256, + "learning_rate": 9.341740357259532e-06, + "loss": 0.5336, + "step": 1784 + }, + { + "avg_step_time": 5.395963033040364, + "epoch": 0.19029333333333334, + "eta_time": 11.377987606613724, + "step": 1784 + }, + { + "epoch": 0.1904, + "grad_norm": 1.568065267381406, + "learning_rate": 9.340883346015941e-06, + "loss": 0.4646, + "step": 1785 + }, + { + "avg_step_time": 5.401004191600915, + "epoch": 0.1904, + "eta_time": 11.387117170625263, + "step": 1785 + }, + { + "epoch": 0.19050666666666666, + "grad_norm": 1.6731717013261242, + "learning_rate": 9.340025816612838e-06, + "loss": 0.5146, + "step": 1786 + }, + { + "avg_step_time": 5.402555966618086, + "epoch": 0.19050666666666666, + "eta_time": 11.38888811962907, + "step": 1786 + }, + { + "epoch": 0.19061333333333333, + "grad_norm": 1.4150353169894732, + "learning_rate": 9.339167769152588e-06, + "loss": 0.5073, + "step": 1787 + }, + { + "avg_step_time": 5.406808178834241, + "epoch": 0.19061333333333333, + "eta_time": 11.39635012805395, + "step": 1787 + }, + { + "epoch": 0.19072, + "grad_norm": 1.8707408148348883, + "learning_rate": 9.338309203737609e-06, + "loss": 0.4943, + "step": 1788 + }, + { + "avg_step_time": 5.443214190126669, + "epoch": 0.19072, + "eta_time": 11.471573905691956, + "step": 1788 + }, + { + "epoch": 0.19082666666666667, + "grad_norm": 1.611126862133692, + "learning_rate": 9.337450120470389e-06, + "loss": 0.5255, + "step": 1789 + }, + { + "avg_step_time": 5.443324635727237, + "epoch": 0.19082666666666667, + "eta_time": 11.470294635174117, + "step": 1789 + }, + { + "epoch": 0.19093333333333334, + "grad_norm": 1.592498128797797, + "learning_rate": 9.336590519453472e-06, + "loss": 0.4273, + "step": 1790 + }, + { + "avg_step_time": 5.447095724067303, + "epoch": 0.19093333333333334, + "eta_time": 11.476728074180693, + "step": 1790 + }, + { + "epoch": 0.19104, + "grad_norm": 1.641822474260382, + "learning_rate": 9.335730400789466e-06, + "loss": 0.5502, + "step": 1791 + }, + { + "avg_step_time": 5.450684405336476, + "epoch": 0.19104, + "eta_time": 11.482775147242178, + "step": 1791 + }, + { + "epoch": 0.19114666666666666, + "grad_norm": 1.5475515506272026, + "learning_rate": 9.334869764581045e-06, + "loss": 0.5138, + "step": 1792 + }, + { + "avg_step_time": 5.451189354212597, + "epoch": 0.19114666666666666, + "eta_time": 11.482324686942814, + "step": 1792 + }, + { + "epoch": 0.19125333333333333, + "grad_norm": 1.8871222425546088, + "learning_rate": 9.334008610930939e-06, + "loss": 0.4499, + "step": 1793 + }, + { + "avg_step_time": 5.445117174977004, + "epoch": 0.19125333333333333, + "eta_time": 11.468021783521014, + "step": 1793 + }, + { + "epoch": 0.19136, + "grad_norm": 1.6817039165808572, + "learning_rate": 9.333146939941938e-06, + "loss": 0.5068, + "step": 1794 + }, + { + "avg_step_time": 5.43975046427563, + "epoch": 0.19136, + "eta_time": 11.455207852687096, + "step": 1794 + }, + { + "epoch": 0.19146666666666667, + "grad_norm": 2.011043864865451, + "learning_rate": 9.3322847517169e-06, + "loss": 0.5154, + "step": 1795 + }, + { + "avg_step_time": 5.450795111030039, + "epoch": 0.19146666666666667, + "eta_time": 11.47695192822436, + "step": 1795 + }, + { + "epoch": 0.19157333333333335, + "grad_norm": 1.6293822569759224, + "learning_rate": 9.331422046358745e-06, + "loss": 0.4441, + "step": 1796 + }, + { + "avg_step_time": 5.48373573476618, + "epoch": 0.19157333333333335, + "eta_time": 11.544786981609132, + "step": 1796 + }, + { + "epoch": 0.19168, + "grad_norm": 1.6015849711117243, + "learning_rate": 9.330558823970448e-06, + "loss": 0.4952, + "step": 1797 + }, + { + "avg_step_time": 5.4847916473041884, + "epoch": 0.19168, + "eta_time": 11.545486417575317, + "step": 1797 + }, + { + "epoch": 0.19178666666666666, + "grad_norm": 1.510313347300262, + "learning_rate": 9.32969508465505e-06, + "loss": 0.4601, + "step": 1798 + }, + { + "avg_step_time": 5.485998637748487, + "epoch": 0.19178666666666666, + "eta_time": 11.546503243950081, + "step": 1798 + }, + { + "epoch": 0.19189333333333333, + "grad_norm": 1.5670076186640949, + "learning_rate": 9.328830828515653e-06, + "loss": 0.4946, + "step": 1799 + }, + { + "avg_step_time": 5.487165097034339, + "epoch": 0.19189333333333333, + "eta_time": 11.547434104203374, + "step": 1799 + }, + { + "epoch": 0.192, + "grad_norm": 1.7094864894486745, + "learning_rate": 9.327966055655424e-06, + "loss": 0.529, + "step": 1800 + }, + { + "avg_step_time": 5.505570016726099, + "epoch": 0.192, + "eta_time": 11.5846369101945, + "step": 1800 + }, + { + "epoch": 0.19210666666666668, + "grad_norm": 0.6832136059137386, + "learning_rate": 9.327100766177585e-06, + "loss": 0.4399, + "step": 1801 + }, + { + "avg_step_time": 5.472532356628264, + "epoch": 0.19210666666666668, + "eta_time": 11.51360001919513, + "step": 1801 + }, + { + "epoch": 0.19221333333333335, + "grad_norm": 1.5819342867104298, + "learning_rate": 9.326234960185424e-06, + "loss": 0.5486, + "step": 1802 + }, + { + "avg_step_time": 5.483078850640191, + "epoch": 0.19221333333333335, + "eta_time": 11.534265593305047, + "step": 1802 + }, + { + "epoch": 0.19232, + "grad_norm": 1.6925617486410418, + "learning_rate": 9.325368637782292e-06, + "loss": 0.4593, + "step": 1803 + }, + { + "avg_step_time": 5.485171009795835, + "epoch": 0.19232, + "eta_time": 11.537143023937238, + "step": 1803 + }, + { + "epoch": 0.19242666666666666, + "grad_norm": 1.652354872507567, + "learning_rate": 9.324501799071597e-06, + "loss": 0.4936, + "step": 1804 + }, + { + "avg_step_time": 5.488077009567107, + "epoch": 0.19242666666666666, + "eta_time": 11.541730844286825, + "step": 1804 + }, + { + "epoch": 0.19253333333333333, + "grad_norm": 2.1344425641033746, + "learning_rate": 9.323634444156813e-06, + "loss": 0.4987, + "step": 1805 + }, + { + "avg_step_time": 5.479065962512084, + "epoch": 0.19253333333333333, + "eta_time": 11.52125814894902, + "step": 1805 + }, + { + "epoch": 0.19264, + "grad_norm": 0.6741636332059694, + "learning_rate": 9.322766573141473e-06, + "loss": 0.4675, + "step": 1806 + }, + { + "avg_step_time": 5.418544003457734, + "epoch": 0.19264, + "eta_time": 11.392488767269887, + "step": 1806 + }, + { + "epoch": 0.19274666666666668, + "grad_norm": 1.7300897391199679, + "learning_rate": 9.321898186129172e-06, + "loss": 0.5106, + "step": 1807 + }, + { + "avg_step_time": 5.417272774860113, + "epoch": 0.19274666666666668, + "eta_time": 11.38831121115037, + "step": 1807 + }, + { + "epoch": 0.19285333333333332, + "grad_norm": 2.004846888225151, + "learning_rate": 9.321029283223567e-06, + "loss": 0.5863, + "step": 1808 + }, + { + "avg_step_time": 5.4509699729957966, + "epoch": 0.19285333333333332, + "eta_time": 11.457636051571997, + "step": 1808 + }, + { + "epoch": 0.19296, + "grad_norm": 1.4360557836918921, + "learning_rate": 9.320159864528378e-06, + "loss": 0.408, + "step": 1809 + }, + { + "avg_step_time": 5.461749724667482, + "epoch": 0.19296, + "eta_time": 11.478777338009492, + "step": 1809 + }, + { + "epoch": 0.19306666666666666, + "grad_norm": 0.623873160728799, + "learning_rate": 9.319289930147383e-06, + "loss": 0.4294, + "step": 1810 + }, + { + "avg_step_time": 5.42756541088374, + "epoch": 0.19306666666666666, + "eta_time": 11.405425648148746, + "step": 1810 + }, + { + "epoch": 0.19317333333333334, + "grad_norm": 2.6422239112830215, + "learning_rate": 9.318419480184427e-06, + "loss": 0.4444, + "step": 1811 + }, + { + "avg_step_time": 5.42673875827982, + "epoch": 0.19317333333333334, + "eta_time": 11.402181102119044, + "step": 1811 + }, + { + "epoch": 0.19328, + "grad_norm": 1.3516417021193532, + "learning_rate": 9.31754851474341e-06, + "loss": 0.4072, + "step": 1812 + }, + { + "avg_step_time": 5.426955312189429, + "epoch": 0.19328, + "eta_time": 11.401128618357959, + "step": 1812 + }, + { + "epoch": 0.19338666666666668, + "grad_norm": 1.6762782961565086, + "learning_rate": 9.316677033928298e-06, + "loss": 0.5286, + "step": 1813 + }, + { + "avg_step_time": 5.42589873737759, + "epoch": 0.19338666666666668, + "eta_time": 11.397401736680372, + "step": 1813 + }, + { + "epoch": 0.19349333333333332, + "grad_norm": 1.8479989804940737, + "learning_rate": 9.315805037843118e-06, + "loss": 0.5027, + "step": 1814 + }, + { + "avg_step_time": 5.427604362218067, + "epoch": 0.19349333333333332, + "eta_time": 11.399476828536333, + "step": 1814 + }, + { + "epoch": 0.1936, + "grad_norm": 1.68818626369532, + "learning_rate": 9.314932526591956e-06, + "loss": 0.4782, + "step": 1815 + }, + { + "avg_step_time": 5.403049035505815, + "epoch": 0.1936, + "eta_time": 11.346402974562212, + "step": 1815 + }, + { + "epoch": 0.19370666666666667, + "grad_norm": 1.7497542056274236, + "learning_rate": 9.314059500278962e-06, + "loss": 0.5842, + "step": 1816 + }, + { + "avg_step_time": 5.436748962209682, + "epoch": 0.19370666666666667, + "eta_time": 11.415662612595275, + "step": 1816 + }, + { + "epoch": 0.19381333333333334, + "grad_norm": 1.5929072594963827, + "learning_rate": 9.31318595900835e-06, + "loss": 0.4573, + "step": 1817 + }, + { + "avg_step_time": 5.4251832769374655, + "epoch": 0.19381333333333334, + "eta_time": 11.38987089085927, + "step": 1817 + }, + { + "epoch": 0.19392, + "grad_norm": 1.7239154337342173, + "learning_rate": 9.312311902884388e-06, + "loss": 0.4927, + "step": 1818 + }, + { + "avg_step_time": 5.4270758315770316, + "epoch": 0.19392, + "eta_time": 11.392336683118787, + "step": 1818 + }, + { + "epoch": 0.19402666666666665, + "grad_norm": 1.5375284558485902, + "learning_rate": 9.311437332011411e-06, + "loss": 0.4702, + "step": 1819 + }, + { + "avg_step_time": 5.423548664709534, + "epoch": 0.19402666666666665, + "eta_time": 11.38342603070701, + "step": 1819 + }, + { + "epoch": 0.19413333333333332, + "grad_norm": 1.8483828650059402, + "learning_rate": 9.310562246493812e-06, + "loss": 0.4767, + "step": 1820 + }, + { + "avg_step_time": 5.423468416387385, + "epoch": 0.19413333333333332, + "eta_time": 11.381751079390748, + "step": 1820 + }, + { + "epoch": 0.19424, + "grad_norm": 1.5297281381949401, + "learning_rate": 9.309686646436053e-06, + "loss": 0.5686, + "step": 1821 + }, + { + "avg_step_time": 5.428644026168669, + "epoch": 0.19424, + "eta_time": 11.391104714910592, + "step": 1821 + }, + { + "epoch": 0.19434666666666667, + "grad_norm": 1.930762488085745, + "learning_rate": 9.30881053194265e-06, + "loss": 0.6308, + "step": 1822 + }, + { + "avg_step_time": 5.429987290892938, + "epoch": 0.19434666666666667, + "eta_time": 11.392415002253989, + "step": 1822 + }, + { + "epoch": 0.19445333333333334, + "grad_norm": 1.5246633647435772, + "learning_rate": 9.30793390311818e-06, + "loss": 0.5619, + "step": 1823 + }, + { + "avg_step_time": 5.431532426313921, + "epoch": 0.19445333333333334, + "eta_time": 11.394148023200758, + "step": 1823 + }, + { + "epoch": 0.19456, + "grad_norm": 1.627786505273533, + "learning_rate": 9.307056760067284e-06, + "loss": 0.4122, + "step": 1824 + }, + { + "avg_step_time": 5.431997145065154, + "epoch": 0.19456, + "eta_time": 11.39361401177416, + "step": 1824 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 1.6901058529253372, + "learning_rate": 9.306179102894667e-06, + "loss": 0.545, + "step": 1825 + }, + { + "avg_step_time": 5.432023770881422, + "epoch": 0.19466666666666665, + "eta_time": 11.39216096393187, + "step": 1825 + }, + { + "epoch": 0.19477333333333333, + "grad_norm": 0.6748069870065865, + "learning_rate": 9.30530093170509e-06, + "loss": 0.4418, + "step": 1826 + }, + { + "avg_step_time": 5.3980420286005195, + "epoch": 0.19477333333333333, + "eta_time": 11.319394242751478, + "step": 1826 + }, + { + "epoch": 0.19488, + "grad_norm": 1.8123867294805414, + "learning_rate": 9.30442224660338e-06, + "loss": 0.4084, + "step": 1827 + }, + { + "avg_step_time": 5.402620520254578, + "epoch": 0.19488, + "eta_time": 11.327494357467097, + "step": 1827 + }, + { + "epoch": 0.19498666666666667, + "grad_norm": 1.852557188309346, + "learning_rate": 9.30354304769442e-06, + "loss": 0.534, + "step": 1828 + }, + { + "avg_step_time": 5.41966736918748, + "epoch": 0.19498666666666667, + "eta_time": 11.361730454238309, + "step": 1828 + }, + { + "epoch": 0.19509333333333334, + "grad_norm": 1.6319080936808694, + "learning_rate": 9.302663335083161e-06, + "loss": 0.4816, + "step": 1829 + }, + { + "avg_step_time": 5.463218997223208, + "epoch": 0.19509333333333334, + "eta_time": 11.45151404251287, + "step": 1829 + }, + { + "epoch": 0.1952, + "grad_norm": 1.7450534783480516, + "learning_rate": 9.301783108874611e-06, + "loss": 0.5356, + "step": 1830 + }, + { + "avg_step_time": 5.454653564125601, + "epoch": 0.1952, + "eta_time": 11.432044761479906, + "step": 1830 + }, + { + "epoch": 0.19530666666666666, + "grad_norm": 1.4501418408416065, + "learning_rate": 9.300902369173841e-06, + "loss": 0.4426, + "step": 1831 + }, + { + "avg_step_time": 5.456786601230352, + "epoch": 0.19530666666666666, + "eta_time": 11.434999477689383, + "step": 1831 + }, + { + "epoch": 0.19541333333333333, + "grad_norm": 1.5262505821988517, + "learning_rate": 9.30002111608598e-06, + "loss": 0.5366, + "step": 1832 + }, + { + "avg_step_time": 5.470282966440374, + "epoch": 0.19541333333333333, + "eta_time": 11.461762337738817, + "step": 1832 + }, + { + "epoch": 0.19552, + "grad_norm": 1.5310326826682108, + "learning_rate": 9.299139349716221e-06, + "loss": 0.4705, + "step": 1833 + }, + { + "avg_step_time": 5.504074441062079, + "epoch": 0.19552, + "eta_time": 11.531035954025057, + "step": 1833 + }, + { + "epoch": 0.19562666666666667, + "grad_norm": 0.6793750167643411, + "learning_rate": 9.298257070169822e-06, + "loss": 0.4378, + "step": 1834 + }, + { + "avg_step_time": 5.470452612096613, + "epoch": 0.19562666666666667, + "eta_time": 11.459078652172378, + "step": 1834 + }, + { + "epoch": 0.19573333333333334, + "grad_norm": 1.6747446043186887, + "learning_rate": 9.297374277552094e-06, + "loss": 0.4177, + "step": 1835 + }, + { + "avg_step_time": 5.458627797136403, + "epoch": 0.19573333333333334, + "eta_time": 11.432792664002354, + "step": 1835 + }, + { + "epoch": 0.19584, + "grad_norm": 0.6828599571988471, + "learning_rate": 9.296490971968416e-06, + "loss": 0.4632, + "step": 1836 + }, + { + "avg_step_time": 5.462122965340662, + "epoch": 0.19584, + "eta_time": 11.438595843250905, + "step": 1836 + }, + { + "epoch": 0.19594666666666666, + "grad_norm": 1.658451463299835, + "learning_rate": 9.295607153524224e-06, + "loss": 0.5103, + "step": 1837 + }, + { + "avg_step_time": 5.466253425135757, + "epoch": 0.19594666666666666, + "eta_time": 11.445727310742592, + "step": 1837 + }, + { + "epoch": 0.19605333333333333, + "grad_norm": 1.7855540668338925, + "learning_rate": 9.29472282232502e-06, + "loss": 0.5652, + "step": 1838 + }, + { + "avg_step_time": 5.5000384407814105, + "epoch": 0.19605333333333333, + "eta_time": 11.514941591158191, + "step": 1838 + }, + { + "epoch": 0.19616, + "grad_norm": 1.8770003676219127, + "learning_rate": 9.293837978476359e-06, + "loss": 0.4343, + "step": 1839 + }, + { + "avg_step_time": 5.498417832634666, + "epoch": 0.19616, + "eta_time": 11.510021329648566, + "step": 1839 + }, + { + "epoch": 0.19626666666666667, + "grad_norm": 1.720036618519739, + "learning_rate": 9.292952622083867e-06, + "loss": 0.5084, + "step": 1840 + }, + { + "avg_step_time": 5.528706153233846, + "epoch": 0.19626666666666667, + "eta_time": 11.571889129060285, + "step": 1840 + }, + { + "epoch": 0.19637333333333334, + "grad_norm": 1.8021084076944174, + "learning_rate": 9.292066753253226e-06, + "loss": 0.5148, + "step": 1841 + }, + { + "avg_step_time": 5.527370977883387, + "epoch": 0.19637333333333334, + "eta_time": 11.567559152048178, + "step": 1841 + }, + { + "epoch": 0.19648, + "grad_norm": 1.8599618549968677, + "learning_rate": 9.291180372090178e-06, + "loss": 0.4678, + "step": 1842 + }, + { + "avg_step_time": 5.526904734698209, + "epoch": 0.19648, + "eta_time": 11.565048157356001, + "step": 1842 + }, + { + "epoch": 0.19658666666666666, + "grad_norm": 1.8092754969191764, + "learning_rate": 9.29029347870053e-06, + "loss": 0.4814, + "step": 1843 + }, + { + "avg_step_time": 5.5629452334509955, + "epoch": 0.19658666666666666, + "eta_time": 11.63891763843136, + "step": 1843 + }, + { + "epoch": 0.19669333333333333, + "grad_norm": 1.6954278028968317, + "learning_rate": 9.289406073190146e-06, + "loss": 0.5004, + "step": 1844 + }, + { + "avg_step_time": 5.568635622660319, + "epoch": 0.19669333333333333, + "eta_time": 11.649276353959685, + "step": 1844 + }, + { + "epoch": 0.1968, + "grad_norm": 0.6464583973496936, + "learning_rate": 9.288518155664956e-06, + "loss": 0.4394, + "step": 1845 + }, + { + "avg_step_time": 5.532104879918725, + "epoch": 0.1968, + "eta_time": 11.57131937383, + "step": 1845 + }, + { + "epoch": 0.19690666666666667, + "grad_norm": 1.4727114637507004, + "learning_rate": 9.287629726230945e-06, + "loss": 0.419, + "step": 1846 + }, + { + "avg_step_time": 5.56822398455456, + "epoch": 0.19690666666666667, + "eta_time": 11.645321772142022, + "step": 1846 + }, + { + "epoch": 0.19701333333333335, + "grad_norm": 1.6982008601616605, + "learning_rate": 9.286740784994164e-06, + "loss": 0.4701, + "step": 1847 + }, + { + "avg_step_time": 5.555738345541135, + "epoch": 0.19701333333333335, + "eta_time": 11.61766618478713, + "step": 1847 + }, + { + "epoch": 0.19712, + "grad_norm": 0.6563707042483987, + "learning_rate": 9.285851332060722e-06, + "loss": 0.4456, + "step": 1848 + }, + { + "avg_step_time": 5.557602273093329, + "epoch": 0.19712, + "eta_time": 11.620020085992637, + "step": 1848 + }, + { + "epoch": 0.19722666666666666, + "grad_norm": 1.6042315203110649, + "learning_rate": 9.284961367536795e-06, + "loss": 0.4772, + "step": 1849 + }, + { + "avg_step_time": 5.552192095554236, + "epoch": 0.19722666666666666, + "eta_time": 11.60716603087255, + "step": 1849 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 1.806227386052491, + "learning_rate": 9.28407089152861e-06, + "loss": 0.5283, + "step": 1850 + }, + { + "avg_step_time": 5.551309556672067, + "epoch": 0.19733333333333333, + "eta_time": 11.60377900387703, + "step": 1850 + }, + { + "epoch": 0.19744, + "grad_norm": 1.6846817337314763, + "learning_rate": 9.283179904142465e-06, + "loss": 0.528, + "step": 1851 + }, + { + "avg_step_time": 5.5473688636163265, + "epoch": 0.19744, + "eta_time": 11.594000924958124, + "step": 1851 + }, + { + "epoch": 0.19754666666666668, + "grad_norm": 0.6289070953734699, + "learning_rate": 9.282288405484712e-06, + "loss": 0.4325, + "step": 1852 + }, + { + "avg_step_time": 5.538107599874939, + "epoch": 0.19754666666666668, + "eta_time": 11.573106520516435, + "step": 1852 + }, + { + "epoch": 0.19765333333333332, + "grad_norm": 0.6597454273924861, + "learning_rate": 9.281396395661771e-06, + "loss": 0.4297, + "step": 1853 + }, + { + "avg_step_time": 5.535631314672605, + "epoch": 0.19765333333333332, + "eta_time": 11.56639409693537, + "step": 1853 + }, + { + "epoch": 0.19776, + "grad_norm": 1.581474696116847, + "learning_rate": 9.280503874780112e-06, + "loss": 0.4575, + "step": 1854 + }, + { + "avg_step_time": 5.526183133173471, + "epoch": 0.19776, + "eta_time": 11.545117595721578, + "step": 1854 + }, + { + "epoch": 0.19786666666666666, + "grad_norm": 1.4313389610257443, + "learning_rate": 9.279610842946278e-06, + "loss": 0.4967, + "step": 1855 + }, + { + "avg_step_time": 5.5250301818655, + "epoch": 0.19786666666666666, + "eta_time": 11.541174157674599, + "step": 1855 + }, + { + "epoch": 0.19797333333333333, + "grad_norm": 1.2652909999632898, + "learning_rate": 9.278717300266866e-06, + "loss": 0.4989, + "step": 1856 + }, + { + "avg_step_time": 5.524350770796188, + "epoch": 0.19797333333333333, + "eta_time": 11.538220401560148, + "step": 1856 + }, + { + "epoch": 0.19808, + "grad_norm": 1.618632090982573, + "learning_rate": 9.277823246848537e-06, + "loss": 0.5351, + "step": 1857 + }, + { + "avg_step_time": 5.524451190775091, + "epoch": 0.19808, + "eta_time": 11.536895570068648, + "step": 1857 + }, + { + "epoch": 0.19818666666666668, + "grad_norm": 1.7551135603251842, + "learning_rate": 9.27692868279801e-06, + "loss": 0.562, + "step": 1858 + }, + { + "avg_step_time": 5.58462245536573, + "epoch": 0.19818666666666668, + "eta_time": 11.661001943606722, + "step": 1858 + }, + { + "epoch": 0.19829333333333332, + "grad_norm": 1.5669806147053045, + "learning_rate": 9.276033608222068e-06, + "loss": 0.4782, + "step": 1859 + }, + { + "avg_step_time": 5.602169744896166, + "epoch": 0.19829333333333332, + "eta_time": 11.696085500733219, + "step": 1859 + }, + { + "epoch": 0.1984, + "grad_norm": 1.8824983549908962, + "learning_rate": 9.275138023227555e-06, + "loss": 0.4937, + "step": 1860 + }, + { + "avg_step_time": 5.60188788356203, + "epoch": 0.1984, + "eta_time": 11.693940956935739, + "step": 1860 + }, + { + "epoch": 0.19850666666666666, + "grad_norm": 1.4730660543547667, + "learning_rate": 9.27424192792137e-06, + "loss": 0.5133, + "step": 1861 + }, + { + "avg_step_time": 5.604876164234046, + "epoch": 0.19850666666666666, + "eta_time": 11.69862208279295, + "step": 1861 + }, + { + "epoch": 0.19861333333333334, + "grad_norm": 1.8356610727099079, + "learning_rate": 9.27334532241048e-06, + "loss": 0.553, + "step": 1862 + }, + { + "avg_step_time": 5.6036286402230315, + "epoch": 0.19861333333333334, + "eta_time": 11.694461659443233, + "step": 1862 + }, + { + "epoch": 0.19872, + "grad_norm": 1.69595975938791, + "learning_rate": 9.272448206801912e-06, + "loss": 0.4791, + "step": 1863 + }, + { + "avg_step_time": 5.607362795357752, + "epoch": 0.19872, + "eta_time": 11.700697032979843, + "step": 1863 + }, + { + "epoch": 0.19882666666666668, + "grad_norm": 1.55043464360269, + "learning_rate": 9.27155058120275e-06, + "loss": 0.5474, + "step": 1864 + }, + { + "avg_step_time": 5.637528470068267, + "epoch": 0.19882666666666668, + "eta_time": 11.762076760745208, + "step": 1864 + }, + { + "epoch": 0.19893333333333332, + "grad_norm": 1.8807057591124736, + "learning_rate": 9.270652445720143e-06, + "loss": 0.5571, + "step": 1865 + }, + { + "avg_step_time": 5.673327002862488, + "epoch": 0.19893333333333332, + "eta_time": 11.835190497638132, + "step": 1865 + }, + { + "epoch": 0.19904, + "grad_norm": 0.6218489073861319, + "learning_rate": 9.269753800461299e-06, + "loss": 0.4199, + "step": 1866 + }, + { + "avg_step_time": 5.636046650433781, + "epoch": 0.19904, + "eta_time": 11.755853971696462, + "step": 1866 + }, + { + "epoch": 0.19914666666666667, + "grad_norm": 1.6648633947096125, + "learning_rate": 9.268854645533483e-06, + "loss": 0.4623, + "step": 1867 + }, + { + "avg_step_time": 5.668882796258638, + "epoch": 0.19914666666666667, + "eta_time": 11.822770009530515, + "step": 1867 + }, + { + "epoch": 0.19925333333333334, + "grad_norm": 1.547226228564603, + "learning_rate": 9.26795498104403e-06, + "loss": 0.4391, + "step": 1868 + }, + { + "avg_step_time": 5.666685386137529, + "epoch": 0.19925333333333334, + "eta_time": 11.816613109370676, + "step": 1868 + }, + { + "epoch": 0.19936, + "grad_norm": 1.513814047667426, + "learning_rate": 9.267054807100327e-06, + "loss": 0.5088, + "step": 1869 + }, + { + "avg_step_time": 5.781545508991588, + "epoch": 0.19936, + "eta_time": 12.054522386247461, + "step": 1869 + }, + { + "epoch": 0.19946666666666665, + "grad_norm": 1.5130239175871052, + "learning_rate": 9.266154123809825e-06, + "loss": 0.4478, + "step": 1870 + }, + { + "avg_step_time": 5.781966611592456, + "epoch": 0.19946666666666665, + "eta_time": 12.053794283333719, + "step": 1870 + }, + { + "epoch": 0.19957333333333332, + "grad_norm": 1.6766176866537974, + "learning_rate": 9.26525293128004e-06, + "loss": 0.4402, + "step": 1871 + }, + { + "avg_step_time": 5.782174363280788, + "epoch": 0.19957333333333332, + "eta_time": 12.052621228349732, + "step": 1871 + }, + { + "epoch": 0.19968, + "grad_norm": 1.7357756393419546, + "learning_rate": 9.264351229618541e-06, + "loss": 0.5515, + "step": 1872 + }, + { + "avg_step_time": 5.777953976332539, + "epoch": 0.19968, + "eta_time": 12.0422190790064, + "step": 1872 + }, + { + "epoch": 0.19978666666666667, + "grad_norm": 1.5584100855671146, + "learning_rate": 9.263449018932964e-06, + "loss": 0.5223, + "step": 1873 + }, + { + "avg_step_time": 5.779883074037956, + "epoch": 0.19978666666666667, + "eta_time": 12.044634117064652, + "step": 1873 + }, + { + "epoch": 0.19989333333333334, + "grad_norm": 1.934560970454741, + "learning_rate": 9.262546299331e-06, + "loss": 0.5222, + "step": 1874 + }, + { + "avg_step_time": 5.782081095859258, + "epoch": 0.19989333333333334, + "eta_time": 12.047608416677859, + "step": 1874 + }, + { + "epoch": 0.2, + "grad_norm": 1.4534415621393095, + "learning_rate": 9.261643070920409e-06, + "loss": 0.4647, + "step": 1875 + }, + { + "avg_step_time": 5.783817377957431, + "epoch": 0.2, + "eta_time": 12.049619537411315, + "step": 1875 + }, + { + "epoch": 0.20010666666666665, + "grad_norm": 1.957686895310863, + "learning_rate": 9.260739333809006e-06, + "loss": 0.6059, + "step": 1876 + }, + { + "avg_step_time": 5.816936423080136, + "epoch": 0.20010666666666665, + "eta_time": 12.11700173241054, + "step": 1876 + }, + { + "epoch": 0.20021333333333333, + "grad_norm": 1.8587737725571027, + "learning_rate": 9.259835088104665e-06, + "loss": 0.468, + "step": 1877 + }, + { + "avg_step_time": 5.817563724036169, + "epoch": 0.20021333333333333, + "eta_time": 12.116692445228665, + "step": 1877 + }, + { + "epoch": 0.20032, + "grad_norm": 1.7803318684289566, + "learning_rate": 9.258930333915325e-06, + "loss": 0.5196, + "step": 1878 + }, + { + "avg_step_time": 5.815143370869184, + "epoch": 0.20032, + "eta_time": 12.110036069835076, + "step": 1878 + }, + { + "epoch": 0.20042666666666667, + "grad_norm": 1.368883112153189, + "learning_rate": 9.258025071348984e-06, + "loss": 0.4869, + "step": 1879 + }, + { + "avg_step_time": 5.825928112473151, + "epoch": 0.20042666666666667, + "eta_time": 12.130876980860762, + "step": 1879 + }, + { + "epoch": 0.20053333333333334, + "grad_norm": 0.7085030713603383, + "learning_rate": 9.2571193005137e-06, + "loss": 0.4612, + "step": 1880 + }, + { + "avg_step_time": 5.789533949861623, + "epoch": 0.20053333333333334, + "eta_time": 12.053488042836907, + "step": 1880 + }, + { + "epoch": 0.20064, + "grad_norm": 1.605730574692145, + "learning_rate": 9.256213021517593e-06, + "loss": 0.5171, + "step": 1881 + }, + { + "avg_step_time": 5.790559103994658, + "epoch": 0.20064, + "eta_time": 12.05401386814888, + "step": 1881 + }, + { + "epoch": 0.20074666666666666, + "grad_norm": 1.6015981853257124, + "learning_rate": 9.255306234468844e-06, + "loss": 0.5293, + "step": 1882 + }, + { + "avg_step_time": 5.824868777785638, + "epoch": 0.20074666666666666, + "eta_time": 12.12381715331883, + "step": 1882 + }, + { + "epoch": 0.20085333333333333, + "grad_norm": 1.65744199917586, + "learning_rate": 9.25439893947569e-06, + "loss": 0.5743, + "step": 1883 + }, + { + "avg_step_time": 5.8218803357596345, + "epoch": 0.20085333333333333, + "eta_time": 12.115979854308662, + "step": 1883 + }, + { + "epoch": 0.20096, + "grad_norm": 1.682717609262706, + "learning_rate": 9.253491136646437e-06, + "loss": 0.5653, + "step": 1884 + }, + { + "avg_step_time": 5.817513781364518, + "epoch": 0.20096, + "eta_time": 12.105276593389336, + "step": 1884 + }, + { + "epoch": 0.20106666666666667, + "grad_norm": 1.5479370957698138, + "learning_rate": 9.252582826089447e-06, + "loss": 0.4804, + "step": 1885 + }, + { + "avg_step_time": 5.816165305147267, + "epoch": 0.20106666666666667, + "eta_time": 12.10085503765362, + "step": 1885 + }, + { + "epoch": 0.20117333333333334, + "grad_norm": 1.8104527044515406, + "learning_rate": 9.251674007913138e-06, + "loss": 0.5357, + "step": 1886 + }, + { + "avg_step_time": 5.8129010706236866, + "epoch": 0.20117333333333334, + "eta_time": 12.092448921639107, + "step": 1886 + }, + { + "epoch": 0.20128, + "grad_norm": 1.8017748667676163, + "learning_rate": 9.250764682225997e-06, + "loss": 0.4822, + "step": 1887 + }, + { + "avg_step_time": 5.813061930916526, + "epoch": 0.20128, + "eta_time": 12.091168816306375, + "step": 1887 + }, + { + "epoch": 0.20138666666666666, + "grad_norm": 1.6457717142034198, + "learning_rate": 9.249854849136566e-06, + "loss": 0.4785, + "step": 1888 + }, + { + "avg_step_time": 5.81452439770554, + "epoch": 0.20138666666666666, + "eta_time": 12.092595601561493, + "step": 1888 + }, + { + "epoch": 0.20149333333333333, + "grad_norm": 1.7888370040116381, + "learning_rate": 9.24894450875345e-06, + "loss": 0.5356, + "step": 1889 + }, + { + "avg_step_time": 5.823249371364863, + "epoch": 0.20149333333333333, + "eta_time": 12.109123553899268, + "step": 1889 + }, + { + "epoch": 0.2016, + "grad_norm": 1.3916812944119017, + "learning_rate": 9.248033661185313e-06, + "loss": 0.5333, + "step": 1890 + }, + { + "avg_step_time": 5.8243398883126, + "epoch": 0.2016, + "eta_time": 12.109773351116614, + "step": 1890 + }, + { + "epoch": 0.20170666666666667, + "grad_norm": 1.8137981711958924, + "learning_rate": 9.247122306540882e-06, + "loss": 0.5937, + "step": 1891 + }, + { + "avg_step_time": 5.826196330966371, + "epoch": 0.20170666666666667, + "eta_time": 12.1120148169312, + "step": 1891 + }, + { + "epoch": 0.20181333333333334, + "grad_norm": 1.5149999140262567, + "learning_rate": 9.246210444928942e-06, + "loss": 0.5163, + "step": 1892 + }, + { + "avg_step_time": 5.828020312569358, + "epoch": 0.20181333333333334, + "eta_time": 12.11418777748792, + "step": 1892 + }, + { + "epoch": 0.20192, + "grad_norm": 1.6728952609844159, + "learning_rate": 9.24529807645834e-06, + "loss": 0.4812, + "step": 1893 + }, + { + "avg_step_time": 5.839316226015187, + "epoch": 0.20192, + "eta_time": 12.136045556401564, + "step": 1893 + }, + { + "epoch": 0.20202666666666666, + "grad_norm": 1.4556161945555945, + "learning_rate": 9.244385201237982e-06, + "loss": 0.4321, + "step": 1894 + }, + { + "avg_step_time": 5.8407977831484095, + "epoch": 0.20202666666666666, + "eta_time": 12.137502282148125, + "step": 1894 + }, + { + "epoch": 0.20213333333333333, + "grad_norm": 1.757656131827182, + "learning_rate": 9.243471819376837e-06, + "loss": 0.5556, + "step": 1895 + }, + { + "avg_step_time": 5.842596562221797, + "epoch": 0.20213333333333333, + "eta_time": 12.13961730150529, + "step": 1895 + }, + { + "epoch": 0.20224, + "grad_norm": 0.6970388993048611, + "learning_rate": 9.24255793098393e-06, + "loss": 0.4632, + "step": 1896 + }, + { + "avg_step_time": 5.80978557076117, + "epoch": 0.20224, + "eta_time": 12.06982952325633, + "step": 1896 + }, + { + "epoch": 0.20234666666666667, + "grad_norm": 1.666410802393332, + "learning_rate": 9.241643536168351e-06, + "loss": 0.559, + "step": 1897 + }, + { + "avg_step_time": 5.816485773433339, + "epoch": 0.20234666666666667, + "eta_time": 12.08213350381514, + "step": 1897 + }, + { + "epoch": 0.20245333333333335, + "grad_norm": 1.6138505232821245, + "learning_rate": 9.240728635039252e-06, + "loss": 0.5357, + "step": 1898 + }, + { + "avg_step_time": 5.815841046246615, + "epoch": 0.20245333333333335, + "eta_time": 12.079178750773872, + "step": 1898 + }, + { + "epoch": 0.20256, + "grad_norm": 1.5295433470873951, + "learning_rate": 9.23981322770584e-06, + "loss": 0.5108, + "step": 1899 + }, + { + "avg_step_time": 5.7977222481159245, + "epoch": 0.20256, + "eta_time": 12.03993653525407, + "step": 1899 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 0.6597418970181511, + "learning_rate": 9.23889731427738e-06, + "loss": 0.4344, + "step": 1900 + }, + { + "avg_step_time": 5.791926097388219, + "epoch": 0.20266666666666666, + "eta_time": 12.026290993882483, + "step": 1900 + }, + { + "epoch": 0.20277333333333333, + "grad_norm": 1.7231525040206386, + "learning_rate": 9.237980894863208e-06, + "loss": 0.5397, + "step": 1901 + }, + { + "avg_step_time": 5.777450154526065, + "epoch": 0.20277333333333333, + "eta_time": 11.994628459702168, + "step": 1901 + }, + { + "epoch": 0.20288, + "grad_norm": 1.6556934178722669, + "learning_rate": 9.237063969572713e-06, + "loss": 0.5211, + "step": 1902 + }, + { + "avg_step_time": 5.773215944116766, + "epoch": 0.20288, + "eta_time": 11.984234097329052, + "step": 1902 + }, + { + "epoch": 0.20298666666666668, + "grad_norm": 1.62245344963208, + "learning_rate": 9.236146538515345e-06, + "loss": 0.5625, + "step": 1903 + }, + { + "avg_step_time": 5.76984383602335, + "epoch": 0.20298666666666668, + "eta_time": 11.975631428546242, + "step": 1903 + }, + { + "epoch": 0.20309333333333332, + "grad_norm": 1.7532689919263276, + "learning_rate": 9.235228601800616e-06, + "loss": 0.4694, + "step": 1904 + }, + { + "avg_step_time": 5.7683761071677155, + "epoch": 0.20309333333333332, + "eta_time": 11.970982749069444, + "step": 1904 + }, + { + "epoch": 0.2032, + "grad_norm": 1.5434813381443915, + "learning_rate": 9.2343101595381e-06, + "loss": 0.4303, + "step": 1905 + }, + { + "avg_step_time": 5.8370688997133815, + "epoch": 0.2032, + "eta_time": 12.111917966905267, + "step": 1905 + }, + { + "epoch": 0.20330666666666666, + "grad_norm": 1.8756701512253833, + "learning_rate": 9.233391211837423e-06, + "loss": 0.53, + "step": 1906 + }, + { + "avg_step_time": 5.837818234857886, + "epoch": 0.20330666666666666, + "eta_time": 12.111851221153765, + "step": 1906 + }, + { + "epoch": 0.20341333333333333, + "grad_norm": 1.755093934399518, + "learning_rate": 9.232471758808282e-06, + "loss": 0.5366, + "step": 1907 + }, + { + "avg_step_time": 5.894977827264805, + "epoch": 0.20341333333333333, + "eta_time": 12.228804003892657, + "step": 1907 + }, + { + "epoch": 0.20352, + "grad_norm": 1.5339934190816726, + "learning_rate": 9.23155180056043e-06, + "loss": 0.5091, + "step": 1908 + }, + { + "avg_step_time": 5.902657282472861, + "epoch": 0.20352, + "eta_time": 12.243094980062459, + "step": 1908 + }, + { + "epoch": 0.20362666666666668, + "grad_norm": 1.7403694093172253, + "learning_rate": 9.230631337203675e-06, + "loss": 0.5074, + "step": 1909 + }, + { + "avg_step_time": 5.962985546901972, + "epoch": 0.20362666666666668, + "eta_time": 12.366569470325034, + "step": 1909 + }, + { + "epoch": 0.20373333333333332, + "grad_norm": 1.6447321631106198, + "learning_rate": 9.229710368847896e-06, + "loss": 0.5516, + "step": 1910 + }, + { + "avg_step_time": 5.958630084991455, + "epoch": 0.20373333333333332, + "eta_time": 12.355881551239225, + "step": 1910 + }, + { + "epoch": 0.20384, + "grad_norm": 0.7361582493830566, + "learning_rate": 9.228788895603024e-06, + "loss": 0.464, + "step": 1911 + }, + { + "avg_step_time": 5.926519557683155, + "epoch": 0.20384, + "eta_time": 12.287650549596407, + "step": 1911 + }, + { + "epoch": 0.20394666666666666, + "grad_norm": 1.7730403540634079, + "learning_rate": 9.22786691757905e-06, + "loss": 0.5142, + "step": 1912 + }, + { + "avg_step_time": 5.923493226369222, + "epoch": 0.20394666666666666, + "eta_time": 12.279730541220417, + "step": 1912 + }, + { + "epoch": 0.20405333333333334, + "grad_norm": 0.7105981988799318, + "learning_rate": 9.226944434886034e-06, + "loss": 0.4603, + "step": 1913 + }, + { + "avg_step_time": 5.913644224706323, + "epoch": 0.20405333333333334, + "eta_time": 12.25767033465516, + "step": 1913 + }, + { + "epoch": 0.20416, + "grad_norm": 1.6049601779022256, + "learning_rate": 9.226021447634085e-06, + "loss": 0.5236, + "step": 1914 + }, + { + "avg_step_time": 5.9224470191531715, + "epoch": 0.20416, + "eta_time": 12.274271447194947, + "step": 1914 + }, + { + "epoch": 0.20426666666666668, + "grad_norm": 2.0696170218841647, + "learning_rate": 9.225097955933382e-06, + "loss": 0.5683, + "step": 1915 + }, + { + "avg_step_time": 5.921320900772557, + "epoch": 0.20426666666666668, + "eta_time": 12.270292755489798, + "step": 1915 + }, + { + "epoch": 0.20437333333333332, + "grad_norm": 1.7287867873735452, + "learning_rate": 9.224173959894157e-06, + "loss": 0.4834, + "step": 1916 + }, + { + "avg_step_time": 5.919907516903347, + "epoch": 0.20437333333333332, + "eta_time": 12.265719491272796, + "step": 1916 + }, + { + "epoch": 0.20448, + "grad_norm": 1.869299284297627, + "learning_rate": 9.223249459626704e-06, + "loss": 0.4327, + "step": 1917 + }, + { + "avg_step_time": 5.918903023305566, + "epoch": 0.20448, + "eta_time": 12.261994096614698, + "step": 1917 + }, + { + "epoch": 0.20458666666666667, + "grad_norm": 1.7777717303709775, + "learning_rate": 9.22232445524138e-06, + "loss": 0.522, + "step": 1918 + }, + { + "avg_step_time": 5.919339382287228, + "epoch": 0.20458666666666667, + "eta_time": 12.261253826032183, + "step": 1918 + }, + { + "epoch": 0.20469333333333334, + "grad_norm": 1.7320664735407656, + "learning_rate": 9.221398946848598e-06, + "loss": 0.4922, + "step": 1919 + }, + { + "avg_step_time": 5.920646200276384, + "epoch": 0.20469333333333334, + "eta_time": 12.262316130350202, + "step": 1919 + }, + { + "epoch": 0.2048, + "grad_norm": 1.8133948532380602, + "learning_rate": 9.220472934558838e-06, + "loss": 0.4986, + "step": 1920 + }, + { + "avg_step_time": 5.937151022631713, + "epoch": 0.2048, + "eta_time": 12.294850242699837, + "step": 1920 + }, + { + "epoch": 0.20490666666666665, + "grad_norm": 1.7765399536431037, + "learning_rate": 9.21954641848263e-06, + "loss": 0.5023, + "step": 1921 + }, + { + "avg_step_time": 5.954002994479555, + "epoch": 0.20490666666666665, + "eta_time": 12.328093978014056, + "step": 1921 + }, + { + "epoch": 0.20501333333333333, + "grad_norm": 1.5802777967088792, + "learning_rate": 9.218619398730572e-06, + "loss": 0.4553, + "step": 1922 + }, + { + "avg_step_time": 5.956328081362175, + "epoch": 0.20501333333333333, + "eta_time": 12.331253663997858, + "step": 1922 + }, + { + "epoch": 0.20512, + "grad_norm": 1.8669565697731065, + "learning_rate": 9.217691875413323e-06, + "loss": 0.5121, + "step": 1923 + }, + { + "avg_step_time": 5.963395742454914, + "epoch": 0.20512, + "eta_time": 12.344229186881671, + "step": 1923 + }, + { + "epoch": 0.20522666666666667, + "grad_norm": 1.7082981353613578, + "learning_rate": 9.216763848641595e-06, + "loss": 0.5371, + "step": 1924 + }, + { + "avg_step_time": 5.969634752080898, + "epoch": 0.20522666666666667, + "eta_time": 12.355485704931882, + "step": 1924 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 1.4983197279757752, + "learning_rate": 9.215835318526164e-06, + "loss": 0.4699, + "step": 1925 + }, + { + "avg_step_time": 6.003107116679953, + "epoch": 0.20533333333333334, + "eta_time": 12.423096672018234, + "step": 1925 + }, + { + "epoch": 0.20544, + "grad_norm": 1.7476285479437073, + "learning_rate": 9.214906285177867e-06, + "loss": 0.5167, + "step": 1926 + }, + { + "avg_step_time": 5.9970114616432575, + "epoch": 0.20544, + "eta_time": 12.408816216050173, + "step": 1926 + }, + { + "epoch": 0.20554666666666666, + "grad_norm": 1.587444088165647, + "learning_rate": 9.213976748707602e-06, + "loss": 0.457, + "step": 1927 + }, + { + "avg_step_time": 5.9749510601313425, + "epoch": 0.20554666666666666, + "eta_time": 12.361509859960622, + "step": 1927 + }, + { + "epoch": 0.20565333333333333, + "grad_norm": 1.4633689031402415, + "learning_rate": 9.213046709226323e-06, + "loss": 0.4886, + "step": 1928 + }, + { + "avg_step_time": 5.927125569545861, + "epoch": 0.20565333333333333, + "eta_time": 12.260917810113341, + "step": 1928 + }, + { + "epoch": 0.20576, + "grad_norm": 1.6879312295644733, + "learning_rate": 9.212116166845048e-06, + "loss": 0.4914, + "step": 1929 + }, + { + "avg_step_time": 5.92781005724512, + "epoch": 0.20576, + "eta_time": 12.260687135068656, + "step": 1929 + }, + { + "epoch": 0.20586666666666667, + "grad_norm": 1.6568332180148735, + "learning_rate": 9.211185121674851e-06, + "loss": 0.4784, + "step": 1930 + }, + { + "avg_step_time": 5.926273232758647, + "epoch": 0.20586666666666667, + "eta_time": 12.255862282746701, + "step": 1930 + }, + { + "epoch": 0.20597333333333334, + "grad_norm": 1.6508388194045651, + "learning_rate": 9.21025357382687e-06, + "loss": 0.5161, + "step": 1931 + }, + { + "avg_step_time": 5.913237641556094, + "epoch": 0.20597333333333334, + "eta_time": 12.227261389928767, + "step": 1931 + }, + { + "epoch": 0.20608, + "grad_norm": 1.6000326831418341, + "learning_rate": 9.209321523412303e-06, + "loss": 0.4309, + "step": 1932 + }, + { + "avg_step_time": 5.8823254541917285, + "epoch": 0.20608, + "eta_time": 12.161707876541398, + "step": 1932 + }, + { + "epoch": 0.20618666666666666, + "grad_norm": 1.8758553800133702, + "learning_rate": 9.208388970542401e-06, + "loss": 0.4816, + "step": 1933 + }, + { + "avg_step_time": 5.921594126055939, + "epoch": 0.20618666666666666, + "eta_time": 12.241250968363415, + "step": 1933 + }, + { + "epoch": 0.20629333333333333, + "grad_norm": 1.65724678561098, + "learning_rate": 9.207455915328487e-06, + "loss": 0.5508, + "step": 1934 + }, + { + "avg_step_time": 5.916020720896094, + "epoch": 0.20629333333333333, + "eta_time": 12.2280861622744, + "step": 1934 + }, + { + "epoch": 0.2064, + "grad_norm": 2.1187347432621824, + "learning_rate": 9.206522357881931e-06, + "loss": 0.51, + "step": 1935 + }, + { + "avg_step_time": 5.946831214307535, + "epoch": 0.2064, + "eta_time": 12.290117842902239, + "step": 1935 + }, + { + "epoch": 0.20650666666666667, + "grad_norm": 0.6759518226533114, + "learning_rate": 9.205588298314175e-06, + "loss": 0.4207, + "step": 1936 + }, + { + "avg_step_time": 5.908812453048398, + "epoch": 0.20650666666666667, + "eta_time": 12.209904399507508, + "step": 1936 + }, + { + "epoch": 0.20661333333333334, + "grad_norm": 1.5986494967719977, + "learning_rate": 9.204653736736711e-06, + "loss": 0.501, + "step": 1937 + }, + { + "avg_step_time": 5.928372291603473, + "epoch": 0.20661333333333334, + "eta_time": 12.248675862485177, + "step": 1937 + }, + { + "epoch": 0.20672, + "grad_norm": 1.7577253421471717, + "learning_rate": 9.203718673261098e-06, + "loss": 0.4793, + "step": 1938 + }, + { + "avg_step_time": 5.929455930536443, + "epoch": 0.20672, + "eta_time": 12.249267709833202, + "step": 1938 + }, + { + "epoch": 0.20682666666666666, + "grad_norm": 0.6777744104648117, + "learning_rate": 9.202783107998947e-06, + "loss": 0.4433, + "step": 1939 + }, + { + "avg_step_time": 5.8943315804606735, + "epoch": 0.20682666666666666, + "eta_time": 12.175069342307102, + "step": 1939 + }, + { + "epoch": 0.20693333333333333, + "grad_norm": 1.6961394620056682, + "learning_rate": 9.20184704106194e-06, + "loss": 0.5002, + "step": 1940 + }, + { + "avg_step_time": 5.89821694836472, + "epoch": 0.20693333333333333, + "eta_time": 12.181456391969913, + "step": 1940 + }, + { + "epoch": 0.20704, + "grad_norm": 1.900527404850585, + "learning_rate": 9.20091047256181e-06, + "loss": 0.5632, + "step": 1941 + }, + { + "avg_step_time": 5.904310503391304, + "epoch": 0.20704, + "eta_time": 12.192401189503045, + "step": 1941 + }, + { + "epoch": 0.20714666666666667, + "grad_norm": 1.693748926008177, + "learning_rate": 9.199973402610351e-06, + "loss": 0.4486, + "step": 1942 + }, + { + "avg_step_time": 5.903873787985908, + "epoch": 0.20714666666666667, + "eta_time": 12.189859407249791, + "step": 1942 + }, + { + "epoch": 0.20725333333333334, + "grad_norm": 1.7606290869889794, + "learning_rate": 9.199035831319422e-06, + "loss": 0.5384, + "step": 1943 + }, + { + "avg_step_time": 5.899036795201928, + "epoch": 0.20725333333333334, + "eta_time": 12.17823373942798, + "step": 1943 + }, + { + "epoch": 0.20736, + "grad_norm": 1.8394469225104044, + "learning_rate": 9.198097758800938e-06, + "loss": 0.6633, + "step": 1944 + }, + { + "avg_step_time": 5.936927530500624, + "epoch": 0.20736, + "eta_time": 12.254807910875037, + "step": 1944 + }, + { + "epoch": 0.20746666666666666, + "grad_norm": 1.6077412158179925, + "learning_rate": 9.197159185166871e-06, + "loss": 0.4586, + "step": 1945 + }, + { + "avg_step_time": 5.932611776120735, + "epoch": 0.20746666666666666, + "eta_time": 12.244251526826963, + "step": 1945 + }, + { + "epoch": 0.20757333333333333, + "grad_norm": 1.6760764767306264, + "learning_rate": 9.19622011052926e-06, + "loss": 0.5524, + "step": 1946 + }, + { + "avg_step_time": 5.947869763229832, + "epoch": 0.20757333333333333, + "eta_time": 12.274090130842895, + "step": 1946 + }, + { + "epoch": 0.20768, + "grad_norm": 2.0995631576874265, + "learning_rate": 9.195280535000196e-06, + "loss": 0.6193, + "step": 1947 + }, + { + "avg_step_time": 5.984696612213597, + "epoch": 0.20768, + "eta_time": 12.348424009867388, + "step": 1947 + }, + { + "epoch": 0.20778666666666668, + "grad_norm": 1.8708686901369813, + "learning_rate": 9.194340458691833e-06, + "loss": 0.4717, + "step": 1948 + }, + { + "avg_step_time": 5.984218224130496, + "epoch": 0.20778666666666668, + "eta_time": 12.345774652949219, + "step": 1948 + }, + { + "epoch": 0.20789333333333335, + "grad_norm": 1.7657821569341248, + "learning_rate": 9.19339988171639e-06, + "loss": 0.5084, + "step": 1949 + }, + { + "avg_step_time": 5.9862368901570635, + "epoch": 0.20789333333333335, + "eta_time": 12.348276429529541, + "step": 1949 + }, + { + "epoch": 0.208, + "grad_norm": 1.445386645427351, + "learning_rate": 9.19245880418614e-06, + "loss": 0.4848, + "step": 1950 + }, + { + "avg_step_time": 5.982303588077276, + "epoch": 0.208, + "eta_time": 12.33850115040938, + "step": 1950 + }, + { + "epoch": 0.20810666666666666, + "grad_norm": 1.9778001879783063, + "learning_rate": 9.191517226213413e-06, + "loss": 0.4402, + "step": 1951 + }, + { + "avg_step_time": 5.993017073833581, + "epoch": 0.20810666666666666, + "eta_time": 12.358932987816807, + "step": 1951 + }, + { + "epoch": 0.20821333333333333, + "grad_norm": 1.5226494046493768, + "learning_rate": 9.190575147910606e-06, + "loss": 0.5312, + "step": 1952 + }, + { + "avg_step_time": 6.030223899417454, + "epoch": 0.20821333333333333, + "eta_time": 12.433986668159934, + "step": 1952 + }, + { + "epoch": 0.20832, + "grad_norm": 1.8721046291457555, + "learning_rate": 9.189632569390172e-06, + "loss": 0.5624, + "step": 1953 + }, + { + "avg_step_time": 6.029567930433485, + "epoch": 0.20832, + "eta_time": 12.430959216577033, + "step": 1953 + }, + { + "epoch": 0.20842666666666668, + "grad_norm": 1.6366068184712856, + "learning_rate": 9.188689490764624e-06, + "loss": 0.5555, + "step": 1954 + }, + { + "avg_step_time": 6.026817984051174, + "epoch": 0.20842666666666668, + "eta_time": 12.423615627678824, + "step": 1954 + }, + { + "epoch": 0.20853333333333332, + "grad_norm": 1.706632768523544, + "learning_rate": 9.187745912146535e-06, + "loss": 0.5403, + "step": 1955 + }, + { + "avg_step_time": 6.03138832853298, + "epoch": 0.20853333333333332, + "eta_time": 12.431361499365197, + "step": 1955 + }, + { + "epoch": 0.20864, + "grad_norm": 1.9050083747579323, + "learning_rate": 9.186801833648535e-06, + "loss": 0.5578, + "step": 1956 + }, + { + "avg_step_time": 6.0336583262742165, + "epoch": 0.20864, + "eta_time": 12.434364200730114, + "step": 1956 + }, + { + "epoch": 0.20874666666666666, + "grad_norm": 1.37185140424486, + "learning_rate": 9.185857255383319e-06, + "loss": 0.4384, + "step": 1957 + }, + { + "avg_step_time": 5.97183872955014, + "epoch": 0.20874666666666666, + "eta_time": 12.305305471056373, + "step": 1957 + }, + { + "epoch": 0.20885333333333334, + "grad_norm": 1.505095743012182, + "learning_rate": 9.184912177463637e-06, + "loss": 0.5231, + "step": 1958 + }, + { + "avg_step_time": 5.969096020014599, + "epoch": 0.20885333333333334, + "eta_time": 12.297995883457856, + "step": 1958 + }, + { + "epoch": 0.20896, + "grad_norm": 1.4967069096693622, + "learning_rate": 9.183966600002301e-06, + "loss": 0.4828, + "step": 1959 + }, + { + "avg_step_time": 5.969235754976369, + "epoch": 0.20896, + "eta_time": 12.29662565525132, + "step": 1959 + }, + { + "epoch": 0.20906666666666668, + "grad_norm": 1.892023763527489, + "learning_rate": 9.183020523112183e-06, + "loss": 0.4945, + "step": 1960 + }, + { + "avg_step_time": 5.966195046299636, + "epoch": 0.20906666666666668, + "eta_time": 12.2887045189755, + "step": 1960 + }, + { + "epoch": 0.20917333333333332, + "grad_norm": 1.707474898844525, + "learning_rate": 9.182073946906212e-06, + "loss": 0.4984, + "step": 1961 + }, + { + "avg_step_time": 5.963437545179117, + "epoch": 0.20917333333333332, + "eta_time": 12.281368322210549, + "step": 1961 + }, + { + "epoch": 0.20928, + "grad_norm": 1.5986912283215076, + "learning_rate": 9.181126871497378e-06, + "loss": 0.465, + "step": 1962 + }, + { + "avg_step_time": 5.964255294414482, + "epoch": 0.20928, + "eta_time": 12.281395693748486, + "step": 1962 + }, + { + "epoch": 0.20938666666666667, + "grad_norm": 1.6738737208231407, + "learning_rate": 9.180179296998733e-06, + "loss": 0.5676, + "step": 1963 + }, + { + "avg_step_time": 5.936074603687633, + "epoch": 0.20938666666666667, + "eta_time": 12.221718045147982, + "step": 1963 + }, + { + "epoch": 0.20949333333333334, + "grad_norm": 1.7243804045062483, + "learning_rate": 9.179231223523385e-06, + "loss": 0.5383, + "step": 1964 + }, + { + "avg_step_time": 5.913481791814168, + "epoch": 0.20949333333333334, + "eta_time": 12.173559321981887, + "step": 1964 + }, + { + "epoch": 0.2096, + "grad_norm": 1.6978217242761056, + "learning_rate": 9.178282651184506e-06, + "loss": 0.5328, + "step": 1965 + }, + { + "avg_step_time": 5.959818664223257, + "epoch": 0.2096, + "eta_time": 12.267293417192871, + "step": 1965 + }, + { + "epoch": 0.20970666666666668, + "grad_norm": 1.7021524132808963, + "learning_rate": 9.177333580095318e-06, + "loss": 0.524, + "step": 1966 + }, + { + "avg_step_time": 5.982724685861607, + "epoch": 0.20970666666666668, + "eta_time": 12.312779777096845, + "step": 1966 + }, + { + "epoch": 0.20981333333333332, + "grad_norm": 1.5402754134562342, + "learning_rate": 9.176384010369113e-06, + "loss": 0.4244, + "step": 1967 + }, + { + "avg_step_time": 5.983714867119837, + "epoch": 0.20981333333333332, + "eta_time": 12.31315548211771, + "step": 1967 + }, + { + "epoch": 0.20992, + "grad_norm": 1.642950550225405, + "learning_rate": 9.175433942119238e-06, + "loss": 0.5017, + "step": 1968 + }, + { + "avg_step_time": 5.860170186168015, + "epoch": 0.20992, + "eta_time": 12.057300158040691, + "step": 1968 + }, + { + "epoch": 0.21002666666666667, + "grad_norm": 0.7562380019385617, + "learning_rate": 9.174483375459102e-06, + "loss": 0.4561, + "step": 1969 + }, + { + "avg_step_time": 5.826248602433638, + "epoch": 0.21002666666666667, + "eta_time": 11.985888097117645, + "step": 1969 + }, + { + "epoch": 0.21013333333333334, + "grad_norm": 1.8416789350835059, + "learning_rate": 9.173532310502169e-06, + "loss": 0.4306, + "step": 1970 + }, + { + "avg_step_time": 5.826563230668656, + "epoch": 0.21013333333333334, + "eta_time": 11.984916867528167, + "step": 1970 + }, + { + "epoch": 0.21024, + "grad_norm": 1.5953572703949148, + "learning_rate": 9.172580747361968e-06, + "loss": 0.4424, + "step": 1971 + }, + { + "avg_step_time": 5.828256554073757, + "epoch": 0.21024, + "eta_time": 11.986780979545028, + "step": 1971 + }, + { + "epoch": 0.21034666666666665, + "grad_norm": 1.8247116786929534, + "learning_rate": 9.17162868615208e-06, + "loss": 0.5403, + "step": 1972 + }, + { + "avg_step_time": 5.877224763234456, + "epoch": 0.21034666666666665, + "eta_time": 12.085859700617966, + "step": 1972 + }, + { + "epoch": 0.21045333333333333, + "grad_norm": 1.399058195998045, + "learning_rate": 9.170676126986154e-06, + "loss": 0.4199, + "step": 1973 + }, + { + "avg_step_time": 5.8742701621970745, + "epoch": 0.21045333333333333, + "eta_time": 12.078152150161873, + "step": 1973 + }, + { + "epoch": 0.21056, + "grad_norm": 2.552631807208083, + "learning_rate": 9.169723069977892e-06, + "loss": 0.6271, + "step": 1974 + }, + { + "avg_step_time": 5.886930981067696, + "epoch": 0.21056, + "eta_time": 12.102548941911673, + "step": 1974 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 1.7607554188216838, + "learning_rate": 9.16876951524106e-06, + "loss": 0.4211, + "step": 1975 + }, + { + "avg_step_time": 5.966026024384932, + "epoch": 0.21066666666666667, + "eta_time": 12.26349793901347, + "step": 1975 + }, + { + "epoch": 0.21077333333333334, + "grad_norm": 1.7670667687866681, + "learning_rate": 9.167815462889477e-06, + "loss": 0.4737, + "step": 1976 + }, + { + "avg_step_time": 5.967054316491792, + "epoch": 0.21077333333333334, + "eta_time": 12.263954135478548, + "step": 1976 + }, + { + "epoch": 0.21088, + "grad_norm": 1.649616820193586, + "learning_rate": 9.166860913037032e-06, + "loss": 0.4304, + "step": 1977 + }, + { + "avg_step_time": 5.973893456988865, + "epoch": 0.21088, + "eta_time": 12.276351054112116, + "step": 1977 + }, + { + "epoch": 0.21098666666666666, + "grad_norm": 1.8736503950434094, + "learning_rate": 9.165905865797661e-06, + "loss": 0.6421, + "step": 1978 + }, + { + "avg_step_time": 5.959079308943315, + "epoch": 0.21098666666666666, + "eta_time": 12.244252680070474, + "step": 1978 + }, + { + "epoch": 0.21109333333333333, + "grad_norm": 2.6689519674050817, + "learning_rate": 9.164950321285371e-06, + "loss": 0.5147, + "step": 1979 + }, + { + "avg_step_time": 5.994457464025478, + "epoch": 0.21109333333333333, + "eta_time": 12.315279834425677, + "step": 1979 + }, + { + "epoch": 0.2112, + "grad_norm": 1.5745162872937026, + "learning_rate": 9.163994279614218e-06, + "loss": 0.4912, + "step": 1980 + }, + { + "avg_step_time": 5.995336898649581, + "epoch": 0.2112, + "eta_time": 12.315421212642683, + "step": 1980 + }, + { + "epoch": 0.21130666666666667, + "grad_norm": 1.7170579324660065, + "learning_rate": 9.163037740898324e-06, + "loss": 0.4792, + "step": 1981 + }, + { + "avg_step_time": 5.997467368540137, + "epoch": 0.21130666666666667, + "eta_time": 12.31813158971827, + "step": 1981 + }, + { + "epoch": 0.21141333333333334, + "grad_norm": 1.5231272780552476, + "learning_rate": 9.16208070525187e-06, + "loss": 0.442, + "step": 1982 + }, + { + "avg_step_time": 5.999480989244249, + "epoch": 0.21141333333333334, + "eta_time": 12.32060082041187, + "step": 1982 + }, + { + "epoch": 0.21152, + "grad_norm": 1.8995480392930575, + "learning_rate": 9.161123172789091e-06, + "loss": 0.5987, + "step": 1983 + }, + { + "avg_step_time": 5.999965886877041, + "epoch": 0.21152, + "eta_time": 12.319929954387522, + "step": 1983 + }, + { + "epoch": 0.21162666666666666, + "grad_norm": 1.6962522077344788, + "learning_rate": 9.160165143624289e-06, + "loss": 0.4712, + "step": 1984 + }, + { + "avg_step_time": 6.001429569841635, + "epoch": 0.21162666666666666, + "eta_time": 12.321268319638756, + "step": 1984 + }, + { + "epoch": 0.21173333333333333, + "grad_norm": 2.1160342641169194, + "learning_rate": 9.159206617871819e-06, + "loss": 0.6215, + "step": 1985 + }, + { + "avg_step_time": 6.002303325768673, + "epoch": 0.21173333333333333, + "eta_time": 12.321394882619582, + "step": 1985 + }, + { + "epoch": 0.21184, + "grad_norm": 1.8957017267139724, + "learning_rate": 9.158247595646098e-06, + "loss": 0.5694, + "step": 1986 + }, + { + "avg_step_time": 5.999850976346719, + "epoch": 0.21184, + "eta_time": 12.31469412895164, + "step": 1986 + }, + { + "epoch": 0.21194666666666667, + "grad_norm": 1.6793577437945657, + "learning_rate": 9.1572880770616e-06, + "loss": 0.4849, + "step": 1987 + }, + { + "avg_step_time": 5.997860737521239, + "epoch": 0.21194666666666667, + "eta_time": 12.308943091335253, + "step": 1987 + }, + { + "epoch": 0.21205333333333334, + "grad_norm": 1.4355630497158802, + "learning_rate": 9.156328062232867e-06, + "loss": 0.4846, + "step": 1988 + }, + { + "avg_step_time": 5.9860707750224105, + "epoch": 0.21205333333333334, + "eta_time": 12.283084670858486, + "step": 1988 + }, + { + "epoch": 0.21216, + "grad_norm": 1.5032657166416972, + "learning_rate": 9.155367551274485e-06, + "loss": 0.5388, + "step": 1989 + }, + { + "avg_step_time": 6.011738839775625, + "epoch": 0.21216, + "eta_time": 12.334084186272992, + "step": 1989 + }, + { + "epoch": 0.21226666666666666, + "grad_norm": 1.8433136567239825, + "learning_rate": 9.154406544301113e-06, + "loss": 0.5718, + "step": 1990 + }, + { + "avg_step_time": 6.00836940004368, + "epoch": 0.21226666666666666, + "eta_time": 12.325502227589604, + "step": 1990 + }, + { + "epoch": 0.21237333333333333, + "grad_norm": 1.6839285131077832, + "learning_rate": 9.15344504142746e-06, + "loss": 0.5393, + "step": 1991 + }, + { + "avg_step_time": 6.009209512460111, + "epoch": 0.21237333333333333, + "eta_time": 12.325556400001517, + "step": 1991 + }, + { + "epoch": 0.21248, + "grad_norm": 1.6420422469018356, + "learning_rate": 9.152483042768302e-06, + "loss": 0.509, + "step": 1992 + }, + { + "avg_step_time": 6.008531192336419, + "epoch": 0.21248, + "eta_time": 12.322496053616607, + "step": 1992 + }, + { + "epoch": 0.21258666666666667, + "grad_norm": 0.7177670205110647, + "learning_rate": 9.151520548438468e-06, + "loss": 0.4428, + "step": 1993 + }, + { + "avg_step_time": 5.971764208090426, + "epoch": 0.21258666666666667, + "eta_time": 12.245434273367646, + "step": 1993 + }, + { + "epoch": 0.21269333333333335, + "grad_norm": 1.4654474472509489, + "learning_rate": 9.150557558552847e-06, + "loss": 0.5369, + "step": 1994 + }, + { + "avg_step_time": 5.970139474579782, + "epoch": 0.21269333333333335, + "eta_time": 12.240444294964826, + "step": 1994 + }, + { + "epoch": 0.2128, + "grad_norm": 1.8791750097871518, + "learning_rate": 9.149594073226391e-06, + "loss": 0.5169, + "step": 1995 + }, + { + "avg_step_time": 6.0054066108934805, + "epoch": 0.2128, + "eta_time": 12.311083552331635, + "step": 1995 + }, + { + "epoch": 0.21290666666666666, + "grad_norm": 1.575467695138022, + "learning_rate": 9.148630092574109e-06, + "loss": 0.4845, + "step": 1996 + }, + { + "avg_step_time": 6.0006840132703685, + "epoch": 0.21290666666666666, + "eta_time": 12.299735370533902, + "step": 1996 + }, + { + "epoch": 0.21301333333333333, + "grad_norm": 1.6738500239056675, + "learning_rate": 9.147665616711065e-06, + "loss": 0.3943, + "step": 1997 + }, + { + "avg_step_time": 6.0368580986755065, + "epoch": 0.21301333333333333, + "eta_time": 12.37220529222997, + "step": 1997 + }, + { + "epoch": 0.21312, + "grad_norm": 1.622987834845972, + "learning_rate": 9.14670064575239e-06, + "loss": 0.5002, + "step": 1998 + }, + { + "avg_step_time": 6.036518990391433, + "epoch": 0.21312, + "eta_time": 12.369833497810445, + "step": 1998 + }, + { + "epoch": 0.21322666666666668, + "grad_norm": 0.6764498869855284, + "learning_rate": 9.145735179813269e-06, + "loss": 0.4691, + "step": 1999 + }, + { + "avg_step_time": 6.038552806834982, + "epoch": 0.21322666666666668, + "eta_time": 12.372323750893008, + "step": 1999 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 1.682197532468752, + "learning_rate": 9.144769219008945e-06, + "loss": 0.5391, + "step": 2000 + }, + { + "avg_step_time": 6.035588466759884, + "epoch": 0.21333333333333335, + "eta_time": 12.364573595098372, + "step": 2000 + }, + { + "epoch": 0.21344, + "grad_norm": 1.8318643479533296, + "learning_rate": 9.143802763454723e-06, + "loss": 0.575, + "step": 2001 + }, + { + "avg_step_time": 6.0362846730935455, + "epoch": 0.21344, + "eta_time": 12.364323105386614, + "step": 2001 + }, + { + "epoch": 0.21354666666666666, + "grad_norm": 1.900414072467604, + "learning_rate": 9.142835813265966e-06, + "loss": 0.5223, + "step": 2002 + }, + { + "avg_step_time": 6.036721412581627, + "epoch": 0.21354666666666666, + "eta_time": 12.363540826378982, + "step": 2002 + }, + { + "epoch": 0.21365333333333333, + "grad_norm": 1.692530655467896, + "learning_rate": 9.1418683685581e-06, + "loss": 0.4681, + "step": 2003 + }, + { + "avg_step_time": 6.0610833384773946, + "epoch": 0.21365333333333333, + "eta_time": 12.411751769793154, + "step": 2003 + }, + { + "epoch": 0.21376, + "grad_norm": 1.8499403268671326, + "learning_rate": 9.140900429446601e-06, + "loss": 0.5098, + "step": 2004 + }, + { + "avg_step_time": 6.022407979676218, + "epoch": 0.21376, + "eta_time": 12.330880338387056, + "step": 2004 + }, + { + "epoch": 0.21386666666666668, + "grad_norm": 1.8936345625612045, + "learning_rate": 9.139931996047012e-06, + "loss": 0.5866, + "step": 2005 + }, + { + "avg_step_time": 6.020431887019765, + "epoch": 0.21386666666666668, + "eta_time": 12.325161946482128, + "step": 2005 + }, + { + "epoch": 0.21397333333333332, + "grad_norm": 1.753962518474219, + "learning_rate": 9.13896306847493e-06, + "loss": 0.5364, + "step": 2006 + }, + { + "avg_step_time": 5.964684149231574, + "epoch": 0.21397333333333332, + "eta_time": 12.209377082135408, + "step": 2006 + }, + { + "epoch": 0.21408, + "grad_norm": 1.733861655312065, + "learning_rate": 9.137993646846018e-06, + "loss": 0.4668, + "step": 2007 + }, + { + "avg_step_time": 5.957408230714123, + "epoch": 0.21408, + "eta_time": 12.19282884552824, + "step": 2007 + }, + { + "epoch": 0.21418666666666666, + "grad_norm": 2.363428743452497, + "learning_rate": 9.137023731275988e-06, + "loss": 0.5366, + "step": 2008 + }, + { + "avg_step_time": 5.9263286951816445, + "epoch": 0.21418666666666666, + "eta_time": 12.127573193723105, + "step": 2008 + }, + { + "epoch": 0.21429333333333334, + "grad_norm": 1.4614727182203546, + "learning_rate": 9.13605332188062e-06, + "loss": 0.5354, + "step": 2009 + }, + { + "avg_step_time": 5.930400121091592, + "epoch": 0.21429333333333334, + "eta_time": 12.134257581100185, + "step": 2009 + }, + { + "epoch": 0.2144, + "grad_norm": 0.6828138478053322, + "learning_rate": 9.135082418775746e-06, + "loss": 0.4599, + "step": 2010 + }, + { + "avg_step_time": 5.928536470490273, + "epoch": 0.2144, + "eta_time": 12.128797529211349, + "step": 2010 + }, + { + "epoch": 0.21450666666666668, + "grad_norm": 0.6784946116784881, + "learning_rate": 9.134111022077263e-06, + "loss": 0.4457, + "step": 2011 + }, + { + "avg_step_time": 5.896864009625984, + "epoch": 0.21450666666666668, + "eta_time": 12.06236293524604, + "step": 2011 + }, + { + "epoch": 0.21461333333333332, + "grad_norm": 1.5949100338215598, + "learning_rate": 9.133139131901123e-06, + "loss": 0.531, + "step": 2012 + }, + { + "avg_step_time": 5.912694126668603, + "epoch": 0.21461333333333332, + "eta_time": 12.093101904072478, + "step": 2012 + }, + { + "epoch": 0.21472, + "grad_norm": 2.157273376854679, + "learning_rate": 9.132166748363335e-06, + "loss": 0.5682, + "step": 2013 + }, + { + "avg_step_time": 5.89091537215493, + "epoch": 0.21472, + "eta_time": 12.046921936056831, + "step": 2013 + }, + { + "epoch": 0.21482666666666667, + "grad_norm": 0.6357106714941462, + "learning_rate": 9.131193871579975e-06, + "loss": 0.449, + "step": 2014 + }, + { + "avg_step_time": 5.85467463069492, + "epoch": 0.21482666666666667, + "eta_time": 11.971183321262584, + "step": 2014 + }, + { + "epoch": 0.21493333333333334, + "grad_norm": 1.810031893289308, + "learning_rate": 9.130220501667168e-06, + "loss": 0.5033, + "step": 2015 + }, + { + "avg_step_time": 5.852982102018414, + "epoch": 0.21493333333333334, + "eta_time": 11.966096741904314, + "step": 2015 + }, + { + "epoch": 0.21504, + "grad_norm": 1.5447608827901467, + "learning_rate": 9.129246638741108e-06, + "loss": 0.5083, + "step": 2016 + }, + { + "avg_step_time": 5.855719650634612, + "epoch": 0.21504, + "eta_time": 11.97006691917225, + "step": 2016 + }, + { + "epoch": 0.21514666666666668, + "grad_norm": 0.6897816846378885, + "learning_rate": 9.128272282918036e-06, + "loss": 0.4419, + "step": 2017 + }, + { + "avg_step_time": 5.824600894041736, + "epoch": 0.21514666666666668, + "eta_time": 11.904837049544193, + "step": 2017 + }, + { + "epoch": 0.21525333333333332, + "grad_norm": 0.644775374702716, + "learning_rate": 9.127297434314262e-06, + "loss": 0.4373, + "step": 2018 + }, + { + "avg_step_time": 5.810611840450402, + "epoch": 0.21525333333333332, + "eta_time": 11.874630919498225, + "step": 2018 + }, + { + "epoch": 0.21536, + "grad_norm": 1.7698575587372096, + "learning_rate": 9.126322093046149e-06, + "loss": 0.4531, + "step": 2019 + }, + { + "avg_step_time": 5.791792443304351, + "epoch": 0.21536, + "eta_time": 11.83456255915189, + "step": 2019 + }, + { + "epoch": 0.21546666666666667, + "grad_norm": 1.8071950189845811, + "learning_rate": 9.125346259230123e-06, + "loss": 0.5624, + "step": 2020 + }, + { + "avg_step_time": 5.776025206151635, + "epoch": 0.21546666666666667, + "eta_time": 11.80074038645702, + "step": 2020 + }, + { + "epoch": 0.21557333333333334, + "grad_norm": 1.6424201110236971, + "learning_rate": 9.124369932982667e-06, + "loss": 0.4666, + "step": 2021 + }, + { + "avg_step_time": 5.775211131933964, + "epoch": 0.21557333333333334, + "eta_time": 11.797472962289547, + "step": 2021 + }, + { + "epoch": 0.21568, + "grad_norm": 1.9177464288251866, + "learning_rate": 9.123393114420318e-06, + "loss": 0.4692, + "step": 2022 + }, + { + "avg_step_time": 5.817763774081914, + "epoch": 0.21568, + "eta_time": 11.882782508562311, + "step": 2022 + }, + { + "epoch": 0.21578666666666665, + "grad_norm": 1.7368900302374064, + "learning_rate": 9.12241580365968e-06, + "loss": 0.6187, + "step": 2023 + }, + { + "avg_step_time": 5.814309264674331, + "epoch": 0.21578666666666665, + "eta_time": 11.874111587190468, + "step": 2023 + }, + { + "epoch": 0.21589333333333333, + "grad_norm": 1.7519907134414408, + "learning_rate": 9.121438000817413e-06, + "loss": 0.5191, + "step": 2024 + }, + { + "avg_step_time": 5.818723196935172, + "epoch": 0.21589333333333333, + "eta_time": 11.881509505741791, + "step": 2024 + }, + { + "epoch": 0.216, + "grad_norm": 1.5114322407216434, + "learning_rate": 9.120459706010233e-06, + "loss": 0.4888, + "step": 2025 + }, + { + "avg_step_time": 5.818917125162452, + "epoch": 0.216, + "eta_time": 11.880289130540007, + "step": 2025 + }, + { + "epoch": 0.21610666666666667, + "grad_norm": 1.8254848256679284, + "learning_rate": 9.119480919354916e-06, + "loss": 0.5165, + "step": 2026 + }, + { + "avg_step_time": 5.817230954314724, + "epoch": 0.21610666666666667, + "eta_time": 11.875230634238584, + "step": 2026 + }, + { + "epoch": 0.21621333333333334, + "grad_norm": 1.3800367364041974, + "learning_rate": 9.118501640968295e-06, + "loss": 0.4917, + "step": 2027 + }, + { + "avg_step_time": 5.830195725566209, + "epoch": 0.21621333333333334, + "eta_time": 11.900077275405694, + "step": 2027 + }, + { + "epoch": 0.21632, + "grad_norm": 1.6647796978034164, + "learning_rate": 9.11752187096727e-06, + "loss": 0.5147, + "step": 2028 + }, + { + "avg_step_time": 5.831765341036247, + "epoch": 0.21632, + "eta_time": 11.901661100164807, + "step": 2028 + }, + { + "epoch": 0.21642666666666666, + "grad_norm": 2.150887081209757, + "learning_rate": 9.116541609468788e-06, + "loss": 0.5014, + "step": 2029 + }, + { + "avg_step_time": 5.831477230245417, + "epoch": 0.21642666666666666, + "eta_time": 11.89945325927301, + "step": 2029 + }, + { + "epoch": 0.21653333333333333, + "grad_norm": 1.8335518959827013, + "learning_rate": 9.115560856589863e-06, + "loss": 0.5309, + "step": 2030 + }, + { + "avg_step_time": 5.8399230542809075, + "epoch": 0.21653333333333333, + "eta_time": 11.915065231581462, + "step": 2030 + }, + { + "epoch": 0.21664, + "grad_norm": 0.7757986627312515, + "learning_rate": 9.114579612447562e-06, + "loss": 0.4803, + "step": 2031 + }, + { + "avg_step_time": 5.802250223930436, + "epoch": 0.21664, + "eta_time": 11.836590456818088, + "step": 2031 + }, + { + "epoch": 0.21674666666666667, + "grad_norm": 1.8991650251545484, + "learning_rate": 9.113597877159014e-06, + "loss": 0.6044, + "step": 2032 + }, + { + "avg_step_time": 5.803601009677155, + "epoch": 0.21674666666666667, + "eta_time": 11.837733948349818, + "step": 2032 + }, + { + "epoch": 0.21685333333333334, + "grad_norm": 1.647988743797409, + "learning_rate": 9.112615650841412e-06, + "loss": 0.5393, + "step": 2033 + }, + { + "avg_step_time": 5.801559925079346, + "epoch": 0.21685333333333334, + "eta_time": 11.831959158314598, + "step": 2033 + }, + { + "epoch": 0.21696, + "grad_norm": 1.6125324471700253, + "learning_rate": 9.111632933611993e-06, + "loss": 0.4272, + "step": 2034 + }, + { + "avg_step_time": 5.804755230142613, + "epoch": 0.21696, + "eta_time": 11.836863373465812, + "step": 2034 + }, + { + "epoch": 0.21706666666666666, + "grad_norm": 0.6956607774743191, + "learning_rate": 9.110649725588067e-06, + "loss": 0.4443, + "step": 2035 + }, + { + "avg_step_time": 5.801683683588047, + "epoch": 0.21706666666666666, + "eta_time": 11.82898839931563, + "step": 2035 + }, + { + "epoch": 0.21717333333333333, + "grad_norm": 1.6948657291714493, + "learning_rate": 9.109666026886995e-06, + "loss": 0.5495, + "step": 2036 + }, + { + "avg_step_time": 5.7843648809375185, + "epoch": 0.21717333333333333, + "eta_time": 11.792070517000123, + "step": 2036 + }, + { + "epoch": 0.21728, + "grad_norm": 1.7606340998907408, + "learning_rate": 9.108681837626199e-06, + "loss": 0.5128, + "step": 2037 + }, + { + "avg_step_time": 5.790133851947206, + "epoch": 0.21728, + "eta_time": 11.802222834885722, + "step": 2037 + }, + { + "epoch": 0.21738666666666667, + "grad_norm": 1.4826551780052482, + "learning_rate": 9.107697157923156e-06, + "loss": 0.5518, + "step": 2038 + }, + { + "avg_step_time": 5.829590014737062, + "epoch": 0.21738666666666667, + "eta_time": 11.881028316146061, + "step": 2038 + }, + { + "epoch": 0.21749333333333334, + "grad_norm": 2.0797573382154924, + "learning_rate": 9.106711987895411e-06, + "loss": 0.5952, + "step": 2039 + }, + { + "avg_step_time": 5.841683919983681, + "epoch": 0.21749333333333334, + "eta_time": 11.904053676944523, + "step": 2039 + }, + { + "epoch": 0.2176, + "grad_norm": 1.5650402836136723, + "learning_rate": 9.105726327660556e-06, + "loss": 0.4066, + "step": 2040 + }, + { + "avg_step_time": 5.840175014553648, + "epoch": 0.2176, + "eta_time": 11.89935659215306, + "step": 2040 + }, + { + "epoch": 0.21770666666666666, + "grad_norm": 1.6268986193084005, + "learning_rate": 9.104740177336246e-06, + "loss": 0.492, + "step": 2041 + }, + { + "avg_step_time": 5.845718000874375, + "epoch": 0.21770666666666666, + "eta_time": 11.909026616225741, + "step": 2041 + }, + { + "epoch": 0.21781333333333333, + "grad_norm": 1.5055862178822663, + "learning_rate": 9.103753537040199e-06, + "loss": 0.4798, + "step": 2042 + }, + { + "avg_step_time": 5.845835507518113, + "epoch": 0.21781333333333333, + "eta_time": 11.90764216017509, + "step": 2042 + }, + { + "epoch": 0.21792, + "grad_norm": 1.5431239606687952, + "learning_rate": 9.102766406890185e-06, + "loss": 0.528, + "step": 2043 + }, + { + "avg_step_time": 5.847410168310608, + "epoch": 0.21792, + "eta_time": 11.909225376125937, + "step": 2043 + }, + { + "epoch": 0.21802666666666667, + "grad_norm": 1.8625970945941934, + "learning_rate": 9.101778787004037e-06, + "loss": 0.5399, + "step": 2044 + }, + { + "avg_step_time": 5.860827318345658, + "epoch": 0.21802666666666667, + "eta_time": 11.934923630775561, + "step": 2044 + }, + { + "epoch": 0.21813333333333335, + "grad_norm": 1.7502375476898648, + "learning_rate": 9.10079067749964e-06, + "loss": 0.5736, + "step": 2045 + }, + { + "avg_step_time": 5.850449653586956, + "epoch": 0.21813333333333335, + "eta_time": 11.912165544664553, + "step": 2045 + }, + { + "epoch": 0.21824, + "grad_norm": 1.555278827592456, + "learning_rate": 9.099802078494947e-06, + "loss": 0.4609, + "step": 2046 + }, + { + "avg_step_time": 5.84836525628061, + "epoch": 0.21824, + "eta_time": 11.90629693424461, + "step": 2046 + }, + { + "epoch": 0.21834666666666666, + "grad_norm": 1.746143484484672, + "learning_rate": 9.098812990107964e-06, + "loss": 0.5268, + "step": 2047 + }, + { + "avg_step_time": 5.845320179004862, + "epoch": 0.21834666666666666, + "eta_time": 11.89847396437434, + "step": 2047 + }, + { + "epoch": 0.21845333333333333, + "grad_norm": 1.6133151425653611, + "learning_rate": 9.097823412456752e-06, + "loss": 0.4242, + "step": 2048 + }, + { + "avg_step_time": 5.859019790032898, + "epoch": 0.21845333333333333, + "eta_time": 11.924732778214178, + "step": 2048 + }, + { + "epoch": 0.21856, + "grad_norm": 1.6694985160568685, + "learning_rate": 9.096833345659437e-06, + "loss": 0.4902, + "step": 2049 + }, + { + "avg_step_time": 5.857644331575644, + "epoch": 0.21856, + "eta_time": 11.920306214756437, + "step": 2049 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 2.1184386980038505, + "learning_rate": 9.0958427898342e-06, + "loss": 0.5622, + "step": 2050 + }, + { + "avg_step_time": 5.85765056417446, + "epoch": 0.21866666666666668, + "eta_time": 11.91869177293831, + "step": 2050 + }, + { + "epoch": 0.21877333333333332, + "grad_norm": 1.648187017338303, + "learning_rate": 9.094851745099282e-06, + "loss": 0.449, + "step": 2051 + }, + { + "avg_step_time": 5.85741536545031, + "epoch": 0.21877333333333332, + "eta_time": 11.916586149043908, + "step": 2051 + }, + { + "epoch": 0.21888, + "grad_norm": 1.8499921164336126, + "learning_rate": 9.09386021157298e-06, + "loss": 0.5197, + "step": 2052 + }, + { + "avg_step_time": 5.860960115085948, + "epoch": 0.21888, + "eta_time": 11.922169700770667, + "step": 2052 + }, + { + "epoch": 0.21898666666666666, + "grad_norm": 1.563054014386272, + "learning_rate": 9.092868189373651e-06, + "loss": 0.4687, + "step": 2053 + }, + { + "avg_step_time": 5.868385170445298, + "epoch": 0.21898666666666666, + "eta_time": 11.93564339388902, + "step": 2053 + }, + { + "epoch": 0.21909333333333333, + "grad_norm": 1.7238181514431554, + "learning_rate": 9.09187567861971e-06, + "loss": 0.4689, + "step": 2054 + }, + { + "avg_step_time": 5.866814656691118, + "epoch": 0.21909333333333333, + "eta_time": 11.930819472676577, + "step": 2054 + }, + { + "epoch": 0.2192, + "grad_norm": 1.7413178678463226, + "learning_rate": 9.09088267942963e-06, + "loss": 0.5233, + "step": 2055 + }, + { + "avg_step_time": 5.874105386059694, + "epoch": 0.2192, + "eta_time": 11.944014284988043, + "step": 2055 + }, + { + "epoch": 0.21930666666666668, + "grad_norm": 1.548101046268346, + "learning_rate": 9.089889191921944e-06, + "loss": 0.5639, + "step": 2056 + }, + { + "avg_step_time": 5.872373277490789, + "epoch": 0.21930666666666668, + "eta_time": 11.938861116098636, + "step": 2056 + }, + { + "epoch": 0.21941333333333332, + "grad_norm": 0.6932822749004441, + "learning_rate": 9.088895216215241e-06, + "loss": 0.4644, + "step": 2057 + }, + { + "avg_step_time": 5.826568013489848, + "epoch": 0.21941333333333332, + "eta_time": 11.844117978532974, + "step": 2057 + }, + { + "epoch": 0.21952, + "grad_norm": 1.53914474823498, + "learning_rate": 9.087900752428168e-06, + "loss": 0.5179, + "step": 2058 + }, + { + "avg_step_time": 5.82503837045997, + "epoch": 0.21952, + "eta_time": 11.83939048795989, + "step": 2058 + }, + { + "epoch": 0.21962666666666666, + "grad_norm": 1.6999785931621496, + "learning_rate": 9.086905800679433e-06, + "loss": 0.4785, + "step": 2059 + }, + { + "avg_step_time": 5.836530719140564, + "epoch": 0.21962666666666666, + "eta_time": 11.861127428120101, + "step": 2059 + }, + { + "epoch": 0.21973333333333334, + "grad_norm": 0.6295196513046918, + "learning_rate": 9.085910361087802e-06, + "loss": 0.4426, + "step": 2060 + }, + { + "avg_step_time": 5.804451364459413, + "epoch": 0.21973333333333334, + "eta_time": 11.79432270306128, + "step": 2060 + }, + { + "epoch": 0.21984, + "grad_norm": 0.6488824389174389, + "learning_rate": 9.084914433772094e-06, + "loss": 0.4321, + "step": 2061 + }, + { + "avg_step_time": 5.7668967439670755, + "epoch": 0.21984, + "eta_time": 11.716411884826442, + "step": 2061 + }, + { + "epoch": 0.21994666666666668, + "grad_norm": 2.209729295095938, + "learning_rate": 9.083918018851193e-06, + "loss": 0.5692, + "step": 2062 + }, + { + "avg_step_time": 5.762363804711236, + "epoch": 0.21994666666666668, + "eta_time": 11.705601806625907, + "step": 2062 + }, + { + "epoch": 0.22005333333333332, + "grad_norm": 1.370984409722371, + "learning_rate": 9.082921116444038e-06, + "loss": 0.4202, + "step": 2063 + }, + { + "avg_step_time": 5.791468873168483, + "epoch": 0.22005333333333332, + "eta_time": 11.763116777946653, + "step": 2063 + }, + { + "epoch": 0.22016, + "grad_norm": 1.9375582764570873, + "learning_rate": 9.081923726669626e-06, + "loss": 0.4496, + "step": 2064 + }, + { + "avg_step_time": 5.779808415306939, + "epoch": 0.22016, + "eta_time": 11.73782759008584, + "step": 2064 + }, + { + "epoch": 0.22026666666666667, + "grad_norm": 1.4918740685596483, + "learning_rate": 9.080925849647014e-06, + "loss": 0.4778, + "step": 2065 + }, + { + "avg_step_time": 5.7582775823997725, + "epoch": 0.22026666666666667, + "eta_time": 11.692502535372872, + "step": 2065 + }, + { + "epoch": 0.22037333333333334, + "grad_norm": 1.8083295829757982, + "learning_rate": 9.079927485495314e-06, + "loss": 0.5298, + "step": 2066 + }, + { + "avg_step_time": 5.767531717666472, + "epoch": 0.22037333333333334, + "eta_time": 11.709691479006734, + "step": 2066 + }, + { + "epoch": 0.22048, + "grad_norm": 1.6568988775102307, + "learning_rate": 9.0789286343337e-06, + "loss": 0.5511, + "step": 2067 + }, + { + "avg_step_time": 5.769693644359858, + "epoch": 0.22048, + "eta_time": 11.712478098050513, + "step": 2067 + }, + { + "epoch": 0.22058666666666665, + "grad_norm": 1.7126870253748223, + "learning_rate": 9.0779292962814e-06, + "loss": 0.4992, + "step": 2068 + }, + { + "avg_step_time": 5.803276204099559, + "epoch": 0.22058666666666665, + "eta_time": 11.779038673154298, + "step": 2068 + }, + { + "epoch": 0.22069333333333332, + "grad_norm": 1.9395269235541996, + "learning_rate": 9.076929471457704e-06, + "loss": 0.5446, + "step": 2069 + }, + { + "avg_step_time": 5.800972122134584, + "epoch": 0.22069333333333332, + "eta_time": 11.77275064564313, + "step": 2069 + }, + { + "epoch": 0.2208, + "grad_norm": 1.6826413642241396, + "learning_rate": 9.075929159981957e-06, + "loss": 0.5036, + "step": 2070 + }, + { + "avg_step_time": 5.802128129535252, + "epoch": 0.2208, + "eta_time": 11.773484996181947, + "step": 2070 + }, + { + "epoch": 0.22090666666666667, + "grad_norm": 1.6176368122482543, + "learning_rate": 9.074928361973565e-06, + "loss": 0.4875, + "step": 2071 + }, + { + "avg_step_time": 5.752668351838083, + "epoch": 0.22090666666666667, + "eta_time": 11.671524900507043, + "step": 2071 + }, + { + "epoch": 0.22101333333333334, + "grad_norm": 2.2611030399423817, + "learning_rate": 9.073927077551989e-06, + "loss": 0.5003, + "step": 2072 + }, + { + "avg_step_time": 5.755476677056515, + "epoch": 0.22101333333333334, + "eta_time": 11.6756239368177, + "step": 2072 + }, + { + "epoch": 0.22112, + "grad_norm": 1.549832253546552, + "learning_rate": 9.072925306836751e-06, + "loss": 0.459, + "step": 2073 + }, + { + "avg_step_time": 5.740744357157236, + "epoch": 0.22112, + "eta_time": 11.64414313776726, + "step": 2073 + }, + { + "epoch": 0.22122666666666665, + "grad_norm": 1.8112049052221588, + "learning_rate": 9.071923049947429e-06, + "loss": 0.4513, + "step": 2074 + }, + { + "avg_step_time": 5.664500891560256, + "epoch": 0.22122666666666665, + "eta_time": 11.487922502578176, + "step": 2074 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 1.6335255103550752, + "learning_rate": 9.07092030700366e-06, + "loss": 0.4376, + "step": 2075 + }, + { + "avg_step_time": 5.665549136171437, + "epoch": 0.22133333333333333, + "eta_time": 11.488474637236525, + "step": 2075 + }, + { + "epoch": 0.22144, + "grad_norm": 1.66783202074015, + "learning_rate": 9.06991707812514e-06, + "loss": 0.515, + "step": 2076 + }, + { + "avg_step_time": 5.683244165748056, + "epoch": 0.22144, + "eta_time": 11.522777546054185, + "step": 2076 + }, + { + "epoch": 0.22154666666666667, + "grad_norm": 1.607816013433979, + "learning_rate": 9.068913363431617e-06, + "loss": 0.5346, + "step": 2077 + }, + { + "avg_step_time": 5.684821441920117, + "epoch": 0.22154666666666667, + "eta_time": 11.524396356425838, + "step": 2077 + }, + { + "epoch": 0.22165333333333334, + "grad_norm": 1.8427892570452018, + "learning_rate": 9.067909163042907e-06, + "loss": 0.4478, + "step": 2078 + }, + { + "avg_step_time": 5.685439979187166, + "epoch": 0.22165333333333334, + "eta_time": 11.524070980035765, + "step": 2078 + }, + { + "epoch": 0.22176, + "grad_norm": 1.79824363243085, + "learning_rate": 9.066904477078875e-06, + "loss": 0.5231, + "step": 2079 + }, + { + "avg_step_time": 5.715911133120758, + "epoch": 0.22176, + "eta_time": 11.584246563124736, + "step": 2079 + }, + { + "epoch": 0.22186666666666666, + "grad_norm": 1.9254787344288196, + "learning_rate": 9.065899305659452e-06, + "loss": 0.469, + "step": 2080 + }, + { + "avg_step_time": 5.7133621591510195, + "epoch": 0.22186666666666666, + "eta_time": 11.577493597501858, + "step": 2080 + }, + { + "epoch": 0.22197333333333333, + "grad_norm": 1.4808389436370206, + "learning_rate": 9.064893648904617e-06, + "loss": 0.4508, + "step": 2081 + }, + { + "avg_step_time": 5.712328077566744, + "epoch": 0.22197333333333333, + "eta_time": 11.573811388269952, + "step": 2081 + }, + { + "epoch": 0.22208, + "grad_norm": 1.7623396751038816, + "learning_rate": 9.063887506934417e-06, + "loss": 0.483, + "step": 2082 + }, + { + "avg_step_time": 5.771052281061809, + "epoch": 0.22208, + "eta_time": 11.69119007938438, + "step": 2082 + }, + { + "epoch": 0.22218666666666667, + "grad_norm": 1.9673300052120963, + "learning_rate": 9.06288087986895e-06, + "loss": 0.5435, + "step": 2083 + }, + { + "avg_step_time": 5.769169378762293, + "epoch": 0.22218666666666667, + "eta_time": 11.685773086092956, + "step": 2083 + }, + { + "epoch": 0.22229333333333334, + "grad_norm": 1.8881920943768147, + "learning_rate": 9.061873767828375e-06, + "loss": 0.5731, + "step": 2084 + }, + { + "avg_step_time": 5.767802650278265, + "epoch": 0.22229333333333334, + "eta_time": 11.68140253421634, + "step": 2084 + }, + { + "epoch": 0.2224, + "grad_norm": 1.7169855195498025, + "learning_rate": 9.06086617093291e-06, + "loss": 0.5591, + "step": 2085 + }, + { + "avg_step_time": 5.769314277051675, + "epoch": 0.2224, + "eta_time": 11.682861411029641, + "step": 2085 + }, + { + "epoch": 0.22250666666666666, + "grad_norm": 0.6703776950572321, + "learning_rate": 9.059858089302825e-06, + "loss": 0.4785, + "step": 2086 + }, + { + "avg_step_time": 5.734238198309233, + "epoch": 0.22250666666666666, + "eta_time": 11.610239507632224, + "step": 2086 + }, + { + "epoch": 0.22261333333333333, + "grad_norm": 2.00158724020762, + "learning_rate": 9.058849523058457e-06, + "loss": 0.4788, + "step": 2087 + }, + { + "avg_step_time": 5.73515562818508, + "epoch": 0.22261333333333333, + "eta_time": 11.610503949503572, + "step": 2087 + }, + { + "epoch": 0.22272, + "grad_norm": 1.9006601300872508, + "learning_rate": 9.057840472320192e-06, + "loss": 0.4947, + "step": 2088 + }, + { + "avg_step_time": 5.705967741783219, + "epoch": 0.22272, + "eta_time": 11.549829703992867, + "step": 2088 + }, + { + "epoch": 0.22282666666666667, + "grad_norm": 1.7590470485275278, + "learning_rate": 9.056830937208478e-06, + "loss": 0.4727, + "step": 2089 + }, + { + "avg_step_time": 5.7059095700581866, + "epoch": 0.22282666666666667, + "eta_time": 11.548126979845541, + "step": 2089 + }, + { + "epoch": 0.22293333333333334, + "grad_norm": 1.5696369344566181, + "learning_rate": 9.055820917843825e-06, + "loss": 0.4096, + "step": 2090 + }, + { + "avg_step_time": 5.703212923473782, + "epoch": 0.22293333333333334, + "eta_time": 11.541085040974027, + "step": 2090 + }, + { + "epoch": 0.22304, + "grad_norm": 0.6397911886229141, + "learning_rate": 9.054810414346789e-06, + "loss": 0.457, + "step": 2091 + }, + { + "avg_step_time": 5.6610518802296035, + "epoch": 0.22304, + "eta_time": 11.454194970997897, + "step": 2091 + }, + { + "epoch": 0.22314666666666666, + "grad_norm": 0.6284336061023345, + "learning_rate": 9.053799426837997e-06, + "loss": 0.4572, + "step": 2092 + }, + { + "avg_step_time": 5.662476154288861, + "epoch": 0.22314666666666666, + "eta_time": 11.455503842134936, + "step": 2092 + }, + { + "epoch": 0.22325333333333333, + "grad_norm": 1.8056660103521676, + "learning_rate": 9.052787955438125e-06, + "loss": 0.5404, + "step": 2093 + }, + { + "avg_step_time": 5.662326167328189, + "epoch": 0.22325333333333333, + "eta_time": 11.453627541801076, + "step": 2093 + }, + { + "epoch": 0.22336, + "grad_norm": 1.6472006756027286, + "learning_rate": 9.05177600026791e-06, + "loss": 0.5398, + "step": 2094 + }, + { + "avg_step_time": 5.6565476836580215, + "epoch": 0.22336, + "eta_time": 11.44036769019835, + "step": 2094 + }, + { + "epoch": 0.22346666666666667, + "grad_norm": 1.6490704585326954, + "learning_rate": 9.050763561448147e-06, + "loss": 0.5113, + "step": 2095 + }, + { + "avg_step_time": 5.654211759567261, + "epoch": 0.22346666666666667, + "eta_time": 11.434072669347128, + "step": 2095 + }, + { + "epoch": 0.22357333333333335, + "grad_norm": 1.7711269323865044, + "learning_rate": 9.049750639099689e-06, + "loss": 0.5152, + "step": 2096 + }, + { + "avg_step_time": 5.619327798034206, + "epoch": 0.22357333333333335, + "eta_time": 11.361968622747495, + "step": 2096 + }, + { + "epoch": 0.22368, + "grad_norm": 1.4531544986115197, + "learning_rate": 9.048737233343442e-06, + "loss": 0.4417, + "step": 2097 + }, + { + "avg_step_time": 5.621654621278397, + "epoch": 0.22368, + "eta_time": 11.36511175935116, + "step": 2097 + }, + { + "epoch": 0.22378666666666666, + "grad_norm": 0.6489776044387164, + "learning_rate": 9.047723344300376e-06, + "loss": 0.4357, + "step": 2098 + }, + { + "avg_step_time": 5.621892890544853, + "epoch": 0.22378666666666666, + "eta_time": 11.364031823470803, + "step": 2098 + }, + { + "epoch": 0.22389333333333333, + "grad_norm": 1.5911107216276394, + "learning_rate": 9.046708972091519e-06, + "loss": 0.4863, + "step": 2099 + }, + { + "avg_step_time": 5.621612336900499, + "epoch": 0.22389333333333333, + "eta_time": 11.361903156468898, + "step": 2099 + }, + { + "epoch": 0.224, + "grad_norm": 1.9421340886623384, + "learning_rate": 9.045694116837948e-06, + "loss": 0.5606, + "step": 2100 + }, + { + "avg_step_time": 5.623349864073474, + "epoch": 0.224, + "eta_time": 11.363852850315148, + "step": 2100 + }, + { + "epoch": 0.22410666666666668, + "grad_norm": 1.5941395664287477, + "learning_rate": 9.044678778660808e-06, + "loss": 0.469, + "step": 2101 + }, + { + "avg_step_time": 5.623199828947433, + "epoch": 0.22410666666666668, + "eta_time": 11.361987654378785, + "step": 2101 + }, + { + "epoch": 0.22421333333333332, + "grad_norm": 1.8399016949272855, + "learning_rate": 9.043662957681297e-06, + "loss": 0.5938, + "step": 2102 + }, + { + "avg_step_time": 5.6063104639149675, + "epoch": 0.22421333333333332, + "eta_time": 11.326304445570432, + "step": 2102 + }, + { + "epoch": 0.22432, + "grad_norm": 1.5968611240979615, + "learning_rate": 9.042646654020667e-06, + "loss": 0.4761, + "step": 2103 + }, + { + "avg_step_time": 5.609964792174522, + "epoch": 0.22432, + "eta_time": 11.332128880192535, + "step": 2103 + }, + { + "epoch": 0.22442666666666666, + "grad_norm": 1.8105870150345134, + "learning_rate": 9.041629867800236e-06, + "loss": 0.4808, + "step": 2104 + }, + { + "avg_step_time": 5.609901852077908, + "epoch": 0.22442666666666666, + "eta_time": 11.330443435127352, + "step": 2104 + }, + { + "epoch": 0.22453333333333333, + "grad_norm": 1.7690077589188908, + "learning_rate": 9.040612599141375e-06, + "loss": 0.554, + "step": 2105 + }, + { + "avg_step_time": 5.618274428627708, + "epoch": 0.22453333333333333, + "eta_time": 11.34579308225651, + "step": 2105 + }, + { + "epoch": 0.22464, + "grad_norm": 1.6842967343388988, + "learning_rate": 9.039594848165507e-06, + "loss": 0.5246, + "step": 2106 + }, + { + "avg_step_time": 5.6279645905350195, + "epoch": 0.22464, + "eta_time": 11.363798502388628, + "step": 2106 + }, + { + "epoch": 0.22474666666666668, + "grad_norm": 1.6114609100934025, + "learning_rate": 9.038576614994124e-06, + "loss": 0.4673, + "step": 2107 + }, + { + "avg_step_time": 5.625249660376347, + "epoch": 0.22474666666666668, + "eta_time": 11.356754036559803, + "step": 2107 + }, + { + "epoch": 0.22485333333333332, + "grad_norm": 0.6680026037560358, + "learning_rate": 9.037557899748765e-06, + "loss": 0.4387, + "step": 2108 + }, + { + "avg_step_time": 5.587978264298102, + "epoch": 0.22485333333333332, + "eta_time": 11.27995501295953, + "step": 2108 + }, + { + "epoch": 0.22496, + "grad_norm": 1.901381248087472, + "learning_rate": 9.036538702551037e-06, + "loss": 0.5251, + "step": 2109 + }, + { + "avg_step_time": 5.6385031661601985, + "epoch": 0.22496, + "eta_time": 11.380378890366666, + "step": 2109 + }, + { + "epoch": 0.22506666666666666, + "grad_norm": 1.5940954175585318, + "learning_rate": 9.035519023522592e-06, + "loss": 0.5355, + "step": 2110 + }, + { + "avg_step_time": 5.671314680215084, + "epoch": 0.22506666666666666, + "eta_time": 11.44502809771183, + "step": 2110 + }, + { + "epoch": 0.22517333333333334, + "grad_norm": 1.5769780883342566, + "learning_rate": 9.034498862785152e-06, + "loss": 0.477, + "step": 2111 + }, + { + "avg_step_time": 5.665566138546876, + "epoch": 0.22517333333333334, + "eta_time": 11.431853452890142, + "step": 2111 + }, + { + "epoch": 0.22528, + "grad_norm": 1.711821147017452, + "learning_rate": 9.03347822046049e-06, + "loss": 0.5115, + "step": 2112 + }, + { + "avg_step_time": 5.669355048073663, + "epoch": 0.22528, + "eta_time": 11.437923809488614, + "step": 2112 + }, + { + "epoch": 0.22538666666666668, + "grad_norm": 1.5915627901922111, + "learning_rate": 9.032457096670435e-06, + "loss": 0.502, + "step": 2113 + }, + { + "avg_step_time": 5.704398603150339, + "epoch": 0.22538666666666668, + "eta_time": 11.507039626688266, + "step": 2113 + }, + { + "epoch": 0.22549333333333332, + "grad_norm": 1.7922624093890571, + "learning_rate": 9.031435491536877e-06, + "loss": 0.5419, + "step": 2114 + }, + { + "avg_step_time": 5.712613459789392, + "epoch": 0.22549333333333332, + "eta_time": 11.52202398098077, + "step": 2114 + }, + { + "epoch": 0.2256, + "grad_norm": 1.5153819684719678, + "learning_rate": 9.03041340518176e-06, + "loss": 0.5249, + "step": 2115 + }, + { + "avg_step_time": 5.710940695772267, + "epoch": 0.2256, + "eta_time": 11.517063736474073, + "step": 2115 + }, + { + "epoch": 0.22570666666666667, + "grad_norm": 1.6873424623595232, + "learning_rate": 9.029390837727094e-06, + "loss": 0.5969, + "step": 2116 + }, + { + "avg_step_time": 5.7391703754964505, + "epoch": 0.22570666666666667, + "eta_time": 11.572399376591315, + "step": 2116 + }, + { + "epoch": 0.22581333333333334, + "grad_norm": 0.6428244681817574, + "learning_rate": 9.028367789294934e-06, + "loss": 0.4485, + "step": 2117 + }, + { + "avg_step_time": 5.718350044404618, + "epoch": 0.22581333333333334, + "eta_time": 11.528829061746865, + "step": 2117 + }, + { + "epoch": 0.22592, + "grad_norm": 1.4161621268600078, + "learning_rate": 9.027344260007401e-06, + "loss": 0.4501, + "step": 2118 + }, + { + "avg_step_time": 5.718545241789385, + "epoch": 0.22592, + "eta_time": 11.527634116573768, + "step": 2118 + }, + { + "epoch": 0.22602666666666665, + "grad_norm": 1.7222843913691666, + "learning_rate": 9.02632024998667e-06, + "loss": 0.5186, + "step": 2119 + }, + { + "avg_step_time": 5.718286131367539, + "epoch": 0.22602666666666665, + "eta_time": 11.52552338033413, + "step": 2119 + }, + { + "epoch": 0.22613333333333333, + "grad_norm": 1.6825768565398693, + "learning_rate": 9.025295759354976e-06, + "loss": 0.502, + "step": 2120 + }, + { + "avg_step_time": 5.713697866960005, + "epoch": 0.22613333333333333, + "eta_time": 11.514688340220788, + "step": 2120 + }, + { + "epoch": 0.22624, + "grad_norm": 1.7330140515623687, + "learning_rate": 9.024270788234606e-06, + "loss": 0.6207, + "step": 2121 + }, + { + "avg_step_time": 5.662018725366304, + "epoch": 0.22624, + "eta_time": 11.408967731613101, + "step": 2121 + }, + { + "epoch": 0.22634666666666667, + "grad_norm": 0.6433486290927741, + "learning_rate": 9.023245336747911e-06, + "loss": 0.4481, + "step": 2122 + }, + { + "avg_step_time": 5.645072281962693, + "epoch": 0.22634666666666667, + "eta_time": 11.373252572520947, + "step": 2122 + }, + { + "epoch": 0.22645333333333334, + "grad_norm": 1.7024577204974418, + "learning_rate": 9.022219405017296e-06, + "loss": 0.5454, + "step": 2123 + }, + { + "avg_step_time": 5.692669907001534, + "epoch": 0.22645333333333334, + "eta_time": 11.467567268215312, + "step": 2123 + }, + { + "epoch": 0.22656, + "grad_norm": 1.596250531133959, + "learning_rate": 9.021192993165224e-06, + "loss": 0.548, + "step": 2124 + }, + { + "avg_step_time": 5.692413927328707, + "epoch": 0.22656, + "eta_time": 11.465470385294571, + "step": 2124 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 1.6345116864167053, + "learning_rate": 9.020166101314215e-06, + "loss": 0.4706, + "step": 2125 + }, + { + "avg_step_time": 5.693328674393471, + "epoch": 0.22666666666666666, + "eta_time": 11.46573135815352, + "step": 2125 + }, + { + "epoch": 0.22677333333333333, + "grad_norm": 1.507879885015202, + "learning_rate": 9.019138729586846e-06, + "loss": 0.3795, + "step": 2126 + }, + { + "avg_step_time": 5.721827444404062, + "epoch": 0.22677333333333333, + "eta_time": 11.521535317912512, + "step": 2126 + }, + { + "epoch": 0.22688, + "grad_norm": 1.7035249311925578, + "learning_rate": 9.01811087810575e-06, + "loss": 0.4624, + "step": 2127 + }, + { + "avg_step_time": 5.720142730558761, + "epoch": 0.22688, + "eta_time": 11.516554030858305, + "step": 2127 + }, + { + "epoch": 0.22698666666666667, + "grad_norm": 1.7748360197297857, + "learning_rate": 9.017082546993621e-06, + "loss": 0.571, + "step": 2128 + }, + { + "avg_step_time": 5.751691199312306, + "epoch": 0.22698666666666667, + "eta_time": 11.578473922615634, + "step": 2128 + }, + { + "epoch": 0.22709333333333334, + "grad_norm": 1.5182000043113615, + "learning_rate": 9.016053736373207e-06, + "loss": 0.5387, + "step": 2129 + }, + { + "avg_step_time": 5.747635316367101, + "epoch": 0.22709333333333334, + "eta_time": 11.568712639554448, + "step": 2129 + }, + { + "epoch": 0.2272, + "grad_norm": 1.4450193749495117, + "learning_rate": 9.015024446367315e-06, + "loss": 0.5146, + "step": 2130 + }, + { + "avg_step_time": 5.78050059260744, + "epoch": 0.2272, + "eta_time": 11.633257442622472, + "step": 2130 + }, + { + "epoch": 0.22730666666666666, + "grad_norm": 0.6490681290573678, + "learning_rate": 9.013994677098808e-06, + "loss": 0.4685, + "step": 2131 + }, + { + "avg_step_time": 5.739435287437054, + "epoch": 0.22730666666666666, + "eta_time": 11.549019228387229, + "step": 2131 + }, + { + "epoch": 0.22741333333333333, + "grad_norm": 1.7484545258038144, + "learning_rate": 9.012964428690606e-06, + "loss": 0.5521, + "step": 2132 + }, + { + "avg_step_time": 5.78216506977274, + "epoch": 0.22741333333333333, + "eta_time": 11.633394888989988, + "step": 2132 + }, + { + "epoch": 0.22752, + "grad_norm": 1.855916635485725, + "learning_rate": 9.01193370126569e-06, + "loss": 0.5452, + "step": 2133 + }, + { + "avg_step_time": 5.778353243163138, + "epoch": 0.22752, + "eta_time": 11.624120607496511, + "step": 2133 + }, + { + "epoch": 0.22762666666666667, + "grad_norm": 1.676641965941905, + "learning_rate": 9.010902494947093e-06, + "loss": 0.4899, + "step": 2134 + }, + { + "avg_step_time": 5.811406988086122, + "epoch": 0.22762666666666667, + "eta_time": 11.68899944464767, + "step": 2134 + }, + { + "epoch": 0.22773333333333334, + "grad_norm": 1.5597634614638618, + "learning_rate": 9.009870809857907e-06, + "loss": 0.461, + "step": 2135 + }, + { + "avg_step_time": 5.806893962802309, + "epoch": 0.22773333333333334, + "eta_time": 11.678308969635754, + "step": 2135 + }, + { + "epoch": 0.22784, + "grad_norm": 0.6495734295536605, + "learning_rate": 9.008838646121282e-06, + "loss": 0.4681, + "step": 2136 + }, + { + "avg_step_time": 5.775537377656108, + "epoch": 0.22784, + "eta_time": 11.613643076903491, + "step": 2136 + }, + { + "epoch": 0.22794666666666666, + "grad_norm": 1.6796966543606702, + "learning_rate": 9.007806003860424e-06, + "loss": 0.4954, + "step": 2137 + }, + { + "avg_step_time": 5.839687807391388, + "epoch": 0.22794666666666666, + "eta_time": 11.741016763860797, + "step": 2137 + }, + { + "epoch": 0.22805333333333333, + "grad_norm": 1.5584222651751147, + "learning_rate": 9.006772883198598e-06, + "loss": 0.4652, + "step": 2138 + }, + { + "avg_step_time": 5.822137521974968, + "epoch": 0.22805333333333333, + "eta_time": 11.704113679592457, + "step": 2138 + }, + { + "epoch": 0.22816, + "grad_norm": 0.6426767527544333, + "learning_rate": 9.005739284259123e-06, + "loss": 0.4396, + "step": 2139 + }, + { + "avg_step_time": 5.823466060137508, + "epoch": 0.22816, + "eta_time": 11.705166780876391, + "step": 2139 + }, + { + "epoch": 0.22826666666666667, + "grad_norm": 1.6536883539629577, + "learning_rate": 9.00470520716538e-06, + "loss": 0.5409, + "step": 2140 + }, + { + "avg_step_time": 5.818508959779836, + "epoch": 0.22826666666666667, + "eta_time": 11.693586756668642, + "step": 2140 + }, + { + "epoch": 0.22837333333333334, + "grad_norm": 1.8339939402670071, + "learning_rate": 9.0036706520408e-06, + "loss": 0.4877, + "step": 2141 + }, + { + "avg_step_time": 5.817585694669473, + "epoch": 0.22837333333333334, + "eta_time": 11.690115254233048, + "step": 2141 + }, + { + "epoch": 0.22848, + "grad_norm": 1.6708544610007563, + "learning_rate": 9.002635619008877e-06, + "loss": 0.4755, + "step": 2142 + }, + { + "avg_step_time": 5.845408119336523, + "epoch": 0.22848, + "eta_time": 11.744399146433631, + "step": 2142 + }, + { + "epoch": 0.22858666666666666, + "grad_norm": 1.538165703487794, + "learning_rate": 9.001600108193162e-06, + "loss": 0.4951, + "step": 2143 + }, + { + "avg_step_time": 5.834815148151282, + "epoch": 0.22858666666666666, + "eta_time": 11.721495319841688, + "step": 2143 + }, + { + "epoch": 0.22869333333333333, + "grad_norm": 1.542353082906331, + "learning_rate": 9.000564119717256e-06, + "loss": 0.5421, + "step": 2144 + }, + { + "avg_step_time": 5.831731875737508, + "epoch": 0.22869333333333333, + "eta_time": 11.713681442627198, + "step": 2144 + }, + { + "epoch": 0.2288, + "grad_norm": 1.9747751491033585, + "learning_rate": 8.999527653704829e-06, + "loss": 0.4863, + "step": 2145 + }, + { + "avg_step_time": 5.836241021300808, + "epoch": 0.2288, + "eta_time": 11.721117384445789, + "step": 2145 + }, + { + "epoch": 0.22890666666666667, + "grad_norm": 1.7261774929059013, + "learning_rate": 8.998490710279596e-06, + "loss": 0.5654, + "step": 2146 + }, + { + "avg_step_time": 5.898506268106326, + "epoch": 0.22890666666666667, + "eta_time": 11.844528281150174, + "step": 2146 + }, + { + "epoch": 0.22901333333333335, + "grad_norm": 0.6615767773818929, + "learning_rate": 8.997453289565336e-06, + "loss": 0.4448, + "step": 2147 + }, + { + "avg_step_time": 5.895779816791265, + "epoch": 0.22901333333333335, + "eta_time": 11.83741569882424, + "step": 2147 + }, + { + "epoch": 0.22912, + "grad_norm": 1.7739334873054016, + "learning_rate": 8.996415391685882e-06, + "loss": 0.5016, + "step": 2148 + }, + { + "avg_step_time": 5.930724709925025, + "epoch": 0.22912, + "eta_time": 11.905929855174488, + "step": 2148 + }, + { + "epoch": 0.22922666666666666, + "grad_norm": 1.7218858725954358, + "learning_rate": 8.995377016765126e-06, + "loss": 0.459, + "step": 2149 + }, + { + "avg_step_time": 5.930555837322967, + "epoch": 0.22922666666666666, + "eta_time": 11.903943466804378, + "step": 2149 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 1.7366806312207923, + "learning_rate": 8.994338164927015e-06, + "loss": 0.5715, + "step": 2150 + }, + { + "avg_step_time": 5.959523783789741, + "epoch": 0.22933333333333333, + "eta_time": 11.960433149411354, + "step": 2150 + }, + { + "epoch": 0.22944, + "grad_norm": 1.5918896809464413, + "learning_rate": 8.993298836295556e-06, + "loss": 0.5705, + "step": 2151 + }, + { + "avg_step_time": 5.95438472911565, + "epoch": 0.22944, + "eta_time": 11.948465356425404, + "step": 2151 + }, + { + "epoch": 0.22954666666666668, + "grad_norm": 1.8134323413891937, + "learning_rate": 8.99225903099481e-06, + "loss": 0.5064, + "step": 2152 + }, + { + "avg_step_time": 5.944850673579206, + "epoch": 0.22954666666666668, + "eta_time": 11.927682337572946, + "step": 2152 + }, + { + "epoch": 0.22965333333333332, + "grad_norm": 1.6577989240784436, + "learning_rate": 8.991218749148894e-06, + "loss": 0.6636, + "step": 2153 + }, + { + "avg_step_time": 5.973632668003892, + "epoch": 0.22965333333333332, + "eta_time": 11.983770868978917, + "step": 2153 + }, + { + "epoch": 0.22976, + "grad_norm": 1.5172228987169132, + "learning_rate": 8.990177990881986e-06, + "loss": 0.5355, + "step": 2154 + }, + { + "avg_step_time": 6.027131251614503, + "epoch": 0.22976, + "eta_time": 12.089420768863423, + "step": 2154 + }, + { + "epoch": 0.22986666666666666, + "grad_norm": 0.6929502707020252, + "learning_rate": 8.989136756318317e-06, + "loss": 0.482, + "step": 2155 + }, + { + "avg_step_time": 6.000105722986087, + "epoch": 0.22986666666666666, + "eta_time": 12.03354536665543, + "step": 2155 + }, + { + "epoch": 0.22997333333333334, + "grad_norm": 0.666020242624264, + "learning_rate": 8.988095045582178e-06, + "loss": 0.4047, + "step": 2156 + }, + { + "avg_step_time": 6.022627122474439, + "epoch": 0.22997333333333334, + "eta_time": 12.077040332539715, + "step": 2156 + }, + { + "epoch": 0.23008, + "grad_norm": 1.5891147114691353, + "learning_rate": 8.987052858797914e-06, + "loss": 0.5937, + "step": 2157 + }, + { + "avg_step_time": 6.02816352940569, + "epoch": 0.23008, + "eta_time": 12.086467876458409, + "step": 2157 + }, + { + "epoch": 0.23018666666666668, + "grad_norm": 1.7678506769891644, + "learning_rate": 8.986010196089925e-06, + "loss": 0.5157, + "step": 2158 + }, + { + "avg_step_time": 6.047262808289191, + "epoch": 0.23018666666666668, + "eta_time": 12.123082135395302, + "step": 2158 + }, + { + "epoch": 0.23029333333333332, + "grad_norm": 1.723265510746122, + "learning_rate": 8.984967057582676e-06, + "loss": 0.5458, + "step": 2159 + }, + { + "avg_step_time": 6.124404767546991, + "epoch": 0.23029333333333332, + "eta_time": 12.276029111838634, + "step": 2159 + }, + { + "epoch": 0.2304, + "grad_norm": 1.683474877936283, + "learning_rate": 8.983923443400682e-06, + "loss": 0.5724, + "step": 2160 + }, + { + "avg_step_time": 6.207862793797195, + "epoch": 0.2304, + "eta_time": 12.441591682568543, + "step": 2160 + }, + { + "epoch": 0.23050666666666667, + "grad_norm": 1.5124418985921797, + "learning_rate": 8.982879353668516e-06, + "loss": 0.4615, + "step": 2161 + }, + { + "avg_step_time": 6.2607056131266585, + "epoch": 0.23050666666666667, + "eta_time": 12.54575841474881, + "step": 2161 + }, + { + "epoch": 0.23061333333333334, + "grad_norm": 1.8211817796479737, + "learning_rate": 8.981834788510808e-06, + "loss": 0.4639, + "step": 2162 + }, + { + "avg_step_time": 6.2160191511867025, + "epoch": 0.23061333333333334, + "eta_time": 12.454485038197134, + "step": 2162 + }, + { + "epoch": 0.23072, + "grad_norm": 2.104058034958497, + "learning_rate": 8.980789748052245e-06, + "loss": 0.6071, + "step": 2163 + }, + { + "avg_step_time": 6.245527096468993, + "epoch": 0.23072, + "eta_time": 12.511872616592882, + "step": 2163 + }, + { + "epoch": 0.23082666666666668, + "grad_norm": 1.5796777183140656, + "learning_rate": 8.97974423241757e-06, + "loss": 0.4982, + "step": 2164 + }, + { + "avg_step_time": 6.244176599714491, + "epoch": 0.23082666666666668, + "eta_time": 12.50743262792811, + "step": 2164 + }, + { + "epoch": 0.23093333333333332, + "grad_norm": 0.6398290808622097, + "learning_rate": 8.978698241731586e-06, + "loss": 0.4431, + "step": 2165 + }, + { + "avg_step_time": 6.200427850087483, + "epoch": 0.23093333333333332, + "eta_time": 12.418079110869654, + "step": 2165 + }, + { + "epoch": 0.23104, + "grad_norm": 1.5118206076230876, + "learning_rate": 8.977651776119145e-06, + "loss": 0.4937, + "step": 2166 + }, + { + "avg_step_time": 6.197563465195473, + "epoch": 0.23104, + "eta_time": 12.410620839053934, + "step": 2166 + }, + { + "epoch": 0.23114666666666667, + "grad_norm": 1.982337637809073, + "learning_rate": 8.976604835705165e-06, + "loss": 0.528, + "step": 2167 + }, + { + "avg_step_time": 6.197906287029536, + "epoch": 0.23114666666666667, + "eta_time": 12.40958569914136, + "step": 2167 + }, + { + "epoch": 0.23125333333333334, + "grad_norm": 1.9416827660180496, + "learning_rate": 8.975557420614615e-06, + "loss": 0.5006, + "step": 2168 + }, + { + "avg_step_time": 6.20289631082554, + "epoch": 0.23125333333333334, + "eta_time": 12.41785380892213, + "step": 2168 + }, + { + "epoch": 0.23136, + "grad_norm": 1.5782894374573144, + "learning_rate": 8.974509530972523e-06, + "loss": 0.4765, + "step": 2169 + }, + { + "avg_step_time": 6.2470432002135, + "epoch": 0.23136, + "eta_time": 12.504498139094022, + "step": 2169 + }, + { + "epoch": 0.23146666666666665, + "grad_norm": 1.9171520092981378, + "learning_rate": 8.973461166903974e-06, + "loss": 0.5033, + "step": 2170 + }, + { + "avg_step_time": 6.243900563981798, + "epoch": 0.23146666666666665, + "eta_time": 12.496473212080238, + "step": 2170 + }, + { + "epoch": 0.23157333333333333, + "grad_norm": 1.489465414288632, + "learning_rate": 8.972412328534104e-06, + "loss": 0.4342, + "step": 2171 + }, + { + "avg_step_time": 6.2931234258593935, + "epoch": 0.23157333333333333, + "eta_time": 12.593239211080853, + "step": 2171 + }, + { + "epoch": 0.23168, + "grad_norm": 1.878703480528397, + "learning_rate": 8.971363015988115e-06, + "loss": 0.4675, + "step": 2172 + }, + { + "avg_step_time": 6.292855980420353, + "epoch": 0.23168, + "eta_time": 12.590956007491057, + "step": 2172 + }, + { + "epoch": 0.23178666666666667, + "grad_norm": 1.7091767554844897, + "learning_rate": 8.970313229391257e-06, + "loss": 0.5469, + "step": 2173 + }, + { + "avg_step_time": 6.323344746021309, + "epoch": 0.23178666666666667, + "eta_time": 12.650202461345964, + "step": 2173 + }, + { + "epoch": 0.23189333333333334, + "grad_norm": 1.5049694866741479, + "learning_rate": 8.96926296886884e-06, + "loss": 0.5906, + "step": 2174 + }, + { + "avg_step_time": 6.325667294588956, + "epoch": 0.23189333333333334, + "eta_time": 12.653091718981965, + "step": 2174 + }, + { + "epoch": 0.232, + "grad_norm": 1.7284562785554187, + "learning_rate": 8.968212234546235e-06, + "loss": 0.4843, + "step": 2175 + }, + { + "avg_step_time": 6.303609180932093, + "epoch": 0.232, + "eta_time": 12.607218361864186, + "step": 2175 + }, + { + "epoch": 0.23210666666666666, + "grad_norm": 1.7410267937090997, + "learning_rate": 8.967161026548858e-06, + "loss": 0.4099, + "step": 2176 + }, + { + "avg_step_time": 6.380956746111012, + "epoch": 0.23210666666666666, + "eta_time": 12.760141004236994, + "step": 2176 + }, + { + "epoch": 0.23221333333333333, + "grad_norm": 1.5199533809797683, + "learning_rate": 8.966109345002196e-06, + "loss": 0.4592, + "step": 2177 + }, + { + "avg_step_time": 6.376554544525917, + "epoch": 0.23221333333333333, + "eta_time": 12.74956655874932, + "step": 2177 + }, + { + "epoch": 0.23232, + "grad_norm": 1.501575607316069, + "learning_rate": 8.965057190031785e-06, + "loss": 0.4222, + "step": 2178 + }, + { + "avg_step_time": 6.347247761909408, + "epoch": 0.23232, + "eta_time": 12.68920615068389, + "step": 2178 + }, + { + "epoch": 0.23242666666666667, + "grad_norm": 1.7158616551313461, + "learning_rate": 8.964004561763213e-06, + "loss": 0.4689, + "step": 2179 + }, + { + "avg_step_time": 6.392271374211167, + "epoch": 0.23242666666666667, + "eta_time": 12.77744022467321, + "step": 2179 + }, + { + "epoch": 0.23253333333333334, + "grad_norm": 2.0429378157583096, + "learning_rate": 8.962951460322132e-06, + "loss": 0.4663, + "step": 2180 + }, + { + "avg_step_time": 6.396065507272278, + "epoch": 0.23253333333333334, + "eta_time": 12.7832475902289, + "step": 2180 + }, + { + "epoch": 0.23264, + "grad_norm": 1.7012601330894959, + "learning_rate": 8.961897885834247e-06, + "loss": 0.5128, + "step": 2181 + }, + { + "avg_step_time": 6.364267657501529, + "epoch": 0.23264, + "eta_time": 12.717928202240554, + "step": 2181 + }, + { + "epoch": 0.23274666666666666, + "grad_norm": 1.621743017034434, + "learning_rate": 8.960843838425324e-06, + "loss": 0.4763, + "step": 2182 + }, + { + "avg_step_time": 6.412011519827024, + "epoch": 0.23274666666666666, + "eta_time": 12.811555239476606, + "step": 2182 + }, + { + "epoch": 0.23285333333333333, + "grad_norm": 1.5754933181091662, + "learning_rate": 8.959789318221178e-06, + "loss": 0.4108, + "step": 2183 + }, + { + "avg_step_time": 6.445044558457654, + "epoch": 0.23285333333333333, + "eta_time": 12.875766795674291, + "step": 2183 + }, + { + "epoch": 0.23296, + "grad_norm": 1.757813685754049, + "learning_rate": 8.958734325347684e-06, + "loss": 0.5807, + "step": 2184 + }, + { + "avg_step_time": 6.490840109911832, + "epoch": 0.23296, + "eta_time": 12.965453119548885, + "step": 2184 + }, + { + "epoch": 0.23306666666666667, + "grad_norm": 1.9543725532921667, + "learning_rate": 8.957678859930774e-06, + "loss": 0.4423, + "step": 2185 + }, + { + "avg_step_time": 6.525791642641781, + "epoch": 0.23306666666666667, + "eta_time": 13.033456086276223, + "step": 2185 + }, + { + "epoch": 0.23317333333333334, + "grad_norm": 1.6317489198143063, + "learning_rate": 8.956622922096438e-06, + "loss": 0.4351, + "step": 2186 + }, + { + "avg_step_time": 6.555354207453101, + "epoch": 0.23317333333333334, + "eta_time": 13.090678165938986, + "step": 2186 + }, + { + "epoch": 0.23328, + "grad_norm": 1.6977795334566332, + "learning_rate": 8.955566511970721e-06, + "loss": 0.5699, + "step": 2187 + }, + { + "avg_step_time": 6.583130162171643, + "epoch": 0.23328, + "eta_time": 13.144316557136046, + "step": 2187 + }, + { + "epoch": 0.23338666666666666, + "grad_norm": 1.7750358151534606, + "learning_rate": 8.95450962967972e-06, + "loss": 0.6006, + "step": 2188 + }, + { + "avg_step_time": 6.64435421095954, + "epoch": 0.23338666666666666, + "eta_time": 13.264714920601728, + "step": 2188 + }, + { + "epoch": 0.23349333333333333, + "grad_norm": 1.7402323123040957, + "learning_rate": 8.953452275349596e-06, + "loss": 0.5253, + "step": 2189 + }, + { + "avg_step_time": 6.673676495600229, + "epoch": 0.23349333333333333, + "eta_time": 13.321399804828678, + "step": 2189 + }, + { + "epoch": 0.2336, + "grad_norm": 0.6341698616428154, + "learning_rate": 8.95239444910656e-06, + "loss": 0.4474, + "step": 2190 + }, + { + "avg_step_time": 6.671941159951566, + "epoch": 0.2336, + "eta_time": 13.31608256507, + "step": 2190 + }, + { + "epoch": 0.23370666666666667, + "grad_norm": 1.4912965961294866, + "learning_rate": 8.951336151076883e-06, + "loss": 0.5036, + "step": 2191 + }, + { + "avg_step_time": 6.783776692669801, + "epoch": 0.23370666666666667, + "eta_time": 13.537403266705514, + "step": 2191 + }, + { + "epoch": 0.23381333333333335, + "grad_norm": 1.4853742203413745, + "learning_rate": 8.95027738138689e-06, + "loss": 0.4788, + "step": 2192 + }, + { + "avg_step_time": 6.8418872356414795, + "epoch": 0.23381333333333335, + "eta_time": 13.651465559336874, + "step": 2192 + }, + { + "epoch": 0.23392, + "grad_norm": 1.749202061335233, + "learning_rate": 8.949218140162965e-06, + "loss": 0.4973, + "step": 2193 + }, + { + "avg_step_time": 6.858334697858251, + "epoch": 0.23392, + "eta_time": 13.68237772222721, + "step": 2193 + }, + { + "epoch": 0.23402666666666666, + "grad_norm": 2.126108072270762, + "learning_rate": 8.948158427531547e-06, + "loss": 0.5509, + "step": 2194 + }, + { + "avg_step_time": 6.986665065842446, + "epoch": 0.23402666666666666, + "eta_time": 13.936456066059613, + "step": 2194 + }, + { + "epoch": 0.23413333333333333, + "grad_norm": 1.7130661951651518, + "learning_rate": 8.94709824361913e-06, + "loss": 0.5251, + "step": 2195 + }, + { + "avg_step_time": 7.015843283046376, + "epoch": 0.23413333333333333, + "eta_time": 13.992709658964717, + "step": 2195 + }, + { + "epoch": 0.23424, + "grad_norm": 1.5924295208506396, + "learning_rate": 8.946037588552266e-06, + "loss": 0.5061, + "step": 2196 + }, + { + "avg_step_time": 7.016460199548741, + "epoch": 0.23424, + "eta_time": 13.991991047933448, + "step": 2196 + }, + { + "epoch": 0.23434666666666668, + "grad_norm": 1.5979038891653006, + "learning_rate": 8.944976462457559e-06, + "loss": 0.4524, + "step": 2197 + }, + { + "avg_step_time": 7.067718356546729, + "epoch": 0.23434666666666668, + "eta_time": 14.092245100914562, + "step": 2197 + }, + { + "epoch": 0.23445333333333335, + "grad_norm": 1.7737797596466585, + "learning_rate": 8.943914865461678e-06, + "loss": 0.4727, + "step": 2198 + }, + { + "avg_step_time": 7.096686642579358, + "epoch": 0.23445333333333335, + "eta_time": 14.148033342720014, + "step": 2198 + }, + { + "epoch": 0.23456, + "grad_norm": 1.920950998043369, + "learning_rate": 8.94285279769134e-06, + "loss": 0.5291, + "step": 2199 + }, + { + "avg_step_time": 7.122982056453974, + "epoch": 0.23456, + "eta_time": 14.198477565864922, + "step": 2199 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 1.557781318716475, + "learning_rate": 8.941790259273325e-06, + "loss": 0.5893, + "step": 2200 + }, + { + "avg_step_time": 7.154466306320344, + "epoch": 0.23466666666666666, + "eta_time": 14.259248818846796, + "step": 2200 + }, + { + "epoch": 0.23477333333333333, + "grad_norm": 0.6593147094729642, + "learning_rate": 8.940727250334458e-06, + "loss": 0.4294, + "step": 2201 + }, + { + "avg_step_time": 7.117936640074759, + "epoch": 0.23477333333333333, + "eta_time": 14.184465959971199, + "step": 2201 + }, + { + "epoch": 0.23488, + "grad_norm": 1.750992190122731, + "learning_rate": 8.939663771001632e-06, + "loss": 0.4662, + "step": 2202 + }, + { + "avg_step_time": 7.113141103224321, + "epoch": 0.23488, + "eta_time": 14.17293364817446, + "step": 2202 + }, + { + "epoch": 0.23498666666666668, + "grad_norm": 1.7158095443400032, + "learning_rate": 8.938599821401795e-06, + "loss": 0.5111, + "step": 2203 + }, + { + "avg_step_time": 7.14590216405464, + "epoch": 0.23498666666666668, + "eta_time": 14.236225089055521, + "step": 2203 + }, + { + "epoch": 0.23509333333333332, + "grad_norm": 1.6080519146175725, + "learning_rate": 8.93753540166194e-06, + "loss": 0.566, + "step": 2204 + }, + { + "avg_step_time": 7.212257113119568, + "epoch": 0.23509333333333332, + "eta_time": 14.366415488383451, + "step": 2204 + }, + { + "epoch": 0.2352, + "grad_norm": 1.6910381937510983, + "learning_rate": 8.93647051190913e-06, + "loss": 0.4719, + "step": 2205 + }, + { + "avg_step_time": 7.199400359934026, + "epoch": 0.2352, + "eta_time": 14.338805716868603, + "step": 2205 + }, + { + "epoch": 0.23530666666666666, + "grad_norm": 1.7017271600179327, + "learning_rate": 8.935405152270477e-06, + "loss": 0.4769, + "step": 2206 + }, + { + "avg_step_time": 7.228502735947117, + "epoch": 0.23530666666666666, + "eta_time": 14.394760031668023, + "step": 2206 + }, + { + "epoch": 0.23541333333333334, + "grad_norm": 1.7495647568753598, + "learning_rate": 8.934339322873149e-06, + "loss": 0.6028, + "step": 2207 + }, + { + "avg_step_time": 7.264260573820635, + "epoch": 0.23541333333333334, + "eta_time": 14.46394994254064, + "step": 2207 + }, + { + "epoch": 0.23552, + "grad_norm": 1.6964865360455084, + "learning_rate": 8.93327302384437e-06, + "loss": 0.475, + "step": 2208 + }, + { + "avg_step_time": 7.247812938208532, + "epoch": 0.23552, + "eta_time": 14.429187591150152, + "step": 2208 + }, + { + "epoch": 0.23562666666666668, + "grad_norm": 1.4236481674547996, + "learning_rate": 8.932206255311421e-06, + "loss": 0.447, + "step": 2209 + }, + { + "avg_step_time": 7.296277590472289, + "epoch": 0.23562666666666668, + "eta_time": 14.523645892590116, + "step": 2209 + }, + { + "epoch": 0.23573333333333332, + "grad_norm": 0.6451066529435295, + "learning_rate": 8.931139017401645e-06, + "loss": 0.4695, + "step": 2210 + }, + { + "avg_step_time": 7.2596752426841045, + "epoch": 0.23573333333333332, + "eta_time": 14.44877030939767, + "step": 2210 + }, + { + "epoch": 0.23584, + "grad_norm": 0.6555980932288935, + "learning_rate": 8.930071310242429e-06, + "loss": 0.4288, + "step": 2211 + }, + { + "avg_step_time": 7.269052315239954, + "epoch": 0.23584, + "eta_time": 14.46541410732751, + "step": 2211 + }, + { + "epoch": 0.23594666666666667, + "grad_norm": 1.8764325497861774, + "learning_rate": 8.929003133961225e-06, + "loss": 0.525, + "step": 2212 + }, + { + "avg_step_time": 7.320287603320497, + "epoch": 0.23594666666666667, + "eta_time": 14.565338917384645, + "step": 2212 + }, + { + "epoch": 0.23605333333333334, + "grad_norm": 1.5774995252228623, + "learning_rate": 8.927934488685536e-06, + "loss": 0.4968, + "step": 2213 + }, + { + "avg_step_time": 7.316394338704119, + "epoch": 0.23605333333333334, + "eta_time": 14.555560070499695, + "step": 2213 + }, + { + "epoch": 0.23616, + "grad_norm": 1.4798258021004103, + "learning_rate": 8.926865374542928e-06, + "loss": 0.4652, + "step": 2214 + }, + { + "avg_step_time": 7.315615112131292, + "epoch": 0.23616, + "eta_time": 14.551977727214496, + "step": 2214 + }, + { + "epoch": 0.23626666666666668, + "grad_norm": 1.6529877924653076, + "learning_rate": 8.925795791661014e-06, + "loss": 0.5781, + "step": 2215 + }, + { + "avg_step_time": 7.317862667218603, + "epoch": 0.23626666666666668, + "eta_time": 14.554415749245889, + "step": 2215 + }, + { + "epoch": 0.23637333333333332, + "grad_norm": 1.6186510656186495, + "learning_rate": 8.924725740167469e-06, + "loss": 0.5071, + "step": 2216 + }, + { + "avg_step_time": 7.382271465629038, + "epoch": 0.23637333333333332, + "eta_time": 14.680467061788413, + "step": 2216 + }, + { + "epoch": 0.23648, + "grad_norm": 1.454849898974802, + "learning_rate": 8.92365522019002e-06, + "loss": 0.4749, + "step": 2217 + }, + { + "avg_step_time": 7.3847668604417285, + "epoch": 0.23648, + "eta_time": 14.683378107511636, + "step": 2217 + }, + { + "epoch": 0.23658666666666667, + "grad_norm": 1.4528940691578498, + "learning_rate": 8.922584231856454e-06, + "loss": 0.4458, + "step": 2218 + }, + { + "avg_step_time": 7.429665223516599, + "epoch": 0.23658666666666667, + "eta_time": 14.770587223530082, + "step": 2218 + }, + { + "epoch": 0.23669333333333334, + "grad_norm": 1.733636536280442, + "learning_rate": 8.921512775294614e-06, + "loss": 0.5146, + "step": 2219 + }, + { + "avg_step_time": 7.506862951047493, + "epoch": 0.23669333333333334, + "eta_time": 14.921975354915517, + "step": 2219 + }, + { + "epoch": 0.2368, + "grad_norm": 1.6735961170607538, + "learning_rate": 8.920440850632395e-06, + "loss": 0.5168, + "step": 2220 + }, + { + "avg_step_time": 7.505219341528536, + "epoch": 0.2368, + "eta_time": 14.916623441287967, + "step": 2220 + }, + { + "epoch": 0.23690666666666665, + "grad_norm": 1.602938934885455, + "learning_rate": 8.919368457997747e-06, + "loss": 0.5652, + "step": 2221 + }, + { + "avg_step_time": 7.5713919196466, + "epoch": 0.23690666666666665, + "eta_time": 15.046038275875494, + "step": 2221 + }, + { + "epoch": 0.23701333333333333, + "grad_norm": 1.730409901254965, + "learning_rate": 8.918295597518683e-06, + "loss": 0.5433, + "step": 2222 + }, + { + "avg_step_time": 7.654331197642317, + "epoch": 0.23701333333333333, + "eta_time": 15.208730849093191, + "step": 2222 + }, + { + "epoch": 0.23712, + "grad_norm": 1.8098755067744943, + "learning_rate": 8.917222269323263e-06, + "loss": 0.5478, + "step": 2223 + }, + { + "avg_step_time": 7.653711164840544, + "epoch": 0.23712, + "eta_time": 15.205372847483215, + "step": 2223 + }, + { + "epoch": 0.23722666666666667, + "grad_norm": 1.6666746724860289, + "learning_rate": 8.916148473539613e-06, + "loss": 0.5642, + "step": 2224 + }, + { + "avg_step_time": 7.702142277149239, + "epoch": 0.23722666666666667, + "eta_time": 15.299449839970613, + "step": 2224 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 1.5921381736177906, + "learning_rate": 8.915074210295903e-06, + "loss": 0.6031, + "step": 2225 + }, + { + "avg_step_time": 7.65722408198347, + "epoch": 0.23733333333333334, + "eta_time": 15.208097829494948, + "step": 2225 + }, + { + "epoch": 0.23744, + "grad_norm": 1.6505214341588508, + "learning_rate": 8.91399947972037e-06, + "loss": 0.5246, + "step": 2226 + }, + { + "avg_step_time": 7.657268288159611, + "epoch": 0.23744, + "eta_time": 15.206058608903628, + "step": 2226 + }, + { + "epoch": 0.23754666666666666, + "grad_norm": 1.9887589241132473, + "learning_rate": 8.912924281941298e-06, + "loss": 0.5, + "step": 2227 + }, + { + "avg_step_time": 7.626394873917705, + "epoch": 0.23754666666666666, + "eta_time": 15.142630710767708, + "step": 2227 + }, + { + "epoch": 0.23765333333333333, + "grad_norm": 1.4543080015355467, + "learning_rate": 8.91184861708703e-06, + "loss": 0.4785, + "step": 2228 + }, + { + "avg_step_time": 7.627222932950414, + "epoch": 0.23765333333333333, + "eta_time": 15.142156194943503, + "step": 2228 + }, + { + "epoch": 0.23776, + "grad_norm": 1.746040887866973, + "learning_rate": 8.91077248528597e-06, + "loss": 0.4809, + "step": 2229 + }, + { + "avg_step_time": 7.643366861825037, + "epoch": 0.23776, + "eta_time": 15.1720832207227, + "step": 2229 + }, + { + "epoch": 0.23786666666666667, + "grad_norm": 1.82964377637783, + "learning_rate": 8.90969588666657e-06, + "loss": 0.5577, + "step": 2230 + }, + { + "avg_step_time": 7.680219975384799, + "epoch": 0.23786666666666667, + "eta_time": 15.24310325670122, + "step": 2230 + }, + { + "epoch": 0.23797333333333334, + "grad_norm": 0.6941393082806648, + "learning_rate": 8.90861882135734e-06, + "loss": 0.4539, + "step": 2231 + }, + { + "avg_step_time": 7.604939716030853, + "epoch": 0.23797333333333334, + "eta_time": 15.091580369812338, + "step": 2231 + }, + { + "epoch": 0.23808, + "grad_norm": 2.0324518409428665, + "learning_rate": 8.907541289486847e-06, + "loss": 0.487, + "step": 2232 + }, + { + "avg_step_time": 7.639688145030629, + "epoch": 0.23808, + "eta_time": 15.158414561098272, + "step": 2232 + }, + { + "epoch": 0.23818666666666666, + "grad_norm": 1.6855103846959238, + "learning_rate": 8.906463291183714e-06, + "loss": 0.4994, + "step": 2233 + }, + { + "avg_step_time": 7.64308075230531, + "epoch": 0.23818666666666666, + "eta_time": 15.163022981379033, + "step": 2233 + }, + { + "epoch": 0.23829333333333333, + "grad_norm": 1.790519023124937, + "learning_rate": 8.905384826576618e-06, + "loss": 0.4548, + "step": 2234 + }, + { + "avg_step_time": 7.675745292143389, + "epoch": 0.23829333333333333, + "eta_time": 15.225693647554428, + "step": 2234 + }, + { + "epoch": 0.2384, + "grad_norm": 1.968044052661972, + "learning_rate": 8.904305895794292e-06, + "loss": 0.4687, + "step": 2235 + }, + { + "avg_step_time": 7.730958644789879, + "epoch": 0.2384, + "eta_time": 15.33306797883326, + "step": 2235 + }, + { + "epoch": 0.23850666666666667, + "grad_norm": 1.7539365818593051, + "learning_rate": 8.903226498965524e-06, + "loss": 0.4801, + "step": 2236 + }, + { + "avg_step_time": 7.662923357703469, + "epoch": 0.23850666666666667, + "eta_time": 15.196002736290296, + "step": 2236 + }, + { + "epoch": 0.23861333333333334, + "grad_norm": 1.641153017119364, + "learning_rate": 8.90214663621916e-06, + "loss": 0.5175, + "step": 2237 + }, + { + "avg_step_time": 7.662708487173523, + "epoch": 0.23861333333333334, + "eta_time": 15.193448105956836, + "step": 2237 + }, + { + "epoch": 0.23872, + "grad_norm": 1.6091726666342807, + "learning_rate": 8.901066307684102e-06, + "loss": 0.5327, + "step": 2238 + }, + { + "avg_step_time": 7.7104218246960885, + "epoch": 0.23872, + "eta_time": 15.285911267459996, + "step": 2238 + }, + { + "epoch": 0.23882666666666666, + "grad_norm": 1.563078572302666, + "learning_rate": 8.899985513489304e-06, + "loss": 0.5227, + "step": 2239 + }, + { + "avg_step_time": 7.707628486132381, + "epoch": 0.23882666666666666, + "eta_time": 15.278232465844631, + "step": 2239 + }, + { + "epoch": 0.23893333333333333, + "grad_norm": 1.7824851022014367, + "learning_rate": 8.898904253763778e-06, + "loss": 0.5528, + "step": 2240 + }, + { + "avg_step_time": 7.705938045424644, + "epoch": 0.23893333333333333, + "eta_time": 15.272741098362454, + "step": 2240 + }, + { + "epoch": 0.23904, + "grad_norm": 1.781236356061827, + "learning_rate": 8.89782252863659e-06, + "loss": 0.5061, + "step": 2241 + }, + { + "avg_step_time": 7.722810533311632, + "epoch": 0.23904, + "eta_time": 15.304036206845886, + "step": 2241 + }, + { + "epoch": 0.23914666666666667, + "grad_norm": 1.6519714985147749, + "learning_rate": 8.896740338236863e-06, + "loss": 0.5024, + "step": 2242 + }, + { + "avg_step_time": 7.751272707274466, + "epoch": 0.23914666666666667, + "eta_time": 15.358285616941323, + "step": 2242 + }, + { + "epoch": 0.23925333333333335, + "grad_norm": 1.4394001641040781, + "learning_rate": 8.895657682693774e-06, + "loss": 0.4583, + "step": 2243 + }, + { + "avg_step_time": 7.751585796625927, + "epoch": 0.23925333333333335, + "eta_time": 15.356752750426699, + "step": 2243 + }, + { + "epoch": 0.23936, + "grad_norm": 1.573981534453111, + "learning_rate": 8.894574562136561e-06, + "loss": 0.4745, + "step": 2244 + }, + { + "avg_step_time": 7.744683523370762, + "epoch": 0.23936, + "eta_time": 15.340927279210252, + "step": 2244 + }, + { + "epoch": 0.23946666666666666, + "grad_norm": 1.6585116915366815, + "learning_rate": 8.89349097669451e-06, + "loss": 0.5416, + "step": 2245 + }, + { + "avg_step_time": 7.6879736052619085, + "epoch": 0.23946666666666666, + "eta_time": 15.226458834865946, + "step": 2245 + }, + { + "epoch": 0.23957333333333333, + "grad_norm": 1.555926933233581, + "learning_rate": 8.892406926496967e-06, + "loss": 0.484, + "step": 2246 + }, + { + "avg_step_time": 7.678299099507958, + "epoch": 0.23957333333333333, + "eta_time": 15.205165077886733, + "step": 2246 + }, + { + "epoch": 0.23968, + "grad_norm": 2.278100430715915, + "learning_rate": 8.89132241167333e-06, + "loss": 0.4444, + "step": 2247 + }, + { + "avg_step_time": 7.6765494153957174, + "epoch": 0.23968, + "eta_time": 15.199567842483521, + "step": 2247 + }, + { + "epoch": 0.23978666666666668, + "grad_norm": 1.8362914122407814, + "learning_rate": 8.890237432353055e-06, + "loss": 0.4808, + "step": 2248 + }, + { + "avg_step_time": 7.6774895383854105, + "epoch": 0.23978666666666668, + "eta_time": 15.199296650020228, + "step": 2248 + }, + { + "epoch": 0.23989333333333332, + "grad_norm": 1.78998267915964, + "learning_rate": 8.889151988665654e-06, + "loss": 0.4296, + "step": 2249 + }, + { + "avg_step_time": 7.6458906091824925, + "epoch": 0.23989333333333332, + "eta_time": 15.134615689176234, + "step": 2249 + }, + { + "epoch": 0.24, + "grad_norm": 1.661486415859957, + "learning_rate": 8.888066080740692e-06, + "loss": 0.4764, + "step": 2250 + }, + { + "avg_step_time": 7.652806946725557, + "epoch": 0.24, + "eta_time": 15.146180415394332, + "step": 2250 + }, + { + "epoch": 0.24010666666666666, + "grad_norm": 1.7804685660211472, + "learning_rate": 8.886979708707795e-06, + "loss": 0.5004, + "step": 2251 + }, + { + "avg_step_time": 7.682560104312318, + "epoch": 0.24010666666666666, + "eta_time": 15.20293282864471, + "step": 2251 + }, + { + "epoch": 0.24021333333333333, + "grad_norm": 1.6316681601312646, + "learning_rate": 8.885892872696635e-06, + "loss": 0.4791, + "step": 2252 + }, + { + "avg_step_time": 7.651373689824885, + "epoch": 0.24021333333333333, + "eta_time": 15.139092997950739, + "step": 2252 + }, + { + "epoch": 0.24032, + "grad_norm": 2.072199553702898, + "learning_rate": 8.88480557283695e-06, + "loss": 0.5118, + "step": 2253 + }, + { + "avg_step_time": 7.617561475195066, + "epoch": 0.24032, + "eta_time": 15.070075785094238, + "step": 2253 + }, + { + "epoch": 0.24042666666666668, + "grad_norm": 1.5071478575209825, + "learning_rate": 8.883717809258523e-06, + "loss": 0.5086, + "step": 2254 + }, + { + "avg_step_time": 7.6484425862630205, + "epoch": 0.24042666666666668, + "eta_time": 15.12904434910527, + "step": 2254 + }, + { + "epoch": 0.24053333333333332, + "grad_norm": 1.9139544117343938, + "learning_rate": 8.8826295820912e-06, + "loss": 0.5021, + "step": 2255 + }, + { + "avg_step_time": 7.657841444015503, + "epoch": 0.24053333333333332, + "eta_time": 15.145508633719551, + "step": 2255 + }, + { + "epoch": 0.24064, + "grad_norm": 1.537616295323428, + "learning_rate": 8.88154089146488e-06, + "loss": 0.5262, + "step": 2256 + }, + { + "avg_step_time": 7.6544183673280655, + "epoch": 0.24064, + "eta_time": 15.13661232139125, + "step": 2256 + }, + { + "epoch": 0.24074666666666666, + "grad_norm": 1.6090532483466669, + "learning_rate": 8.880451737509514e-06, + "loss": 0.4237, + "step": 2257 + }, + { + "avg_step_time": 7.623008636513141, + "epoch": 0.24074666666666666, + "eta_time": 15.072382076305706, + "step": 2257 + }, + { + "epoch": 0.24085333333333334, + "grad_norm": 1.7956607439584777, + "learning_rate": 8.879362120355118e-06, + "loss": 0.5064, + "step": 2258 + }, + { + "avg_step_time": 7.574381435760344, + "epoch": 0.24085333333333334, + "eta_time": 14.974131299529546, + "step": 2258 + }, + { + "epoch": 0.24096, + "grad_norm": 1.6578390638098186, + "learning_rate": 8.878272040131748e-06, + "loss": 0.4723, + "step": 2259 + }, + { + "avg_step_time": 7.525630611361879, + "epoch": 0.24096, + "eta_time": 14.875663175125315, + "step": 2259 + }, + { + "epoch": 0.24106666666666668, + "grad_norm": 1.4009737339317612, + "learning_rate": 8.877181496969531e-06, + "loss": 0.4537, + "step": 2260 + }, + { + "avg_step_time": 7.472374434422965, + "epoch": 0.24106666666666668, + "eta_time": 14.768317805810941, + "step": 2260 + }, + { + "epoch": 0.24117333333333332, + "grad_norm": 1.6031684727264757, + "learning_rate": 8.876090490998639e-06, + "loss": 0.4774, + "step": 2261 + }, + { + "avg_step_time": 7.472872649780427, + "epoch": 0.24117333333333332, + "eta_time": 14.767226675149434, + "step": 2261 + }, + { + "epoch": 0.24128, + "grad_norm": 0.6770975308760165, + "learning_rate": 8.874999022349303e-06, + "loss": 0.4484, + "step": 2262 + }, + { + "avg_step_time": 7.414628120383831, + "epoch": 0.24128, + "eta_time": 14.650069394525053, + "step": 2262 + }, + { + "epoch": 0.24138666666666667, + "grad_norm": 1.6252712018512672, + "learning_rate": 8.873907091151808e-06, + "loss": 0.4296, + "step": 2263 + }, + { + "avg_step_time": 7.418178803992994, + "epoch": 0.24138666666666667, + "eta_time": 14.655024348332827, + "step": 2263 + }, + { + "epoch": 0.24149333333333334, + "grad_norm": 0.6769685593839422, + "learning_rate": 8.872814697536497e-06, + "loss": 0.4631, + "step": 2264 + }, + { + "avg_step_time": 7.418650973926891, + "epoch": 0.24149333333333334, + "eta_time": 14.653896409887254, + "step": 2264 + }, + { + "epoch": 0.2416, + "grad_norm": 1.9926328169526248, + "learning_rate": 8.871721841633762e-06, + "loss": 0.5585, + "step": 2265 + }, + { + "avg_step_time": 7.449686255117859, + "epoch": 0.2416, + "eta_time": 14.713130353857771, + "step": 2265 + }, + { + "epoch": 0.24170666666666665, + "grad_norm": 1.4641271381667755, + "learning_rate": 8.87062852357406e-06, + "loss": 0.4888, + "step": 2266 + }, + { + "avg_step_time": 7.448965221944482, + "epoch": 0.24170666666666665, + "eta_time": 14.709637156334255, + "step": 2266 + }, + { + "epoch": 0.24181333333333332, + "grad_norm": 2.0198304773169875, + "learning_rate": 8.869534743487893e-06, + "loss": 0.5224, + "step": 2267 + }, + { + "avg_step_time": 7.447224315970835, + "epoch": 0.24181333333333332, + "eta_time": 14.704130677200192, + "step": 2267 + }, + { + "epoch": 0.24192, + "grad_norm": 1.510838134684674, + "learning_rate": 8.868440501505822e-06, + "loss": 0.5056, + "step": 2268 + }, + { + "avg_step_time": 7.423746373918322, + "epoch": 0.24192, + "eta_time": 14.655712633177087, + "step": 2268 + }, + { + "epoch": 0.24202666666666667, + "grad_norm": 1.7383750750706197, + "learning_rate": 8.867345797758468e-06, + "loss": 0.538, + "step": 2269 + }, + { + "avg_step_time": 7.425873460191669, + "epoch": 0.24202666666666667, + "eta_time": 14.657849113367222, + "step": 2269 + }, + { + "epoch": 0.24213333333333334, + "grad_norm": 1.5281313735665005, + "learning_rate": 8.866250632376499e-06, + "loss": 0.4981, + "step": 2270 + }, + { + "avg_step_time": 7.377475153316151, + "epoch": 0.24213333333333334, + "eta_time": 14.560266934530905, + "step": 2270 + }, + { + "epoch": 0.24224, + "grad_norm": 1.6038765435092044, + "learning_rate": 8.865155005490643e-06, + "loss": 0.49, + "step": 2271 + }, + { + "avg_step_time": 7.377816099109071, + "epoch": 0.24224, + "eta_time": 14.558890435575233, + "step": 2271 + }, + { + "epoch": 0.24234666666666665, + "grad_norm": 1.510731008620529, + "learning_rate": 8.864058917231684e-06, + "loss": 0.4907, + "step": 2272 + }, + { + "avg_step_time": 7.350124335048174, + "epoch": 0.24234666666666665, + "eta_time": 14.502203653290884, + "step": 2272 + }, + { + "epoch": 0.24245333333333333, + "grad_norm": 1.9776994876167915, + "learning_rate": 8.862962367730456e-06, + "loss": 0.5206, + "step": 2273 + }, + { + "avg_step_time": 7.348583373156461, + "epoch": 0.24245333333333333, + "eta_time": 14.49712197671033, + "step": 2273 + }, + { + "epoch": 0.24256, + "grad_norm": 0.6324321749860742, + "learning_rate": 8.861865357117852e-06, + "loss": 0.4441, + "step": 2274 + }, + { + "avg_step_time": 7.317428367306488, + "epoch": 0.24256, + "eta_time": 14.433627454512047, + "step": 2274 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 1.7315645070809869, + "learning_rate": 8.860767885524821e-06, + "loss": 0.4531, + "step": 2275 + }, + { + "avg_step_time": 7.237401061587864, + "epoch": 0.24266666666666667, + "eta_time": 14.273763204798287, + "step": 2275 + }, + { + "epoch": 0.24277333333333334, + "grad_norm": 1.6889308964953504, + "learning_rate": 8.859669953082364e-06, + "loss": 0.4095, + "step": 2276 + }, + { + "avg_step_time": 7.242881871233083, + "epoch": 0.24277333333333334, + "eta_time": 14.28256066774546, + "step": 2276 + }, + { + "epoch": 0.24288, + "grad_norm": 1.8699689561667487, + "learning_rate": 8.858571559921539e-06, + "loss": 0.5284, + "step": 2277 + }, + { + "avg_step_time": 7.241118727308331, + "epoch": 0.24288, + "eta_time": 14.277072424009592, + "step": 2277 + }, + { + "epoch": 0.24298666666666666, + "grad_norm": 2.1148874434043545, + "learning_rate": 8.857472706173455e-06, + "loss": 0.5587, + "step": 2278 + }, + { + "avg_step_time": 7.197799429748997, + "epoch": 0.24298666666666666, + "eta_time": 14.189661820257953, + "step": 2278 + }, + { + "epoch": 0.24309333333333333, + "grad_norm": 0.6510825985777485, + "learning_rate": 8.856373391969282e-06, + "loss": 0.4656, + "step": 2279 + }, + { + "avg_step_time": 7.163853093831226, + "epoch": 0.24309333333333333, + "eta_time": 14.12075043161844, + "step": 2279 + }, + { + "epoch": 0.2432, + "grad_norm": 2.152045227647579, + "learning_rate": 8.855273617440243e-06, + "loss": 0.5515, + "step": 2280 + }, + { + "avg_step_time": 7.135290930969546, + "epoch": 0.2432, + "eta_time": 14.062469209785814, + "step": 2280 + }, + { + "epoch": 0.24330666666666667, + "grad_norm": 1.7876628788506075, + "learning_rate": 8.854173382717612e-06, + "loss": 0.54, + "step": 2281 + }, + { + "avg_step_time": 7.08969617853261, + "epoch": 0.24330666666666667, + "eta_time": 13.970640191808426, + "step": 2281 + }, + { + "epoch": 0.24341333333333334, + "grad_norm": 1.6392546160821762, + "learning_rate": 8.853072687932724e-06, + "loss": 0.4812, + "step": 2282 + }, + { + "avg_step_time": 7.059124720217001, + "epoch": 0.24341333333333334, + "eta_time": 13.908436566805332, + "step": 2282 + }, + { + "epoch": 0.24352, + "grad_norm": 1.8086736047681569, + "learning_rate": 8.851971533216968e-06, + "loss": 0.5466, + "step": 2283 + }, + { + "avg_step_time": 7.012071380711565, + "epoch": 0.24352, + "eta_time": 13.813780620001783, + "step": 2283 + }, + { + "epoch": 0.24362666666666666, + "grad_norm": 1.5295342438961173, + "learning_rate": 8.85086991870178e-06, + "loss": 0.4586, + "step": 2284 + }, + { + "avg_step_time": 7.013002234275895, + "epoch": 0.24362666666666666, + "eta_time": 13.813666345347325, + "step": 2284 + }, + { + "epoch": 0.24373333333333333, + "grad_norm": 1.5070100615313955, + "learning_rate": 8.849767844518658e-06, + "loss": 0.4712, + "step": 2285 + }, + { + "avg_step_time": 6.980873827982431, + "epoch": 0.24373333333333333, + "eta_time": 13.748443177887621, + "step": 2285 + }, + { + "epoch": 0.24384, + "grad_norm": 1.8143932925579778, + "learning_rate": 8.848665310799156e-06, + "loss": 0.4697, + "step": 2286 + }, + { + "avg_step_time": 6.95382093901586, + "epoch": 0.24384, + "eta_time": 13.693232399078731, + "step": 2286 + }, + { + "epoch": 0.24394666666666667, + "grad_norm": 0.6531177598980762, + "learning_rate": 8.84756231767488e-06, + "loss": 0.4425, + "step": 2287 + }, + { + "avg_step_time": 6.8597149921186045, + "epoch": 0.24394666666666667, + "eta_time": 13.50601662892685, + "step": 2287 + }, + { + "epoch": 0.24405333333333334, + "grad_norm": 1.7065010442387067, + "learning_rate": 8.846458865277492e-06, + "loss": 0.5438, + "step": 2288 + }, + { + "avg_step_time": 6.82911680924772, + "epoch": 0.24405333333333334, + "eta_time": 13.443875229760721, + "step": 2288 + }, + { + "epoch": 0.24416, + "grad_norm": 1.7356280199420608, + "learning_rate": 8.845354953738706e-06, + "loss": 0.5377, + "step": 2289 + }, + { + "avg_step_time": 6.8625367843743525, + "epoch": 0.24416, + "eta_time": 13.507759903910184, + "step": 2289 + }, + { + "epoch": 0.24426666666666666, + "grad_norm": 0.67463747518725, + "learning_rate": 8.844250583190295e-06, + "loss": 0.4689, + "step": 2290 + }, + { + "avg_step_time": 6.753682042613174, + "epoch": 0.24426666666666666, + "eta_time": 13.291621464420649, + "step": 2290 + }, + { + "epoch": 0.24437333333333333, + "grad_norm": 1.653163398824677, + "learning_rate": 8.843145753764083e-06, + "loss": 0.4753, + "step": 2291 + }, + { + "avg_step_time": 6.6988224043990625, + "epoch": 0.24437333333333333, + "eta_time": 13.18179386465638, + "step": 2291 + }, + { + "epoch": 0.24448, + "grad_norm": 1.9519888125018023, + "learning_rate": 8.84204046559195e-06, + "loss": 0.5582, + "step": 2292 + }, + { + "avg_step_time": 6.683365773673009, + "epoch": 0.24448, + "eta_time": 13.149522159701647, + "step": 2292 + }, + { + "epoch": 0.24458666666666667, + "grad_norm": 1.848704766206147, + "learning_rate": 8.840934718805832e-06, + "loss": 0.4857, + "step": 2293 + }, + { + "avg_step_time": 6.5765587055321895, + "epoch": 0.24458666666666667, + "eta_time": 12.937552431271934, + "step": 2293 + }, + { + "epoch": 0.24469333333333335, + "grad_norm": 0.612249920357941, + "learning_rate": 8.839828513537722e-06, + "loss": 0.4377, + "step": 2294 + }, + { + "avg_step_time": 6.5123614373833245, + "epoch": 0.24469333333333335, + "eta_time": 12.809453149475367, + "step": 2294 + }, + { + "epoch": 0.2448, + "grad_norm": 1.868261488162743, + "learning_rate": 8.83872184991966e-06, + "loss": 0.5336, + "step": 2295 + }, + { + "avg_step_time": 6.530777769859391, + "epoch": 0.2448, + "eta_time": 12.843862947390134, + "step": 2295 + }, + { + "epoch": 0.24490666666666666, + "grad_norm": 1.7063495146395289, + "learning_rate": 8.83761472808375e-06, + "loss": 0.5261, + "step": 2296 + }, + { + "avg_step_time": 6.518096769698943, + "epoch": 0.24490666666666666, + "eta_time": 12.817113064638558, + "step": 2296 + }, + { + "epoch": 0.24501333333333333, + "grad_norm": 1.8421083839908972, + "learning_rate": 8.836507148162141e-06, + "loss": 0.49, + "step": 2297 + }, + { + "avg_step_time": 6.490922133127849, + "epoch": 0.24501333333333333, + "eta_time": 12.761874127299699, + "step": 2297 + }, + { + "epoch": 0.24512, + "grad_norm": 1.670896656309954, + "learning_rate": 8.835399110287046e-06, + "loss": 0.5234, + "step": 2298 + }, + { + "avg_step_time": 6.479330607134886, + "epoch": 0.24512, + "eta_time": 12.737284085192664, + "step": 2298 + }, + { + "epoch": 0.24522666666666668, + "grad_norm": 1.762369747682529, + "learning_rate": 8.834290614590729e-06, + "loss": 0.5053, + "step": 2299 + }, + { + "avg_step_time": 6.4484211242560185, + "epoch": 0.24522666666666668, + "eta_time": 12.67472996534322, + "step": 2299 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 1.5506206591657177, + "learning_rate": 8.833181661205503e-06, + "loss": 0.5389, + "step": 2300 + }, + { + "avg_step_time": 6.484380534200957, + "epoch": 0.24533333333333332, + "eta_time": 12.743608966519936, + "step": 2300 + }, + { + "epoch": 0.24544, + "grad_norm": 1.7520324978924353, + "learning_rate": 8.832072250263746e-06, + "loss": 0.5383, + "step": 2301 + }, + { + "avg_step_time": 6.489772298119285, + "epoch": 0.24544, + "eta_time": 12.752402565804395, + "step": 2301 + }, + { + "epoch": 0.24554666666666666, + "grad_norm": 1.7123266652410898, + "learning_rate": 8.830962381897882e-06, + "loss": 0.5127, + "step": 2302 + }, + { + "avg_step_time": 6.461308443185055, + "epoch": 0.24554666666666666, + "eta_time": 12.694676282957747, + "step": 2302 + }, + { + "epoch": 0.24565333333333333, + "grad_norm": 1.5820525687252893, + "learning_rate": 8.829852056240396e-06, + "loss": 0.5451, + "step": 2303 + }, + { + "avg_step_time": 6.404424265177563, + "epoch": 0.24565333333333333, + "eta_time": 12.581135667593259, + "step": 2303 + }, + { + "epoch": 0.24576, + "grad_norm": 1.9445065806586987, + "learning_rate": 8.82874127342382e-06, + "loss": 0.5756, + "step": 2304 + }, + { + "avg_step_time": 6.408158001273569, + "epoch": 0.24576, + "eta_time": 12.586690340834837, + "step": 2304 + }, + { + "epoch": 0.24586666666666668, + "grad_norm": 1.8302797507106394, + "learning_rate": 8.827630033580752e-06, + "loss": 0.5096, + "step": 2305 + }, + { + "avg_step_time": 6.383459098411329, + "epoch": 0.24586666666666668, + "eta_time": 12.536404396046693, + "step": 2305 + }, + { + "epoch": 0.24597333333333332, + "grad_norm": 1.5117914401770218, + "learning_rate": 8.826518336843831e-06, + "loss": 0.4988, + "step": 2306 + }, + { + "avg_step_time": 6.408910033678768, + "epoch": 0.24597333333333332, + "eta_time": 12.584606952243115, + "step": 2306 + }, + { + "epoch": 0.24608, + "grad_norm": 1.3979257876669344, + "learning_rate": 8.82540618334576e-06, + "loss": 0.4617, + "step": 2307 + }, + { + "avg_step_time": 6.4116339900276875, + "epoch": 0.24608, + "eta_time": 12.588174733754359, + "step": 2307 + }, + { + "epoch": 0.24618666666666666, + "grad_norm": 1.5261280450063825, + "learning_rate": 8.824293573219295e-06, + "loss": 0.5532, + "step": 2308 + }, + { + "avg_step_time": 6.3763867797273575, + "epoch": 0.24618666666666666, + "eta_time": 12.517201492314788, + "step": 2308 + }, + { + "epoch": 0.24629333333333334, + "grad_norm": 1.8928239638234619, + "learning_rate": 8.823180506597244e-06, + "loss": 0.5144, + "step": 2309 + }, + { + "avg_step_time": 6.4103570201180196, + "epoch": 0.24629333333333334, + "eta_time": 12.582106306709424, + "step": 2309 + }, + { + "epoch": 0.2464, + "grad_norm": 1.7854959427484605, + "learning_rate": 8.82206698361247e-06, + "loss": 0.5961, + "step": 2310 + }, + { + "avg_step_time": 6.400236105678057, + "epoch": 0.2464, + "eta_time": 12.560463357393186, + "step": 2310 + }, + { + "epoch": 0.24650666666666668, + "grad_norm": 1.7172938996715115, + "learning_rate": 8.820953004397892e-06, + "loss": 0.5088, + "step": 2311 + }, + { + "avg_step_time": 6.357062912950612, + "epoch": 0.24650666666666668, + "eta_time": 12.473970115856423, + "step": 2311 + }, + { + "epoch": 0.24661333333333332, + "grad_norm": 1.5166827528677043, + "learning_rate": 8.819838569086482e-06, + "loss": 0.4631, + "step": 2312 + }, + { + "avg_step_time": 6.370246846266467, + "epoch": 0.24661333333333332, + "eta_time": 12.498070409772238, + "step": 2312 + }, + { + "epoch": 0.24672, + "grad_norm": 0.6546544585666898, + "learning_rate": 8.818723677811269e-06, + "loss": 0.4554, + "step": 2313 + }, + { + "avg_step_time": 6.339570527124887, + "epoch": 0.24672, + "eta_time": 12.43612418404332, + "step": 2313 + }, + { + "epoch": 0.24682666666666667, + "grad_norm": 1.7467524005695434, + "learning_rate": 8.817608330705334e-06, + "loss": 0.4253, + "step": 2314 + }, + { + "avg_step_time": 6.338274811253403, + "epoch": 0.24682666666666667, + "eta_time": 12.431821789516746, + "step": 2314 + }, + { + "epoch": 0.24693333333333334, + "grad_norm": 1.5519923737451005, + "learning_rate": 8.816492527901811e-06, + "loss": 0.4555, + "step": 2315 + }, + { + "avg_step_time": 6.344193908903334, + "epoch": 0.24693333333333334, + "eta_time": 12.44166916579376, + "step": 2315 + }, + { + "epoch": 0.24704, + "grad_norm": 1.5958148129931622, + "learning_rate": 8.815376269533893e-06, + "loss": 0.5127, + "step": 2316 + }, + { + "avg_step_time": 6.3382225157034515, + "epoch": 0.24704, + "eta_time": 12.428197982875185, + "step": 2316 + }, + { + "epoch": 0.24714666666666665, + "grad_norm": 1.7400047422038791, + "learning_rate": 8.814259555734823e-06, + "loss": 0.5489, + "step": 2317 + }, + { + "avg_step_time": 6.289759710581616, + "epoch": 0.24714666666666665, + "eta_time": 12.33142334369029, + "step": 2317 + }, + { + "epoch": 0.24725333333333332, + "grad_norm": 1.5831049767801728, + "learning_rate": 8.8131423866379e-06, + "loss": 0.5279, + "step": 2318 + }, + { + "avg_step_time": 6.216167315088137, + "epoch": 0.24725333333333332, + "eta_time": 12.18541465071583, + "step": 2318 + }, + { + "epoch": 0.24736, + "grad_norm": 1.5588146428596152, + "learning_rate": 8.812024762376477e-06, + "loss": 0.4941, + "step": 2319 + }, + { + "avg_step_time": 6.2237994189214225, + "epoch": 0.24736, + "eta_time": 12.198646861085987, + "step": 2319 + }, + { + "epoch": 0.24746666666666667, + "grad_norm": 1.362215723790332, + "learning_rate": 8.810906683083964e-06, + "loss": 0.4739, + "step": 2320 + }, + { + "avg_step_time": 6.166511884843461, + "epoch": 0.24746666666666667, + "eta_time": 12.08465037432517, + "step": 2320 + }, + { + "epoch": 0.24757333333333334, + "grad_norm": 1.703683345686848, + "learning_rate": 8.809788148893824e-06, + "loss": 0.4835, + "step": 2321 + }, + { + "avg_step_time": 6.031655386240796, + "epoch": 0.24757333333333334, + "eta_time": 11.818693637372936, + "step": 2321 + }, + { + "epoch": 0.24768, + "grad_norm": 1.73941690641187, + "learning_rate": 8.808669159939568e-06, + "loss": 0.5745, + "step": 2322 + }, + { + "avg_step_time": 6.049198242148968, + "epoch": 0.24768, + "eta_time": 11.851387556076853, + "step": 2322 + }, + { + "epoch": 0.24778666666666666, + "grad_norm": 1.6024313990635533, + "learning_rate": 8.807549716354772e-06, + "loss": 0.4168, + "step": 2323 + }, + { + "avg_step_time": 6.009354632310193, + "epoch": 0.24778666666666666, + "eta_time": 11.771658018625411, + "step": 2323 + }, + { + "epoch": 0.24789333333333333, + "grad_norm": 1.4337077926374557, + "learning_rate": 8.806429818273057e-06, + "loss": 0.4595, + "step": 2324 + }, + { + "avg_step_time": 6.009976868677621, + "epoch": 0.24789333333333333, + "eta_time": 11.771207472512753, + "step": 2324 + }, + { + "epoch": 0.248, + "grad_norm": 1.6947264973293408, + "learning_rate": 8.805309465828105e-06, + "loss": 0.4944, + "step": 2325 + }, + { + "avg_step_time": 6.013707801549121, + "epoch": 0.248, + "eta_time": 11.776844444700362, + "step": 2325 + }, + { + "epoch": 0.24810666666666667, + "grad_norm": 1.5635433359990298, + "learning_rate": 8.80418865915365e-06, + "loss": 0.5106, + "step": 2326 + }, + { + "avg_step_time": 6.029468733854968, + "epoch": 0.24810666666666667, + "eta_time": 11.806034751373243, + "step": 2326 + }, + { + "epoch": 0.24821333333333334, + "grad_norm": 1.6654103768294757, + "learning_rate": 8.803067398383477e-06, + "loss": 0.4671, + "step": 2327 + }, + { + "avg_step_time": 6.026002905585549, + "epoch": 0.24821333333333334, + "eta_time": 11.797574577379708, + "step": 2327 + }, + { + "epoch": 0.24832, + "grad_norm": 0.6671115090357621, + "learning_rate": 8.80194568365143e-06, + "loss": 0.4483, + "step": 2328 + }, + { + "avg_step_time": 5.978462423941101, + "epoch": 0.24832, + "eta_time": 11.702840194864706, + "step": 2328 + }, + { + "epoch": 0.24842666666666666, + "grad_norm": 1.640097322361259, + "learning_rate": 8.800823515091403e-06, + "loss": 0.4875, + "step": 2329 + }, + { + "avg_step_time": 5.974841194923478, + "epoch": 0.24842666666666666, + "eta_time": 11.694091960953006, + "step": 2329 + }, + { + "epoch": 0.24853333333333333, + "grad_norm": 0.6492489533190534, + "learning_rate": 8.799700892837348e-06, + "loss": 0.4361, + "step": 2330 + }, + { + "avg_step_time": 5.974479668068163, + "epoch": 0.24853333333333333, + "eta_time": 11.691724794872279, + "step": 2330 + }, + { + "epoch": 0.24864, + "grad_norm": 1.8067530430509233, + "learning_rate": 8.798577817023269e-06, + "loss": 0.5156, + "step": 2331 + }, + { + "avg_step_time": 5.942536736979629, + "epoch": 0.24864, + "eta_time": 11.62756354869014, + "step": 2331 + }, + { + "epoch": 0.24874666666666667, + "grad_norm": 0.6527944444770057, + "learning_rate": 8.797454287783224e-06, + "loss": 0.4377, + "step": 2332 + }, + { + "avg_step_time": 5.905699992420698, + "epoch": 0.24874666666666667, + "eta_time": 11.553845846283048, + "step": 2332 + }, + { + "epoch": 0.24885333333333334, + "grad_norm": 1.7708744605105422, + "learning_rate": 8.796330305251326e-06, + "loss": 0.5717, + "step": 2333 + }, + { + "avg_step_time": 5.8701251974009505, + "epoch": 0.24885333333333334, + "eta_time": 11.482617122249303, + "step": 2333 + }, + { + "epoch": 0.24896, + "grad_norm": 1.7801460394217568, + "learning_rate": 8.795205869561742e-06, + "loss": 0.4683, + "step": 2334 + }, + { + "avg_step_time": 5.842158327198992, + "epoch": 0.24896, + "eta_time": 11.426287994946696, + "step": 2334 + }, + { + "epoch": 0.24906666666666666, + "grad_norm": 1.6576024184252436, + "learning_rate": 8.79408098084869e-06, + "loss": 0.4561, + "step": 2335 + }, + { + "avg_step_time": 5.86806603874823, + "epoch": 0.24906666666666666, + "eta_time": 11.475329142440984, + "step": 2335 + }, + { + "epoch": 0.24917333333333333, + "grad_norm": 1.4814939539782546, + "learning_rate": 8.792955639246452e-06, + "loss": 0.4919, + "step": 2336 + }, + { + "avg_step_time": 5.875891721609867, + "epoch": 0.24917333333333333, + "eta_time": 11.489000507892182, + "step": 2336 + }, + { + "epoch": 0.24928, + "grad_norm": 1.5181290471177342, + "learning_rate": 8.79182984488935e-06, + "loss": 0.4175, + "step": 2337 + }, + { + "avg_step_time": 5.826956267308707, + "epoch": 0.24928, + "eta_time": 11.391699502588523, + "step": 2337 + }, + { + "epoch": 0.24938666666666667, + "grad_norm": 1.598370657232364, + "learning_rate": 8.790703597911769e-06, + "loss": 0.5522, + "step": 2338 + }, + { + "avg_step_time": 5.827882496997564, + "epoch": 0.24938666666666667, + "eta_time": 11.39189142538107, + "step": 2338 + }, + { + "epoch": 0.24949333333333334, + "grad_norm": 1.6632013406603774, + "learning_rate": 8.78957689844815e-06, + "loss": 0.5165, + "step": 2339 + }, + { + "avg_step_time": 5.854829496807522, + "epoch": 0.24949333333333334, + "eta_time": 11.442938983204924, + "step": 2339 + }, + { + "epoch": 0.2496, + "grad_norm": 1.67530833919844, + "learning_rate": 8.788449746632976e-06, + "loss": 0.4381, + "step": 2340 + }, + { + "avg_step_time": 5.8036362185622705, + "epoch": 0.2496, + "eta_time": 11.34127244377377, + "step": 2340 + }, + { + "epoch": 0.24970666666666666, + "grad_norm": 0.6423264789211091, + "learning_rate": 8.787322142600799e-06, + "loss": 0.4311, + "step": 2341 + }, + { + "avg_step_time": 5.762838091513123, + "epoch": 0.24970666666666666, + "eta_time": 11.25994531547314, + "step": 2341 + }, + { + "epoch": 0.24981333333333333, + "grad_norm": 0.656548521774565, + "learning_rate": 8.786194086486215e-06, + "loss": 0.4371, + "step": 2342 + }, + { + "avg_step_time": 5.724477897990834, + "epoch": 0.24981333333333333, + "eta_time": 11.183403626824871, + "step": 2342 + }, + { + "epoch": 0.24992, + "grad_norm": 1.9688373077784596, + "learning_rate": 8.78506557842388e-06, + "loss": 0.5645, + "step": 2343 + }, + { + "avg_step_time": 5.726367473602295, + "epoch": 0.24992, + "eta_time": 11.185504465103149, + "step": 2343 + }, + { + "epoch": 0.2500266666666667, + "grad_norm": 1.5806258818817776, + "learning_rate": 8.783936618548496e-06, + "loss": 0.4807, + "step": 2344 + }, + { + "avg_step_time": 5.721978609008018, + "epoch": 0.2500266666666667, + "eta_time": 11.17534211109316, + "step": 2344 + }, + { + "epoch": 0.2501333333333333, + "grad_norm": 1.698459274364831, + "learning_rate": 8.782807206994826e-06, + "loss": 0.5783, + "step": 2345 + }, + { + "avg_step_time": 5.722836292151249, + "epoch": 0.2501333333333333, + "eta_time": 11.175427537173134, + "step": 2345 + }, + { + "epoch": 0.25024, + "grad_norm": 0.647110306780265, + "learning_rate": 8.781677343897687e-06, + "loss": 0.4314, + "step": 2346 + }, + { + "avg_step_time": 5.661426447858714, + "epoch": 0.25024, + "eta_time": 11.053935139444139, + "step": 2346 + }, + { + "epoch": 0.25034666666666666, + "grad_norm": 0.6435580861461934, + "learning_rate": 8.780547029391947e-06, + "loss": 0.4432, + "step": 2347 + }, + { + "avg_step_time": 5.628814102423312, + "epoch": 0.25034666666666666, + "eta_time": 10.988695975508621, + "step": 2347 + }, + { + "epoch": 0.2504533333333333, + "grad_norm": 0.6484698413037073, + "learning_rate": 8.779416263612526e-06, + "loss": 0.4452, + "step": 2348 + }, + { + "avg_step_time": 5.597726850798636, + "epoch": 0.2504533333333333, + "eta_time": 10.926451827933892, + "step": 2348 + }, + { + "epoch": 0.25056, + "grad_norm": 1.7403573166105353, + "learning_rate": 8.778285046694403e-06, + "loss": 0.4945, + "step": 2349 + }, + { + "avg_step_time": 5.61835644221065, + "epoch": 0.25056, + "eta_time": 10.965158989714451, + "step": 2349 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 1.3887953446881263, + "learning_rate": 8.777153378772608e-06, + "loss": 0.3982, + "step": 2350 + }, + { + "avg_step_time": 5.5838644889870075, + "epoch": 0.25066666666666665, + "eta_time": 10.896291120870481, + "step": 2350 + }, + { + "epoch": 0.25077333333333335, + "grad_norm": 1.6495621004507752, + "learning_rate": 8.776021259982224e-06, + "loss": 0.508, + "step": 2351 + }, + { + "avg_step_time": 5.594205186824606, + "epoch": 0.25077333333333335, + "eta_time": 10.914915897848898, + "step": 2351 + }, + { + "epoch": 0.25088, + "grad_norm": 1.6140805150940523, + "learning_rate": 8.77488869045839e-06, + "loss": 0.467, + "step": 2352 + }, + { + "avg_step_time": 5.565815130869548, + "epoch": 0.25088, + "eta_time": 10.857977684471342, + "step": 2352 + }, + { + "epoch": 0.2509866666666667, + "grad_norm": 1.7173240316680276, + "learning_rate": 8.773755670336297e-06, + "loss": 0.4427, + "step": 2353 + }, + { + "avg_step_time": 5.560177538130018, + "epoch": 0.2509866666666667, + "eta_time": 10.845435186874719, + "step": 2353 + }, + { + "epoch": 0.25109333333333334, + "grad_norm": 1.571922215110125, + "learning_rate": 8.77262219975119e-06, + "loss": 0.455, + "step": 2354 + }, + { + "avg_step_time": 5.561936754168886, + "epoch": 0.25109333333333334, + "eta_time": 10.84732165306104, + "step": 2354 + }, + { + "epoch": 0.2512, + "grad_norm": 1.6579082261096076, + "learning_rate": 8.771488278838368e-06, + "loss": 0.4363, + "step": 2355 + }, + { + "avg_step_time": 5.562301339525165, + "epoch": 0.2512, + "eta_time": 10.846487612074071, + "step": 2355 + }, + { + "epoch": 0.2513066666666667, + "grad_norm": 1.6866753994850574, + "learning_rate": 8.77035390773319e-06, + "loss": 0.544, + "step": 2356 + }, + { + "avg_step_time": 5.566783033236109, + "epoch": 0.2513066666666667, + "eta_time": 10.85368058619007, + "step": 2356 + }, + { + "epoch": 0.2514133333333333, + "grad_norm": 1.9169589707379002, + "learning_rate": 8.769219086571054e-06, + "loss": 0.5369, + "step": 2357 + }, + { + "avg_step_time": 5.570780648125543, + "epoch": 0.2514133333333333, + "eta_time": 10.85992738570696, + "step": 2357 + }, + { + "epoch": 0.25152, + "grad_norm": 0.6640195710738163, + "learning_rate": 8.768083815487428e-06, + "loss": 0.431, + "step": 2358 + }, + { + "avg_step_time": 5.5404900252216995, + "epoch": 0.25152, + "eta_time": 10.799338474161296, + "step": 2358 + }, + { + "epoch": 0.25162666666666667, + "grad_norm": 1.5308572650364738, + "learning_rate": 8.766948094617819e-06, + "loss": 0.5177, + "step": 2359 + }, + { + "avg_step_time": 5.544048913801559, + "epoch": 0.25162666666666667, + "eta_time": 10.804735327564373, + "step": 2359 + }, + { + "epoch": 0.2517333333333333, + "grad_norm": 0.6640086656237136, + "learning_rate": 8.7658119240978e-06, + "loss": 0.4317, + "step": 2360 + }, + { + "avg_step_time": 5.510555069855969, + "epoch": 0.2517333333333333, + "eta_time": 10.737928837511006, + "step": 2360 + }, + { + "epoch": 0.25184, + "grad_norm": 1.735900455255024, + "learning_rate": 8.764675304062992e-06, + "loss": 0.5631, + "step": 2361 + }, + { + "avg_step_time": 5.542112588882446, + "epoch": 0.25184, + "eta_time": 10.797882694005967, + "step": 2361 + }, + { + "epoch": 0.25194666666666665, + "grad_norm": 1.882811244974308, + "learning_rate": 8.763538234649069e-06, + "loss": 0.4843, + "step": 2362 + }, + { + "avg_step_time": 5.539149043535946, + "epoch": 0.25194666666666665, + "eta_time": 10.79057006731044, + "step": 2362 + }, + { + "epoch": 0.25205333333333335, + "grad_norm": 0.6301305645129117, + "learning_rate": 8.76240071599176e-06, + "loss": 0.4477, + "step": 2363 + }, + { + "avg_step_time": 5.562431691872953, + "epoch": 0.25205333333333335, + "eta_time": 10.834380839836985, + "step": 2363 + }, + { + "epoch": 0.25216, + "grad_norm": 1.7373658077049343, + "learning_rate": 8.76126274822685e-06, + "loss": 0.4739, + "step": 2364 + }, + { + "avg_step_time": 5.5318437345100175, + "epoch": 0.25216, + "eta_time": 10.77326567295826, + "step": 2364 + }, + { + "epoch": 0.25226666666666664, + "grad_norm": 1.876762833178888, + "learning_rate": 8.760124331490174e-06, + "loss": 0.5771, + "step": 2365 + }, + { + "avg_step_time": 5.531521958534164, + "epoch": 0.25226666666666664, + "eta_time": 10.771102480367913, + "step": 2365 + }, + { + "epoch": 0.25237333333333334, + "grad_norm": 2.169880348515638, + "learning_rate": 8.75898546591762e-06, + "loss": 0.5753, + "step": 2366 + }, + { + "avg_step_time": 5.529559222134677, + "epoch": 0.25237333333333334, + "eta_time": 10.765744607761652, + "step": 2366 + }, + { + "epoch": 0.25248, + "grad_norm": 1.7593838837161546, + "learning_rate": 8.75784615164513e-06, + "loss": 0.5632, + "step": 2367 + }, + { + "avg_step_time": 5.504841924917819, + "epoch": 0.25248, + "eta_time": 10.716092280506688, + "step": 2367 + }, + { + "epoch": 0.2525866666666667, + "grad_norm": 1.596898755475275, + "learning_rate": 8.756706388808704e-06, + "loss": 0.4076, + "step": 2368 + }, + { + "avg_step_time": 5.5049504872524375, + "epoch": 0.2525866666666667, + "eta_time": 10.714774462271619, + "step": 2368 + }, + { + "epoch": 0.2526933333333333, + "grad_norm": 1.692911209291967, + "learning_rate": 8.755566177544392e-06, + "loss": 0.5828, + "step": 2369 + }, + { + "avg_step_time": 5.5114434825049505, + "epoch": 0.2526933333333333, + "eta_time": 10.7258813995638, + "step": 2369 + }, + { + "epoch": 0.2528, + "grad_norm": 1.560780012905166, + "learning_rate": 8.754425517988298e-06, + "loss": 0.5371, + "step": 2370 + }, + { + "avg_step_time": 5.540625338602548, + "epoch": 0.2528, + "eta_time": 10.781133471364125, + "step": 2370 + }, + { + "epoch": 0.25290666666666667, + "grad_norm": 1.8185536498859742, + "learning_rate": 8.753284410276579e-06, + "loss": 0.5634, + "step": 2371 + }, + { + "avg_step_time": 5.53926502333747, + "epoch": 0.25290666666666667, + "eta_time": 10.77694783984879, + "step": 2371 + }, + { + "epoch": 0.2530133333333333, + "grad_norm": 1.7556583869342886, + "learning_rate": 8.752142854545447e-06, + "loss": 0.429, + "step": 2372 + }, + { + "avg_step_time": 5.5371453352648805, + "epoch": 0.2530133333333333, + "eta_time": 10.771285773016656, + "step": 2372 + }, + { + "epoch": 0.25312, + "grad_norm": 1.6436284358019233, + "learning_rate": 8.751000850931162e-06, + "loss": 0.5955, + "step": 2373 + }, + { + "avg_step_time": 5.5696221433504665, + "epoch": 0.25312, + "eta_time": 10.832915068816657, + "step": 2373 + }, + { + "epoch": 0.25322666666666666, + "grad_norm": 1.7508211706248196, + "learning_rate": 8.749858399570047e-06, + "loss": 0.4996, + "step": 2374 + }, + { + "avg_step_time": 5.571406978549379, + "epoch": 0.25322666666666666, + "eta_time": 10.834838960228945, + "step": 2374 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 1.7142394975676973, + "learning_rate": 8.748715500598472e-06, + "loss": 0.5019, + "step": 2375 + }, + { + "avg_step_time": 5.565772465985231, + "epoch": 0.25333333333333335, + "eta_time": 10.822335350526838, + "step": 2375 + }, + { + "epoch": 0.25344, + "grad_norm": 1.552515432273606, + "learning_rate": 8.74757215415286e-06, + "loss": 0.4776, + "step": 2376 + }, + { + "avg_step_time": 5.5682867271731595, + "epoch": 0.25344, + "eta_time": 10.825677445412484, + "step": 2376 + }, + { + "epoch": 0.25354666666666664, + "grad_norm": 1.802429549900352, + "learning_rate": 8.746428360369691e-06, + "loss": 0.4614, + "step": 2377 + }, + { + "avg_step_time": 5.567268051282324, + "epoch": 0.25354666666666664, + "eta_time": 10.822150506353806, + "step": 2377 + }, + { + "epoch": 0.25365333333333334, + "grad_norm": 1.5369738374497888, + "learning_rate": 8.745284119385496e-06, + "loss": 0.4967, + "step": 2378 + }, + { + "avg_step_time": 5.596999016675082, + "epoch": 0.25365333333333334, + "eta_time": 10.878389477687653, + "step": 2378 + }, + { + "epoch": 0.25376, + "grad_norm": 1.8315398423614302, + "learning_rate": 8.74413943133686e-06, + "loss": 0.5422, + "step": 2379 + }, + { + "avg_step_time": 5.598150604903096, + "epoch": 0.25376, + "eta_time": 10.87907267552835, + "step": 2379 + }, + { + "epoch": 0.2538666666666667, + "grad_norm": 1.461523957387588, + "learning_rate": 8.74299429636042e-06, + "loss": 0.4108, + "step": 2380 + }, + { + "avg_step_time": 5.5991527817466045, + "epoch": 0.2538666666666667, + "eta_time": 10.879464918977083, + "step": 2380 + }, + { + "epoch": 0.25397333333333333, + "grad_norm": 1.7086247473739544, + "learning_rate": 8.74184871459287e-06, + "loss": 0.5283, + "step": 2381 + }, + { + "avg_step_time": 5.599968464687617, + "epoch": 0.25397333333333333, + "eta_time": 10.879494289451442, + "step": 2381 + }, + { + "epoch": 0.25408, + "grad_norm": 2.201604743090288, + "learning_rate": 8.740702686170955e-06, + "loss": 0.5036, + "step": 2382 + }, + { + "avg_step_time": 5.602362440089987, + "epoch": 0.25408, + "eta_time": 10.8825890398748, + "step": 2382 + }, + { + "epoch": 0.25418666666666667, + "grad_norm": 0.6789792883773929, + "learning_rate": 8.739556211231472e-06, + "loss": 0.4752, + "step": 2383 + }, + { + "avg_step_time": 5.572391416087295, + "epoch": 0.25418666666666667, + "eta_time": 10.822822439245101, + "step": 2383 + }, + { + "epoch": 0.2542933333333333, + "grad_norm": 1.9714311355591443, + "learning_rate": 8.738409289911272e-06, + "loss": 0.5352, + "step": 2384 + }, + { + "avg_step_time": 5.571045637130737, + "epoch": 0.2542933333333333, + "eta_time": 10.818661124772495, + "step": 2384 + }, + { + "epoch": 0.2544, + "grad_norm": 1.736883132549303, + "learning_rate": 8.73726192234726e-06, + "loss": 0.5741, + "step": 2385 + }, + { + "avg_step_time": 5.580286782197278, + "epoch": 0.2544, + "eta_time": 10.835056835433047, + "step": 2385 + }, + { + "epoch": 0.25450666666666666, + "grad_norm": 1.9657125784042324, + "learning_rate": 8.736114108676396e-06, + "loss": 0.4948, + "step": 2386 + }, + { + "avg_step_time": 5.614068594845858, + "epoch": 0.25450666666666666, + "eta_time": 10.899090391493806, + "step": 2386 + }, + { + "epoch": 0.25461333333333336, + "grad_norm": 1.6620054721474207, + "learning_rate": 8.73496584903569e-06, + "loss": 0.5276, + "step": 2387 + }, + { + "avg_step_time": 5.615035854204737, + "epoch": 0.25461333333333336, + "eta_time": 10.899408485884083, + "step": 2387 + }, + { + "epoch": 0.25472, + "grad_norm": 1.7294685691718565, + "learning_rate": 8.733817143562207e-06, + "loss": 0.4691, + "step": 2388 + }, + { + "avg_step_time": 5.625921141017567, + "epoch": 0.25472, + "eta_time": 10.918975281191594, + "step": 2388 + }, + { + "epoch": 0.25482666666666665, + "grad_norm": 1.7397562861892488, + "learning_rate": 8.732667992393064e-06, + "loss": 0.5271, + "step": 2389 + }, + { + "avg_step_time": 5.673358254962498, + "epoch": 0.25482666666666665, + "eta_time": 11.009466880324448, + "step": 2389 + }, + { + "epoch": 0.25493333333333335, + "grad_norm": 1.618300016781083, + "learning_rate": 8.731518395665434e-06, + "loss": 0.4471, + "step": 2390 + }, + { + "avg_step_time": 5.671171657966845, + "epoch": 0.25493333333333335, + "eta_time": 11.003648341916223, + "step": 2390 + }, + { + "epoch": 0.25504, + "grad_norm": 1.74609548189776, + "learning_rate": 8.73036835351654e-06, + "loss": 0.5269, + "step": 2391 + }, + { + "avg_step_time": 5.6661496644068245, + "epoch": 0.25504, + "eta_time": 10.99233034894924, + "step": 2391 + }, + { + "epoch": 0.2551466666666667, + "grad_norm": 1.7011901506950886, + "learning_rate": 8.729217866083661e-06, + "loss": 0.4911, + "step": 2392 + }, + { + "avg_step_time": 5.644003766955751, + "epoch": 0.2551466666666667, + "eta_time": 10.947799529070002, + "step": 2392 + }, + { + "epoch": 0.25525333333333333, + "grad_norm": 1.6132577461244249, + "learning_rate": 8.728066933504124e-06, + "loss": 0.5754, + "step": 2393 + }, + { + "avg_step_time": 5.69254136567164, + "epoch": 0.25525333333333333, + "eta_time": 11.040367726422051, + "step": 2393 + }, + { + "epoch": 0.25536, + "grad_norm": 0.6557249808064672, + "learning_rate": 8.726915555915317e-06, + "loss": 0.4572, + "step": 2394 + }, + { + "avg_step_time": 5.6366219062997835, + "epoch": 0.25536, + "eta_time": 10.930349313299665, + "step": 2394 + }, + { + "epoch": 0.2554666666666667, + "grad_norm": 1.7500702512176818, + "learning_rate": 8.725763733454673e-06, + "loss": 0.6045, + "step": 2395 + }, + { + "avg_step_time": 5.635180600965866, + "epoch": 0.2554666666666667, + "eta_time": 10.925989054094929, + "step": 2395 + }, + { + "epoch": 0.2555733333333333, + "grad_norm": 1.548459628398276, + "learning_rate": 8.724611466259682e-06, + "loss": 0.4082, + "step": 2396 + }, + { + "avg_step_time": 5.635533019749805, + "epoch": 0.2555733333333333, + "eta_time": 10.925106929120524, + "step": 2396 + }, + { + "epoch": 0.25568, + "grad_norm": 1.6553400435100567, + "learning_rate": 8.723458754467893e-06, + "loss": 0.538, + "step": 2397 + }, + { + "avg_step_time": 5.622251968191128, + "epoch": 0.25568, + "eta_time": 10.897798398343802, + "step": 2397 + }, + { + "epoch": 0.25578666666666666, + "grad_norm": 1.6862765843694214, + "learning_rate": 8.722305598216895e-06, + "loss": 0.5076, + "step": 2398 + }, + { + "avg_step_time": 5.621709797117445, + "epoch": 0.25578666666666666, + "eta_time": 10.89518590402456, + "step": 2398 + }, + { + "epoch": 0.2558933333333333, + "grad_norm": 1.6814013262713945, + "learning_rate": 8.72115199764434e-06, + "loss": 0.4733, + "step": 2399 + }, + { + "avg_step_time": 5.61574103133847, + "epoch": 0.2558933333333333, + "eta_time": 10.882058176282547, + "step": 2399 + }, + { + "epoch": 0.256, + "grad_norm": 1.5246675068416093, + "learning_rate": 8.719997952887932e-06, + "loss": 0.4619, + "step": 2400 + }, + { + "avg_step_time": 5.625609732637502, + "epoch": 0.256, + "eta_time": 10.89961885698516, + "step": 2400 + }, + { + "epoch": 0.25610666666666665, + "grad_norm": 1.7465054836257607, + "learning_rate": 8.71884346408542e-06, + "loss": 0.4808, + "step": 2401 + }, + { + "avg_step_time": 5.620995227736656, + "epoch": 0.25610666666666665, + "eta_time": 10.889116866176511, + "step": 2401 + }, + { + "epoch": 0.25621333333333335, + "grad_norm": 1.6498369685101164, + "learning_rate": 8.71768853137462e-06, + "loss": 0.4295, + "step": 2402 + }, + { + "avg_step_time": 5.5992820792728, + "epoch": 0.25621333333333335, + "eta_time": 10.845498316324788, + "step": 2402 + }, + { + "epoch": 0.25632, + "grad_norm": 1.7649369733172948, + "learning_rate": 8.71653315489339e-06, + "loss": 0.5062, + "step": 2403 + }, + { + "avg_step_time": 5.596738836982033, + "epoch": 0.25632, + "eta_time": 10.839017547621872, + "step": 2403 + }, + { + "epoch": 0.2564266666666667, + "grad_norm": 1.7521419463037045, + "learning_rate": 8.715377334779642e-06, + "loss": 0.4275, + "step": 2404 + }, + { + "avg_step_time": 5.592561659186777, + "epoch": 0.2564266666666667, + "eta_time": 10.829374257275283, + "step": 2404 + }, + { + "epoch": 0.25653333333333334, + "grad_norm": 1.4531429336235502, + "learning_rate": 8.714221071171345e-06, + "loss": 0.4049, + "step": 2405 + }, + { + "avg_step_time": 5.566720011258366, + "epoch": 0.25653333333333334, + "eta_time": 10.77778846624189, + "step": 2405 + }, + { + "epoch": 0.25664, + "grad_norm": 1.782623119375414, + "learning_rate": 8.71306436420652e-06, + "loss": 0.5214, + "step": 2406 + }, + { + "avg_step_time": 5.5645310252603855, + "epoch": 0.25664, + "eta_time": 10.772004643066563, + "step": 2406 + }, + { + "epoch": 0.2567466666666667, + "grad_norm": 1.5906154625269555, + "learning_rate": 8.711907214023238e-06, + "loss": 0.4879, + "step": 2407 + }, + { + "avg_step_time": 5.5520293592202545, + "epoch": 0.2567466666666667, + "eta_time": 10.746261270846315, + "step": 2407 + }, + { + "epoch": 0.2568533333333333, + "grad_norm": 1.8245356336924212, + "learning_rate": 8.710749620759627e-06, + "loss": 0.5335, + "step": 2408 + }, + { + "avg_step_time": 5.558515664302941, + "epoch": 0.2568533333333333, + "eta_time": 10.757271842555165, + "step": 2408 + }, + { + "epoch": 0.25696, + "grad_norm": 2.076515621735142, + "learning_rate": 8.709591584553865e-06, + "loss": 0.5128, + "step": 2409 + }, + { + "avg_step_time": 5.576774589943163, + "epoch": 0.25696, + "eta_time": 10.79105883154002, + "step": 2409 + }, + { + "epoch": 0.25706666666666667, + "grad_norm": 1.6063481552736592, + "learning_rate": 8.708433105544183e-06, + "loss": 0.4841, + "step": 2410 + }, + { + "avg_step_time": 5.572820148082695, + "epoch": 0.25706666666666667, + "eta_time": 10.781858980943325, + "step": 2410 + }, + { + "epoch": 0.2571733333333333, + "grad_norm": 2.0417057110155556, + "learning_rate": 8.707274183868865e-06, + "loss": 0.5182, + "step": 2411 + }, + { + "avg_step_time": 5.560112575087884, + "epoch": 0.2571733333333333, + "eta_time": 10.755728881364453, + "step": 2411 + }, + { + "epoch": 0.25728, + "grad_norm": 1.8180478641523674, + "learning_rate": 8.706114819666249e-06, + "loss": 0.4924, + "step": 2412 + }, + { + "avg_step_time": 5.623755120267772, + "epoch": 0.25728, + "eta_time": 10.877279695117915, + "step": 2412 + }, + { + "epoch": 0.25738666666666665, + "grad_norm": 1.6590131185962687, + "learning_rate": 8.704955013074727e-06, + "loss": 0.5605, + "step": 2413 + }, + { + "avg_step_time": 5.628834760550297, + "epoch": 0.25738666666666665, + "eta_time": 10.885541000819767, + "step": 2413 + }, + { + "epoch": 0.25749333333333335, + "grad_norm": 1.9079105461464436, + "learning_rate": 8.703794764232739e-06, + "loss": 0.527, + "step": 2414 + }, + { + "avg_step_time": 5.591974265647657, + "epoch": 0.25749333333333335, + "eta_time": 10.812703573103706, + "step": 2414 + }, + { + "epoch": 0.2576, + "grad_norm": 1.5526192886185064, + "learning_rate": 8.702634073278784e-06, + "loss": 0.5321, + "step": 2415 + }, + { + "avg_step_time": 5.592250845649025, + "epoch": 0.2576, + "eta_time": 10.811684968254783, + "step": 2415 + }, + { + "epoch": 0.25770666666666664, + "grad_norm": 0.6815801002038526, + "learning_rate": 8.701472940351407e-06, + "loss": 0.4556, + "step": 2416 + }, + { + "avg_step_time": 5.561819637664641, + "epoch": 0.25770666666666664, + "eta_time": 10.751306349585622, + "step": 2416 + }, + { + "epoch": 0.25781333333333334, + "grad_norm": 1.8187347440231492, + "learning_rate": 8.70031136558921e-06, + "loss": 0.4715, + "step": 2417 + }, + { + "avg_step_time": 5.560423528305208, + "epoch": 0.25781333333333334, + "eta_time": 10.74706303054101, + "step": 2417 + }, + { + "epoch": 0.25792, + "grad_norm": 1.5465462591374382, + "learning_rate": 8.699149349130848e-06, + "loss": 0.4892, + "step": 2418 + }, + { + "avg_step_time": 5.566723385242501, + "epoch": 0.25792, + "eta_time": 10.757692941981134, + "step": 2418 + }, + { + "epoch": 0.2580266666666667, + "grad_norm": 1.5701713106944204, + "learning_rate": 8.697986891115031e-06, + "loss": 0.5051, + "step": 2419 + }, + { + "avg_step_time": 5.599778933958574, + "epoch": 0.2580266666666667, + "eta_time": 10.820017295726624, + "step": 2419 + }, + { + "epoch": 0.2581333333333333, + "grad_norm": 1.8713898637473418, + "learning_rate": 8.696823991680514e-06, + "loss": 0.5899, + "step": 2420 + }, + { + "avg_step_time": 5.609622290640166, + "epoch": 0.2581333333333333, + "eta_time": 10.837478619833986, + "step": 2420 + }, + { + "epoch": 0.25824, + "grad_norm": 1.8233619586664376, + "learning_rate": 8.695660650966109e-06, + "loss": 0.4652, + "step": 2421 + }, + { + "avg_step_time": 5.601479869900328, + "epoch": 0.25824, + "eta_time": 10.8201919486908, + "step": 2421 + }, + { + "epoch": 0.25834666666666667, + "grad_norm": 1.7098145582411624, + "learning_rate": 8.694496869110682e-06, + "loss": 0.5009, + "step": 2422 + }, + { + "avg_step_time": 5.596277713775635, + "epoch": 0.25834666666666667, + "eta_time": 10.808588595522775, + "step": 2422 + }, + { + "epoch": 0.2584533333333333, + "grad_norm": 1.8037218691570227, + "learning_rate": 8.693332646253151e-06, + "loss": 0.5124, + "step": 2423 + }, + { + "avg_step_time": 5.597955554422706, + "epoch": 0.2584533333333333, + "eta_time": 10.810274170651846, + "step": 2423 + }, + { + "epoch": 0.25856, + "grad_norm": 0.6493489097193936, + "learning_rate": 8.692167982532487e-06, + "loss": 0.4445, + "step": 2424 + }, + { + "avg_step_time": 5.560465456259371, + "epoch": 0.25856, + "eta_time": 10.736332051794136, + "step": 2424 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 1.6666562771183815, + "learning_rate": 8.69100287808771e-06, + "loss": 0.4989, + "step": 2425 + }, + { + "avg_step_time": 5.543564261812152, + "epoch": 0.25866666666666666, + "eta_time": 10.702158783220684, + "step": 2425 + }, + { + "epoch": 0.25877333333333336, + "grad_norm": 1.8845294489657989, + "learning_rate": 8.689837333057899e-06, + "loss": 0.5247, + "step": 2426 + }, + { + "avg_step_time": 5.544273424630213, + "epoch": 0.25877333333333336, + "eta_time": 10.701987785487598, + "step": 2426 + }, + { + "epoch": 0.25888, + "grad_norm": 1.7116531630764205, + "learning_rate": 8.688671347582178e-06, + "loss": 0.5396, + "step": 2427 + }, + { + "avg_step_time": 5.5774658617347175, + "epoch": 0.25888, + "eta_time": 10.764509113148005, + "step": 2427 + }, + { + "epoch": 0.25898666666666664, + "grad_norm": 1.610711667868967, + "learning_rate": 8.687504921799731e-06, + "loss": 0.5524, + "step": 2428 + }, + { + "avg_step_time": 5.576100872020529, + "epoch": 0.25898666666666664, + "eta_time": 10.760325766090727, + "step": 2428 + }, + { + "epoch": 0.25909333333333334, + "grad_norm": 1.7605301309502739, + "learning_rate": 8.686338055849789e-06, + "loss": 0.5406, + "step": 2429 + }, + { + "avg_step_time": 5.606667477675159, + "epoch": 0.25909333333333334, + "eta_time": 10.817753416647681, + "step": 2429 + }, + { + "epoch": 0.2592, + "grad_norm": 1.5239659071349534, + "learning_rate": 8.685170749871638e-06, + "loss": 0.4718, + "step": 2430 + }, + { + "avg_step_time": 5.60594556066725, + "epoch": 0.2592, + "eta_time": 10.814803310787235, + "step": 2430 + }, + { + "epoch": 0.2593066666666667, + "grad_norm": 1.7492207357609033, + "learning_rate": 8.684003004004618e-06, + "loss": 0.5258, + "step": 2431 + }, + { + "avg_step_time": 5.644407433692855, + "epoch": 0.2593066666666667, + "eta_time": 10.887434783211997, + "step": 2431 + }, + { + "epoch": 0.25941333333333333, + "grad_norm": 1.800649641510267, + "learning_rate": 8.682834818388115e-06, + "loss": 0.5511, + "step": 2432 + }, + { + "avg_step_time": 5.648577384274415, + "epoch": 0.25941333333333333, + "eta_time": 10.893909105282575, + "step": 2432 + }, + { + "epoch": 0.25952, + "grad_norm": 1.8147340716179658, + "learning_rate": 8.681666193161578e-06, + "loss": 0.4288, + "step": 2433 + }, + { + "avg_step_time": 5.646985408031579, + "epoch": 0.25952, + "eta_time": 10.889270195154229, + "step": 2433 + }, + { + "epoch": 0.2596266666666667, + "grad_norm": 1.9661603417560447, + "learning_rate": 8.680497128464498e-06, + "loss": 0.5824, + "step": 2434 + }, + { + "avg_step_time": 5.61841938953207, + "epoch": 0.2596266666666667, + "eta_time": 10.832624717428361, + "step": 2434 + }, + { + "epoch": 0.2597333333333333, + "grad_norm": 1.5796749932091714, + "learning_rate": 8.679327624436425e-06, + "loss": 0.4643, + "step": 2435 + }, + { + "avg_step_time": 5.6135520597901, + "epoch": 0.2597333333333333, + "eta_time": 10.821680915262027, + "step": 2435 + }, + { + "epoch": 0.25984, + "grad_norm": 1.4929362926379406, + "learning_rate": 8.67815768121696e-06, + "loss": 0.5142, + "step": 2436 + }, + { + "avg_step_time": 5.611918543324326, + "epoch": 0.25984, + "eta_time": 10.81697299225764, + "step": 2436 + }, + { + "epoch": 0.25994666666666666, + "grad_norm": 1.7470789068595591, + "learning_rate": 8.676987298945757e-06, + "loss": 0.5151, + "step": 2437 + }, + { + "avg_step_time": 5.616064957898073, + "epoch": 0.25994666666666666, + "eta_time": 10.823405188304674, + "step": 2437 + }, + { + "epoch": 0.26005333333333336, + "grad_norm": 1.758229372929525, + "learning_rate": 8.675816477762516e-06, + "loss": 0.4713, + "step": 2438 + }, + { + "avg_step_time": 5.590169282874676, + "epoch": 0.26005333333333336, + "eta_time": 10.771945643139341, + "step": 2438 + }, + { + "epoch": 0.26016, + "grad_norm": 1.7046572227610688, + "learning_rate": 8.674645217807e-06, + "loss": 0.5503, + "step": 2439 + }, + { + "avg_step_time": 5.593617171952219, + "epoch": 0.26016, + "eta_time": 10.777035751294608, + "step": 2439 + }, + { + "epoch": 0.26026666666666665, + "grad_norm": 1.4247922818432797, + "learning_rate": 8.673473519219018e-06, + "loss": 0.4796, + "step": 2440 + }, + { + "avg_step_time": 5.606228635768698, + "epoch": 0.26026666666666665, + "eta_time": 10.799776552515533, + "step": 2440 + }, + { + "epoch": 0.26037333333333335, + "grad_norm": 1.733252602826102, + "learning_rate": 8.672301382138432e-06, + "loss": 0.468, + "step": 2441 + }, + { + "avg_step_time": 5.643015863919499, + "epoch": 0.26037333333333335, + "eta_time": 10.869075555671612, + "step": 2441 + }, + { + "epoch": 0.26048, + "grad_norm": 1.6120652108076006, + "learning_rate": 8.671128806705159e-06, + "loss": 0.4683, + "step": 2442 + }, + { + "avg_step_time": 5.643547838384455, + "epoch": 0.26048, + "eta_time": 10.868532545422063, + "step": 2442 + }, + { + "epoch": 0.2605866666666667, + "grad_norm": 0.6762439795577794, + "learning_rate": 8.669955793059163e-06, + "loss": 0.4687, + "step": 2443 + }, + { + "avg_step_time": 5.610221747196082, + "epoch": 0.2605866666666667, + "eta_time": 10.802793653212012, + "step": 2443 + }, + { + "epoch": 0.26069333333333333, + "grad_norm": 1.6488708402201238, + "learning_rate": 8.668782341340464e-06, + "loss": 0.479, + "step": 2444 + }, + { + "avg_step_time": 5.606226054104892, + "epoch": 0.26069333333333333, + "eta_time": 10.793542439166947, + "step": 2444 + }, + { + "epoch": 0.2608, + "grad_norm": 1.7230883198682323, + "learning_rate": 8.667608451689135e-06, + "loss": 0.5294, + "step": 2445 + }, + { + "avg_step_time": 5.638088431021179, + "epoch": 0.2608, + "eta_time": 10.853320229715772, + "step": 2445 + }, + { + "epoch": 0.2609066666666667, + "grad_norm": 1.91910249349705, + "learning_rate": 8.666434124245298e-06, + "loss": 0.5514, + "step": 2446 + }, + { + "avg_step_time": 5.672692137535172, + "epoch": 0.2609066666666667, + "eta_time": 10.918356616939224, + "step": 2446 + }, + { + "epoch": 0.2610133333333333, + "grad_norm": 1.5808977074538497, + "learning_rate": 8.665259359149132e-06, + "loss": 0.5427, + "step": 2447 + }, + { + "avg_step_time": 5.705289241039392, + "epoch": 0.2610133333333333, + "eta_time": 10.979512183866918, + "step": 2447 + }, + { + "epoch": 0.26112, + "grad_norm": 1.9418504022145664, + "learning_rate": 8.664084156540864e-06, + "loss": 0.4927, + "step": 2448 + }, + { + "avg_step_time": 5.70290291670597, + "epoch": 0.26112, + "eta_time": 10.973335695561737, + "step": 2448 + }, + { + "epoch": 0.26122666666666666, + "grad_norm": 1.826060955830288, + "learning_rate": 8.662908516560774e-06, + "loss": 0.5345, + "step": 2449 + }, + { + "avg_step_time": 5.710530565242575, + "epoch": 0.26122666666666666, + "eta_time": 10.986426304130577, + "step": 2449 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 1.8210228901293193, + "learning_rate": 8.661732439349198e-06, + "loss": 0.5724, + "step": 2450 + }, + { + "avg_step_time": 5.699239039661909, + "epoch": 0.2613333333333333, + "eta_time": 10.963119541571867, + "step": 2450 + }, + { + "epoch": 0.26144, + "grad_norm": 1.9167924585932297, + "learning_rate": 8.660555925046518e-06, + "loss": 0.4632, + "step": 2451 + }, + { + "avg_step_time": 5.73617666658729, + "epoch": 0.26144, + "eta_time": 11.032579788736221, + "step": 2451 + }, + { + "epoch": 0.26154666666666665, + "grad_norm": 0.6375390366613515, + "learning_rate": 8.659378973793173e-06, + "loss": 0.4187, + "step": 2452 + }, + { + "avg_step_time": 5.709988548298075, + "epoch": 0.26154666666666665, + "eta_time": 10.980625199963214, + "step": 2452 + }, + { + "epoch": 0.26165333333333335, + "grad_norm": 1.55132444640491, + "learning_rate": 8.658201585729652e-06, + "loss": 0.4806, + "step": 2453 + }, + { + "avg_step_time": 5.708484801379117, + "epoch": 0.26165333333333335, + "eta_time": 10.976147720873957, + "step": 2453 + }, + { + "epoch": 0.26176, + "grad_norm": 1.4927926696979317, + "learning_rate": 8.657023760996497e-06, + "loss": 0.5095, + "step": 2454 + }, + { + "avg_step_time": 5.712225186704385, + "epoch": 0.26176, + "eta_time": 10.981752921439181, + "step": 2454 + }, + { + "epoch": 0.2618666666666667, + "grad_norm": 1.6620500149110606, + "learning_rate": 8.655845499734298e-06, + "loss": 0.4667, + "step": 2455 + }, + { + "avg_step_time": 5.708602262265755, + "epoch": 0.2618666666666667, + "eta_time": 10.973202126355284, + "step": 2455 + }, + { + "epoch": 0.26197333333333334, + "grad_norm": 1.6654553636203069, + "learning_rate": 8.654666802083708e-06, + "loss": 0.5715, + "step": 2456 + }, + { + "avg_step_time": 5.708111543848057, + "epoch": 0.26197333333333334, + "eta_time": 10.970673269967975, + "step": 2456 + }, + { + "epoch": 0.26208, + "grad_norm": 1.6346022769849082, + "learning_rate": 8.653487668185419e-06, + "loss": 0.5677, + "step": 2457 + }, + { + "avg_step_time": 5.736239852327289, + "epoch": 0.26208, + "eta_time": 11.023140916222273, + "step": 2457 + }, + { + "epoch": 0.2621866666666667, + "grad_norm": 1.7597373955450013, + "learning_rate": 8.652308098180186e-06, + "loss": 0.5122, + "step": 2458 + }, + { + "avg_step_time": 5.7317077969059795, + "epoch": 0.2621866666666667, + "eta_time": 11.012839675332962, + "step": 2458 + }, + { + "epoch": 0.2622933333333333, + "grad_norm": 1.5457712658463452, + "learning_rate": 8.651128092208805e-06, + "loss": 0.4481, + "step": 2459 + }, + { + "avg_step_time": 5.768714230469983, + "epoch": 0.2622933333333333, + "eta_time": 11.082341004980666, + "step": 2459 + }, + { + "epoch": 0.2624, + "grad_norm": 1.918497865439734, + "learning_rate": 8.649947650412135e-06, + "loss": 0.5232, + "step": 2460 + }, + { + "avg_step_time": 5.767598137711033, + "epoch": 0.2624, + "eta_time": 11.078594756186611, + "step": 2460 + }, + { + "epoch": 0.26250666666666667, + "grad_norm": 1.736655797326481, + "learning_rate": 8.648766772931081e-06, + "loss": 0.5975, + "step": 2461 + }, + { + "avg_step_time": 5.772701513887656, + "epoch": 0.26250666666666667, + "eta_time": 11.086793963060904, + "step": 2461 + }, + { + "epoch": 0.2626133333333333, + "grad_norm": 0.6488829692883035, + "learning_rate": 8.647585459906599e-06, + "loss": 0.4431, + "step": 2462 + }, + { + "avg_step_time": 5.7494684445737585, + "epoch": 0.2626133333333333, + "eta_time": 11.040576488149553, + "step": 2462 + }, + { + "epoch": 0.26272, + "grad_norm": 1.697372236966009, + "learning_rate": 8.646403711479702e-06, + "loss": 0.62, + "step": 2463 + }, + { + "avg_step_time": 5.768748808388758, + "epoch": 0.26272, + "eta_time": 11.075997712106416, + "step": 2463 + }, + { + "epoch": 0.26282666666666665, + "grad_norm": 1.7057015619024163, + "learning_rate": 8.64522152779145e-06, + "loss": 0.4485, + "step": 2464 + }, + { + "avg_step_time": 5.770116252128524, + "epoch": 0.26282666666666665, + "eta_time": 11.077020394016731, + "step": 2464 + }, + { + "epoch": 0.26293333333333335, + "grad_norm": 2.0786755317258647, + "learning_rate": 8.64403890898296e-06, + "loss": 0.6178, + "step": 2465 + }, + { + "avg_step_time": 5.768665140325373, + "epoch": 0.26293333333333335, + "eta_time": 11.07263225545787, + "step": 2465 + }, + { + "epoch": 0.26304, + "grad_norm": 1.6737712399532576, + "learning_rate": 8.642855855195394e-06, + "loss": 0.5174, + "step": 2466 + }, + { + "avg_step_time": 5.783978505568071, + "epoch": 0.26304, + "eta_time": 11.100418748602722, + "step": 2466 + }, + { + "epoch": 0.26314666666666664, + "grad_norm": 0.6647300016658751, + "learning_rate": 8.641672366569972e-06, + "loss": 0.4588, + "step": 2467 + }, + { + "avg_step_time": 5.749996310532695, + "epoch": 0.26314666666666664, + "eta_time": 11.033604031433292, + "step": 2467 + }, + { + "epoch": 0.26325333333333334, + "grad_norm": 1.7166326351428063, + "learning_rate": 8.640488443247966e-06, + "loss": 0.488, + "step": 2468 + }, + { + "avg_step_time": 5.745274156030982, + "epoch": 0.26325333333333334, + "eta_time": 11.022946832140553, + "step": 2468 + }, + { + "epoch": 0.26336, + "grad_norm": 1.5792354651287845, + "learning_rate": 8.639304085370692e-06, + "loss": 0.5968, + "step": 2469 + }, + { + "avg_step_time": 5.71485348181291, + "epoch": 0.26336, + "eta_time": 10.962993929277765, + "step": 2469 + }, + { + "epoch": 0.2634666666666667, + "grad_norm": 2.0563418102703244, + "learning_rate": 8.63811929307953e-06, + "loss": 0.5046, + "step": 2470 + }, + { + "avg_step_time": 5.7086070258207995, + "epoch": 0.2634666666666667, + "eta_time": 10.949425420359061, + "step": 2470 + }, + { + "epoch": 0.2635733333333333, + "grad_norm": 1.8017247049226188, + "learning_rate": 8.636934066515901e-06, + "loss": 0.4937, + "step": 2471 + }, + { + "avg_step_time": 5.709685311172947, + "epoch": 0.2635733333333333, + "eta_time": 10.949907607871674, + "step": 2471 + }, + { + "epoch": 0.26368, + "grad_norm": 1.4756781678258957, + "learning_rate": 8.635748405821285e-06, + "loss": 0.5114, + "step": 2472 + }, + { + "avg_step_time": 5.712661928600735, + "epoch": 0.26368, + "eta_time": 10.95402924809191, + "step": 2472 + }, + { + "epoch": 0.26378666666666667, + "grad_norm": 2.190140135313253, + "learning_rate": 8.634562311137209e-06, + "loss": 0.5876, + "step": 2473 + }, + { + "avg_step_time": 5.712465481324629, + "epoch": 0.26378666666666667, + "eta_time": 10.952065764472943, + "step": 2473 + }, + { + "epoch": 0.2638933333333333, + "grad_norm": 1.7899778299009828, + "learning_rate": 8.633375782605256e-06, + "loss": 0.5599, + "step": 2474 + }, + { + "avg_step_time": 5.714257907385778, + "epoch": 0.2638933333333333, + "eta_time": 10.953914949685904, + "step": 2474 + }, + { + "epoch": 0.264, + "grad_norm": 1.3350388433011064, + "learning_rate": 8.632188820367056e-06, + "loss": 0.3873, + "step": 2475 + }, + { + "avg_step_time": 5.712461724425808, + "epoch": 0.264, + "eta_time": 10.948884971816131, + "step": 2475 + }, + { + "epoch": 0.26410666666666666, + "grad_norm": 0.6525604838562128, + "learning_rate": 8.631001424564298e-06, + "loss": 0.4448, + "step": 2476 + }, + { + "avg_step_time": 5.678081471510608, + "epoch": 0.26410666666666666, + "eta_time": 10.881412242208802, + "step": 2476 + }, + { + "epoch": 0.26421333333333336, + "grad_norm": 1.6439736834495553, + "learning_rate": 8.629813595338712e-06, + "loss": 0.5886, + "step": 2477 + }, + { + "avg_step_time": 5.79897490655533, + "epoch": 0.26421333333333336, + "eta_time": 11.111480251505185, + "step": 2477 + }, + { + "epoch": 0.26432, + "grad_norm": 1.7042212011050342, + "learning_rate": 8.62862533283209e-06, + "loss": 0.4393, + "step": 2478 + }, + { + "avg_step_time": 5.799313985940182, + "epoch": 0.26432, + "eta_time": 11.110519044730399, + "step": 2478 + }, + { + "epoch": 0.26442666666666664, + "grad_norm": 1.7534316747492995, + "learning_rate": 8.627436637186272e-06, + "loss": 0.4782, + "step": 2479 + }, + { + "avg_step_time": 5.799889270705406, + "epoch": 0.26442666666666664, + "eta_time": 11.1100101141068, + "step": 2479 + }, + { + "epoch": 0.26453333333333334, + "grad_norm": 1.7116816573328806, + "learning_rate": 8.62624750854315e-06, + "loss": 0.4741, + "step": 2480 + }, + { + "avg_step_time": 5.795107369471078, + "epoch": 0.26453333333333334, + "eta_time": 11.09924036458419, + "step": 2480 + }, + { + "epoch": 0.26464, + "grad_norm": 1.6153146292957363, + "learning_rate": 8.625057947044662e-06, + "loss": 0.5636, + "step": 2481 + }, + { + "avg_step_time": 5.7911912600199384, + "epoch": 0.26464, + "eta_time": 11.090131262938181, + "step": 2481 + }, + { + "epoch": 0.2647466666666667, + "grad_norm": 1.7657903200292182, + "learning_rate": 8.623867952832806e-06, + "loss": 0.5006, + "step": 2482 + }, + { + "avg_step_time": 5.820305583452938, + "epoch": 0.2647466666666667, + "eta_time": 11.144268440761417, + "step": 2482 + }, + { + "epoch": 0.26485333333333333, + "grad_norm": 1.6924705025796722, + "learning_rate": 8.622677526049629e-06, + "loss": 0.4894, + "step": 2483 + }, + { + "avg_step_time": 5.819154072289515, + "epoch": 0.26485333333333333, + "eta_time": 11.140447185060928, + "step": 2483 + }, + { + "epoch": 0.26496, + "grad_norm": 1.8423208382829446, + "learning_rate": 8.62148666683723e-06, + "loss": 0.5468, + "step": 2484 + }, + { + "avg_step_time": 5.8091270947697184, + "epoch": 0.26496, + "eta_time": 11.11963744723837, + "step": 2484 + }, + { + "epoch": 0.2650666666666667, + "grad_norm": 1.6473943314913913, + "learning_rate": 8.620295375337757e-06, + "loss": 0.5438, + "step": 2485 + }, + { + "avg_step_time": 5.812505524567883, + "epoch": 0.2650666666666667, + "eta_time": 11.124489740075754, + "step": 2485 + }, + { + "epoch": 0.2651733333333333, + "grad_norm": 0.6484815987694301, + "learning_rate": 8.619103651693413e-06, + "loss": 0.4345, + "step": 2486 + }, + { + "avg_step_time": 5.778794067074554, + "epoch": 0.2651733333333333, + "eta_time": 11.058364535576834, + "step": 2486 + }, + { + "epoch": 0.26528, + "grad_norm": 0.652621250023297, + "learning_rate": 8.617911496046446e-06, + "loss": 0.4224, + "step": 2487 + }, + { + "avg_step_time": 5.73171999478581, + "epoch": 0.26528, + "eta_time": 10.96669092335685, + "step": 2487 + }, + { + "epoch": 0.26538666666666666, + "grad_norm": 1.7965930859553119, + "learning_rate": 8.616718908539165e-06, + "loss": 0.6498, + "step": 2488 + }, + { + "avg_step_time": 5.719922388442839, + "epoch": 0.26538666666666666, + "eta_time": 10.942529302557176, + "step": 2488 + }, + { + "epoch": 0.26549333333333336, + "grad_norm": 1.5740460669128276, + "learning_rate": 8.615525889313924e-06, + "loss": 0.499, + "step": 2489 + }, + { + "avg_step_time": 5.717680752879441, + "epoch": 0.26549333333333336, + "eta_time": 10.93665268453551, + "step": 2489 + }, + { + "epoch": 0.2656, + "grad_norm": 1.8093532654298028, + "learning_rate": 8.614332438513132e-06, + "loss": 0.5891, + "step": 2490 + }, + { + "avg_step_time": 5.719292390226114, + "epoch": 0.2656, + "eta_time": 10.938146696307443, + "step": 2490 + }, + { + "epoch": 0.26570666666666665, + "grad_norm": 0.6567197766797493, + "learning_rate": 8.613138556279248e-06, + "loss": 0.4293, + "step": 2491 + }, + { + "avg_step_time": 5.690027155057348, + "epoch": 0.26570666666666665, + "eta_time": 10.88059637094855, + "step": 2491 + }, + { + "epoch": 0.26581333333333335, + "grad_norm": 1.5073100088094187, + "learning_rate": 8.611944242754779e-06, + "loss": 0.4775, + "step": 2492 + }, + { + "avg_step_time": 5.677908032831519, + "epoch": 0.26581333333333335, + "eta_time": 10.855844719438707, + "step": 2492 + }, + { + "epoch": 0.26592, + "grad_norm": 1.6552144320928284, + "learning_rate": 8.610749498082291e-06, + "loss": 0.5085, + "step": 2493 + }, + { + "avg_step_time": 5.712417626621748, + "epoch": 0.26592, + "eta_time": 10.920238362891908, + "step": 2493 + }, + { + "epoch": 0.2660266666666667, + "grad_norm": 1.7435860613445162, + "learning_rate": 8.609554322404396e-06, + "loss": 0.5813, + "step": 2494 + }, + { + "avg_step_time": 5.709023832070707, + "epoch": 0.2660266666666667, + "eta_time": 10.912164719021815, + "step": 2494 + }, + { + "epoch": 0.26613333333333333, + "grad_norm": 0.6564431562399935, + "learning_rate": 8.60835871586376e-06, + "loss": 0.4564, + "step": 2495 + }, + { + "avg_step_time": 5.672512150774098, + "epoch": 0.26613333333333333, + "eta_time": 10.840800999257166, + "step": 2495 + }, + { + "epoch": 0.26624, + "grad_norm": 1.410269401295808, + "learning_rate": 8.607162678603097e-06, + "loss": 0.5, + "step": 2496 + }, + { + "avg_step_time": 5.676532516575823, + "epoch": 0.26624, + "eta_time": 10.846907550423635, + "step": 2496 + }, + { + "epoch": 0.2663466666666667, + "grad_norm": 1.7930166452668823, + "learning_rate": 8.605966210765176e-06, + "loss": 0.5725, + "step": 2497 + }, + { + "avg_step_time": 5.678888267940945, + "epoch": 0.2663466666666667, + "eta_time": 10.849831529693837, + "step": 2497 + }, + { + "epoch": 0.2664533333333333, + "grad_norm": 1.7551363734965224, + "learning_rate": 8.604769312492817e-06, + "loss": 0.5472, + "step": 2498 + }, + { + "avg_step_time": 5.68283712261855, + "epoch": 0.2664533333333333, + "eta_time": 10.855797470068824, + "step": 2498 + }, + { + "epoch": 0.26656, + "grad_norm": 1.6185825220065755, + "learning_rate": 8.603571983928888e-06, + "loss": 0.4065, + "step": 2499 + }, + { + "avg_step_time": 5.6722859734236595, + "epoch": 0.26656, + "eta_time": 10.83406620923919, + "step": 2499 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 1.4961406605896455, + "learning_rate": 8.602374225216313e-06, + "loss": 0.5025, + "step": 2500 + }, + { + "avg_step_time": 5.671729911457408, + "epoch": 0.26666666666666666, + "eta_time": 10.83142865035269, + "step": 2500 + }, + { + "epoch": 0.2667733333333333, + "grad_norm": 1.729147387437584, + "learning_rate": 8.601176036498066e-06, + "loss": 0.5602, + "step": 2501 + }, + { + "avg_step_time": 5.673324240578546, + "epoch": 0.2667733333333333, + "eta_time": 10.8328974527047, + "step": 2501 + }, + { + "epoch": 0.26688, + "grad_norm": 1.9630867571510366, + "learning_rate": 8.599977417917169e-06, + "loss": 0.5463, + "step": 2502 + }, + { + "avg_step_time": 5.675069828226109, + "epoch": 0.26688, + "eta_time": 10.834654147055014, + "step": 2502 + }, + { + "epoch": 0.26698666666666665, + "grad_norm": 1.5701243912693215, + "learning_rate": 8.598778369616699e-06, + "loss": 0.5145, + "step": 2503 + }, + { + "avg_step_time": 5.726293563842773, + "epoch": 0.26698666666666665, + "eta_time": 10.930858158535427, + "step": 2503 + }, + { + "epoch": 0.26709333333333335, + "grad_norm": 1.510528902442253, + "learning_rate": 8.597578891739784e-06, + "loss": 0.5575, + "step": 2504 + }, + { + "avg_step_time": 5.742788370209511, + "epoch": 0.26709333333333335, + "eta_time": 10.960749692141542, + "step": 2504 + }, + { + "epoch": 0.2672, + "grad_norm": 1.7839691393862902, + "learning_rate": 8.5963789844296e-06, + "loss": 0.5387, + "step": 2505 + }, + { + "avg_step_time": 5.742459501882996, + "epoch": 0.2672, + "eta_time": 10.95852688276005, + "step": 2505 + }, + { + "epoch": 0.2673066666666667, + "grad_norm": 1.5804190907570392, + "learning_rate": 8.59517864782938e-06, + "loss": 0.5354, + "step": 2506 + }, + { + "avg_step_time": 5.741973424198652, + "epoch": 0.2673066666666667, + "eta_time": 10.956004291894596, + "step": 2506 + }, + { + "epoch": 0.26741333333333334, + "grad_norm": 1.7368285939900123, + "learning_rate": 8.593977882082403e-06, + "loss": 0.5096, + "step": 2507 + }, + { + "avg_step_time": 5.736710143811775, + "epoch": 0.26741333333333334, + "eta_time": 10.944368129916464, + "step": 2507 + }, + { + "epoch": 0.26752, + "grad_norm": 1.672428080327333, + "learning_rate": 8.592776687332003e-06, + "loss": 0.4638, + "step": 2508 + }, + { + "avg_step_time": 5.726032789307411, + "epoch": 0.26752, + "eta_time": 10.922407545603887, + "step": 2508 + }, + { + "epoch": 0.2676266666666667, + "grad_norm": 0.7193422654022836, + "learning_rate": 8.59157506372156e-06, + "loss": 0.4461, + "step": 2509 + }, + { + "avg_step_time": 5.692103217346499, + "epoch": 0.2676266666666667, + "eta_time": 10.85610574730585, + "step": 2509 + }, + { + "epoch": 0.2677333333333333, + "grad_norm": 1.7038598381568486, + "learning_rate": 8.59037301139451e-06, + "loss": 0.5855, + "step": 2510 + }, + { + "avg_step_time": 5.692286503435385, + "epoch": 0.2677333333333333, + "eta_time": 10.8548741239122, + "step": 2510 + }, + { + "epoch": 0.26784, + "grad_norm": 1.6973354085585677, + "learning_rate": 8.58917053049434e-06, + "loss": 0.5485, + "step": 2511 + }, + { + "avg_step_time": 5.6601379929166855, + "epoch": 0.26784, + "eta_time": 10.791996439827813, + "step": 2511 + }, + { + "epoch": 0.26794666666666667, + "grad_norm": 0.6524054562844567, + "learning_rate": 8.587967621164586e-06, + "loss": 0.4644, + "step": 2512 + }, + { + "avg_step_time": 5.623706323931915, + "epoch": 0.26794666666666667, + "eta_time": 10.720971250317982, + "step": 2512 + }, + { + "epoch": 0.2680533333333333, + "grad_norm": 1.4512188123729617, + "learning_rate": 8.586764283548837e-06, + "loss": 0.4617, + "step": 2513 + }, + { + "avg_step_time": 5.6228529443644515, + "epoch": 0.2680533333333333, + "eta_time": 10.717782473396909, + "step": 2513 + }, + { + "epoch": 0.26816, + "grad_norm": 1.6666410804865228, + "learning_rate": 8.58556051779073e-06, + "loss": 0.4728, + "step": 2514 + }, + { + "avg_step_time": 5.625586909477157, + "epoch": 0.26816, + "eta_time": 10.721431051645215, + "step": 2514 + }, + { + "epoch": 0.26826666666666665, + "grad_norm": 0.6344517996801007, + "learning_rate": 8.584356324033955e-06, + "loss": 0.4571, + "step": 2515 + }, + { + "avg_step_time": 5.625414665299233, + "epoch": 0.26826666666666665, + "eta_time": 10.719540167764649, + "step": 2515 + }, + { + "epoch": 0.26837333333333335, + "grad_norm": 1.3056962553962208, + "learning_rate": 8.583151702422258e-06, + "loss": 0.4639, + "step": 2516 + }, + { + "avg_step_time": 5.62391165290216, + "epoch": 0.26837333333333335, + "eta_time": 10.715113896459977, + "step": 2516 + }, + { + "epoch": 0.26848, + "grad_norm": 1.556627212531144, + "learning_rate": 8.581946653099427e-06, + "loss": 0.4499, + "step": 2517 + }, + { + "avg_step_time": 5.620895954093548, + "epoch": 0.26848, + "eta_time": 10.70780679254821, + "step": 2517 + }, + { + "epoch": 0.26858666666666664, + "grad_norm": 1.8092111833200104, + "learning_rate": 8.580741176209307e-06, + "loss": 0.5408, + "step": 2518 + }, + { + "avg_step_time": 5.62765181425846, + "epoch": 0.26858666666666664, + "eta_time": 10.719113469547295, + "step": 2518 + }, + { + "epoch": 0.26869333333333334, + "grad_norm": 1.6088091835312983, + "learning_rate": 8.579535271895791e-06, + "loss": 0.4587, + "step": 2519 + }, + { + "avg_step_time": 5.63307653292261, + "epoch": 0.26869333333333334, + "eta_time": 10.727881308254837, + "step": 2519 + }, + { + "epoch": 0.2688, + "grad_norm": 1.8836992362395388, + "learning_rate": 8.578328940302827e-06, + "loss": 0.4889, + "step": 2520 + }, + { + "avg_step_time": 5.625076775599008, + "epoch": 0.2688, + "eta_time": 10.711083693536445, + "step": 2520 + }, + { + "epoch": 0.2689066666666667, + "grad_norm": 1.6464920759116677, + "learning_rate": 8.57712218157441e-06, + "loss": 0.484, + "step": 2521 + }, + { + "avg_step_time": 5.632312119609177, + "epoch": 0.2689066666666667, + "eta_time": 10.723296463278139, + "step": 2521 + }, + { + "epoch": 0.2690133333333333, + "grad_norm": 1.7407185729024566, + "learning_rate": 8.575914995854588e-06, + "loss": 0.5044, + "step": 2522 + }, + { + "avg_step_time": 5.641053830734407, + "epoch": 0.2690133333333333, + "eta_time": 10.738372750561915, + "step": 2522 + }, + { + "epoch": 0.26912, + "grad_norm": 0.6941906280704461, + "learning_rate": 8.574707383287459e-06, + "loss": 0.4504, + "step": 2523 + }, + { + "avg_step_time": 5.662961032655504, + "epoch": 0.26912, + "eta_time": 10.778502498820977, + "step": 2523 + }, + { + "epoch": 0.26922666666666667, + "grad_norm": 1.4022771032186647, + "learning_rate": 8.573499344017174e-06, + "loss": 0.5288, + "step": 2524 + }, + { + "avg_step_time": 5.66017862281414, + "epoch": 0.26922666666666667, + "eta_time": 10.771634373583241, + "step": 2524 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 1.7454921162553856, + "learning_rate": 8.57229087818793e-06, + "loss": 0.5358, + "step": 2525 + }, + { + "avg_step_time": 5.658905060604365, + "epoch": 0.2693333333333333, + "eta_time": 10.767638795872195, + "step": 2525 + }, + { + "epoch": 0.26944, + "grad_norm": 1.6267933404248514, + "learning_rate": 8.571081985943984e-06, + "loss": 0.4404, + "step": 2526 + }, + { + "avg_step_time": 5.656831700392444, + "epoch": 0.26944, + "eta_time": 10.762122309996624, + "step": 2526 + }, + { + "epoch": 0.26954666666666666, + "grad_norm": 1.8680762623539846, + "learning_rate": 8.56987266742963e-06, + "loss": 0.5623, + "step": 2527 + }, + { + "avg_step_time": 5.665221443079939, + "epoch": 0.26954666666666666, + "eta_time": 10.776510122836507, + "step": 2527 + }, + { + "epoch": 0.26965333333333336, + "grad_norm": 1.7010481014496737, + "learning_rate": 8.568662922789229e-06, + "loss": 0.4232, + "step": 2528 + }, + { + "avg_step_time": 5.691947313270184, + "epoch": 0.26965333333333336, + "eta_time": 10.825767570544707, + "step": 2528 + }, + { + "epoch": 0.26976, + "grad_norm": 1.536846619464315, + "learning_rate": 8.567452752167183e-06, + "loss": 0.4983, + "step": 2529 + }, + { + "avg_step_time": 5.692410457013834, + "epoch": 0.26976, + "eta_time": 10.825067219087973, + "step": 2529 + }, + { + "epoch": 0.26986666666666664, + "grad_norm": 1.42620943167843, + "learning_rate": 8.566242155707942e-06, + "loss": 0.4317, + "step": 2530 + }, + { + "avg_step_time": 5.696025328202681, + "epoch": 0.26986666666666664, + "eta_time": 10.830359269874263, + "step": 2530 + }, + { + "epoch": 0.26997333333333334, + "grad_norm": 1.8135909847854699, + "learning_rate": 8.565031133556016e-06, + "loss": 0.5278, + "step": 2531 + }, + { + "avg_step_time": 5.694948309599751, + "epoch": 0.26997333333333334, + "eta_time": 10.826729508583528, + "step": 2531 + }, + { + "epoch": 0.27008, + "grad_norm": 1.4353281669213784, + "learning_rate": 8.563819685855963e-06, + "loss": 0.4384, + "step": 2532 + }, + { + "avg_step_time": 5.700645302281235, + "epoch": 0.27008, + "eta_time": 10.835976612086247, + "step": 2532 + }, + { + "epoch": 0.2701866666666667, + "grad_norm": 1.7193233334224494, + "learning_rate": 8.562607812752386e-06, + "loss": 0.5847, + "step": 2533 + }, + { + "avg_step_time": 5.700491223672424, + "epoch": 0.2701866666666667, + "eta_time": 10.834100264546313, + "step": 2533 + }, + { + "epoch": 0.27029333333333333, + "grad_norm": 1.7056621055643744, + "learning_rate": 8.561395514389945e-06, + "loss": 0.5697, + "step": 2534 + }, + { + "avg_step_time": 5.699088125517874, + "epoch": 0.27029333333333333, + "eta_time": 10.829850518518827, + "step": 2534 + }, + { + "epoch": 0.2704, + "grad_norm": 1.9261703560339227, + "learning_rate": 8.560182790913349e-06, + "loss": 0.49, + "step": 2535 + }, + { + "avg_step_time": 5.703469276428223, + "epoch": 0.2704, + "eta_time": 10.836591625213623, + "step": 2535 + }, + { + "epoch": 0.2705066666666667, + "grad_norm": 1.6319965369913907, + "learning_rate": 8.558969642467356e-06, + "loss": 0.5085, + "step": 2536 + }, + { + "avg_step_time": 5.69954958588186, + "epoch": 0.2705066666666667, + "eta_time": 10.827561004957232, + "step": 2536 + }, + { + "epoch": 0.2706133333333333, + "grad_norm": 1.5338450994534853, + "learning_rate": 8.557756069196779e-06, + "loss": 0.5321, + "step": 2537 + }, + { + "avg_step_time": 5.700048733239222, + "epoch": 0.2706133333333333, + "eta_time": 10.826925899413835, + "step": 2537 + }, + { + "epoch": 0.27072, + "grad_norm": 1.8242466933083463, + "learning_rate": 8.556542071246476e-06, + "loss": 0.4813, + "step": 2538 + }, + { + "avg_step_time": 5.6991407847163655, + "epoch": 0.27072, + "eta_time": 10.82361820697383, + "step": 2538 + }, + { + "epoch": 0.27082666666666666, + "grad_norm": 0.6293308759110464, + "learning_rate": 8.555327648761362e-06, + "loss": 0.4506, + "step": 2539 + }, + { + "avg_step_time": 5.666773475781835, + "epoch": 0.27082666666666666, + "eta_time": 10.760573189012396, + "step": 2539 + }, + { + "epoch": 0.27093333333333336, + "grad_norm": 1.7580072534753188, + "learning_rate": 8.554112801886396e-06, + "loss": 0.5139, + "step": 2540 + }, + { + "avg_step_time": 5.666604449050595, + "epoch": 0.27093333333333336, + "eta_time": 10.758678169239115, + "step": 2540 + }, + { + "epoch": 0.27104, + "grad_norm": 1.5441633360230664, + "learning_rate": 8.552897530766592e-06, + "loss": 0.4586, + "step": 2541 + }, + { + "avg_step_time": 5.665800925457116, + "epoch": 0.27104, + "eta_time": 10.755578756826091, + "step": 2541 + }, + { + "epoch": 0.27114666666666665, + "grad_norm": 1.6305921128108336, + "learning_rate": 8.551681835547014e-06, + "loss": 0.405, + "step": 2542 + }, + { + "avg_step_time": 5.722887094574745, + "epoch": 0.27114666666666665, + "eta_time": 10.862357643674788, + "step": 2542 + }, + { + "epoch": 0.27125333333333335, + "grad_norm": 1.5483895675768666, + "learning_rate": 8.550465716372777e-06, + "loss": 0.4375, + "step": 2543 + }, + { + "avg_step_time": 5.723120723107849, + "epoch": 0.27125333333333335, + "eta_time": 10.861211327853562, + "step": 2543 + }, + { + "epoch": 0.27136, + "grad_norm": 0.6563897743244412, + "learning_rate": 8.549249173389045e-06, + "loss": 0.4654, + "step": 2544 + }, + { + "avg_step_time": 5.710602196780118, + "epoch": 0.27136, + "eta_time": 10.835867668390273, + "step": 2544 + }, + { + "epoch": 0.2714666666666667, + "grad_norm": 1.6310308323725973, + "learning_rate": 8.548032206741033e-06, + "loss": 0.5075, + "step": 2545 + }, + { + "avg_step_time": 5.707958019140995, + "epoch": 0.2714666666666667, + "eta_time": 10.829264797425832, + "step": 2545 + }, + { + "epoch": 0.27157333333333333, + "grad_norm": 1.791180579187794, + "learning_rate": 8.546814816574008e-06, + "loss": 0.57, + "step": 2546 + }, + { + "avg_step_time": 5.70596156216631, + "epoch": 0.27157333333333333, + "eta_time": 10.823892085564927, + "step": 2546 + }, + { + "epoch": 0.27168, + "grad_norm": 1.7515180055641622, + "learning_rate": 8.545597003033286e-06, + "loss": 0.5233, + "step": 2547 + }, + { + "avg_step_time": 5.681465979778405, + "epoch": 0.27168, + "eta_time": 10.775847141646375, + "step": 2547 + }, + { + "epoch": 0.2717866666666667, + "grad_norm": 1.666779426182161, + "learning_rate": 8.544378766264231e-06, + "loss": 0.5466, + "step": 2548 + }, + { + "avg_step_time": 5.683127261171437, + "epoch": 0.2717866666666667, + "eta_time": 10.777419392227056, + "step": 2548 + }, + { + "epoch": 0.2718933333333333, + "grad_norm": 1.984679000320635, + "learning_rate": 8.54316010641227e-06, + "loss": 0.5215, + "step": 2549 + }, + { + "avg_step_time": 5.68581406757085, + "epoch": 0.2718933333333333, + "eta_time": 10.78093522923295, + "step": 2549 + }, + { + "epoch": 0.272, + "grad_norm": 1.9077436997717299, + "learning_rate": 8.54194102362286e-06, + "loss": 0.557, + "step": 2550 + }, + { + "avg_step_time": 5.655452518752127, + "epoch": 0.272, + "eta_time": 10.72179540013424, + "step": 2550 + }, + { + "epoch": 0.27210666666666666, + "grad_norm": 1.5359664718319324, + "learning_rate": 8.540721518041527e-06, + "loss": 0.4952, + "step": 2551 + }, + { + "avg_step_time": 5.689134236538049, + "epoch": 0.27210666666666666, + "eta_time": 10.784070008371012, + "step": 2551 + }, + { + "epoch": 0.2722133333333333, + "grad_norm": 0.660842630241782, + "learning_rate": 8.539501589813837e-06, + "loss": 0.4597, + "step": 2552 + }, + { + "avg_step_time": 5.656550140091867, + "epoch": 0.2722133333333333, + "eta_time": 10.720733779401892, + "step": 2552 + }, + { + "epoch": 0.27232, + "grad_norm": 0.6736620217968828, + "learning_rate": 8.538281239085411e-06, + "loss": 0.4544, + "step": 2553 + }, + { + "avg_step_time": 5.617661733819981, + "epoch": 0.27232, + "eta_time": 10.645468985588865, + "step": 2553 + }, + { + "epoch": 0.27242666666666665, + "grad_norm": 1.6243587896196394, + "learning_rate": 8.537060466001917e-06, + "loss": 0.4377, + "step": 2554 + }, + { + "avg_step_time": 5.6171681423379916, + "epoch": 0.27242666666666665, + "eta_time": 10.642973305246512, + "step": 2554 + }, + { + "epoch": 0.27253333333333335, + "grad_norm": 1.6342673130800611, + "learning_rate": 8.535839270709076e-06, + "loss": 0.5, + "step": 2555 + }, + { + "avg_step_time": 5.618023200468584, + "epoch": 0.27253333333333335, + "eta_time": 10.643032840887706, + "step": 2555 + }, + { + "epoch": 0.27264, + "grad_norm": 1.8338742682338114, + "learning_rate": 8.534617653352661e-06, + "loss": 0.4318, + "step": 2556 + }, + { + "avg_step_time": 5.61907363419581, + "epoch": 0.27264, + "eta_time": 10.64346197543923, + "step": 2556 + }, + { + "epoch": 0.2727466666666667, + "grad_norm": 1.6655039690604414, + "learning_rate": 8.533395614078492e-06, + "loss": 0.5312, + "step": 2557 + }, + { + "avg_step_time": 5.622018953766486, + "epoch": 0.2727466666666667, + "eta_time": 10.647479229661084, + "step": 2557 + }, + { + "epoch": 0.27285333333333334, + "grad_norm": 1.5629286532572508, + "learning_rate": 8.532173153032439e-06, + "loss": 0.4862, + "step": 2558 + }, + { + "avg_step_time": 5.622785895761817, + "epoch": 0.27285333333333334, + "eta_time": 10.647369847613419, + "step": 2558 + }, + { + "epoch": 0.27296, + "grad_norm": 1.6414619792663376, + "learning_rate": 8.530950270360425e-06, + "loss": 0.4694, + "step": 2559 + }, + { + "avg_step_time": 5.621631191234396, + "epoch": 0.27296, + "eta_time": 10.643621722070456, + "step": 2559 + }, + { + "epoch": 0.2730666666666667, + "grad_norm": 1.7476885373286075, + "learning_rate": 8.529726966208423e-06, + "loss": 0.5215, + "step": 2560 + }, + { + "avg_step_time": 5.61770837716382, + "epoch": 0.2730666666666667, + "eta_time": 10.634634052880955, + "step": 2560 + }, + { + "epoch": 0.2731733333333333, + "grad_norm": 0.6463042130734051, + "learning_rate": 8.528503240722452e-06, + "loss": 0.4557, + "step": 2561 + }, + { + "avg_step_time": 5.621598284653943, + "epoch": 0.2731733333333333, + "eta_time": 10.640436308786658, + "step": 2561 + }, + { + "epoch": 0.27328, + "grad_norm": 1.6629622844356455, + "learning_rate": 8.52727909404859e-06, + "loss": 0.502, + "step": 2562 + }, + { + "avg_step_time": 5.615023345658273, + "epoch": 0.27328, + "eta_time": 10.626431681658282, + "step": 2562 + }, + { + "epoch": 0.27338666666666667, + "grad_norm": 2.035355487836622, + "learning_rate": 8.526054526332957e-06, + "loss": 0.4641, + "step": 2563 + }, + { + "avg_step_time": 5.61504062016805, + "epoch": 0.27338666666666667, + "eta_time": 10.624904640162432, + "step": 2563 + }, + { + "epoch": 0.2734933333333333, + "grad_norm": 1.7023271371461683, + "learning_rate": 8.524829537721725e-06, + "loss": 0.4274, + "step": 2564 + }, + { + "avg_step_time": 5.61768153219512, + "epoch": 0.2734933333333333, + "eta_time": 10.62834136549471, + "step": 2564 + }, + { + "epoch": 0.2736, + "grad_norm": 1.6452750102256666, + "learning_rate": 8.523604128361123e-06, + "loss": 0.4502, + "step": 2565 + }, + { + "avg_step_time": 5.602804875133013, + "epoch": 0.2736, + "eta_time": 10.598639222126616, + "step": 2565 + }, + { + "epoch": 0.27370666666666665, + "grad_norm": 1.3689952139194976, + "learning_rate": 8.522378298397418e-06, + "loss": 0.4646, + "step": 2566 + }, + { + "avg_step_time": 5.637335969944193, + "epoch": 0.27370666666666665, + "eta_time": 10.662394616486115, + "step": 2566 + }, + { + "epoch": 0.27381333333333335, + "grad_norm": 0.6453947619101251, + "learning_rate": 8.52115204797694e-06, + "loss": 0.4567, + "step": 2567 + }, + { + "avg_step_time": 5.601177555142027, + "epoch": 0.27381333333333335, + "eta_time": 10.592449109835256, + "step": 2567 + }, + { + "epoch": 0.27392, + "grad_norm": 1.9026823439018525, + "learning_rate": 8.519925377246057e-06, + "loss": 0.5367, + "step": 2568 + }, + { + "avg_step_time": 5.604511393441094, + "epoch": 0.27392, + "eta_time": 10.597196959764869, + "step": 2568 + }, + { + "epoch": 0.27402666666666664, + "grad_norm": 1.823139759078152, + "learning_rate": 8.518698286351199e-06, + "loss": 0.5279, + "step": 2569 + }, + { + "avg_step_time": 5.610732109859736, + "epoch": 0.27402666666666664, + "eta_time": 10.607400761029268, + "step": 2569 + }, + { + "epoch": 0.27413333333333334, + "grad_norm": 1.5620846220817222, + "learning_rate": 8.517470775438838e-06, + "loss": 0.5235, + "step": 2570 + }, + { + "avg_step_time": 5.612154346523863, + "epoch": 0.27413333333333334, + "eta_time": 10.608530646693024, + "step": 2570 + }, + { + "epoch": 0.27424, + "grad_norm": 1.8915463616396626, + "learning_rate": 8.516242844655498e-06, + "loss": 0.4892, + "step": 2571 + }, + { + "avg_step_time": 5.608222590552436, + "epoch": 0.27424, + "eta_time": 10.599540696144103, + "step": 2571 + }, + { + "epoch": 0.2743466666666667, + "grad_norm": 1.6688667976364524, + "learning_rate": 8.515014494147758e-06, + "loss": 0.4461, + "step": 2572 + }, + { + "avg_step_time": 5.631978682797365, + "epoch": 0.2743466666666667, + "eta_time": 10.64287527196402, + "step": 2572 + }, + { + "epoch": 0.2744533333333333, + "grad_norm": 1.9731816147574606, + "learning_rate": 8.513785724062236e-06, + "loss": 0.5304, + "step": 2573 + }, + { + "avg_step_time": 5.631188248143052, + "epoch": 0.2744533333333333, + "eta_time": 10.639817351074734, + "step": 2573 + }, + { + "epoch": 0.27456, + "grad_norm": 1.4670107541323347, + "learning_rate": 8.512556534545612e-06, + "loss": 0.4632, + "step": 2574 + }, + { + "avg_step_time": 5.6360886963931, + "epoch": 0.27456, + "eta_time": 10.64751089560263, + "step": 2574 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 1.4883450310724047, + "learning_rate": 8.51132692574461e-06, + "loss": 0.4431, + "step": 2575 + }, + { + "avg_step_time": 5.672682042073721, + "epoch": 0.27466666666666667, + "eta_time": 10.715066079472585, + "step": 2575 + }, + { + "epoch": 0.2747733333333333, + "grad_norm": 1.560579136650904, + "learning_rate": 8.510096897806004e-06, + "loss": 0.5069, + "step": 2576 + }, + { + "avg_step_time": 5.561267568607523, + "epoch": 0.2747733333333333, + "eta_time": 10.503071721934042, + "step": 2576 + }, + { + "epoch": 0.27488, + "grad_norm": 1.745682608431714, + "learning_rate": 8.50886645087662e-06, + "loss": 0.4295, + "step": 2577 + }, + { + "avg_step_time": 5.56013939356563, + "epoch": 0.27488, + "eta_time": 10.499396554849765, + "step": 2577 + }, + { + "epoch": 0.27498666666666666, + "grad_norm": 0.6520610257793504, + "learning_rate": 8.507635585103333e-06, + "loss": 0.4598, + "step": 2578 + }, + { + "avg_step_time": 5.525484829237967, + "epoch": 0.27498666666666666, + "eta_time": 10.432422328980683, + "step": 2578 + }, + { + "epoch": 0.27509333333333336, + "grad_norm": 1.8154075093551156, + "learning_rate": 8.506404300633069e-06, + "loss": 0.5481, + "step": 2579 + }, + { + "avg_step_time": 5.526772462960445, + "epoch": 0.27509333333333336, + "eta_time": 10.433318238410886, + "step": 2579 + }, + { + "epoch": 0.2752, + "grad_norm": 1.761190039303685, + "learning_rate": 8.5051725976128e-06, + "loss": 0.4507, + "step": 2580 + }, + { + "avg_step_time": 5.555128552696922, + "epoch": 0.2752, + "eta_time": 10.48530514321544, + "step": 2580 + }, + { + "epoch": 0.27530666666666664, + "grad_norm": 1.7754424996635803, + "learning_rate": 8.503940476189556e-06, + "loss": 0.525, + "step": 2581 + }, + { + "avg_step_time": 5.556068519149163, + "epoch": 0.27530666666666664, + "eta_time": 10.485535977527615, + "step": 2581 + }, + { + "epoch": 0.27541333333333334, + "grad_norm": 1.7362920435238645, + "learning_rate": 8.502707936510406e-06, + "loss": 0.5212, + "step": 2582 + }, + { + "avg_step_time": 5.563949495855004, + "epoch": 0.27541333333333334, + "eta_time": 10.498863590373068, + "step": 2582 + }, + { + "epoch": 0.27552, + "grad_norm": 1.7966511798007327, + "learning_rate": 8.50147497872248e-06, + "loss": 0.4491, + "step": 2583 + }, + { + "avg_step_time": 5.571356893789889, + "epoch": 0.27552, + "eta_time": 10.511293339616923, + "step": 2583 + }, + { + "epoch": 0.2756266666666667, + "grad_norm": 1.7705132303351407, + "learning_rate": 8.500241602972952e-06, + "loss": 0.4356, + "step": 2584 + }, + { + "avg_step_time": 5.56756474995854, + "epoch": 0.2756266666666667, + "eta_time": 10.502592282491234, + "step": 2584 + }, + { + "epoch": 0.27573333333333333, + "grad_norm": 1.7657093646251885, + "learning_rate": 8.499007809409043e-06, + "loss": 0.5707, + "step": 2585 + }, + { + "avg_step_time": 5.603484474047266, + "epoch": 0.27573333333333333, + "eta_time": 10.568794327439148, + "step": 2585 + }, + { + "epoch": 0.27584, + "grad_norm": 1.730780060829078, + "learning_rate": 8.497773598178033e-06, + "loss": 0.5627, + "step": 2586 + }, + { + "avg_step_time": 5.644507706767381, + "epoch": 0.27584, + "eta_time": 10.644600783678818, + "step": 2586 + }, + { + "epoch": 0.2759466666666667, + "grad_norm": 0.6615127170578292, + "learning_rate": 8.496538969427243e-06, + "loss": 0.4631, + "step": 2587 + }, + { + "avg_step_time": 5.606274978078977, + "epoch": 0.2759466666666667, + "eta_time": 10.570942930888915, + "step": 2587 + }, + { + "epoch": 0.2760533333333333, + "grad_norm": 1.8976264285594027, + "learning_rate": 8.495303923304047e-06, + "loss": 0.5245, + "step": 2588 + }, + { + "avg_step_time": 5.612167490853204, + "epoch": 0.2760533333333333, + "eta_time": 10.580494655672416, + "step": 2588 + }, + { + "epoch": 0.27616, + "grad_norm": 0.6425146737138588, + "learning_rate": 8.494068459955871e-06, + "loss": 0.4606, + "step": 2589 + }, + { + "avg_step_time": 5.583163649144799, + "epoch": 0.27616, + "eta_time": 10.524263478637945, + "step": 2589 + }, + { + "epoch": 0.27626666666666666, + "grad_norm": 1.612331184060037, + "learning_rate": 8.492832579530188e-06, + "loss": 0.5043, + "step": 2590 + }, + { + "avg_step_time": 5.640902774502533, + "epoch": 0.27626666666666666, + "eta_time": 10.631534812499911, + "step": 2590 + }, + { + "epoch": 0.27637333333333336, + "grad_norm": 0.6200525017111249, + "learning_rate": 8.491596282174523e-06, + "loss": 0.408, + "step": 2591 + }, + { + "avg_step_time": 5.611733771333791, + "epoch": 0.27637333333333336, + "eta_time": 10.575000529091232, + "step": 2591 + }, + { + "epoch": 0.27648, + "grad_norm": 1.6480047743256006, + "learning_rate": 8.490359568036446e-06, + "loss": 0.6043, + "step": 2592 + }, + { + "avg_step_time": 5.611579774606107, + "epoch": 0.27648, + "eta_time": 10.573151558653672, + "step": 2592 + }, + { + "epoch": 0.27658666666666665, + "grad_norm": 1.8221285324165477, + "learning_rate": 8.489122437263585e-06, + "loss": 0.5754, + "step": 2593 + }, + { + "avg_step_time": 5.614854730740942, + "epoch": 0.27658666666666665, + "eta_time": 10.577762439968074, + "step": 2593 + }, + { + "epoch": 0.27669333333333335, + "grad_norm": 1.7344461634102692, + "learning_rate": 8.48788489000361e-06, + "loss": 0.4992, + "step": 2594 + }, + { + "avg_step_time": 5.646292823733705, + "epoch": 0.27669333333333335, + "eta_time": 10.635419899371737, + "step": 2594 + }, + { + "epoch": 0.2768, + "grad_norm": 1.6337930502066595, + "learning_rate": 8.486646926404243e-06, + "loss": 0.4231, + "step": 2595 + }, + { + "avg_step_time": 5.638632285474527, + "epoch": 0.2768, + "eta_time": 10.619424137643692, + "step": 2595 + }, + { + "epoch": 0.2769066666666667, + "grad_norm": 2.011852905485412, + "learning_rate": 8.485408546613258e-06, + "loss": 0.5214, + "step": 2596 + }, + { + "avg_step_time": 5.637507917905094, + "epoch": 0.2769066666666667, + "eta_time": 10.61574060429962, + "step": 2596 + }, + { + "epoch": 0.27701333333333333, + "grad_norm": 1.563777513803353, + "learning_rate": 8.484169750778476e-06, + "loss": 0.5527, + "step": 2597 + }, + { + "avg_step_time": 5.6338931984371605, + "epoch": 0.27701333333333333, + "eta_time": 10.607368916390854, + "step": 2597 + }, + { + "epoch": 0.27712, + "grad_norm": 1.5120992659010382, + "learning_rate": 8.48293053904777e-06, + "loss": 0.4905, + "step": 2598 + }, + { + "avg_step_time": 5.632123838771474, + "epoch": 0.27712, + "eta_time": 10.602473126487299, + "step": 2598 + }, + { + "epoch": 0.2772266666666667, + "grad_norm": 1.7623356840609523, + "learning_rate": 8.48169091156906e-06, + "loss": 0.4743, + "step": 2599 + }, + { + "avg_step_time": 5.631875319914385, + "epoch": 0.2772266666666667, + "eta_time": 10.60044087992774, + "step": 2599 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 1.6775462493268203, + "learning_rate": 8.480450868490317e-06, + "loss": 0.5029, + "step": 2600 + }, + { + "avg_step_time": 5.631442799712673, + "epoch": 0.2773333333333333, + "eta_time": 10.598062491125933, + "step": 2600 + }, + { + "epoch": 0.27744, + "grad_norm": 1.8838801347778418, + "learning_rate": 8.479210409959565e-06, + "loss": 0.4669, + "step": 2601 + }, + { + "avg_step_time": 5.633664157655504, + "epoch": 0.27744, + "eta_time": 10.600678056655108, + "step": 2601 + }, + { + "epoch": 0.27754666666666666, + "grad_norm": 1.8891453763649844, + "learning_rate": 8.477969536124868e-06, + "loss": 0.4939, + "step": 2602 + }, + { + "avg_step_time": 5.5853511781403515, + "epoch": 0.27754666666666666, + "eta_time": 10.508217647095723, + "step": 2602 + }, + { + "epoch": 0.2776533333333333, + "grad_norm": 1.5300805772728283, + "learning_rate": 8.476728247134352e-06, + "loss": 0.4383, + "step": 2603 + }, + { + "avg_step_time": 5.566211837710756, + "epoch": 0.2776533333333333, + "eta_time": 10.4706629347159, + "step": 2603 + }, + { + "epoch": 0.27776, + "grad_norm": 1.875931669275246, + "learning_rate": 8.475486543136181e-06, + "loss": 0.4992, + "step": 2604 + }, + { + "avg_step_time": 5.565123820545698, + "epoch": 0.27776, + "eta_time": 10.467070385809699, + "step": 2604 + }, + { + "epoch": 0.27786666666666665, + "grad_norm": 1.2834910655732847, + "learning_rate": 8.474244424278578e-06, + "loss": 0.4413, + "step": 2605 + }, + { + "avg_step_time": 5.5707349078823825, + "epoch": 0.27786666666666665, + "eta_time": 10.47607647954548, + "step": 2605 + }, + { + "epoch": 0.27797333333333335, + "grad_norm": 1.936388806879121, + "learning_rate": 8.47300189070981e-06, + "loss": 0.5356, + "step": 2606 + }, + { + "avg_step_time": 5.56755985154046, + "epoch": 0.27797333333333335, + "eta_time": 10.46855906529927, + "step": 2606 + }, + { + "epoch": 0.27808, + "grad_norm": 1.5981383868961048, + "learning_rate": 8.471758942578193e-06, + "loss": 0.4889, + "step": 2607 + }, + { + "avg_step_time": 5.5761868423885765, + "epoch": 0.27808, + "eta_time": 10.483231263690525, + "step": 2607 + }, + { + "epoch": 0.2781866666666667, + "grad_norm": 1.7907216221917819, + "learning_rate": 8.470515580032096e-06, + "loss": 0.5445, + "step": 2608 + }, + { + "avg_step_time": 5.605142429621533, + "epoch": 0.2781866666666667, + "eta_time": 10.536110783680254, + "step": 2608 + }, + { + "epoch": 0.27829333333333334, + "grad_norm": 2.748993387157416, + "learning_rate": 8.469271803219939e-06, + "loss": 0.4729, + "step": 2609 + }, + { + "avg_step_time": 5.599742807523168, + "epoch": 0.27829333333333334, + "eta_time": 10.524405509917154, + "step": 2609 + }, + { + "epoch": 0.2784, + "grad_norm": 1.951411278943566, + "learning_rate": 8.46802761229018e-06, + "loss": 0.5108, + "step": 2610 + }, + { + "avg_step_time": 5.599649995264381, + "epoch": 0.2784, + "eta_time": 10.522675616100981, + "step": 2610 + }, + { + "epoch": 0.2785066666666667, + "grad_norm": 1.7707035494587036, + "learning_rate": 8.466783007391342e-06, + "loss": 0.4336, + "step": 2611 + }, + { + "avg_step_time": 5.631998380025228, + "epoch": 0.2785066666666667, + "eta_time": 10.581899178469621, + "step": 2611 + }, + { + "epoch": 0.2786133333333333, + "grad_norm": 1.9266557834536495, + "learning_rate": 8.465537988671987e-06, + "loss": 0.5352, + "step": 2612 + }, + { + "avg_step_time": 5.65675586642641, + "epoch": 0.2786133333333333, + "eta_time": 10.626844423511615, + "step": 2612 + }, + { + "epoch": 0.27872, + "grad_norm": 1.4720046996206955, + "learning_rate": 8.464292556280734e-06, + "loss": 0.4828, + "step": 2613 + }, + { + "avg_step_time": 5.66100808827564, + "epoch": 0.27872, + "eta_time": 10.633260192477744, + "step": 2613 + }, + { + "epoch": 0.27882666666666667, + "grad_norm": 1.859426244583464, + "learning_rate": 8.463046710366239e-06, + "loss": 0.5471, + "step": 2614 + }, + { + "avg_step_time": 5.69664882650279, + "epoch": 0.27882666666666667, + "eta_time": 10.698622976662602, + "step": 2614 + }, + { + "epoch": 0.2789333333333333, + "grad_norm": 1.966900479641964, + "learning_rate": 8.46180045107722e-06, + "loss": 0.5069, + "step": 2615 + }, + { + "avg_step_time": 5.698406402510826, + "epoch": 0.2789333333333333, + "eta_time": 10.700340911381439, + "step": 2615 + }, + { + "epoch": 0.27904, + "grad_norm": 1.8159643004976516, + "learning_rate": 8.46055377856244e-06, + "loss": 0.5701, + "step": 2616 + }, + { + "avg_step_time": 5.6924329574662025, + "epoch": 0.27904, + "eta_time": 10.687542877642795, + "step": 2616 + }, + { + "epoch": 0.27914666666666665, + "grad_norm": 1.6476655315980184, + "learning_rate": 8.459306692970712e-06, + "loss": 0.4659, + "step": 2617 + }, + { + "avg_step_time": 5.65372853568106, + "epoch": 0.27914666666666665, + "eta_time": 10.613304845592388, + "step": 2617 + }, + { + "epoch": 0.27925333333333335, + "grad_norm": 1.8603675214108573, + "learning_rate": 8.458059194450895e-06, + "loss": 0.5233, + "step": 2618 + }, + { + "avg_step_time": 5.640793448746806, + "epoch": 0.27925333333333335, + "eta_time": 10.587455925883937, + "step": 2618 + }, + { + "epoch": 0.27936, + "grad_norm": 0.6506184520083013, + "learning_rate": 8.456811283151896e-06, + "loss": 0.4436, + "step": 2619 + }, + { + "avg_step_time": 5.606813779985062, + "epoch": 0.27936, + "eta_time": 10.522120527105299, + "step": 2619 + }, + { + "epoch": 0.27946666666666664, + "grad_norm": 1.6081926990305586, + "learning_rate": 8.455562959222682e-06, + "loss": 0.5253, + "step": 2620 + }, + { + "avg_step_time": 5.626136842400137, + "epoch": 0.27946666666666664, + "eta_time": 10.556820658448034, + "step": 2620 + }, + { + "epoch": 0.27957333333333334, + "grad_norm": 1.5150298084194675, + "learning_rate": 8.454314222812257e-06, + "loss": 0.4462, + "step": 2621 + }, + { + "avg_step_time": 5.619732449753116, + "epoch": 0.27957333333333334, + "eta_time": 10.543242490453483, + "step": 2621 + }, + { + "epoch": 0.27968, + "grad_norm": 1.6892549571303836, + "learning_rate": 8.453065074069682e-06, + "loss": 0.4951, + "step": 2622 + }, + { + "avg_step_time": 5.634118593100346, + "epoch": 0.27968, + "eta_time": 10.568667460890731, + "step": 2622 + }, + { + "epoch": 0.2797866666666667, + "grad_norm": 0.6442602112595712, + "learning_rate": 8.451815513144062e-06, + "loss": 0.4414, + "step": 2623 + }, + { + "avg_step_time": 5.604995279601126, + "epoch": 0.2797866666666667, + "eta_time": 10.512480035518557, + "step": 2623 + }, + { + "epoch": 0.2798933333333333, + "grad_norm": 1.6829183559924212, + "learning_rate": 8.450565540184557e-06, + "loss": 0.4738, + "step": 2624 + }, + { + "avg_step_time": 5.604070986160124, + "epoch": 0.2798933333333333, + "eta_time": 10.509189785435277, + "step": 2624 + }, + { + "epoch": 0.28, + "grad_norm": 0.6380735878586671, + "learning_rate": 8.449315155340369e-06, + "loss": 0.4627, + "step": 2625 + }, + { + "avg_step_time": 5.571571740237149, + "epoch": 0.28, + "eta_time": 10.446697012944655, + "step": 2625 + }, + { + "epoch": 0.28010666666666667, + "grad_norm": 1.6976820320232502, + "learning_rate": 8.448064358760757e-06, + "loss": 0.4479, + "step": 2626 + }, + { + "avg_step_time": 5.579125134631841, + "epoch": 0.28010666666666667, + "eta_time": 10.45930987045286, + "step": 2626 + }, + { + "epoch": 0.2802133333333333, + "grad_norm": 1.8163709827536685, + "learning_rate": 8.446813150595022e-06, + "loss": 0.5506, + "step": 2627 + }, + { + "avg_step_time": 5.5539492043581875, + "epoch": 0.2802133333333333, + "eta_time": 10.410569230835847, + "step": 2627 + }, + { + "epoch": 0.28032, + "grad_norm": 0.624552008340389, + "learning_rate": 8.44556153099252e-06, + "loss": 0.4484, + "step": 2628 + }, + { + "avg_step_time": 5.5273664696048, + "epoch": 0.28032, + "eta_time": 10.359205991784329, + "step": 2628 + }, + { + "epoch": 0.28042666666666666, + "grad_norm": 1.5164705346791543, + "learning_rate": 8.444309500102651e-06, + "loss": 0.4474, + "step": 2629 + }, + { + "avg_step_time": 5.530389607554734, + "epoch": 0.28042666666666666, + "eta_time": 10.363335636823399, + "step": 2629 + }, + { + "epoch": 0.28053333333333336, + "grad_norm": 1.9935568513458866, + "learning_rate": 8.443057058074869e-06, + "loss": 0.5259, + "step": 2630 + }, + { + "avg_step_time": 5.530591798551155, + "epoch": 0.28053333333333336, + "eta_time": 10.362178244785428, + "step": 2630 + }, + { + "epoch": 0.28064, + "grad_norm": 1.58098070864578, + "learning_rate": 8.441804205058672e-06, + "loss": 0.4293, + "step": 2631 + }, + { + "avg_step_time": 5.5257871753037575, + "epoch": 0.28064, + "eta_time": 10.351641308402373, + "step": 2631 + }, + { + "epoch": 0.28074666666666664, + "grad_norm": 1.6859851602826705, + "learning_rate": 8.44055094120361e-06, + "loss": 0.488, + "step": 2632 + }, + { + "avg_step_time": 5.531751815718834, + "epoch": 0.28074666666666664, + "eta_time": 10.361278470386692, + "step": 2632 + }, + { + "epoch": 0.28085333333333334, + "grad_norm": 1.9543179676680604, + "learning_rate": 8.439297266659285e-06, + "loss": 0.5778, + "step": 2633 + }, + { + "avg_step_time": 5.538123865320225, + "epoch": 0.28085333333333334, + "eta_time": 10.371675305552488, + "step": 2633 + }, + { + "epoch": 0.28096, + "grad_norm": 1.6034134577888646, + "learning_rate": 8.43804318157534e-06, + "loss": 0.4992, + "step": 2634 + }, + { + "avg_step_time": 5.533805127095694, + "epoch": 0.28096, + "eta_time": 10.362050100486687, + "step": 2634 + }, + { + "epoch": 0.2810666666666667, + "grad_norm": 2.0488564469736406, + "learning_rate": 8.436788686101475e-06, + "loss": 0.5705, + "step": 2635 + }, + { + "avg_step_time": 5.534494267569648, + "epoch": 0.2810666666666667, + "eta_time": 10.361803156505395, + "step": 2635 + }, + { + "epoch": 0.28117333333333333, + "grad_norm": 1.7346739836989902, + "learning_rate": 8.435533780387436e-06, + "loss": 0.5638, + "step": 2636 + }, + { + "avg_step_time": 5.5348697744234645, + "epoch": 0.28117333333333333, + "eta_time": 10.36096872495548, + "step": 2636 + }, + { + "epoch": 0.28128, + "grad_norm": 1.4813381922877027, + "learning_rate": 8.434278464583018e-06, + "loss": 0.4873, + "step": 2637 + }, + { + "avg_step_time": 5.5388556995777165, + "epoch": 0.28128, + "eta_time": 10.366891584376292, + "step": 2637 + }, + { + "epoch": 0.2813866666666667, + "grad_norm": 1.5373898944591025, + "learning_rate": 8.43302273883806e-06, + "loss": 0.5142, + "step": 2638 + }, + { + "avg_step_time": 5.5727318946761315, + "epoch": 0.2813866666666667, + "eta_time": 10.428748548453639, + "step": 2638 + }, + { + "epoch": 0.2814933333333333, + "grad_norm": 1.6766341980861497, + "learning_rate": 8.431766603302459e-06, + "loss": 0.5041, + "step": 2639 + }, + { + "avg_step_time": 5.570757728634459, + "epoch": 0.2814933333333333, + "eta_time": 10.423506683356033, + "step": 2639 + }, + { + "epoch": 0.2816, + "grad_norm": 1.6677424895035937, + "learning_rate": 8.430510058126156e-06, + "loss": 0.5111, + "step": 2640 + }, + { + "avg_step_time": 5.571285698148939, + "epoch": 0.2816, + "eta_time": 10.422946993620307, + "step": 2640 + }, + { + "epoch": 0.28170666666666666, + "grad_norm": 1.5870024903388513, + "learning_rate": 8.429253103459139e-06, + "loss": 0.4298, + "step": 2641 + }, + { + "avg_step_time": 5.549595413785992, + "epoch": 0.28170666666666666, + "eta_time": 10.380826532343018, + "step": 2641 + }, + { + "epoch": 0.28181333333333336, + "grad_norm": 1.5604309906691154, + "learning_rate": 8.427995739451451e-06, + "loss": 0.5244, + "step": 2642 + }, + { + "avg_step_time": 5.5507123879712035, + "epoch": 0.28181333333333336, + "eta_time": 10.381374030058366, + "step": 2642 + }, + { + "epoch": 0.28192, + "grad_norm": 1.6125642280952264, + "learning_rate": 8.426737966253176e-06, + "loss": 0.4447, + "step": 2643 + }, + { + "avg_step_time": 5.565399755131114, + "epoch": 0.28192, + "eta_time": 10.407297542095185, + "step": 2643 + }, + { + "epoch": 0.28202666666666665, + "grad_norm": 1.8680185733278942, + "learning_rate": 8.425479784014455e-06, + "loss": 0.4865, + "step": 2644 + }, + { + "avg_step_time": 5.56402788499389, + "epoch": 0.28202666666666665, + "eta_time": 10.403186581637186, + "step": 2644 + }, + { + "epoch": 0.28213333333333335, + "grad_norm": 1.4427950390119515, + "learning_rate": 8.42422119288547e-06, + "loss": 0.488, + "step": 2645 + }, + { + "avg_step_time": 5.567673613326718, + "epoch": 0.28213333333333335, + "eta_time": 10.408456504913561, + "step": 2645 + }, + { + "epoch": 0.28224, + "grad_norm": 0.6758727278308915, + "learning_rate": 8.422962193016459e-06, + "loss": 0.4492, + "step": 2646 + }, + { + "avg_step_time": 5.536676149175625, + "epoch": 0.28224, + "eta_time": 10.34897050216744, + "step": 2646 + }, + { + "epoch": 0.2823466666666667, + "grad_norm": 1.7970022586743735, + "learning_rate": 8.421702784557704e-06, + "loss": 0.5093, + "step": 2647 + }, + { + "avg_step_time": 5.5294990154227825, + "epoch": 0.2823466666666667, + "eta_time": 10.334019271045689, + "step": 2647 + }, + { + "epoch": 0.28245333333333333, + "grad_norm": 0.6740209413475703, + "learning_rate": 8.42044296765954e-06, + "loss": 0.445, + "step": 2648 + }, + { + "avg_step_time": 5.497071899548925, + "epoch": 0.28245333333333333, + "eta_time": 10.271889630073783, + "step": 2648 + }, + { + "epoch": 0.28256, + "grad_norm": 1.6061102550654325, + "learning_rate": 8.41918274247234e-06, + "loss": 0.4792, + "step": 2649 + }, + { + "avg_step_time": 5.499987573334665, + "epoch": 0.28256, + "eta_time": 10.275810116180265, + "step": 2649 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 1.570705312221681, + "learning_rate": 8.417922109146541e-06, + "loss": 0.4515, + "step": 2650 + }, + { + "avg_step_time": 5.49568340995095, + "epoch": 0.2826666666666667, + "eta_time": 10.266241925533373, + "step": 2650 + }, + { + "epoch": 0.2827733333333333, + "grad_norm": 1.9464335599272724, + "learning_rate": 8.41666106783262e-06, + "loss": 0.5811, + "step": 2651 + }, + { + "avg_step_time": 5.531399762991703, + "epoch": 0.2827733333333333, + "eta_time": 10.33142555732117, + "step": 2651 + }, + { + "epoch": 0.28288, + "grad_norm": 1.6727991976414165, + "learning_rate": 8.415399618681101e-06, + "loss": 0.5488, + "step": 2652 + }, + { + "avg_step_time": 5.5683003146239, + "epoch": 0.28288, + "eta_time": 10.398800837560133, + "step": 2652 + }, + { + "epoch": 0.28298666666666666, + "grad_norm": 1.6926395014639692, + "learning_rate": 8.414137761842565e-06, + "loss": 0.5261, + "step": 2653 + }, + { + "avg_step_time": 5.567131488010137, + "epoch": 0.28298666666666666, + "eta_time": 10.395071628445596, + "step": 2653 + }, + { + "epoch": 0.2830933333333333, + "grad_norm": 2.0154347778882182, + "learning_rate": 8.412875497467632e-06, + "loss": 0.5026, + "step": 2654 + }, + { + "avg_step_time": 5.570409943359067, + "epoch": 0.2830933333333333, + "eta_time": 10.399645897032302, + "step": 2654 + }, + { + "epoch": 0.2832, + "grad_norm": 0.6707889467113399, + "learning_rate": 8.411612825706976e-06, + "loss": 0.4643, + "step": 2655 + }, + { + "avg_step_time": 5.5372882250583535, + "epoch": 0.2832, + "eta_time": 10.33627135344226, + "step": 2655 + }, + { + "epoch": 0.28330666666666665, + "grad_norm": 1.921834630966786, + "learning_rate": 8.41034974671132e-06, + "loss": 0.6703, + "step": 2656 + }, + { + "avg_step_time": 5.534506891712998, + "epoch": 0.28330666666666665, + "eta_time": 10.32954216817212, + "step": 2656 + }, + { + "epoch": 0.28341333333333335, + "grad_norm": 1.681489941162664, + "learning_rate": 8.409086260631434e-06, + "loss": 0.4531, + "step": 2657 + }, + { + "avg_step_time": 5.532685694068369, + "epoch": 0.28341333333333335, + "eta_time": 10.324606247986473, + "step": 2657 + }, + { + "epoch": 0.28352, + "grad_norm": 1.7078503678318984, + "learning_rate": 8.407822367618135e-06, + "loss": 0.5718, + "step": 2658 + }, + { + "avg_step_time": 5.595979919337263, + "epoch": 0.28352, + "eta_time": 10.441165866163443, + "step": 2658 + }, + { + "epoch": 0.2836266666666667, + "grad_norm": 1.6542122068640586, + "learning_rate": 8.406558067822294e-06, + "loss": 0.565, + "step": 2659 + }, + { + "avg_step_time": 5.595407550985163, + "epoch": 0.2836266666666667, + "eta_time": 10.438543642337878, + "step": 2659 + }, + { + "epoch": 0.28373333333333334, + "grad_norm": 1.8798089154669766, + "learning_rate": 8.405293361394825e-06, + "loss": 0.484, + "step": 2660 + }, + { + "avg_step_time": 5.627274549368656, + "epoch": 0.28373333333333334, + "eta_time": 10.496430166391814, + "step": 2660 + }, + { + "epoch": 0.28384, + "grad_norm": 0.6364076978107815, + "learning_rate": 8.40402824848669e-06, + "loss": 0.4291, + "step": 2661 + }, + { + "avg_step_time": 5.606807942342276, + "epoch": 0.28384, + "eta_time": 10.456696812468344, + "step": 2661 + }, + { + "epoch": 0.2839466666666667, + "grad_norm": 1.6542320741182954, + "learning_rate": 8.402762729248907e-06, + "loss": 0.5804, + "step": 2662 + }, + { + "avg_step_time": 5.607195293060457, + "epoch": 0.2839466666666667, + "eta_time": 10.455861667309678, + "step": 2662 + }, + { + "epoch": 0.2840533333333333, + "grad_norm": 1.7012798769170137, + "learning_rate": 8.401496803832534e-06, + "loss": 0.4779, + "step": 2663 + }, + { + "avg_step_time": 5.606626240894048, + "epoch": 0.2840533333333333, + "eta_time": 10.453243146911348, + "step": 2663 + }, + { + "epoch": 0.28416, + "grad_norm": 2.029863638343498, + "learning_rate": 8.400230472388684e-06, + "loss": 0.5261, + "step": 2664 + }, + { + "avg_step_time": 5.6060845972311615, + "epoch": 0.28416, + "eta_time": 10.450676036671757, + "step": 2664 + }, + { + "epoch": 0.28426666666666667, + "grad_norm": 1.771617086902507, + "learning_rate": 8.398963735068515e-06, + "loss": 0.5328, + "step": 2665 + }, + { + "avg_step_time": 5.605244590778543, + "epoch": 0.28426666666666667, + "eta_time": 10.447553112256674, + "step": 2665 + }, + { + "epoch": 0.2843733333333333, + "grad_norm": 1.5898488846151366, + "learning_rate": 8.39769659202323e-06, + "loss": 0.4902, + "step": 2666 + }, + { + "avg_step_time": 5.637767522021978, + "epoch": 0.2843733333333333, + "eta_time": 10.506606195901513, + "step": 2666 + }, + { + "epoch": 0.28448, + "grad_norm": 1.718187510490438, + "learning_rate": 8.396429043404088e-06, + "loss": 0.5725, + "step": 2667 + }, + { + "avg_step_time": 5.636280394563771, + "epoch": 0.28448, + "eta_time": 10.502269135203827, + "step": 2667 + }, + { + "epoch": 0.28458666666666665, + "grad_norm": 1.5499100522807634, + "learning_rate": 8.395161089362393e-06, + "loss": 0.4527, + "step": 2668 + }, + { + "avg_step_time": 5.6334590478376905, + "epoch": 0.28458666666666665, + "eta_time": 10.49544717606872, + "step": 2668 + }, + { + "epoch": 0.28469333333333335, + "grad_norm": 0.6770067444102256, + "learning_rate": 8.393892730049497e-06, + "loss": 0.4573, + "step": 2669 + }, + { + "avg_step_time": 5.596994286835796, + "epoch": 0.28469333333333335, + "eta_time": 10.425956579866902, + "step": 2669 + }, + { + "epoch": 0.2848, + "grad_norm": 1.9488044545774978, + "learning_rate": 8.3926239656168e-06, + "loss": 0.4996, + "step": 2670 + }, + { + "avg_step_time": 5.604615093481661, + "epoch": 0.2848, + "eta_time": 10.438595611609594, + "step": 2670 + }, + { + "epoch": 0.28490666666666664, + "grad_norm": 1.7552859262914955, + "learning_rate": 8.391354796215751e-06, + "loss": 0.5298, + "step": 2671 + }, + { + "avg_step_time": 5.584607244742037, + "epoch": 0.28490666666666664, + "eta_time": 10.399779713541838, + "step": 2671 + }, + { + "epoch": 0.28501333333333334, + "grad_norm": 1.8943739573252394, + "learning_rate": 8.390085221997849e-06, + "loss": 0.4966, + "step": 2672 + }, + { + "avg_step_time": 5.583310946069583, + "epoch": 0.28501333333333334, + "eta_time": 10.395814797640115, + "step": 2672 + }, + { + "epoch": 0.28512, + "grad_norm": 0.6367013040972582, + "learning_rate": 8.388815243114637e-06, + "loss": 0.4299, + "step": 2673 + }, + { + "avg_step_time": 5.542976540748519, + "epoch": 0.28512, + "eta_time": 10.319174660026826, + "step": 2673 + }, + { + "epoch": 0.2852266666666667, + "grad_norm": 1.6486750648895456, + "learning_rate": 8.387544859717709e-06, + "loss": 0.4102, + "step": 2674 + }, + { + "avg_step_time": 5.53915140604732, + "epoch": 0.2852266666666667, + "eta_time": 10.310514881089746, + "step": 2674 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 2.0586959893682457, + "learning_rate": 8.38627407195871e-06, + "loss": 0.5432, + "step": 2675 + }, + { + "avg_step_time": 5.534524238470829, + "epoch": 0.2853333333333333, + "eta_time": 10.300364554931821, + "step": 2675 + }, + { + "epoch": 0.28544, + "grad_norm": 1.6917603865832365, + "learning_rate": 8.385002879989328e-06, + "loss": 0.5199, + "step": 2676 + }, + { + "avg_step_time": 5.538562796332619, + "epoch": 0.28544, + "eta_time": 10.306342270175616, + "step": 2676 + }, + { + "epoch": 0.28554666666666667, + "grad_norm": 1.6065255356783248, + "learning_rate": 8.383731283961303e-06, + "loss": 0.4739, + "step": 2677 + }, + { + "avg_step_time": 5.595314047553322, + "epoch": 0.28554666666666667, + "eta_time": 10.410392636253375, + "step": 2677 + }, + { + "epoch": 0.2856533333333333, + "grad_norm": 1.4807020719018222, + "learning_rate": 8.382459284026421e-06, + "loss": 0.4922, + "step": 2678 + }, + { + "avg_step_time": 5.594157616297404, + "epoch": 0.2856533333333333, + "eta_time": 10.406687098984367, + "step": 2678 + }, + { + "epoch": 0.28576, + "grad_norm": 1.784055163924983, + "learning_rate": 8.381186880336518e-06, + "loss": 0.5578, + "step": 2679 + }, + { + "avg_step_time": 5.576419078942501, + "epoch": 0.28576, + "eta_time": 10.372139486833051, + "step": 2679 + }, + { + "epoch": 0.28586666666666666, + "grad_norm": 1.8021725145787253, + "learning_rate": 8.379914073043477e-06, + "loss": 0.5756, + "step": 2680 + }, + { + "avg_step_time": 5.57601117365288, + "epoch": 0.28586666666666666, + "eta_time": 10.369831891001676, + "step": 2680 + }, + { + "epoch": 0.28597333333333336, + "grad_norm": 1.6560220978595932, + "learning_rate": 8.37864086229923e-06, + "loss": 0.5766, + "step": 2681 + }, + { + "avg_step_time": 5.583116422999989, + "epoch": 0.28597333333333336, + "eta_time": 10.381494815433868, + "step": 2681 + }, + { + "epoch": 0.28608, + "grad_norm": 1.8703037481073979, + "learning_rate": 8.377367248255757e-06, + "loss": 0.5326, + "step": 2682 + }, + { + "avg_step_time": 5.578424521166869, + "epoch": 0.28608, + "eta_time": 10.371220922269403, + "step": 2682 + }, + { + "epoch": 0.28618666666666664, + "grad_norm": 1.7867507857451466, + "learning_rate": 8.376093231065084e-06, + "loss": 0.4726, + "step": 2683 + }, + { + "avg_step_time": 5.578397302916556, + "epoch": 0.28618666666666664, + "eta_time": 10.36962076419933, + "step": 2683 + }, + { + "epoch": 0.28629333333333334, + "grad_norm": 0.6777200771905687, + "learning_rate": 8.374818810879288e-06, + "loss": 0.4817, + "step": 2684 + }, + { + "avg_step_time": 5.5407769150204125, + "epoch": 0.28629333333333334, + "eta_time": 10.298149538444884, + "step": 2684 + }, + { + "epoch": 0.2864, + "grad_norm": 1.7360872015429152, + "learning_rate": 8.373543987850494e-06, + "loss": 0.5049, + "step": 2685 + }, + { + "avg_step_time": 5.539216357048112, + "epoch": 0.2864, + "eta_time": 10.293710396847741, + "step": 2685 + }, + { + "epoch": 0.2865066666666667, + "grad_norm": 1.4863238298605967, + "learning_rate": 8.372268762130874e-06, + "loss": 0.4061, + "step": 2686 + }, + { + "avg_step_time": 5.573885356537019, + "epoch": 0.2865066666666667, + "eta_time": 10.356588652743367, + "step": 2686 + }, + { + "epoch": 0.28661333333333333, + "grad_norm": 1.3701362400654788, + "learning_rate": 8.370993133872648e-06, + "loss": 0.4523, + "step": 2687 + }, + { + "avg_step_time": 5.571794473763668, + "epoch": 0.28661333333333333, + "eta_time": 10.35115595570317, + "step": 2687 + }, + { + "epoch": 0.28672, + "grad_norm": 1.6695509701090532, + "learning_rate": 8.369717103228084e-06, + "loss": 0.5598, + "step": 2688 + }, + { + "avg_step_time": 5.6000263040716, + "epoch": 0.28672, + "eta_time": 10.402048859812997, + "step": 2688 + }, + { + "epoch": 0.2868266666666667, + "grad_norm": 2.092928606798798, + "learning_rate": 8.368440670349498e-06, + "loss": 0.4789, + "step": 2689 + }, + { + "avg_step_time": 5.574509302775065, + "epoch": 0.2868266666666667, + "eta_time": 10.353102555098358, + "step": 2689 + }, + { + "epoch": 0.2869333333333333, + "grad_norm": 1.575234032361591, + "learning_rate": 8.367163835389253e-06, + "loss": 0.4395, + "step": 2690 + }, + { + "avg_step_time": 5.601731478565871, + "epoch": 0.2869333333333333, + "eta_time": 10.402104148392457, + "step": 2690 + }, + { + "epoch": 0.28704, + "grad_norm": 1.7325851170311761, + "learning_rate": 8.365886598499766e-06, + "loss": 0.5561, + "step": 2691 + }, + { + "avg_step_time": 5.600987716154619, + "epoch": 0.28704, + "eta_time": 10.399167192993742, + "step": 2691 + }, + { + "epoch": 0.28714666666666666, + "grad_norm": 1.5493551489873751, + "learning_rate": 8.364608959833495e-06, + "loss": 0.5449, + "step": 2692 + }, + { + "avg_step_time": 5.61204577455617, + "epoch": 0.28714666666666666, + "eta_time": 10.418139419821912, + "step": 2692 + }, + { + "epoch": 0.28725333333333336, + "grad_norm": 1.8506333600871152, + "learning_rate": 8.363330919542944e-06, + "loss": 0.6099, + "step": 2693 + }, + { + "avg_step_time": 5.676256336347021, + "epoch": 0.28725333333333336, + "eta_time": 10.535762455408554, + "step": 2693 + }, + { + "epoch": 0.28736, + "grad_norm": 1.5113734847736342, + "learning_rate": 8.362052477780677e-06, + "loss": 0.5239, + "step": 2694 + }, + { + "avg_step_time": 5.68536103614653, + "epoch": 0.28736, + "eta_time": 10.551082522915268, + "step": 2694 + }, + { + "epoch": 0.28746666666666665, + "grad_norm": 1.7696952250101718, + "learning_rate": 8.360773634699291e-06, + "loss": 0.4534, + "step": 2695 + }, + { + "avg_step_time": 5.702536953820123, + "epoch": 0.28746666666666665, + "eta_time": 10.581374125421783, + "step": 2695 + }, + { + "epoch": 0.28757333333333335, + "grad_norm": 2.07131381154404, + "learning_rate": 8.359494390451442e-06, + "loss": 0.5505, + "step": 2696 + }, + { + "avg_step_time": 5.704159772757328, + "epoch": 0.28757333333333335, + "eta_time": 10.58280086729061, + "step": 2696 + }, + { + "epoch": 0.28768, + "grad_norm": 1.4838315667066475, + "learning_rate": 8.35821474518983e-06, + "loss": 0.4623, + "step": 2697 + }, + { + "avg_step_time": 5.731700499852498, + "epoch": 0.28768, + "eta_time": 10.632304427226385, + "step": 2697 + }, + { + "epoch": 0.2877866666666667, + "grad_norm": 1.5438181437131044, + "learning_rate": 8.3569346990672e-06, + "loss": 0.4751, + "step": 2698 + }, + { + "avg_step_time": 5.738201803631252, + "epoch": 0.2877866666666667, + "eta_time": 10.64277040079052, + "step": 2698 + }, + { + "epoch": 0.28789333333333333, + "grad_norm": 1.704739029945513, + "learning_rate": 8.355654252236352e-06, + "loss": 0.4197, + "step": 2699 + }, + { + "avg_step_time": 5.742319853618891, + "epoch": 0.28789333333333333, + "eta_time": 10.648813150766587, + "step": 2699 + }, + { + "epoch": 0.288, + "grad_norm": 1.6386483063305703, + "learning_rate": 8.354373404850124e-06, + "loss": 0.4337, + "step": 2700 + }, + { + "avg_step_time": 5.741534379997638, + "epoch": 0.288, + "eta_time": 10.645761662912289, + "step": 2700 + }, + { + "epoch": 0.2881066666666667, + "grad_norm": 1.6291875037977408, + "learning_rate": 8.353092157061412e-06, + "loss": 0.48, + "step": 2701 + }, + { + "avg_step_time": 5.741419320154672, + "epoch": 0.2881066666666667, + "eta_time": 10.643953484086746, + "step": 2701 + }, + { + "epoch": 0.2882133333333333, + "grad_norm": 0.6987201023131797, + "learning_rate": 8.351810509023153e-06, + "loss": 0.4501, + "step": 2702 + }, + { + "avg_step_time": 5.733131880712027, + "epoch": 0.2882133333333333, + "eta_time": 10.626996955553153, + "step": 2702 + }, + { + "epoch": 0.28832, + "grad_norm": 1.7162100059129273, + "learning_rate": 8.350528460888334e-06, + "loss": 0.5524, + "step": 2703 + }, + { + "avg_step_time": 5.7383341789245605, + "epoch": 0.28832, + "eta_time": 10.635046011606851, + "step": 2703 + }, + { + "epoch": 0.28842666666666666, + "grad_norm": 1.7835394682022485, + "learning_rate": 8.349246012809991e-06, + "loss": 0.5626, + "step": 2704 + }, + { + "avg_step_time": 5.7328132692009515, + "epoch": 0.28842666666666666, + "eta_time": 10.623221477455429, + "step": 2704 + }, + { + "epoch": 0.2885333333333333, + "grad_norm": 1.7899533288506564, + "learning_rate": 8.347963164941204e-06, + "loss": 0.5271, + "step": 2705 + }, + { + "avg_step_time": 5.7516874255556045, + "epoch": 0.2885333333333333, + "eta_time": 10.6565986467933, + "step": 2705 + }, + { + "epoch": 0.28864, + "grad_norm": 1.6368538155982222, + "learning_rate": 8.346679917435104e-06, + "loss": 0.5765, + "step": 2706 + }, + { + "avg_step_time": 5.733477130080715, + "epoch": 0.28864, + "eta_time": 10.621266383474524, + "step": 2706 + }, + { + "epoch": 0.28874666666666665, + "grad_norm": 1.9309191966855082, + "learning_rate": 8.345396270444868e-06, + "loss": 0.5261, + "step": 2707 + }, + { + "avg_step_time": 5.732942819595337, + "epoch": 0.28874666666666665, + "eta_time": 10.618684089183807, + "step": 2707 + }, + { + "epoch": 0.28885333333333335, + "grad_norm": 1.557364522723775, + "learning_rate": 8.344112224123723e-06, + "loss": 0.4495, + "step": 2708 + }, + { + "avg_step_time": 5.750692521682893, + "epoch": 0.28885333333333335, + "eta_time": 10.649963067238847, + "step": 2708 + }, + { + "epoch": 0.28896, + "grad_norm": 1.2251094664362798, + "learning_rate": 8.342827778624943e-06, + "loss": 0.3886, + "step": 2709 + }, + { + "avg_step_time": 5.748556353829124, + "epoch": 0.28896, + "eta_time": 10.64441018184026, + "step": 2709 + }, + { + "epoch": 0.2890666666666667, + "grad_norm": 1.666080956290081, + "learning_rate": 8.341542934101847e-06, + "loss": 0.5121, + "step": 2710 + }, + { + "avg_step_time": 5.775214024264403, + "epoch": 0.2890666666666667, + "eta_time": 10.692167075478402, + "step": 2710 + }, + { + "epoch": 0.28917333333333334, + "grad_norm": 1.778754036725495, + "learning_rate": 8.340257690707805e-06, + "loss": 0.4944, + "step": 2711 + }, + { + "avg_step_time": 5.7500415040989115, + "epoch": 0.28917333333333334, + "eta_time": 10.64396571758754, + "step": 2711 + }, + { + "epoch": 0.28928, + "grad_norm": 1.9547531421543018, + "learning_rate": 8.33897204859623e-06, + "loss": 0.5073, + "step": 2712 + }, + { + "avg_step_time": 5.742320275065874, + "epoch": 0.28928, + "eta_time": 10.628077775767757, + "step": 2712 + }, + { + "epoch": 0.2893866666666667, + "grad_norm": 1.7093607238131587, + "learning_rate": 8.337686007920586e-06, + "loss": 0.4882, + "step": 2713 + }, + { + "avg_step_time": 5.741092397709085, + "epoch": 0.2893866666666667, + "eta_time": 10.624210431538312, + "step": 2713 + }, + { + "epoch": 0.2894933333333333, + "grad_norm": 1.8286769931061755, + "learning_rate": 8.33639956883439e-06, + "loss": 0.5262, + "step": 2714 + }, + { + "avg_step_time": 5.7419825876602015, + "epoch": 0.2894933333333333, + "eta_time": 10.624262782334613, + "step": 2714 + }, + { + "epoch": 0.2896, + "grad_norm": 1.599302186000924, + "learning_rate": 8.335112731491192e-06, + "loss": 0.4912, + "step": 2715 + }, + { + "avg_step_time": 5.738405018141775, + "epoch": 0.2896, + "eta_time": 10.616049283562285, + "step": 2715 + }, + { + "epoch": 0.28970666666666667, + "grad_norm": 1.635759493849539, + "learning_rate": 8.333825496044605e-06, + "loss": 0.4792, + "step": 2716 + }, + { + "avg_step_time": 5.742475919049196, + "epoch": 0.28970666666666667, + "eta_time": 10.621985318041276, + "step": 2716 + }, + { + "epoch": 0.2898133333333333, + "grad_norm": 0.6544987696503289, + "learning_rate": 8.33253786264828e-06, + "loss": 0.4545, + "step": 2717 + }, + { + "avg_step_time": 5.730858412655917, + "epoch": 0.2898133333333333, + "eta_time": 10.598904253184193, + "step": 2717 + }, + { + "epoch": 0.28992, + "grad_norm": 1.9015906589637674, + "learning_rate": 8.331249831455921e-06, + "loss": 0.4568, + "step": 2718 + }, + { + "avg_step_time": 5.7660694579885465, + "epoch": 0.28992, + "eta_time": 10.662423439397156, + "step": 2718 + }, + { + "epoch": 0.29002666666666665, + "grad_norm": 1.9096278562420261, + "learning_rate": 8.329961402621274e-06, + "loss": 0.4832, + "step": 2719 + }, + { + "avg_step_time": 5.752224941446324, + "epoch": 0.29002666666666665, + "eta_time": 10.635224780629647, + "step": 2719 + }, + { + "epoch": 0.29013333333333335, + "grad_norm": 1.9069583635130185, + "learning_rate": 8.328672576298133e-06, + "loss": 0.4853, + "step": 2720 + }, + { + "avg_step_time": 5.752099427309903, + "epoch": 0.29013333333333335, + "eta_time": 10.633394913540947, + "step": 2720 + }, + { + "epoch": 0.29024, + "grad_norm": 1.4948205278643099, + "learning_rate": 8.327383352640347e-06, + "loss": 0.4462, + "step": 2721 + }, + { + "avg_step_time": 5.750725902692236, + "epoch": 0.29024, + "eta_time": 10.629258376809483, + "step": 2721 + }, + { + "epoch": 0.29034666666666664, + "grad_norm": 1.675315888298502, + "learning_rate": 8.326093731801805e-06, + "loss": 0.4751, + "step": 2722 + }, + { + "avg_step_time": 5.818342868727867, + "epoch": 0.29034666666666664, + "eta_time": 10.752620862679581, + "step": 2722 + }, + { + "epoch": 0.29045333333333334, + "grad_norm": 0.6181437175666772, + "learning_rate": 8.324803713936445e-06, + "loss": 0.4233, + "step": 2723 + }, + { + "avg_step_time": 5.7881605914144805, + "epoch": 0.29045333333333334, + "eta_time": 10.695234515024758, + "step": 2723 + }, + { + "epoch": 0.29056, + "grad_norm": 2.519628970854268, + "learning_rate": 8.323513299198252e-06, + "loss": 0.5216, + "step": 2724 + }, + { + "avg_step_time": 5.842307938469781, + "epoch": 0.29056, + "eta_time": 10.79366391632292, + "step": 2724 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 1.522459390554283, + "learning_rate": 8.322222487741261e-06, + "loss": 0.5574, + "step": 2725 + }, + { + "avg_step_time": 5.838052470274646, + "epoch": 0.2906666666666667, + "eta_time": 10.784180257590666, + "step": 2725 + }, + { + "epoch": 0.29077333333333333, + "grad_norm": 1.8376727799241899, + "learning_rate": 8.320931279719553e-06, + "loss": 0.4652, + "step": 2726 + }, + { + "avg_step_time": 5.837321377763844, + "epoch": 0.29077333333333333, + "eta_time": 10.781208289097721, + "step": 2726 + }, + { + "epoch": 0.29088, + "grad_norm": 1.4152829134335234, + "learning_rate": 8.319639675287255e-06, + "loss": 0.4511, + "step": 2727 + }, + { + "avg_step_time": 5.888133215181755, + "epoch": 0.29088, + "eta_time": 10.873419337368974, + "step": 2727 + }, + { + "epoch": 0.29098666666666667, + "grad_norm": 1.7175559581801816, + "learning_rate": 8.318347674598544e-06, + "loss": 0.4482, + "step": 2728 + }, + { + "avg_step_time": 5.87824165700662, + "epoch": 0.29098666666666667, + "eta_time": 10.853520081700834, + "step": 2728 + }, + { + "epoch": 0.2910933333333333, + "grad_norm": 1.9960323210946813, + "learning_rate": 8.317055277807639e-06, + "loss": 0.5784, + "step": 2729 + }, + { + "avg_step_time": 5.875579005540019, + "epoch": 0.2910933333333333, + "eta_time": 10.846971686338602, + "step": 2729 + }, + { + "epoch": 0.2912, + "grad_norm": 1.582869331180867, + "learning_rate": 8.315762485068815e-06, + "loss": 0.5097, + "step": 2730 + }, + { + "avg_step_time": 5.872673988342285, + "epoch": 0.2912, + "eta_time": 10.839977403481802, + "step": 2730 + }, + { + "epoch": 0.29130666666666666, + "grad_norm": 2.285232199115943, + "learning_rate": 8.314469296536384e-06, + "loss": 0.5245, + "step": 2731 + }, + { + "avg_step_time": 5.879650469982263, + "epoch": 0.29130666666666666, + "eta_time": 10.851221589600598, + "step": 2731 + }, + { + "epoch": 0.29141333333333336, + "grad_norm": 1.6465099131302643, + "learning_rate": 8.313175712364712e-06, + "loss": 0.4546, + "step": 2732 + }, + { + "avg_step_time": 5.8764659057963975, + "epoch": 0.29141333333333336, + "eta_time": 10.843711947834851, + "step": 2732 + }, + { + "epoch": 0.29152, + "grad_norm": 1.6399825260489205, + "learning_rate": 8.311881732708213e-06, + "loss": 0.5136, + "step": 2733 + }, + { + "avg_step_time": 5.877384718018349, + "epoch": 0.29152, + "eta_time": 10.843774804743854, + "step": 2733 + }, + { + "epoch": 0.29162666666666665, + "grad_norm": 0.6257130908539799, + "learning_rate": 8.310587357721345e-06, + "loss": 0.4667, + "step": 2734 + }, + { + "avg_step_time": 5.843548969788984, + "epoch": 0.29162666666666665, + "eta_time": 10.779724641213512, + "step": 2734 + }, + { + "epoch": 0.29173333333333334, + "grad_norm": 2.0022801449048373, + "learning_rate": 8.309292587558612e-06, + "loss": 0.6108, + "step": 2735 + }, + { + "avg_step_time": 5.844635130179049, + "epoch": 0.29173333333333334, + "eta_time": 10.78010479566358, + "step": 2735 + }, + { + "epoch": 0.29184, + "grad_norm": 1.5163666169597025, + "learning_rate": 8.307997422374569e-06, + "loss": 0.5324, + "step": 2736 + }, + { + "avg_step_time": 5.845004746408174, + "epoch": 0.29184, + "eta_time": 10.779162919834409, + "step": 2736 + }, + { + "epoch": 0.2919466666666667, + "grad_norm": 0.6498163329757372, + "learning_rate": 8.306701862323815e-06, + "loss": 0.4398, + "step": 2737 + }, + { + "avg_step_time": 5.810227259240969, + "epoch": 0.2919466666666667, + "eta_time": 10.713413485233765, + "step": 2737 + }, + { + "epoch": 0.29205333333333333, + "grad_norm": 1.5238130869592923, + "learning_rate": 8.305405907560999e-06, + "loss": 0.5369, + "step": 2738 + }, + { + "avg_step_time": 5.814514658667824, + "epoch": 0.29205333333333333, + "eta_time": 10.71970383043843, + "step": 2738 + }, + { + "epoch": 0.29216, + "grad_norm": 1.5509850373208494, + "learning_rate": 8.304109558240817e-06, + "loss": 0.574, + "step": 2739 + }, + { + "avg_step_time": 5.81151171404906, + "epoch": 0.29216, + "eta_time": 10.712553259563768, + "step": 2739 + }, + { + "epoch": 0.2922666666666667, + "grad_norm": 1.6113596497442348, + "learning_rate": 8.302812814518006e-06, + "loss": 0.4851, + "step": 2740 + }, + { + "avg_step_time": 5.809636990229289, + "epoch": 0.2922666666666667, + "eta_time": 10.707483730603148, + "step": 2740 + }, + { + "epoch": 0.2923733333333333, + "grad_norm": 1.6465649819388204, + "learning_rate": 8.301515676547358e-06, + "loss": 0.5014, + "step": 2741 + }, + { + "avg_step_time": 5.80737649069892, + "epoch": 0.2923733333333333, + "eta_time": 10.701704344249064, + "step": 2741 + }, + { + "epoch": 0.29248, + "grad_norm": 1.8821928677078161, + "learning_rate": 8.300218144483709e-06, + "loss": 0.5059, + "step": 2742 + }, + { + "avg_step_time": 5.807502898302945, + "epoch": 0.29248, + "eta_time": 10.700324090123177, + "step": 2742 + }, + { + "epoch": 0.29258666666666666, + "grad_norm": 0.6739291728801265, + "learning_rate": 8.298920218481941e-06, + "loss": 0.4735, + "step": 2743 + }, + { + "avg_step_time": 5.77384401571871, + "epoch": 0.29258666666666666, + "eta_time": 10.636703753401802, + "step": 2743 + }, + { + "epoch": 0.29269333333333336, + "grad_norm": 1.5684455273311468, + "learning_rate": 8.297621898696984e-06, + "loss": 0.4124, + "step": 2744 + }, + { + "avg_step_time": 5.793767235495827, + "epoch": 0.29269333333333336, + "eta_time": 10.671797371825786, + "step": 2744 + }, + { + "epoch": 0.2928, + "grad_norm": 0.6476747838816829, + "learning_rate": 8.296323185283816e-06, + "loss": 0.4319, + "step": 2745 + }, + { + "avg_step_time": 5.792687476283372, + "epoch": 0.2928, + "eta_time": 10.668199435488544, + "step": 2745 + }, + { + "epoch": 0.29290666666666665, + "grad_norm": 1.7220170148865241, + "learning_rate": 8.29502407839746e-06, + "loss": 0.5812, + "step": 2746 + }, + { + "avg_step_time": 5.7965256878823945, + "epoch": 0.29290666666666665, + "eta_time": 10.673657995825666, + "step": 2746 + }, + { + "epoch": 0.29301333333333335, + "grad_norm": 1.857256108461838, + "learning_rate": 8.293724578192986e-06, + "loss": 0.5391, + "step": 2747 + }, + { + "avg_step_time": 5.827436733727503, + "epoch": 0.29301333333333335, + "eta_time": 10.728958519762747, + "step": 2747 + }, + { + "epoch": 0.29312, + "grad_norm": 1.8843239734452482, + "learning_rate": 8.292424684825514e-06, + "loss": 0.622, + "step": 2748 + }, + { + "avg_step_time": 5.844608063649649, + "epoch": 0.29312, + "eta_time": 10.758949343835061, + "step": 2748 + }, + { + "epoch": 0.2932266666666667, + "grad_norm": 1.7062455020981382, + "learning_rate": 8.291124398450204e-06, + "loss": 0.5812, + "step": 2749 + }, + { + "avg_step_time": 5.8497799719222865, + "epoch": 0.2932266666666667, + "eta_time": 10.766845026099185, + "step": 2749 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 1.6858857136463417, + "learning_rate": 8.289823719222275e-06, + "loss": 0.5008, + "step": 2750 + }, + { + "avg_step_time": 5.84688860960681, + "epoch": 0.29333333333333333, + "eta_time": 10.75989917740142, + "step": 2750 + }, + { + "epoch": 0.29344, + "grad_norm": 1.9706552601465965, + "learning_rate": 8.28852264729698e-06, + "loss": 0.6392, + "step": 2751 + }, + { + "avg_step_time": 5.847444108038237, + "epoch": 0.29344, + "eta_time": 10.759297158790357, + "step": 2751 + }, + { + "epoch": 0.2935466666666667, + "grad_norm": 1.5950513503017045, + "learning_rate": 8.287221182829626e-06, + "loss": 0.4868, + "step": 2752 + }, + { + "avg_step_time": 5.850032688391329, + "epoch": 0.2935466666666667, + "eta_time": 10.762435137559937, + "step": 2752 + }, + { + "epoch": 0.2936533333333333, + "grad_norm": 1.586815425949439, + "learning_rate": 8.285919325975566e-06, + "loss": 0.5117, + "step": 2753 + }, + { + "avg_step_time": 5.910764778503264, + "epoch": 0.2936533333333333, + "eta_time": 10.872523434235726, + "step": 2753 + }, + { + "epoch": 0.29376, + "grad_norm": 1.876638567526576, + "learning_rate": 8.284617076890199e-06, + "loss": 0.5978, + "step": 2754 + }, + { + "avg_step_time": 5.9478359607735065, + "epoch": 0.29376, + "eta_time": 10.939061637855941, + "step": 2754 + }, + { + "epoch": 0.29386666666666666, + "grad_norm": 0.7061397242704612, + "learning_rate": 8.283314435728968e-06, + "loss": 0.4623, + "step": 2755 + }, + { + "avg_step_time": 5.91825594564881, + "epoch": 0.29386666666666666, + "eta_time": 10.883015100054202, + "step": 2755 + }, + { + "epoch": 0.2939733333333333, + "grad_norm": 1.6487013492661473, + "learning_rate": 8.28201140264737e-06, + "loss": 0.5697, + "step": 2756 + }, + { + "avg_step_time": 5.9233414139410465, + "epoch": 0.2939733333333333, + "eta_time": 10.890721338576606, + "step": 2756 + }, + { + "epoch": 0.29408, + "grad_norm": 1.3805381022654717, + "learning_rate": 8.280707977800944e-06, + "loss": 0.3943, + "step": 2757 + }, + { + "avg_step_time": 5.864841280561505, + "epoch": 0.29408, + "eta_time": 10.781533220765567, + "step": 2757 + }, + { + "epoch": 0.29418666666666665, + "grad_norm": 1.6990662249908468, + "learning_rate": 8.279404161345275e-06, + "loss": 0.5732, + "step": 2758 + }, + { + "avg_step_time": 5.8649296134409274, + "epoch": 0.29418666666666665, + "eta_time": 10.780066458927394, + "step": 2758 + }, + { + "epoch": 0.29429333333333335, + "grad_norm": 1.8960183181687351, + "learning_rate": 8.278099953435995e-06, + "loss": 0.5147, + "step": 2759 + }, + { + "avg_step_time": 5.864367367041232, + "epoch": 0.29429333333333335, + "eta_time": 10.777404027873553, + "step": 2759 + }, + { + "epoch": 0.2944, + "grad_norm": 1.7622349232618713, + "learning_rate": 8.276795354228785e-06, + "loss": 0.4912, + "step": 2760 + }, + { + "avg_step_time": 5.870169177199855, + "epoch": 0.2944, + "eta_time": 10.786435863104733, + "step": 2760 + }, + { + "epoch": 0.2945066666666667, + "grad_norm": 1.6759030687931482, + "learning_rate": 8.275490363879372e-06, + "loss": 0.4547, + "step": 2761 + }, + { + "avg_step_time": 5.870818359683258, + "epoch": 0.2945066666666667, + "eta_time": 10.785997953040296, + "step": 2761 + }, + { + "epoch": 0.29461333333333334, + "grad_norm": 1.9168363971241527, + "learning_rate": 8.274184982543527e-06, + "loss": 0.4408, + "step": 2762 + }, + { + "avg_step_time": 5.869482206575798, + "epoch": 0.29461333333333334, + "eta_time": 10.781912731134932, + "step": 2762 + }, + { + "epoch": 0.29472, + "grad_norm": 1.9191956032696675, + "learning_rate": 8.272879210377074e-06, + "loss": 0.522, + "step": 2763 + }, + { + "avg_step_time": 5.868701443527684, + "epoch": 0.29472, + "eta_time": 10.778848317945846, + "step": 2763 + }, + { + "epoch": 0.2948266666666667, + "grad_norm": 1.906813691876844, + "learning_rate": 8.271573047535875e-06, + "loss": 0.5933, + "step": 2764 + }, + { + "avg_step_time": 5.866938013018983, + "epoch": 0.2948266666666667, + "eta_time": 10.773979778907917, + "step": 2764 + }, + { + "epoch": 0.2949333333333333, + "grad_norm": 1.5421145930004179, + "learning_rate": 8.270266494175847e-06, + "loss": 0.4986, + "step": 2765 + }, + { + "avg_step_time": 5.894320215841736, + "epoch": 0.2949333333333333, + "eta_time": 10.822626840753854, + "step": 2765 + }, + { + "epoch": 0.29504, + "grad_norm": 1.6068771658121421, + "learning_rate": 8.268959550452946e-06, + "loss": 0.5361, + "step": 2766 + }, + { + "avg_step_time": 5.894440638898599, + "epoch": 0.29504, + "eta_time": 10.821210606244678, + "step": 2766 + }, + { + "epoch": 0.29514666666666667, + "grad_norm": 1.9750066288536328, + "learning_rate": 8.26765221652318e-06, + "loss": 0.4896, + "step": 2767 + }, + { + "avg_step_time": 5.952306333214346, + "epoch": 0.29514666666666667, + "eta_time": 10.92578895830011, + "step": 2767 + }, + { + "epoch": 0.2952533333333333, + "grad_norm": 1.9898077728732906, + "learning_rate": 8.266344492542603e-06, + "loss": 0.4895, + "step": 2768 + }, + { + "avg_step_time": 5.998297662445993, + "epoch": 0.2952533333333333, + "eta_time": 11.00854240438352, + "step": 2768 + }, + { + "epoch": 0.29536, + "grad_norm": 1.637340441005352, + "learning_rate": 8.265036378667312e-06, + "loss": 0.4443, + "step": 2769 + }, + { + "avg_step_time": 5.99073226283295, + "epoch": 0.29536, + "eta_time": 10.992993702298463, + "step": 2769 + }, + { + "epoch": 0.29546666666666666, + "grad_norm": 1.7486382022421647, + "learning_rate": 8.263727875053457e-06, + "loss": 0.4667, + "step": 2770 + }, + { + "avg_step_time": 5.997850704674769, + "epoch": 0.29546666666666666, + "eta_time": 11.004389973438014, + "step": 2770 + }, + { + "epoch": 0.29557333333333335, + "grad_norm": 1.6371133712374442, + "learning_rate": 8.262418981857226e-06, + "loss": 0.5149, + "step": 2771 + }, + { + "avg_step_time": 6.004313194390499, + "epoch": 0.29557333333333335, + "eta_time": 11.014578982154125, + "step": 2771 + }, + { + "epoch": 0.29568, + "grad_norm": 1.514811794187229, + "learning_rate": 8.261109699234862e-06, + "loss": 0.4332, + "step": 2772 + }, + { + "avg_step_time": 6.062521399873676, + "epoch": 0.29568, + "eta_time": 11.119674667601634, + "step": 2772 + }, + { + "epoch": 0.29578666666666664, + "grad_norm": 0.6648065605670221, + "learning_rate": 8.259800027342645e-06, + "loss": 0.4682, + "step": 2773 + }, + { + "avg_step_time": 6.0320082409213285, + "epoch": 0.29578666666666664, + "eta_time": 11.062032890711837, + "step": 2773 + }, + { + "epoch": 0.29589333333333334, + "grad_norm": 0.6822557911587089, + "learning_rate": 8.258489966336915e-06, + "loss": 0.4464, + "step": 2774 + }, + { + "avg_step_time": 5.991670586846092, + "epoch": 0.29589333333333334, + "eta_time": 10.986393762158626, + "step": 2774 + }, + { + "epoch": 0.296, + "grad_norm": 1.7311006528378217, + "learning_rate": 8.257179516374045e-06, + "loss": 0.4315, + "step": 2775 + }, + { + "avg_step_time": 6.002459569410845, + "epoch": 0.296, + "eta_time": 11.004509210586548, + "step": 2775 + }, + { + "epoch": 0.2961066666666667, + "grad_norm": 1.6669366169951532, + "learning_rate": 8.25586867761046e-06, + "loss": 0.4524, + "step": 2776 + }, + { + "avg_step_time": 5.977213365863068, + "epoch": 0.2961066666666667, + "eta_time": 10.956564167036216, + "step": 2776 + }, + { + "epoch": 0.29621333333333333, + "grad_norm": 2.073315580619403, + "learning_rate": 8.25455745020263e-06, + "loss": 0.4799, + "step": 2777 + }, + { + "avg_step_time": 5.97762000440347, + "epoch": 0.29621333333333333, + "eta_time": 10.955649108070583, + "step": 2777 + }, + { + "epoch": 0.29632, + "grad_norm": 1.772971555701296, + "learning_rate": 8.253245834307079e-06, + "loss": 0.4652, + "step": 2778 + }, + { + "avg_step_time": 5.971052740559434, + "epoch": 0.29632, + "eta_time": 10.941954147075162, + "step": 2778 + }, + { + "epoch": 0.29642666666666667, + "grad_norm": 0.6564322027045539, + "learning_rate": 8.251933830080365e-06, + "loss": 0.4523, + "step": 2779 + }, + { + "avg_step_time": 5.940471138617005, + "epoch": 0.29642666666666667, + "eta_time": 10.884263230643823, + "step": 2779 + }, + { + "epoch": 0.2965333333333333, + "grad_norm": 1.996763731660423, + "learning_rate": 8.250621437679103e-06, + "loss": 0.5563, + "step": 2780 + }, + { + "avg_step_time": 5.927401552296648, + "epoch": 0.2965333333333333, + "eta_time": 10.858670343721222, + "step": 2780 + }, + { + "epoch": 0.29664, + "grad_norm": 1.7451678789142546, + "learning_rate": 8.249308657259943e-06, + "loss": 0.5561, + "step": 2781 + }, + { + "avg_step_time": 5.92938706369111, + "epoch": 0.29664, + "eta_time": 10.86066063832755, + "step": 2781 + }, + { + "epoch": 0.29674666666666666, + "grad_norm": 1.8453577445406462, + "learning_rate": 8.247995488979594e-06, + "loss": 0.5397, + "step": 2782 + }, + { + "avg_step_time": 5.929301377498742, + "epoch": 0.29674666666666666, + "eta_time": 10.85885666162478, + "step": 2782 + }, + { + "epoch": 0.29685333333333336, + "grad_norm": 0.6963054766526035, + "learning_rate": 8.246681932994804e-06, + "loss": 0.4841, + "step": 2783 + }, + { + "avg_step_time": 5.933035178617998, + "epoch": 0.29685333333333336, + "eta_time": 10.864046638180513, + "step": 2783 + }, + { + "epoch": 0.29696, + "grad_norm": 1.985012283460342, + "learning_rate": 8.245367989462368e-06, + "loss": 0.5261, + "step": 2784 + }, + { + "avg_step_time": 5.930505957266297, + "epoch": 0.29696, + "eta_time": 10.857767990095045, + "step": 2784 + }, + { + "epoch": 0.29706666666666665, + "grad_norm": 1.8899129296002481, + "learning_rate": 8.244053658539127e-06, + "loss": 0.5547, + "step": 2785 + }, + { + "avg_step_time": 5.929715387748949, + "epoch": 0.29706666666666665, + "eta_time": 10.854673445907105, + "step": 2785 + }, + { + "epoch": 0.29717333333333334, + "grad_norm": 1.8824975786989568, + "learning_rate": 8.24273894038197e-06, + "loss": 0.5171, + "step": 2786 + }, + { + "avg_step_time": 5.9263048870394925, + "epoch": 0.29717333333333334, + "eta_time": 10.846784139084228, + "step": 2786 + }, + { + "epoch": 0.29728, + "grad_norm": 1.644121872151026, + "learning_rate": 8.241423835147833e-06, + "loss": 0.4823, + "step": 2787 + }, + { + "avg_step_time": 5.929541756408383, + "epoch": 0.29728, + "eta_time": 10.851061414227342, + "step": 2787 + }, + { + "epoch": 0.2973866666666667, + "grad_norm": 1.7078327499536723, + "learning_rate": 8.240108342993694e-06, + "loss": 0.5721, + "step": 2788 + }, + { + "avg_step_time": 5.925656441486243, + "epoch": 0.2973866666666667, + "eta_time": 10.842305272241635, + "step": 2788 + }, + { + "epoch": 0.29749333333333333, + "grad_norm": 1.7822381597584072, + "learning_rate": 8.238792464076582e-06, + "loss": 0.4663, + "step": 2789 + }, + { + "avg_step_time": 5.95902467978121, + "epoch": 0.29749333333333333, + "eta_time": 10.901704594733069, + "step": 2789 + }, + { + "epoch": 0.2976, + "grad_norm": 1.7656258800185092, + "learning_rate": 8.237476198553567e-06, + "loss": 0.4959, + "step": 2790 + }, + { + "avg_step_time": 5.9594652074756045, + "epoch": 0.2976, + "eta_time": 10.900855108674126, + "step": 2790 + }, + { + "epoch": 0.2977066666666667, + "grad_norm": 1.940899898707634, + "learning_rate": 8.23615954658177e-06, + "loss": 0.4899, + "step": 2791 + }, + { + "avg_step_time": 5.946723160117563, + "epoch": 0.2977066666666667, + "eta_time": 10.875895912837233, + "step": 2791 + }, + { + "epoch": 0.2978133333333333, + "grad_norm": 1.395979046185085, + "learning_rate": 8.234842508318357e-06, + "loss": 0.4719, + "step": 2792 + }, + { + "avg_step_time": 5.886750743846701, + "epoch": 0.2978133333333333, + "eta_time": 10.764577818539676, + "step": 2792 + }, + { + "epoch": 0.29792, + "grad_norm": 1.652213113873854, + "learning_rate": 8.233525083920536e-06, + "loss": 0.5059, + "step": 2793 + }, + { + "avg_step_time": 5.884993141347712, + "epoch": 0.29792, + "eta_time": 10.759729126764066, + "step": 2793 + }, + { + "epoch": 0.29802666666666666, + "grad_norm": 1.5218851317165902, + "learning_rate": 8.23220727354557e-06, + "loss": 0.5159, + "step": 2794 + }, + { + "avg_step_time": 5.8775337199972135, + "epoch": 0.29802666666666666, + "eta_time": 10.744458169806016, + "step": 2794 + }, + { + "epoch": 0.2981333333333333, + "grad_norm": 1.7563149974826326, + "learning_rate": 8.230889077350755e-06, + "loss": 0.4807, + "step": 2795 + }, + { + "avg_step_time": 5.877005143599077, + "epoch": 0.2981333333333333, + "eta_time": 10.741859401356091, + "step": 2795 + }, + { + "epoch": 0.29824, + "grad_norm": 1.42220729645063, + "learning_rate": 8.229570495493447e-06, + "loss": 0.4376, + "step": 2796 + }, + { + "avg_step_time": 5.849904031464548, + "epoch": 0.29824, + "eta_time": 10.69069961750146, + "step": 2796 + }, + { + "epoch": 0.29834666666666665, + "grad_norm": 0.6463199525665982, + "learning_rate": 8.22825152813104e-06, + "loss": 0.4347, + "step": 2797 + }, + { + "avg_step_time": 5.823281056953199, + "epoch": 0.29834666666666665, + "eta_time": 10.640428553510596, + "step": 2797 + }, + { + "epoch": 0.29845333333333335, + "grad_norm": 1.6137630548990822, + "learning_rate": 8.226932175420972e-06, + "loss": 0.5598, + "step": 2798 + }, + { + "avg_step_time": 5.819639066253045, + "epoch": 0.29845333333333335, + "eta_time": 10.632157260762856, + "step": 2798 + }, + { + "epoch": 0.29856, + "grad_norm": 1.6604562466345976, + "learning_rate": 8.225612437520736e-06, + "loss": 0.4885, + "step": 2799 + }, + { + "avg_step_time": 5.8169882899582985, + "epoch": 0.29856, + "eta_time": 10.625698609657158, + "step": 2799 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 1.8759704077235493, + "learning_rate": 8.224292314587862e-06, + "loss": 0.5649, + "step": 2800 + }, + { + "avg_step_time": 5.8261763567876335, + "epoch": 0.2986666666666667, + "eta_time": 10.64086376274408, + "step": 2800 + }, + { + "epoch": 0.29877333333333334, + "grad_norm": 1.5182524858624225, + "learning_rate": 8.222971806779929e-06, + "loss": 0.4865, + "step": 2801 + }, + { + "avg_step_time": 5.842831382847796, + "epoch": 0.29877333333333334, + "eta_time": 10.669659308567057, + "step": 2801 + }, + { + "epoch": 0.29888, + "grad_norm": 1.9634306391646272, + "learning_rate": 8.221650914254566e-06, + "loss": 0.5548, + "step": 2802 + }, + { + "avg_step_time": 5.863948036925962, + "epoch": 0.29888, + "eta_time": 10.706591790753986, + "step": 2802 + }, + { + "epoch": 0.2989866666666667, + "grad_norm": 1.7503830246683028, + "learning_rate": 8.220329637169441e-06, + "loss": 0.501, + "step": 2803 + }, + { + "avg_step_time": 5.869324245838204, + "epoch": 0.2989866666666667, + "eta_time": 10.714777484346854, + "step": 2803 + }, + { + "epoch": 0.2990933333333333, + "grad_norm": 1.6895602901415758, + "learning_rate": 8.219007975682273e-06, + "loss": 0.5359, + "step": 2804 + }, + { + "avg_step_time": 5.85656558142768, + "epoch": 0.2990933333333333, + "eta_time": 10.689859009878134, + "step": 2804 + }, + { + "epoch": 0.2992, + "grad_norm": 1.9270507476731626, + "learning_rate": 8.217685929950823e-06, + "loss": 0.4764, + "step": 2805 + }, + { + "avg_step_time": 5.871888430431635, + "epoch": 0.2992, + "eta_time": 10.716196385537735, + "step": 2805 + }, + { + "epoch": 0.29930666666666667, + "grad_norm": 1.462350372239947, + "learning_rate": 8.216363500132903e-06, + "loss": 0.5075, + "step": 2806 + }, + { + "avg_step_time": 5.882094267642859, + "epoch": 0.29930666666666667, + "eta_time": 10.733188123373873, + "step": 2806 + }, + { + "epoch": 0.2994133333333333, + "grad_norm": 2.5425827579829656, + "learning_rate": 8.215040686386367e-06, + "loss": 0.5018, + "step": 2807 + }, + { + "avg_step_time": 5.8659107540593, + "epoch": 0.2994133333333333, + "eta_time": 10.702028286850412, + "step": 2807 + }, + { + "epoch": 0.29952, + "grad_norm": 1.886423964275457, + "learning_rate": 8.213717488869113e-06, + "loss": 0.5859, + "step": 2808 + }, + { + "avg_step_time": 5.867563452383484, + "epoch": 0.29952, + "eta_time": 10.703413664389538, + "step": 2808 + }, + { + "epoch": 0.29962666666666665, + "grad_norm": 1.8081639440239887, + "learning_rate": 8.21239390773909e-06, + "loss": 0.5479, + "step": 2809 + }, + { + "avg_step_time": 5.8411434371062, + "epoch": 0.29962666666666665, + "eta_time": 10.653596613344252, + "step": 2809 + }, + { + "epoch": 0.29973333333333335, + "grad_norm": 1.6112968642359553, + "learning_rate": 8.211069943154292e-06, + "loss": 0.4158, + "step": 2810 + }, + { + "avg_step_time": 5.854625843992137, + "epoch": 0.29973333333333335, + "eta_time": 10.676560740502328, + "step": 2810 + }, + { + "epoch": 0.29984, + "grad_norm": 0.6925498389949809, + "learning_rate": 8.209745595272755e-06, + "loss": 0.4945, + "step": 2811 + }, + { + "avg_step_time": 5.821389080298068, + "epoch": 0.29984, + "eta_time": 10.614332756410143, + "step": 2811 + }, + { + "epoch": 0.29994666666666664, + "grad_norm": 1.6953791051411184, + "learning_rate": 8.208420864252562e-06, + "loss": 0.4665, + "step": 2812 + }, + { + "avg_step_time": 5.82537016964922, + "epoch": 0.29994666666666664, + "eta_time": 10.61997345094662, + "step": 2812 + }, + { + "epoch": 0.30005333333333334, + "grad_norm": 1.644832404355298, + "learning_rate": 8.207095750251843e-06, + "loss": 0.4586, + "step": 2813 + }, + { + "avg_step_time": 5.824297941092289, + "epoch": 0.30005333333333334, + "eta_time": 10.616400858179889, + "step": 2813 + }, + { + "epoch": 0.30016, + "grad_norm": 1.7519698654979832, + "learning_rate": 8.205770253428775e-06, + "loss": 0.4177, + "step": 2814 + }, + { + "avg_step_time": 5.825169888409701, + "epoch": 0.30016, + "eta_time": 10.61637212162668, + "step": 2814 + }, + { + "epoch": 0.3002666666666667, + "grad_norm": 1.7267763932670197, + "learning_rate": 8.204444373941576e-06, + "loss": 0.5292, + "step": 2815 + }, + { + "avg_step_time": 5.826812320285374, + "epoch": 0.3002666666666667, + "eta_time": 10.617746894742238, + "step": 2815 + }, + { + "epoch": 0.3003733333333333, + "grad_norm": 1.6488667822403122, + "learning_rate": 8.203118111948516e-06, + "loss": 0.5301, + "step": 2816 + }, + { + "avg_step_time": 5.837140454186334, + "epoch": 0.3003733333333333, + "eta_time": 10.634945621946711, + "step": 2816 + }, + { + "epoch": 0.30048, + "grad_norm": 0.6510983033265036, + "learning_rate": 8.201791467607905e-06, + "loss": 0.4689, + "step": 2817 + }, + { + "avg_step_time": 5.801964745377049, + "epoch": 0.30048, + "eta_time": 10.569245777828524, + "step": 2817 + }, + { + "epoch": 0.30058666666666667, + "grad_norm": 1.6956727372632243, + "learning_rate": 8.2004644410781e-06, + "loss": 0.5323, + "step": 2818 + }, + { + "avg_step_time": 5.786248091495398, + "epoch": 0.30058666666666667, + "eta_time": 10.539007982204257, + "step": 2818 + }, + { + "epoch": 0.3006933333333333, + "grad_norm": 1.7542224116438563, + "learning_rate": 8.199137032517507e-06, + "loss": 0.5261, + "step": 2819 + }, + { + "avg_step_time": 5.780329952336321, + "epoch": 0.3006933333333333, + "eta_time": 10.526623102088033, + "step": 2819 + }, + { + "epoch": 0.3008, + "grad_norm": 1.699799502399115, + "learning_rate": 8.197809242084575e-06, + "loss": 0.6165, + "step": 2820 + }, + { + "avg_step_time": 5.780598459821759, + "epoch": 0.3008, + "eta_time": 10.525506362258787, + "step": 2820 + }, + { + "epoch": 0.30090666666666666, + "grad_norm": 1.5604115060620236, + "learning_rate": 8.1964810699378e-06, + "loss": 0.4465, + "step": 2821 + }, + { + "avg_step_time": 5.745529516778811, + "epoch": 0.30090666666666666, + "eta_time": 10.46005568138009, + "step": 2821 + }, + { + "epoch": 0.30101333333333335, + "grad_norm": 1.876337399722697, + "learning_rate": 8.195152516235718e-06, + "loss": 0.4581, + "step": 2822 + }, + { + "avg_step_time": 5.781012889110681, + "epoch": 0.30101333333333335, + "eta_time": 10.523049295095081, + "step": 2822 + }, + { + "epoch": 0.30112, + "grad_norm": 1.6215050927945158, + "learning_rate": 8.193823581136919e-06, + "loss": 0.5319, + "step": 2823 + }, + { + "avg_step_time": 5.759385631542013, + "epoch": 0.30112, + "eta_time": 10.482081849406464, + "step": 2823 + }, + { + "epoch": 0.30122666666666664, + "grad_norm": 1.4271311076872002, + "learning_rate": 8.19249426480003e-06, + "loss": 0.4595, + "step": 2824 + }, + { + "avg_step_time": 5.751778135396013, + "epoch": 0.30122666666666664, + "eta_time": 10.466638490272022, + "step": 2824 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 1.7539349951113559, + "learning_rate": 8.191164567383733e-06, + "loss": 0.5159, + "step": 2825 + }, + { + "avg_step_time": 5.754886547724406, + "epoch": 0.30133333333333334, + "eta_time": 10.47069635766524, + "step": 2825 + }, + { + "epoch": 0.30144, + "grad_norm": 1.8884277081547896, + "learning_rate": 8.189834489046746e-06, + "loss": 0.4181, + "step": 2826 + }, + { + "avg_step_time": 5.728605901352083, + "epoch": 0.30144, + "eta_time": 10.421288902209664, + "step": 2826 + }, + { + "epoch": 0.3015466666666667, + "grad_norm": 1.599522510481535, + "learning_rate": 8.188504029947841e-06, + "loss": 0.5184, + "step": 2827 + }, + { + "avg_step_time": 5.737496217091878, + "epoch": 0.3015466666666667, + "eta_time": 10.435868119310449, + "step": 2827 + }, + { + "epoch": 0.30165333333333333, + "grad_norm": 1.5749756231711376, + "learning_rate": 8.187173190245827e-06, + "loss": 0.4695, + "step": 2828 + }, + { + "avg_step_time": 5.749029039132474, + "epoch": 0.30165333333333333, + "eta_time": 10.455248088666751, + "step": 2828 + }, + { + "epoch": 0.30176, + "grad_norm": 1.6322575383111388, + "learning_rate": 8.185841970099566e-06, + "loss": 0.4899, + "step": 2829 + }, + { + "avg_step_time": 5.757912496123651, + "epoch": 0.30176, + "eta_time": 10.469804222118173, + "step": 2829 + }, + { + "epoch": 0.30186666666666667, + "grad_norm": 1.6302717334387715, + "learning_rate": 8.184510369667962e-06, + "loss": 0.4639, + "step": 2830 + }, + { + "avg_step_time": 5.745768544649837, + "epoch": 0.30186666666666667, + "eta_time": 10.446126423536995, + "step": 2830 + }, + { + "epoch": 0.3019733333333333, + "grad_norm": 2.1677718001899744, + "learning_rate": 8.183178389109963e-06, + "loss": 0.6174, + "step": 2831 + }, + { + "avg_step_time": 5.7452700523415, + "epoch": 0.3019733333333333, + "eta_time": 10.443624228478548, + "step": 2831 + }, + { + "epoch": 0.30208, + "grad_norm": 1.6387062629368208, + "learning_rate": 8.181846028584563e-06, + "loss": 0.5459, + "step": 2832 + }, + { + "avg_step_time": 5.750776548578282, + "epoch": 0.30208, + "eta_time": 10.452036377041026, + "step": 2832 + }, + { + "epoch": 0.30218666666666666, + "grad_norm": 2.045762972602841, + "learning_rate": 8.180513288250804e-06, + "loss": 0.5445, + "step": 2833 + }, + { + "avg_step_time": 5.848343006288163, + "epoch": 0.30218666666666666, + "eta_time": 10.627738874204768, + "step": 2833 + }, + { + "epoch": 0.30229333333333336, + "grad_norm": 1.652823018436487, + "learning_rate": 8.179180168267772e-06, + "loss": 0.5424, + "step": 2834 + }, + { + "avg_step_time": 5.84843785594208, + "epoch": 0.30229333333333336, + "eta_time": 10.626286671032542, + "step": 2834 + }, + { + "epoch": 0.3024, + "grad_norm": 0.6495523853155603, + "learning_rate": 8.177846668794598e-06, + "loss": 0.448, + "step": 2835 + }, + { + "avg_step_time": 5.83186642569725, + "epoch": 0.3024, + "eta_time": 10.59455734001667, + "step": 2835 + }, + { + "epoch": 0.30250666666666665, + "grad_norm": 1.47674649511792, + "learning_rate": 8.176512789990457e-06, + "loss": 0.4738, + "step": 2836 + }, + { + "avg_step_time": 5.863473027643531, + "epoch": 0.30250666666666665, + "eta_time": 10.650347257711402, + "step": 2836 + }, + { + "epoch": 0.30261333333333335, + "grad_norm": 1.6325021506018522, + "learning_rate": 8.175178532014571e-06, + "loss": 0.4787, + "step": 2837 + }, + { + "avg_step_time": 5.858430780545629, + "epoch": 0.30261333333333335, + "eta_time": 10.639561234224256, + "step": 2837 + }, + { + "epoch": 0.30272, + "grad_norm": 0.6451890102456808, + "learning_rate": 8.173843895026207e-06, + "loss": 0.4388, + "step": 2838 + }, + { + "avg_step_time": 5.828528958137589, + "epoch": 0.30272, + "eta_time": 10.58363716648484, + "step": 2838 + }, + { + "epoch": 0.3028266666666667, + "grad_norm": 1.8176126855592265, + "learning_rate": 8.172508879184675e-06, + "loss": 0.4812, + "step": 2839 + }, + { + "avg_step_time": 5.8323057420326005, + "epoch": 0.3028266666666667, + "eta_time": 10.588875091645855, + "step": 2839 + }, + { + "epoch": 0.30293333333333333, + "grad_norm": 1.6513815633705813, + "learning_rate": 8.171173484649337e-06, + "loss": 0.5722, + "step": 2840 + }, + { + "avg_step_time": 5.8971154641623444, + "epoch": 0.30293333333333333, + "eta_time": 10.70490265508359, + "step": 2840 + }, + { + "epoch": 0.30304, + "grad_norm": 1.7175350736044477, + "learning_rate": 8.169837711579591e-06, + "loss": 0.503, + "step": 2841 + }, + { + "avg_step_time": 5.889866662747933, + "epoch": 0.30304, + "eta_time": 10.690107992887498, + "step": 2841 + }, + { + "epoch": 0.3031466666666667, + "grad_norm": 1.6531032018202956, + "learning_rate": 8.168501560134886e-06, + "loss": 0.5374, + "step": 2842 + }, + { + "avg_step_time": 5.942803878976841, + "epoch": 0.3031466666666667, + "eta_time": 10.784538261487695, + "step": 2842 + }, + { + "epoch": 0.3032533333333333, + "grad_norm": 1.8079517022929463, + "learning_rate": 8.167165030474715e-06, + "loss": 0.4643, + "step": 2843 + }, + { + "avg_step_time": 5.925169930313572, + "epoch": 0.3032533333333333, + "eta_time": 10.750891662446737, + "step": 2843 + }, + { + "epoch": 0.30336, + "grad_norm": 1.738159268888909, + "learning_rate": 8.165828122758615e-06, + "loss": 0.5187, + "step": 2844 + }, + { + "avg_step_time": 5.958783535042194, + "epoch": 0.30336, + "eta_time": 10.810226463155715, + "step": 2844 + }, + { + "epoch": 0.30346666666666666, + "grad_norm": 2.090553672806572, + "learning_rate": 8.164490837146173e-06, + "loss": 0.537, + "step": 2845 + }, + { + "avg_step_time": 5.960481181289211, + "epoch": 0.30346666666666666, + "eta_time": 10.811650587171819, + "step": 2845 + }, + { + "epoch": 0.3035733333333333, + "grad_norm": 0.6730775214429302, + "learning_rate": 8.16315317379701e-06, + "loss": 0.4322, + "step": 2846 + }, + { + "avg_step_time": 5.931713708723434, + "epoch": 0.3035733333333333, + "eta_time": 10.757821890070916, + "step": 2846 + }, + { + "epoch": 0.30368, + "grad_norm": 1.6199465234804882, + "learning_rate": 8.161815132870806e-06, + "loss": 0.5334, + "step": 2847 + }, + { + "avg_step_time": 5.915755563312107, + "epoch": 0.30368, + "eta_time": 10.727236754805954, + "step": 2847 + }, + { + "epoch": 0.30378666666666665, + "grad_norm": 0.6135862196894474, + "learning_rate": 8.160476714527274e-06, + "loss": 0.424, + "step": 2848 + }, + { + "avg_step_time": 5.876197229732167, + "epoch": 0.30378666666666665, + "eta_time": 10.65387203290607, + "step": 2848 + }, + { + "epoch": 0.30389333333333335, + "grad_norm": 0.6406718077249389, + "learning_rate": 8.159137918926182e-06, + "loss": 0.433, + "step": 2849 + }, + { + "avg_step_time": 5.846734521364925, + "epoch": 0.30389333333333335, + "eta_time": 10.598830412896527, + "step": 2849 + }, + { + "epoch": 0.304, + "grad_norm": 1.4443326401144743, + "learning_rate": 8.157798746227337e-06, + "loss": 0.4237, + "step": 2850 + }, + { + "avg_step_time": 5.890947782632076, + "epoch": 0.304, + "eta_time": 10.677342856020637, + "step": 2850 + }, + { + "epoch": 0.3041066666666667, + "grad_norm": 2.0063081914118523, + "learning_rate": 8.15645919659059e-06, + "loss": 0.5674, + "step": 2851 + }, + { + "avg_step_time": 5.892160076083559, + "epoch": 0.3041066666666667, + "eta_time": 10.677903426769204, + "step": 2851 + }, + { + "epoch": 0.30421333333333334, + "grad_norm": 0.6009320657240288, + "learning_rate": 8.155119270175842e-06, + "loss": 0.4287, + "step": 2852 + }, + { + "avg_step_time": 5.803596289470942, + "epoch": 0.30421333333333334, + "eta_time": 10.515794054505266, + "step": 2852 + }, + { + "epoch": 0.30432, + "grad_norm": 1.7713430932653988, + "learning_rate": 8.153778967143035e-06, + "loss": 0.5555, + "step": 2853 + }, + { + "avg_step_time": 5.797658727626608, + "epoch": 0.30432, + "eta_time": 10.503425061550203, + "step": 2853 + }, + { + "epoch": 0.3044266666666667, + "grad_norm": 1.6567002385035252, + "learning_rate": 8.152438287652161e-06, + "loss": 0.4865, + "step": 2854 + }, + { + "avg_step_time": 5.828705720227174, + "epoch": 0.3044266666666667, + "eta_time": 10.558052778222612, + "step": 2854 + }, + { + "epoch": 0.3045333333333333, + "grad_norm": 1.925014198646253, + "learning_rate": 8.151097231863247e-06, + "loss": 0.5229, + "step": 2855 + }, + { + "avg_step_time": 5.82303828904123, + "epoch": 0.3045333333333333, + "eta_time": 10.546169345708005, + "step": 2855 + }, + { + "epoch": 0.30464, + "grad_norm": 1.5803369796528846, + "learning_rate": 8.149755799936377e-06, + "loss": 0.5248, + "step": 2856 + }, + { + "avg_step_time": 5.824570337931315, + "epoch": 0.30464, + "eta_time": 10.547326120270624, + "step": 2856 + }, + { + "epoch": 0.30474666666666667, + "grad_norm": 1.8817499305720868, + "learning_rate": 8.14841399203167e-06, + "loss": 0.4836, + "step": 2857 + }, + { + "avg_step_time": 5.827079190148248, + "epoch": 0.30474666666666667, + "eta_time": 10.550250600385077, + "step": 2857 + }, + { + "epoch": 0.3048533333333333, + "grad_norm": 2.44474670603366, + "learning_rate": 8.147071808309295e-06, + "loss": 0.4693, + "step": 2858 + }, + { + "avg_step_time": 5.826491170459324, + "epoch": 0.3048533333333333, + "eta_time": 10.547567488300947, + "step": 2858 + }, + { + "epoch": 0.30496, + "grad_norm": 0.6630895777703013, + "learning_rate": 8.145729248929466e-06, + "loss": 0.4452, + "step": 2859 + }, + { + "avg_step_time": 5.792262009900026, + "epoch": 0.30496, + "eta_time": 10.483994237919047, + "step": 2859 + }, + { + "epoch": 0.30506666666666665, + "grad_norm": 1.6481801947192265, + "learning_rate": 8.14438631405244e-06, + "loss": 0.514, + "step": 2860 + }, + { + "avg_step_time": 5.789809988002585, + "epoch": 0.30506666666666665, + "eta_time": 10.477947797732456, + "step": 2860 + }, + { + "epoch": 0.30517333333333335, + "grad_norm": 1.423397406496367, + "learning_rate": 8.14304300383852e-06, + "loss": 0.4535, + "step": 2861 + }, + { + "avg_step_time": 5.788045625493984, + "epoch": 0.30517333333333335, + "eta_time": 10.473147001241058, + "step": 2861 + }, + { + "epoch": 0.30528, + "grad_norm": 0.6431790723745668, + "learning_rate": 8.141699318448053e-06, + "loss": 0.4524, + "step": 2862 + }, + { + "avg_step_time": 5.759487771024608, + "epoch": 0.30528, + "eta_time": 10.41987329241202, + "step": 2862 + }, + { + "epoch": 0.30538666666666664, + "grad_norm": 1.5619181281630246, + "learning_rate": 8.140355258041431e-06, + "loss": 0.4817, + "step": 2863 + }, + { + "avg_step_time": 5.76093695380471, + "epoch": 0.30538666666666664, + "eta_time": 10.42089484532674, + "step": 2863 + }, + { + "epoch": 0.30549333333333334, + "grad_norm": 1.7290655624504032, + "learning_rate": 8.13901082277909e-06, + "loss": 0.4725, + "step": 2864 + }, + { + "avg_step_time": 5.7342940556882604, + "epoch": 0.30549333333333334, + "eta_time": 10.371107943496185, + "step": 2864 + }, + { + "epoch": 0.3056, + "grad_norm": 1.553217757012386, + "learning_rate": 8.137666012821514e-06, + "loss": 0.4966, + "step": 2865 + }, + { + "avg_step_time": 5.734570137178055, + "epoch": 0.3056, + "eta_time": 10.370014331396982, + "step": 2865 + }, + { + "epoch": 0.3057066666666667, + "grad_norm": 1.716854693843763, + "learning_rate": 8.136320828329227e-06, + "loss": 0.5106, + "step": 2866 + }, + { + "avg_step_time": 5.696578220887617, + "epoch": 0.3057066666666667, + "eta_time": 10.29972989993264, + "step": 2866 + }, + { + "epoch": 0.3058133333333333, + "grad_norm": 1.6854251575013035, + "learning_rate": 8.134975269462801e-06, + "loss": 0.5079, + "step": 2867 + }, + { + "avg_step_time": 5.685790991542315, + "epoch": 0.3058133333333333, + "eta_time": 10.278646603599274, + "step": 2867 + }, + { + "epoch": 0.30592, + "grad_norm": 1.6721884276751087, + "learning_rate": 8.13362933638285e-06, + "loss": 0.4514, + "step": 2868 + }, + { + "avg_step_time": 5.6929552506918855, + "epoch": 0.30592, + "eta_time": 10.290016615625582, + "step": 2868 + }, + { + "epoch": 0.30602666666666667, + "grad_norm": 1.7507420203960937, + "learning_rate": 8.132283029250038e-06, + "loss": 0.4933, + "step": 2869 + }, + { + "avg_step_time": 5.684060679541694, + "epoch": 0.30602666666666667, + "eta_time": 10.272360772527293, + "step": 2869 + }, + { + "epoch": 0.3061333333333333, + "grad_norm": 0.6505137030682523, + "learning_rate": 8.130936348225069e-06, + "loss": 0.4516, + "step": 2870 + }, + { + "avg_step_time": 5.646822377888843, + "epoch": 0.3061333333333333, + "eta_time": 10.203494324490812, + "step": 2870 + }, + { + "epoch": 0.30624, + "grad_norm": 1.8064288450438015, + "learning_rate": 8.129589293468689e-06, + "loss": 0.5253, + "step": 2871 + }, + { + "avg_step_time": 5.620972293795961, + "epoch": 0.30624, + "eta_time": 10.155223277458036, + "step": 2871 + }, + { + "epoch": 0.30634666666666666, + "grad_norm": 0.6365127351208292, + "learning_rate": 8.128241865141697e-06, + "loss": 0.445, + "step": 2872 + }, + { + "avg_step_time": 5.66135198901398, + "epoch": 0.30634666666666666, + "eta_time": 10.226603329043865, + "step": 2872 + }, + { + "epoch": 0.30645333333333336, + "grad_norm": 1.5639019523273177, + "learning_rate": 8.12689406340493e-06, + "loss": 0.4763, + "step": 2873 + }, + { + "avg_step_time": 5.695459416418364, + "epoch": 0.30645333333333336, + "eta_time": 10.286632534875613, + "step": 2873 + }, + { + "epoch": 0.30656, + "grad_norm": 1.7024320408807647, + "learning_rate": 8.125545888419269e-06, + "loss": 0.4449, + "step": 2874 + }, + { + "avg_step_time": 5.682145106672037, + "epoch": 0.30656, + "eta_time": 10.261007038465253, + "step": 2874 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 0.6223186288938242, + "learning_rate": 8.124197340345646e-06, + "loss": 0.4567, + "step": 2875 + }, + { + "avg_step_time": 5.67100390280136, + "epoch": 0.30666666666666664, + "eta_time": 10.239312602280233, + "step": 2875 + }, + { + "epoch": 0.30677333333333334, + "grad_norm": 1.815984914618342, + "learning_rate": 8.12284841934503e-06, + "loss": 0.5187, + "step": 2876 + }, + { + "avg_step_time": 5.671433049018937, + "epoch": 0.30677333333333334, + "eta_time": 10.238512051548353, + "step": 2876 + }, + { + "epoch": 0.30688, + "grad_norm": 1.7871323318670131, + "learning_rate": 8.12149912557844e-06, + "loss": 0.507, + "step": 2877 + }, + { + "avg_step_time": 5.6696295521476054, + "epoch": 0.30688, + "eta_time": 10.233681341626427, + "step": 2877 + }, + { + "epoch": 0.3069866666666667, + "grad_norm": 1.6050337985051022, + "learning_rate": 8.120149459206942e-06, + "loss": 0.5085, + "step": 2878 + }, + { + "avg_step_time": 5.700061179170705, + "epoch": 0.3069866666666667, + "eta_time": 10.287027078075575, + "step": 2878 + }, + { + "epoch": 0.30709333333333333, + "grad_norm": 1.869787873352175, + "learning_rate": 8.118799420391632e-06, + "loss": 0.5061, + "step": 2879 + }, + { + "avg_step_time": 5.715545545924794, + "epoch": 0.30709333333333333, + "eta_time": 10.313384407313183, + "step": 2879 + }, + { + "epoch": 0.3072, + "grad_norm": 0.6290187742696101, + "learning_rate": 8.117449009293668e-06, + "loss": 0.4704, + "step": 2880 + }, + { + "avg_step_time": 5.676234009289982, + "epoch": 0.3072, + "eta_time": 10.240872191760676, + "step": 2880 + }, + { + "epoch": 0.3073066666666667, + "grad_norm": 1.668006799842374, + "learning_rate": 8.116098226074244e-06, + "loss": 0.5467, + "step": 2881 + }, + { + "avg_step_time": 5.693641255600284, + "epoch": 0.3073066666666667, + "eta_time": 10.270696198296733, + "step": 2881 + }, + { + "epoch": 0.3074133333333333, + "grad_norm": 0.6315695056444507, + "learning_rate": 8.114747070894597e-06, + "loss": 0.4705, + "step": 2882 + }, + { + "avg_step_time": 5.69176994911348, + "epoch": 0.3074133333333333, + "eta_time": 10.265739522109396, + "step": 2882 + }, + { + "epoch": 0.30752, + "grad_norm": 1.5238044866635743, + "learning_rate": 8.113395543916012e-06, + "loss": 0.4633, + "step": 2883 + }, + { + "avg_step_time": 5.695665236675378, + "epoch": 0.30752, + "eta_time": 10.271182976804598, + "step": 2883 + }, + { + "epoch": 0.30762666666666666, + "grad_norm": 1.5503404292024685, + "learning_rate": 8.112043645299817e-06, + "loss": 0.5112, + "step": 2884 + }, + { + "avg_step_time": 5.695509154387195, + "epoch": 0.30762666666666666, + "eta_time": 10.269319422535357, + "step": 2884 + }, + { + "epoch": 0.30773333333333336, + "grad_norm": 1.6527733847501505, + "learning_rate": 8.110691375207385e-06, + "loss": 0.4828, + "step": 2885 + }, + { + "avg_step_time": 5.695519175192322, + "epoch": 0.30773333333333336, + "eta_time": 10.267755401943935, + "step": 2885 + }, + { + "epoch": 0.30784, + "grad_norm": 1.7718909737745514, + "learning_rate": 8.109338733800132e-06, + "loss": 0.5063, + "step": 2886 + }, + { + "avg_step_time": 5.721234167465056, + "epoch": 0.30784, + "eta_time": 10.312524586855764, + "step": 2886 + }, + { + "epoch": 0.30794666666666665, + "grad_norm": 1.923238804357719, + "learning_rate": 8.10798572123952e-06, + "loss": 0.5581, + "step": 2887 + }, + { + "avg_step_time": 5.720084175919041, + "epoch": 0.30794666666666665, + "eta_time": 10.308862814822984, + "step": 2887 + }, + { + "epoch": 0.30805333333333335, + "grad_norm": 2.1662010971486, + "learning_rate": 8.106632337687052e-06, + "loss": 0.4536, + "step": 2888 + }, + { + "avg_step_time": 5.725274367765947, + "epoch": 0.30805333333333335, + "eta_time": 10.316626339916027, + "step": 2888 + }, + { + "epoch": 0.30816, + "grad_norm": 1.6841142683681338, + "learning_rate": 8.10527858330428e-06, + "loss": 0.5902, + "step": 2889 + }, + { + "avg_step_time": 5.724212200954707, + "epoch": 0.30816, + "eta_time": 10.31312231538673, + "step": 2889 + }, + { + "epoch": 0.3082666666666667, + "grad_norm": 1.6802507109085316, + "learning_rate": 8.103924458252801e-06, + "loss": 0.4892, + "step": 2890 + }, + { + "avg_step_time": 5.727754402642298, + "epoch": 0.3082666666666667, + "eta_time": 10.31791313920425, + "step": 2890 + }, + { + "epoch": 0.30837333333333333, + "grad_norm": 1.647864840536862, + "learning_rate": 8.102569962694247e-06, + "loss": 0.4225, + "step": 2891 + }, + { + "avg_step_time": 5.724669798456057, + "epoch": 0.30837333333333333, + "eta_time": 10.310766381441411, + "step": 2891 + }, + { + "epoch": 0.30848, + "grad_norm": 1.8961367382010768, + "learning_rate": 8.101215096790305e-06, + "loss": 0.5496, + "step": 2892 + }, + { + "avg_step_time": 5.720636678464485, + "epoch": 0.30848, + "eta_time": 10.301913218468128, + "step": 2892 + }, + { + "epoch": 0.3085866666666667, + "grad_norm": 1.654987555281278, + "learning_rate": 8.099859860702698e-06, + "loss": 0.4976, + "step": 2893 + }, + { + "avg_step_time": 5.710037896127412, + "epoch": 0.3085866666666667, + "eta_time": 10.281240456304968, + "step": 2893 + }, + { + "epoch": 0.3086933333333333, + "grad_norm": 1.6416864624302456, + "learning_rate": 8.098504254593203e-06, + "loss": 0.4509, + "step": 2894 + }, + { + "avg_step_time": 5.7096415384851325, + "epoch": 0.3086933333333333, + "eta_time": 10.278940780811707, + "step": 2894 + }, + { + "epoch": 0.3088, + "grad_norm": 1.8398325068164718, + "learning_rate": 8.097148278623628e-06, + "loss": 0.4938, + "step": 2895 + }, + { + "avg_step_time": 5.708127009748209, + "epoch": 0.3088, + "eta_time": 10.274628617546774, + "step": 2895 + }, + { + "epoch": 0.30890666666666666, + "grad_norm": 1.7028522049563006, + "learning_rate": 8.095791932955836e-06, + "loss": 0.5025, + "step": 2896 + }, + { + "avg_step_time": 5.729368185756182, + "epoch": 0.30890666666666666, + "eta_time": 10.311271243198417, + "step": 2896 + }, + { + "epoch": 0.3090133333333333, + "grad_norm": 1.5918317931280823, + "learning_rate": 8.09443521775173e-06, + "loss": 0.463, + "step": 2897 + }, + { + "avg_step_time": 5.751128040178858, + "epoch": 0.3090133333333333, + "eta_time": 10.348835401188513, + "step": 2897 + }, + { + "epoch": 0.30912, + "grad_norm": 1.8304686499847198, + "learning_rate": 8.093078133173256e-06, + "loss": 0.5585, + "step": 2898 + }, + { + "avg_step_time": 5.7527071129192, + "epoch": 0.30912, + "eta_time": 10.350078880660462, + "step": 2898 + }, + { + "epoch": 0.30922666666666665, + "grad_norm": 2.0786697715659925, + "learning_rate": 8.091720679382407e-06, + "loss": 0.5448, + "step": 2899 + }, + { + "avg_step_time": 5.74157468237058, + "epoch": 0.30922666666666665, + "eta_time": 10.328454900842189, + "step": 2899 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 1.5183044119527467, + "learning_rate": 8.090362856541218e-06, + "loss": 0.3953, + "step": 2900 + }, + { + "avg_step_time": 5.735928855761133, + "epoch": 0.30933333333333335, + "eta_time": 10.316705372514818, + "step": 2900 + }, + { + "epoch": 0.30944, + "grad_norm": 1.4385602704785794, + "learning_rate": 8.089004664811767e-06, + "loss": 0.3991, + "step": 2901 + }, + { + "avg_step_time": 5.712715416243582, + "epoch": 0.30944, + "eta_time": 10.273366556878042, + "step": 2901 + }, + { + "epoch": 0.3095466666666667, + "grad_norm": 1.8184497929933032, + "learning_rate": 8.087646104356181e-06, + "loss": 0.4663, + "step": 2902 + }, + { + "avg_step_time": 5.744317753146393, + "epoch": 0.3095466666666667, + "eta_time": 10.328602448921279, + "step": 2902 + }, + { + "epoch": 0.30965333333333334, + "grad_norm": 2.1288470009357616, + "learning_rate": 8.086287175336625e-06, + "loss": 0.562, + "step": 2903 + }, + { + "avg_step_time": 5.766050454342004, + "epoch": 0.30965333333333334, + "eta_time": 10.366077372361513, + "step": 2903 + }, + { + "epoch": 0.30976, + "grad_norm": 0.6766670179273926, + "learning_rate": 8.084927877915314e-06, + "loss": 0.4351, + "step": 2904 + }, + { + "avg_step_time": 5.716255094065811, + "epoch": 0.30976, + "eta_time": 10.274968531583294, + "step": 2904 + }, + { + "epoch": 0.3098666666666667, + "grad_norm": 1.5198159956887611, + "learning_rate": 8.0835682122545e-06, + "loss": 0.4821, + "step": 2905 + }, + { + "avg_step_time": 5.716052122790404, + "epoch": 0.3098666666666667, + "eta_time": 10.27301589845942, + "step": 2905 + }, + { + "epoch": 0.3099733333333333, + "grad_norm": 1.7233450434688686, + "learning_rate": 8.082208178516484e-06, + "loss": 0.5068, + "step": 2906 + }, + { + "avg_step_time": 5.715443447382763, + "epoch": 0.3099733333333333, + "eta_time": 10.27033435031086, + "step": 2906 + }, + { + "epoch": 0.31008, + "grad_norm": 1.7163061600123182, + "learning_rate": 8.080847776863609e-06, + "loss": 0.5438, + "step": 2907 + }, + { + "avg_step_time": 5.717163928831466, + "epoch": 0.31008, + "eta_time": 10.271837858800534, + "step": 2907 + }, + { + "epoch": 0.31018666666666667, + "grad_norm": 0.6501009633227598, + "learning_rate": 8.079487007458265e-06, + "loss": 0.425, + "step": 2908 + }, + { + "avg_step_time": 5.686682130351211, + "epoch": 0.31018666666666667, + "eta_time": 10.21549259360591, + "step": 2908 + }, + { + "epoch": 0.3102933333333333, + "grad_norm": 1.6828619058964709, + "learning_rate": 8.078125870462878e-06, + "loss": 0.4515, + "step": 2909 + }, + { + "avg_step_time": 5.67427202427026, + "epoch": 0.3102933333333333, + "eta_time": 10.19162303025875, + "step": 2909 + }, + { + "epoch": 0.3104, + "grad_norm": 1.731108978851112, + "learning_rate": 8.07676436603993e-06, + "loss": 0.4907, + "step": 2910 + }, + { + "avg_step_time": 5.7073041333092585, + "epoch": 0.3104, + "eta_time": 10.249367006067876, + "step": 2910 + }, + { + "epoch": 0.31050666666666665, + "grad_norm": 1.647891951809836, + "learning_rate": 8.075402494351936e-06, + "loss": 0.4213, + "step": 2911 + }, + { + "avg_step_time": 5.701099152516837, + "epoch": 0.31050666666666665, + "eta_time": 10.236640256074676, + "step": 2911 + }, + { + "epoch": 0.31061333333333335, + "grad_norm": 1.6016671967863483, + "learning_rate": 8.07404025556146e-06, + "loss": 0.5534, + "step": 2912 + }, + { + "avg_step_time": 5.707027102961685, + "epoch": 0.31061333333333335, + "eta_time": 10.245698935122602, + "step": 2912 + }, + { + "epoch": 0.31072, + "grad_norm": 1.5395850560241222, + "learning_rate": 8.072677649831107e-06, + "loss": 0.4772, + "step": 2913 + }, + { + "avg_step_time": 5.711475032748598, + "epoch": 0.31072, + "eta_time": 10.252097683783733, + "step": 2913 + }, + { + "epoch": 0.31082666666666664, + "grad_norm": 0.6700474862811965, + "learning_rate": 8.07131467732353e-06, + "loss": 0.4767, + "step": 2914 + }, + { + "avg_step_time": 5.6737382387874105, + "epoch": 0.31082666666666664, + "eta_time": 10.182784100223738, + "step": 2914 + }, + { + "epoch": 0.31093333333333334, + "grad_norm": 1.7381967102541365, + "learning_rate": 8.069951338201421e-06, + "loss": 0.5445, + "step": 2915 + }, + { + "avg_step_time": 5.687992387347752, + "epoch": 0.31093333333333334, + "eta_time": 10.206786339518466, + "step": 2915 + }, + { + "epoch": 0.31104, + "grad_norm": 1.583318353540668, + "learning_rate": 8.068587632627521e-06, + "loss": 0.528, + "step": 2916 + }, + { + "avg_step_time": 5.719223545055197, + "epoch": 0.31104, + "eta_time": 10.2612402437532, + "step": 2916 + }, + { + "epoch": 0.3111466666666667, + "grad_norm": 1.6412541941297147, + "learning_rate": 8.06722356076461e-06, + "loss": 0.4586, + "step": 2917 + }, + { + "avg_step_time": 5.722059509970925, + "epoch": 0.3111466666666667, + "eta_time": 10.264738976497844, + "step": 2917 + }, + { + "epoch": 0.3112533333333333, + "grad_norm": 1.5864106303047671, + "learning_rate": 8.065859122775513e-06, + "loss": 0.4909, + "step": 2918 + }, + { + "avg_step_time": 5.728241118517789, + "epoch": 0.3112533333333333, + "eta_time": 10.274236917297046, + "step": 2918 + }, + { + "epoch": 0.31136, + "grad_norm": 1.8138863231582203, + "learning_rate": 8.064494318823102e-06, + "loss": 0.6367, + "step": 2919 + }, + { + "avg_step_time": 5.727464162942135, + "epoch": 0.31136, + "eta_time": 10.271252398876229, + "step": 2919 + }, + { + "epoch": 0.31146666666666667, + "grad_norm": 1.5786004860985434, + "learning_rate": 8.063129149070286e-06, + "loss": 0.4937, + "step": 2920 + }, + { + "avg_step_time": 5.730457209577464, + "epoch": 0.31146666666666667, + "eta_time": 10.275028135506258, + "step": 2920 + }, + { + "epoch": 0.3115733333333333, + "grad_norm": 1.5893102489250281, + "learning_rate": 8.061763613680024e-06, + "loss": 0.4909, + "step": 2921 + }, + { + "avg_step_time": 5.726244271403611, + "epoch": 0.3115733333333333, + "eta_time": 10.265883479899696, + "step": 2921 + }, + { + "epoch": 0.31168, + "grad_norm": 1.7043229279033938, + "learning_rate": 8.060397712815318e-06, + "loss": 0.5168, + "step": 2922 + }, + { + "avg_step_time": 5.730614575472745, + "epoch": 0.31168, + "eta_time": 10.272126626534897, + "step": 2922 + }, + { + "epoch": 0.31178666666666666, + "grad_norm": 1.7067216304373223, + "learning_rate": 8.059031446639208e-06, + "loss": 0.3991, + "step": 2923 + }, + { + "avg_step_time": 5.728981018066406, + "epoch": 0.31178666666666666, + "eta_time": 10.267607091267903, + "step": 2923 + }, + { + "epoch": 0.31189333333333336, + "grad_norm": 1.9317906057299323, + "learning_rate": 8.057664815314784e-06, + "loss": 0.4641, + "step": 2924 + }, + { + "avg_step_time": 5.728345292987245, + "epoch": 0.31189333333333336, + "eta_time": 10.264876523627976, + "step": 2924 + }, + { + "epoch": 0.312, + "grad_norm": 1.7922043699511976, + "learning_rate": 8.056297819005177e-06, + "loss": 0.5485, + "step": 2925 + }, + { + "avg_step_time": 5.731687938324129, + "epoch": 0.312, + "eta_time": 10.26927422283073, + "step": 2925 + }, + { + "epoch": 0.31210666666666664, + "grad_norm": 1.6567929761227635, + "learning_rate": 8.05493045787356e-06, + "loss": 0.4949, + "step": 2926 + }, + { + "avg_step_time": 5.721535776600693, + "epoch": 0.31210666666666664, + "eta_time": 10.249495617582744, + "step": 2926 + }, + { + "epoch": 0.31221333333333334, + "grad_norm": 1.9522822236974424, + "learning_rate": 8.053562732083153e-06, + "loss": 0.5387, + "step": 2927 + }, + { + "avg_step_time": 5.712932427724202, + "epoch": 0.31221333333333334, + "eta_time": 10.232496748323792, + "step": 2927 + }, + { + "epoch": 0.31232, + "grad_norm": 1.6891434158842897, + "learning_rate": 8.052194641797217e-06, + "loss": 0.5563, + "step": 2928 + }, + { + "avg_step_time": 5.711276153121331, + "epoch": 0.31232, + "eta_time": 10.227943710881451, + "step": 2928 + }, + { + "epoch": 0.3124266666666667, + "grad_norm": 1.7002254568655566, + "learning_rate": 8.050826187179059e-06, + "loss": 0.518, + "step": 2929 + }, + { + "avg_step_time": 5.716329603484183, + "epoch": 0.3124266666666667, + "eta_time": 10.23540572890529, + "step": 2929 + }, + { + "epoch": 0.31253333333333333, + "grad_norm": 1.638709472336669, + "learning_rate": 8.049457368392024e-06, + "loss": 0.5074, + "step": 2930 + }, + { + "avg_step_time": 5.716585046113139, + "epoch": 0.31253333333333333, + "eta_time": 10.234275172833106, + "step": 2930 + }, + { + "epoch": 0.31264, + "grad_norm": 0.629753437516832, + "learning_rate": 8.048088185599507e-06, + "loss": 0.4483, + "step": 2931 + }, + { + "avg_step_time": 5.698979464444247, + "epoch": 0.31264, + "eta_time": 10.201173241355203, + "step": 2931 + }, + { + "epoch": 0.3127466666666667, + "grad_norm": 0.6473179918182048, + "learning_rate": 8.046718638964943e-06, + "loss": 0.4663, + "step": 2932 + }, + { + "avg_step_time": 5.604387427821304, + "epoch": 0.3127466666666667, + "eta_time": 10.030296721514627, + "step": 2932 + }, + { + "epoch": 0.3128533333333333, + "grad_norm": 1.650753115356557, + "learning_rate": 8.04534872865181e-06, + "loss": 0.5315, + "step": 2933 + }, + { + "avg_step_time": 5.602159921569053, + "epoch": 0.3128533333333333, + "eta_time": 10.024753948541067, + "step": 2933 + }, + { + "epoch": 0.31296, + "grad_norm": 1.459951679252769, + "learning_rate": 8.043978454823632e-06, + "loss": 0.407, + "step": 2934 + }, + { + "avg_step_time": 5.614309164008709, + "epoch": 0.31296, + "eta_time": 10.044934812605582, + "step": 2934 + }, + { + "epoch": 0.31306666666666666, + "grad_norm": 1.97599386351049, + "learning_rate": 8.042607817643974e-06, + "loss": 0.5127, + "step": 2935 + }, + { + "avg_step_time": 5.615873312709307, + "epoch": 0.31306666666666666, + "eta_time": 10.046173370513316, + "step": 2935 + }, + { + "epoch": 0.31317333333333336, + "grad_norm": 0.656099103765368, + "learning_rate": 8.041236817276446e-06, + "loss": 0.479, + "step": 2936 + }, + { + "avg_step_time": 5.58896935106528, + "epoch": 0.31317333333333336, + "eta_time": 9.996492680974814, + "step": 2936 + }, + { + "epoch": 0.31328, + "grad_norm": 1.9198247630901593, + "learning_rate": 8.0398654538847e-06, + "loss": 0.4827, + "step": 2937 + }, + { + "avg_step_time": 5.623828659153948, + "epoch": 0.31328, + "eta_time": 10.05728025212031, + "step": 2937 + }, + { + "epoch": 0.31338666666666665, + "grad_norm": 0.6472518388707424, + "learning_rate": 8.038493727632432e-06, + "loss": 0.4549, + "step": 2938 + }, + { + "avg_step_time": 5.587040559209958, + "epoch": 0.31338666666666665, + "eta_time": 9.989938911009585, + "step": 2938 + }, + { + "epoch": 0.31349333333333335, + "grad_norm": 1.760414118177229, + "learning_rate": 8.037121638683383e-06, + "loss": 0.4841, + "step": 2939 + }, + { + "avg_step_time": 5.531519237190786, + "epoch": 0.31349333333333335, + "eta_time": 9.889127169599972, + "step": 2939 + }, + { + "epoch": 0.3136, + "grad_norm": 2.222934388401751, + "learning_rate": 8.035749187201333e-06, + "loss": 0.5735, + "step": 2940 + }, + { + "avg_step_time": 5.531893472478847, + "epoch": 0.3136, + "eta_time": 9.88825958205594, + "step": 2940 + }, + { + "epoch": 0.3137066666666667, + "grad_norm": 0.654667718784662, + "learning_rate": 8.034376373350109e-06, + "loss": 0.4507, + "step": 2941 + }, + { + "avg_step_time": 5.482355091306898, + "epoch": 0.3137066666666667, + "eta_time": 9.79818684929683, + "step": 2941 + }, + { + "epoch": 0.31381333333333333, + "grad_norm": 1.423727448247601, + "learning_rate": 8.033003197293578e-06, + "loss": 0.5195, + "step": 2942 + }, + { + "avg_step_time": 5.541319688161214, + "epoch": 0.31381333333333333, + "eta_time": 9.902030431650301, + "step": 2942 + }, + { + "epoch": 0.31392, + "grad_norm": 0.6125783755360187, + "learning_rate": 8.031629659195657e-06, + "loss": 0.4277, + "step": 2943 + }, + { + "avg_step_time": 5.505616780483361, + "epoch": 0.31392, + "eta_time": 9.836701981130272, + "step": 2943 + }, + { + "epoch": 0.3140266666666667, + "grad_norm": 2.0213741013206246, + "learning_rate": 8.030255759220296e-06, + "loss": 0.4631, + "step": 2944 + }, + { + "avg_step_time": 5.505449634609801, + "epoch": 0.3140266666666667, + "eta_time": 9.834874055604342, + "step": 2944 + }, + { + "epoch": 0.3141333333333333, + "grad_norm": 1.925665150973228, + "learning_rate": 8.028881497531498e-06, + "loss": 0.5922, + "step": 2945 + }, + { + "avg_step_time": 5.534333949137216, + "epoch": 0.3141333333333333, + "eta_time": 9.884935359153415, + "step": 2945 + }, + { + "epoch": 0.31424, + "grad_norm": 1.8133886857169266, + "learning_rate": 8.027506874293304e-06, + "loss": 0.5023, + "step": 2946 + }, + { + "avg_step_time": 5.521898852454291, + "epoch": 0.31424, + "eta_time": 9.861191034007955, + "step": 2946 + }, + { + "epoch": 0.31434666666666666, + "grad_norm": 0.6744488976556955, + "learning_rate": 8.026131889669796e-06, + "loss": 0.463, + "step": 2947 + }, + { + "avg_step_time": 5.524907856276541, + "epoch": 0.31434666666666666, + "eta_time": 9.865029916707114, + "step": 2947 + }, + { + "epoch": 0.3144533333333333, + "grad_norm": 1.5763448385869427, + "learning_rate": 8.024756543825108e-06, + "loss": 0.4678, + "step": 2948 + }, + { + "avg_step_time": 5.554740436149366, + "epoch": 0.3144533333333333, + "eta_time": 9.916754661981104, + "step": 2948 + }, + { + "epoch": 0.31456, + "grad_norm": 1.665981378844219, + "learning_rate": 8.023380836923404e-06, + "loss": 0.5046, + "step": 2949 + }, + { + "avg_step_time": 5.507035188000612, + "epoch": 0.31456, + "eta_time": 9.830057810581092, + "step": 2949 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 1.5427894723880518, + "learning_rate": 8.022004769128904e-06, + "loss": 0.5073, + "step": 2950 + }, + { + "avg_step_time": 5.531969072842839, + "epoch": 0.31466666666666665, + "eta_time": 9.873028136948678, + "step": 2950 + }, + { + "epoch": 0.31477333333333335, + "grad_norm": 1.692528741511329, + "learning_rate": 8.020628340605866e-06, + "loss": 0.4581, + "step": 2951 + }, + { + "avg_step_time": 5.556384151632136, + "epoch": 0.31477333333333335, + "eta_time": 9.915058830579122, + "step": 2951 + }, + { + "epoch": 0.31488, + "grad_norm": 0.666497057860278, + "learning_rate": 8.019251551518585e-06, + "loss": 0.5, + "step": 2952 + }, + { + "avg_step_time": 5.524011183266688, + "epoch": 0.31488, + "eta_time": 9.855756619478315, + "step": 2952 + }, + { + "epoch": 0.3149866666666667, + "grad_norm": 1.5021531042613352, + "learning_rate": 8.017874402031409e-06, + "loss": 0.4559, + "step": 2953 + }, + { + "avg_step_time": 5.524226843708694, + "epoch": 0.3149866666666667, + "eta_time": 9.854606886193675, + "step": 2953 + }, + { + "epoch": 0.31509333333333334, + "grad_norm": 2.5302289885163267, + "learning_rate": 8.016496892308724e-06, + "loss": 0.505, + "step": 2954 + }, + { + "avg_step_time": 5.522794937846636, + "epoch": 0.31509333333333334, + "eta_time": 9.850518415531457, + "step": 2954 + }, + { + "epoch": 0.3152, + "grad_norm": 1.4743262162137143, + "learning_rate": 8.015119022514958e-06, + "loss": 0.4372, + "step": 2955 + }, + { + "avg_step_time": 5.526721347462047, + "epoch": 0.3152, + "eta_time": 9.855986402973985, + "step": 2955 + }, + { + "epoch": 0.3153066666666667, + "grad_norm": 1.8551677081032183, + "learning_rate": 8.013740792814589e-06, + "loss": 0.5499, + "step": 2956 + }, + { + "avg_step_time": 5.530342342877629, + "epoch": 0.3153066666666667, + "eta_time": 9.860907638592083, + "step": 2956 + }, + { + "epoch": 0.3154133333333333, + "grad_norm": 1.7472140359936825, + "learning_rate": 8.012362203372124e-06, + "loss": 0.5198, + "step": 2957 + }, + { + "avg_step_time": 5.537265098456181, + "epoch": 0.3154133333333333, + "eta_time": 9.871713167192159, + "step": 2957 + }, + { + "epoch": 0.31552, + "grad_norm": 1.7333579386459417, + "learning_rate": 8.010983254352127e-06, + "loss": 0.5881, + "step": 2958 + }, + { + "avg_step_time": 5.574275339492644, + "epoch": 0.31552, + "eta_time": 9.936145792645636, + "step": 2958 + }, + { + "epoch": 0.31562666666666667, + "grad_norm": 1.7757561338146017, + "learning_rate": 8.009603945919197e-06, + "loss": 0.4712, + "step": 2959 + }, + { + "avg_step_time": 5.574453967990297, + "epoch": 0.31562666666666667, + "eta_time": 9.934915738507152, + "step": 2959 + }, + { + "epoch": 0.3157333333333333, + "grad_norm": 1.7548108223603343, + "learning_rate": 8.008224278237982e-06, + "loss": 0.5502, + "step": 2960 + }, + { + "avg_step_time": 5.573927713162972, + "epoch": 0.3157333333333333, + "eta_time": 9.932429522205684, + "step": 2960 + }, + { + "epoch": 0.31584, + "grad_norm": 1.7330783250079824, + "learning_rate": 8.006844251473165e-06, + "loss": 0.5677, + "step": 2961 + }, + { + "avg_step_time": 5.606237589710891, + "epoch": 0.31584, + "eta_time": 9.988446639001571, + "step": 2961 + }, + { + "epoch": 0.31594666666666665, + "grad_norm": 1.9162946722091199, + "learning_rate": 8.005463865789477e-06, + "loss": 0.5909, + "step": 2962 + }, + { + "avg_step_time": 5.60613438577363, + "epoch": 0.31594666666666665, + "eta_time": 9.98670550443508, + "step": 2962 + }, + { + "epoch": 0.31605333333333335, + "grad_norm": 1.6952956474988934, + "learning_rate": 8.004083121351695e-06, + "loss": 0.5559, + "step": 2963 + }, + { + "avg_step_time": 5.605510555132471, + "epoch": 0.31605333333333335, + "eta_time": 9.984037133197058, + "step": 2963 + }, + { + "epoch": 0.31616, + "grad_norm": 1.6168292139333225, + "learning_rate": 8.002702018324629e-06, + "loss": 0.5281, + "step": 2964 + }, + { + "avg_step_time": 5.634283641372064, + "epoch": 0.31616, + "eta_time": 10.033720118010084, + "step": 2964 + }, + { + "epoch": 0.31626666666666664, + "grad_norm": 1.915456797945592, + "learning_rate": 8.00132055687314e-06, + "loss": 0.503, + "step": 2965 + }, + { + "avg_step_time": 5.617965074500653, + "epoch": 0.31626666666666664, + "eta_time": 10.003098924319218, + "step": 2965 + }, + { + "epoch": 0.31637333333333334, + "grad_norm": 1.6360094185858396, + "learning_rate": 7.999938737162132e-06, + "loss": 0.394, + "step": 2966 + }, + { + "avg_step_time": 5.618730793095598, + "epoch": 0.31637333333333334, + "eta_time": 10.002901570263802, + "step": 2966 + }, + { + "epoch": 0.31648, + "grad_norm": 1.8776996888902902, + "learning_rate": 7.998556559356543e-06, + "loss": 0.3902, + "step": 2967 + }, + { + "avg_step_time": 5.609147536634195, + "epoch": 0.31648, + "eta_time": 9.984282615208867, + "step": 2967 + }, + { + "epoch": 0.3165866666666667, + "grad_norm": 1.5827829895521945, + "learning_rate": 7.997174023621364e-06, + "loss": 0.5343, + "step": 2968 + }, + { + "avg_step_time": 5.6056983543164804, + "epoch": 0.3165866666666667, + "eta_time": 9.97658593225158, + "step": 2968 + }, + { + "epoch": 0.3166933333333333, + "grad_norm": 1.3927468463464767, + "learning_rate": 7.995791130121624e-06, + "loss": 0.5144, + "step": 2969 + }, + { + "avg_step_time": 5.636766139907066, + "epoch": 0.3166933333333333, + "eta_time": 10.030312192290184, + "step": 2969 + }, + { + "epoch": 0.3168, + "grad_norm": 1.5882886716598243, + "learning_rate": 7.994407879022397e-06, + "loss": 0.4708, + "step": 2970 + }, + { + "avg_step_time": 5.636650140839394, + "epoch": 0.3168, + "eta_time": 10.02854004224342, + "step": 2970 + }, + { + "epoch": 0.31690666666666667, + "grad_norm": 1.6947667098955803, + "learning_rate": 7.993024270488794e-06, + "loss": 0.4673, + "step": 2971 + }, + { + "avg_step_time": 5.626281581743799, + "epoch": 0.31690666666666667, + "eta_time": 10.008529791524248, + "step": 2971 + }, + { + "epoch": 0.3170133333333333, + "grad_norm": 1.5240654026678808, + "learning_rate": 7.991640304685975e-06, + "loss": 0.5099, + "step": 2972 + }, + { + "avg_step_time": 5.633683315431229, + "epoch": 0.3170133333333333, + "eta_time": 10.020131741307267, + "step": 2972 + }, + { + "epoch": 0.31712, + "grad_norm": 1.8145596384375584, + "learning_rate": 7.990255981779139e-06, + "loss": 0.5581, + "step": 2973 + }, + { + "avg_step_time": 5.633647217895046, + "epoch": 0.31712, + "eta_time": 10.018502635823356, + "step": 2973 + }, + { + "epoch": 0.31722666666666666, + "grad_norm": 0.6547970827999806, + "learning_rate": 7.98887130193353e-06, + "loss": 0.4506, + "step": 2974 + }, + { + "avg_step_time": 5.611014790005154, + "epoch": 0.31722666666666666, + "eta_time": 9.976696019673053, + "step": 2974 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 0.6594758999899168, + "learning_rate": 7.987486265314435e-06, + "loss": 0.4605, + "step": 2975 + }, + { + "avg_step_time": 5.587037881215413, + "epoch": 0.31733333333333336, + "eta_time": 9.9325117888274, + "step": 2975 + }, + { + "epoch": 0.31744, + "grad_norm": 2.154966102009597, + "learning_rate": 7.986100872087177e-06, + "loss": 0.5057, + "step": 2976 + }, + { + "avg_step_time": 5.586404899154046, + "epoch": 0.31744, + "eta_time": 9.929834708246318, + "step": 2976 + }, + { + "epoch": 0.31754666666666664, + "grad_norm": 1.5891701863033016, + "learning_rate": 7.984715122417133e-06, + "loss": 0.5139, + "step": 2977 + }, + { + "avg_step_time": 5.58696049873275, + "epoch": 0.31754666666666664, + "eta_time": 9.929270353025592, + "step": 2977 + }, + { + "epoch": 0.31765333333333334, + "grad_norm": 0.6149360427862217, + "learning_rate": 7.983329016469712e-06, + "loss": 0.4333, + "step": 2978 + }, + { + "avg_step_time": 5.542270157072279, + "epoch": 0.31765333333333334, + "eta_time": 9.848306165219826, + "step": 2978 + }, + { + "epoch": 0.31776, + "grad_norm": 1.7772827639106399, + "learning_rate": 7.981942554410371e-06, + "loss": 0.6165, + "step": 2979 + }, + { + "avg_step_time": 5.580182338001753, + "epoch": 0.31776, + "eta_time": 9.91412395384978, + "step": 2979 + }, + { + "epoch": 0.3178666666666667, + "grad_norm": 2.2541499683300477, + "learning_rate": 7.980555736404608e-06, + "loss": 0.5463, + "step": 2980 + }, + { + "avg_step_time": 5.590588273424091, + "epoch": 0.3178666666666667, + "eta_time": 9.931058891263072, + "step": 2980 + }, + { + "epoch": 0.31797333333333333, + "grad_norm": 1.5881813996226577, + "learning_rate": 7.979168562617965e-06, + "loss": 0.4766, + "step": 2981 + }, + { + "avg_step_time": 5.625570651256677, + "epoch": 0.31797333333333333, + "eta_time": 9.991638540037554, + "step": 2981 + }, + { + "epoch": 0.31808, + "grad_norm": 1.703310681965283, + "learning_rate": 7.97778103321602e-06, + "loss": 0.4247, + "step": 2982 + }, + { + "avg_step_time": 5.65067033093385, + "epoch": 0.31808, + "eta_time": 10.034648729350028, + "step": 2982 + }, + { + "epoch": 0.3181866666666667, + "grad_norm": 1.7409309991466428, + "learning_rate": 7.976393148364407e-06, + "loss": 0.5831, + "step": 2983 + }, + { + "avg_step_time": 5.670382184211654, + "epoch": 0.3181866666666667, + "eta_time": 10.068078589300248, + "step": 2983 + }, + { + "epoch": 0.3182933333333333, + "grad_norm": 1.600060270876387, + "learning_rate": 7.975004908228787e-06, + "loss": 0.5433, + "step": 2984 + }, + { + "avg_step_time": 5.688087810169566, + "epoch": 0.3182933333333333, + "eta_time": 10.097935887442695, + "step": 2984 + }, + { + "epoch": 0.3184, + "grad_norm": 1.6868957171284666, + "learning_rate": 7.973616312974876e-06, + "loss": 0.5386, + "step": 2985 + }, + { + "avg_step_time": 5.661770878416119, + "epoch": 0.3184, + "eta_time": 10.049643309188612, + "step": 2985 + }, + { + "epoch": 0.31850666666666666, + "grad_norm": 1.5900675606992893, + "learning_rate": 7.972227362768421e-06, + "loss": 0.5201, + "step": 2986 + }, + { + "avg_step_time": 5.6623174156805485, + "epoch": 0.31850666666666666, + "eta_time": 10.049040546884173, + "step": 2986 + }, + { + "epoch": 0.31861333333333336, + "grad_norm": 1.5944843896481953, + "learning_rate": 7.970838057775222e-06, + "loss": 0.4997, + "step": 2987 + }, + { + "avg_step_time": 5.62194001072585, + "epoch": 0.31861333333333336, + "eta_time": 9.975820219032425, + "step": 2987 + }, + { + "epoch": 0.31872, + "grad_norm": 1.5172077448587606, + "learning_rate": 7.969448398161115e-06, + "loss": 0.5208, + "step": 2988 + }, + { + "avg_step_time": 5.622681468424171, + "epoch": 0.31872, + "eta_time": 9.97557403856255, + "step": 2988 + }, + { + "epoch": 0.31882666666666665, + "grad_norm": 1.6876152967628615, + "learning_rate": 7.968058384091978e-06, + "loss": 0.4955, + "step": 2989 + }, + { + "avg_step_time": 5.619166133379696, + "epoch": 0.31882666666666665, + "eta_time": 9.967776368822983, + "step": 2989 + }, + { + "epoch": 0.31893333333333335, + "grad_norm": 1.7980714625600631, + "learning_rate": 7.966668015733736e-06, + "loss": 0.5446, + "step": 2990 + }, + { + "avg_step_time": 5.621326249055188, + "epoch": 0.31893333333333335, + "eta_time": 9.970046694504825, + "step": 2990 + }, + { + "epoch": 0.31904, + "grad_norm": 1.6484374060753797, + "learning_rate": 7.965277293252354e-06, + "loss": 0.4876, + "step": 2991 + }, + { + "avg_step_time": 5.621166067894059, + "epoch": 0.31904, + "eta_time": 9.968201160398797, + "step": 2991 + }, + { + "epoch": 0.3191466666666667, + "grad_norm": 1.5572567154316008, + "learning_rate": 7.963886216813836e-06, + "loss": 0.5342, + "step": 2992 + }, + { + "avg_step_time": 5.626063845374367, + "epoch": 0.3191466666666667, + "eta_time": 9.975323756951274, + "step": 2992 + }, + { + "epoch": 0.31925333333333333, + "grad_norm": 1.6102643966077204, + "learning_rate": 7.962494786584232e-06, + "loss": 0.4923, + "step": 2993 + }, + { + "avg_step_time": 5.6264617202257865, + "epoch": 0.31925333333333333, + "eta_time": 9.974466305133602, + "step": 2993 + }, + { + "epoch": 0.31936, + "grad_norm": 1.7496325322453323, + "learning_rate": 7.961103002729634e-06, + "loss": 0.4579, + "step": 2994 + }, + { + "avg_step_time": 5.627151429051101, + "epoch": 0.31936, + "eta_time": 9.974125907993077, + "step": 2994 + }, + { + "epoch": 0.3194666666666667, + "grad_norm": 1.7972509391398204, + "learning_rate": 7.959710865416173e-06, + "loss": 0.5504, + "step": 2995 + }, + { + "avg_step_time": 5.632094648149279, + "epoch": 0.3194666666666667, + "eta_time": 9.981323293108998, + "step": 2995 + }, + { + "epoch": 0.3195733333333333, + "grad_norm": 1.6553592006418205, + "learning_rate": 7.958318374810028e-06, + "loss": 0.5349, + "step": 2996 + }, + { + "avg_step_time": 5.611592902077569, + "epoch": 0.3195733333333333, + "eta_time": 9.943430867320226, + "step": 2996 + }, + { + "epoch": 0.31968, + "grad_norm": 1.8706150762346783, + "learning_rate": 7.956925531077417e-06, + "loss": 0.5478, + "step": 2997 + }, + { + "avg_step_time": 5.611463693657306, + "epoch": 0.31968, + "eta_time": 9.941643177262861, + "step": 2997 + }, + { + "epoch": 0.31978666666666666, + "grad_norm": 0.7068198434313298, + "learning_rate": 7.955532334384597e-06, + "loss": 0.4668, + "step": 2998 + }, + { + "avg_step_time": 5.579030075458565, + "epoch": 0.31978666666666666, + "eta_time": 9.88263188644424, + "step": 2998 + }, + { + "epoch": 0.3198933333333333, + "grad_norm": 2.1389482923840952, + "learning_rate": 7.954138784897873e-06, + "loss": 0.563, + "step": 2999 + }, + { + "avg_step_time": 5.57907885734481, + "epoch": 0.3198933333333333, + "eta_time": 9.881168554008475, + "step": 2999 + }, + { + "epoch": 0.32, + "grad_norm": 1.5859033395882263, + "learning_rate": 7.952744882783587e-06, + "loss": 0.4411, + "step": 3000 + }, + { + "avg_step_time": 5.5760043943771205, + "epoch": 0.32, + "eta_time": 9.87417444837615, + "step": 3000 + }, + { + "epoch": 0.32010666666666665, + "grad_norm": 1.6504404227629899, + "learning_rate": 7.951350628208126e-06, + "loss": 0.5091, + "step": 3001 + }, + { + "avg_step_time": 5.541868024402195, + "epoch": 0.32010666666666665, + "eta_time": 9.812185218760998, + "step": 3001 + }, + { + "epoch": 0.32021333333333335, + "grad_norm": 1.788547506684262, + "learning_rate": 7.949956021337918e-06, + "loss": 0.4841, + "step": 3002 + }, + { + "avg_step_time": 5.517159582388522, + "epoch": 0.32021333333333335, + "eta_time": 9.766905005156126, + "step": 3002 + }, + { + "epoch": 0.32032, + "grad_norm": 1.7120811553668431, + "learning_rate": 7.948561062339435e-06, + "loss": 0.5275, + "step": 3003 + }, + { + "avg_step_time": 5.553884691662258, + "epoch": 0.32032, + "eta_time": 9.830375904242198, + "step": 3003 + }, + { + "epoch": 0.3204266666666667, + "grad_norm": 1.6163810961710792, + "learning_rate": 7.947165751379189e-06, + "loss": 0.5513, + "step": 3004 + }, + { + "avg_step_time": 5.564896366812966, + "epoch": 0.3204266666666667, + "eta_time": 9.848320764712613, + "step": 3004 + }, + { + "epoch": 0.32053333333333334, + "grad_norm": 0.6639595984216393, + "learning_rate": 7.945770088623735e-06, + "loss": 0.4388, + "step": 3005 + }, + { + "avg_step_time": 5.543389014523439, + "epoch": 0.32053333333333334, + "eta_time": 9.808718895142864, + "step": 3005 + }, + { + "epoch": 0.32064, + "grad_norm": 0.6528445058330018, + "learning_rate": 7.944374074239665e-06, + "loss": 0.4503, + "step": 3006 + }, + { + "avg_step_time": 5.510065745825719, + "epoch": 0.32064, + "eta_time": 9.748224648656668, + "step": 3006 + }, + { + "epoch": 0.3207466666666667, + "grad_norm": 1.5339741306294417, + "learning_rate": 7.942977708393624e-06, + "loss": 0.4405, + "step": 3007 + }, + { + "avg_step_time": 5.541207409868337, + "epoch": 0.3207466666666667, + "eta_time": 9.801780218344879, + "step": 3007 + }, + { + "epoch": 0.3208533333333333, + "grad_norm": 0.6289952653979792, + "learning_rate": 7.941580991252288e-06, + "loss": 0.459, + "step": 3008 + }, + { + "avg_step_time": 5.506903930143877, + "epoch": 0.3208533333333333, + "eta_time": 9.739571478673907, + "step": 3008 + }, + { + "epoch": 0.32096, + "grad_norm": 1.9098251140100098, + "learning_rate": 7.940183922982381e-06, + "loss": 0.526, + "step": 3009 + }, + { + "avg_step_time": 5.508894048555933, + "epoch": 0.32096, + "eta_time": 9.741560975863075, + "step": 3009 + }, + { + "epoch": 0.32106666666666667, + "grad_norm": 1.8803406446898285, + "learning_rate": 7.938786503750668e-06, + "loss": 0.5057, + "step": 3010 + }, + { + "avg_step_time": 5.522502853412821, + "epoch": 0.32106666666666667, + "eta_time": 9.764091850547944, + "step": 3010 + }, + { + "epoch": 0.3211733333333333, + "grad_norm": 0.645872869758655, + "learning_rate": 7.937388733723952e-06, + "loss": 0.4567, + "step": 3011 + }, + { + "avg_step_time": 5.485359663915152, + "epoch": 0.3211733333333333, + "eta_time": 9.696896916987786, + "step": 3011 + }, + { + "epoch": 0.32128, + "grad_norm": 1.68176111187555, + "learning_rate": 7.935990613069087e-06, + "loss": 0.5752, + "step": 3012 + }, + { + "avg_step_time": 5.48393160646612, + "epoch": 0.32128, + "eta_time": 9.692849114428867, + "step": 3012 + }, + { + "epoch": 0.32138666666666665, + "grad_norm": 1.6676792435460763, + "learning_rate": 7.934592141952954e-06, + "loss": 0.5052, + "step": 3013 + }, + { + "avg_step_time": 5.522960802521369, + "epoch": 0.32138666666666665, + "eta_time": 9.76029906267804, + "step": 3013 + }, + { + "epoch": 0.32149333333333335, + "grad_norm": 1.4592794499682717, + "learning_rate": 7.933193320542493e-06, + "loss": 0.4053, + "step": 3014 + }, + { + "avg_step_time": 5.5077736594460225, + "epoch": 0.32149333333333335, + "eta_time": 9.731930068815599, + "step": 3014 + }, + { + "epoch": 0.3216, + "grad_norm": 1.5135092693599501, + "learning_rate": 7.931794149004675e-06, + "loss": 0.4714, + "step": 3015 + }, + { + "avg_step_time": 5.511560160704334, + "epoch": 0.3216, + "eta_time": 9.737089617244322, + "step": 3015 + }, + { + "epoch": 0.32170666666666664, + "grad_norm": 1.6017829415336866, + "learning_rate": 7.930394627506513e-06, + "loss": 0.4993, + "step": 3016 + }, + { + "avg_step_time": 5.5177848603990345, + "epoch": 0.32170666666666664, + "eta_time": 9.746553868688185, + "step": 3016 + }, + { + "epoch": 0.32181333333333334, + "grad_norm": 1.4280586995488007, + "learning_rate": 7.928994756215067e-06, + "loss": 0.4189, + "step": 3017 + }, + { + "avg_step_time": 5.513910931770248, + "epoch": 0.32181333333333334, + "eta_time": 9.738179362276453, + "step": 3017 + }, + { + "epoch": 0.32192, + "grad_norm": 1.8487328269331138, + "learning_rate": 7.927594535297433e-06, + "loss": 0.4993, + "step": 3018 + }, + { + "avg_step_time": 5.5129485082144685, + "epoch": 0.32192, + "eta_time": 9.734948240755383, + "step": 3018 + }, + { + "epoch": 0.3220266666666667, + "grad_norm": 1.651824638801052, + "learning_rate": 7.926193964920756e-06, + "loss": 0.5186, + "step": 3019 + }, + { + "avg_step_time": 5.509289589795199, + "epoch": 0.3220266666666667, + "eta_time": 9.726956842427303, + "step": 3019 + }, + { + "epoch": 0.3221333333333333, + "grad_norm": 1.5945700214903145, + "learning_rate": 7.924793045252213e-06, + "loss": 0.4852, + "step": 3020 + }, + { + "avg_step_time": 5.508950941490404, + "epoch": 0.3221333333333333, + "eta_time": 9.724828675880977, + "step": 3020 + }, + { + "epoch": 0.32224, + "grad_norm": 1.679333846790487, + "learning_rate": 7.923391776459031e-06, + "loss": 0.554, + "step": 3021 + }, + { + "avg_step_time": 5.505862623754174, + "epoch": 0.32224, + "eta_time": 9.717847530926118, + "step": 3021 + }, + { + "epoch": 0.32234666666666667, + "grad_norm": 0.6436197830269758, + "learning_rate": 7.921990158708478e-06, + "loss": 0.4349, + "step": 3022 + }, + { + "avg_step_time": 5.474861344905815, + "epoch": 0.32234666666666667, + "eta_time": 9.661609478940735, + "step": 3022 + }, + { + "epoch": 0.3224533333333333, + "grad_norm": 1.8857171836607423, + "learning_rate": 7.920588192167854e-06, + "loss": 0.485, + "step": 3023 + }, + { + "avg_step_time": 5.472281222391611, + "epoch": 0.3224533333333333, + "eta_time": 9.65553620128653, + "step": 3023 + }, + { + "epoch": 0.32256, + "grad_norm": 1.805038826179728, + "learning_rate": 7.919185877004515e-06, + "loss": 0.4616, + "step": 3024 + }, + { + "avg_step_time": 5.470107432567712, + "epoch": 0.32256, + "eta_time": 9.650181195621538, + "step": 3024 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 2.016177849349576, + "learning_rate": 7.917783213385849e-06, + "loss": 0.5657, + "step": 3025 + }, + { + "avg_step_time": 5.47521756152914, + "epoch": 0.32266666666666666, + "eta_time": 9.657675421030566, + "step": 3025 + }, + { + "epoch": 0.32277333333333336, + "grad_norm": 1.8751938020990786, + "learning_rate": 7.916380201479287e-06, + "loss": 0.5414, + "step": 3026 + }, + { + "avg_step_time": 5.475356294651224, + "epoch": 0.32277333333333336, + "eta_time": 9.656399198539061, + "step": 3026 + }, + { + "epoch": 0.32288, + "grad_norm": 1.6846672277807058, + "learning_rate": 7.914976841452304e-06, + "loss": 0.5367, + "step": 3027 + }, + { + "avg_step_time": 5.471261267710214, + "epoch": 0.32288, + "eta_time": 9.64765736872901, + "step": 3027 + }, + { + "epoch": 0.32298666666666664, + "grad_norm": 2.0120712253710593, + "learning_rate": 7.913573133472417e-06, + "loss": 0.5399, + "step": 3028 + }, + { + "avg_step_time": 5.472511590129197, + "epoch": 0.32298666666666664, + "eta_time": 9.648341961819447, + "step": 3028 + }, + { + "epoch": 0.32309333333333334, + "grad_norm": 1.4357190939674465, + "learning_rate": 7.912169077707179e-06, + "loss": 0.4872, + "step": 3029 + }, + { + "avg_step_time": 5.469788187682027, + "epoch": 0.32309333333333334, + "eta_time": 9.64202106639726, + "step": 3029 + }, + { + "epoch": 0.3232, + "grad_norm": 1.438600629239738, + "learning_rate": 7.91076467432419e-06, + "loss": 0.4136, + "step": 3030 + }, + { + "avg_step_time": 5.482699411083954, + "epoch": 0.3232, + "eta_time": 9.663257712035469, + "step": 3030 + }, + { + "epoch": 0.3233066666666667, + "grad_norm": 1.5792645814202553, + "learning_rate": 7.909359923491092e-06, + "loss": 0.4798, + "step": 3031 + }, + { + "avg_step_time": 5.514260778523455, + "epoch": 0.3233066666666667, + "eta_time": 9.717352883042444, + "step": 3031 + }, + { + "epoch": 0.32341333333333333, + "grad_norm": 0.6896899607786866, + "learning_rate": 7.907954825375564e-06, + "loss": 0.4868, + "step": 3032 + }, + { + "avg_step_time": 5.48135460506786, + "epoch": 0.32341333333333333, + "eta_time": 9.657842294429287, + "step": 3032 + }, + { + "epoch": 0.32352, + "grad_norm": 1.9126176335331686, + "learning_rate": 7.90654938014533e-06, + "loss": 0.4557, + "step": 3033 + }, + { + "avg_step_time": 5.480432259916055, + "epoch": 0.32352, + "eta_time": 9.654694831218785, + "step": 3033 + }, + { + "epoch": 0.3236266666666667, + "grad_norm": 1.6453863135345648, + "learning_rate": 7.905143587968153e-06, + "loss": 0.4811, + "step": 3034 + }, + { + "avg_step_time": 5.47935303774747, + "epoch": 0.3236266666666667, + "eta_time": 9.651271558987974, + "step": 3034 + }, + { + "epoch": 0.3237333333333333, + "grad_norm": 1.640908939049908, + "learning_rate": 7.903737449011838e-06, + "loss": 0.4513, + "step": 3035 + }, + { + "avg_step_time": 5.5177477947389235, + "epoch": 0.3237333333333333, + "eta_time": 9.717366949623548, + "step": 3035 + }, + { + "epoch": 0.32384, + "grad_norm": 1.7716344223802563, + "learning_rate": 7.902330963444234e-06, + "loss": 0.4892, + "step": 3036 + }, + { + "avg_step_time": 5.513475468664458, + "epoch": 0.32384, + "eta_time": 9.70831138774, + "step": 3036 + }, + { + "epoch": 0.32394666666666666, + "grad_norm": 1.4431147622249165, + "learning_rate": 7.90092413143323e-06, + "loss": 0.4065, + "step": 3037 + }, + { + "avg_step_time": 5.547538904228595, + "epoch": 0.32394666666666666, + "eta_time": 9.766750437500232, + "step": 3037 + }, + { + "epoch": 0.32405333333333336, + "grad_norm": 1.826469902197327, + "learning_rate": 7.899516953146751e-06, + "loss": 0.5533, + "step": 3038 + }, + { + "avg_step_time": 5.540871848963728, + "epoch": 0.32405333333333336, + "eta_time": 9.753473585245317, + "step": 3038 + }, + { + "epoch": 0.32416, + "grad_norm": 1.51387785877612, + "learning_rate": 7.898109428752773e-06, + "loss": 0.4199, + "step": 3039 + }, + { + "avg_step_time": 5.543405833870474, + "epoch": 0.32416, + "eta_time": 9.756394267612034, + "step": 3039 + }, + { + "epoch": 0.32426666666666665, + "grad_norm": 1.9084629289150836, + "learning_rate": 7.896701558419306e-06, + "loss": 0.5446, + "step": 3040 + }, + { + "avg_step_time": 5.573659884809244, + "epoch": 0.32426666666666665, + "eta_time": 9.808093158407377, + "step": 3040 + }, + { + "epoch": 0.32437333333333335, + "grad_norm": 1.873355911854531, + "learning_rate": 7.895293342314406e-06, + "loss": 0.5918, + "step": 3041 + }, + { + "avg_step_time": 5.510129983979042, + "epoch": 0.32437333333333335, + "eta_time": 9.694767588478683, + "step": 3041 + }, + { + "epoch": 0.32448, + "grad_norm": 1.7079907951334914, + "learning_rate": 7.893884780606164e-06, + "loss": 0.5343, + "step": 3042 + }, + { + "avg_step_time": 5.547297024967695, + "epoch": 0.32448, + "eta_time": 9.758620016422338, + "step": 3042 + }, + { + "epoch": 0.3245866666666667, + "grad_norm": 1.5929644083524037, + "learning_rate": 7.89247587346272e-06, + "loss": 0.5197, + "step": 3043 + }, + { + "avg_step_time": 5.541907445348874, + "epoch": 0.3245866666666667, + "eta_time": 9.747599428874741, + "step": 3043 + }, + { + "epoch": 0.32469333333333333, + "grad_norm": 0.6654977532322496, + "learning_rate": 7.891066621052251e-06, + "loss": 0.4552, + "step": 3044 + }, + { + "avg_step_time": 5.507303736426613, + "epoch": 0.32469333333333333, + "eta_time": 9.68520554314358, + "step": 3044 + }, + { + "epoch": 0.3248, + "grad_norm": 1.6242170890920928, + "learning_rate": 7.889657023542973e-06, + "loss": 0.4773, + "step": 3045 + }, + { + "avg_step_time": 5.509345569995919, + "epoch": 0.3248, + "eta_time": 9.687265960576157, + "step": 3045 + }, + { + "epoch": 0.3249066666666667, + "grad_norm": 1.794642250519188, + "learning_rate": 7.88824708110315e-06, + "loss": 0.471, + "step": 3046 + }, + { + "avg_step_time": 5.5692854409266, + "epoch": 0.3249066666666667, + "eta_time": 9.79111320989568, + "step": 3046 + }, + { + "epoch": 0.3250133333333333, + "grad_norm": 1.6417116761430306, + "learning_rate": 7.886836793901077e-06, + "loss": 0.507, + "step": 3047 + }, + { + "avg_step_time": 5.571205500400428, + "epoch": 0.3250133333333333, + "eta_time": 9.792941224037197, + "step": 3047 + }, + { + "epoch": 0.32512, + "grad_norm": 1.57101226346522, + "learning_rate": 7.885426162105101e-06, + "loss": 0.5425, + "step": 3048 + }, + { + "avg_step_time": 5.5827147671670625, + "epoch": 0.32512, + "eta_time": 9.811621203296113, + "step": 3048 + }, + { + "epoch": 0.32522666666666666, + "grad_norm": 1.8218781575571088, + "learning_rate": 7.884015185883602e-06, + "loss": 0.4795, + "step": 3049 + }, + { + "avg_step_time": 5.579968452453613, + "epoch": 0.32522666666666666, + "eta_time": 9.805244563950433, + "step": 3049 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 1.7537298047750076, + "learning_rate": 7.882603865405008e-06, + "loss": 0.5384, + "step": 3050 + }, + { + "avg_step_time": 5.5787787003950635, + "epoch": 0.3253333333333333, + "eta_time": 9.801604244444105, + "step": 3050 + }, + { + "epoch": 0.32544, + "grad_norm": 1.7070657245294125, + "learning_rate": 7.881192200837785e-06, + "loss": 0.531, + "step": 3051 + }, + { + "avg_step_time": 5.627033180660671, + "epoch": 0.32544, + "eta_time": 9.884821620693913, + "step": 3051 + }, + { + "epoch": 0.32554666666666665, + "grad_norm": 1.5984055704682143, + "learning_rate": 7.879780192350434e-06, + "loss": 0.5711, + "step": 3052 + }, + { + "avg_step_time": 5.623518907662594, + "epoch": 0.32554666666666665, + "eta_time": 9.877086125875161, + "step": 3052 + }, + { + "epoch": 0.32565333333333335, + "grad_norm": 1.5564487784289325, + "learning_rate": 7.878367840111508e-06, + "loss": 0.5222, + "step": 3053 + }, + { + "avg_step_time": 5.625036567148536, + "epoch": 0.32565333333333335, + "eta_time": 9.878189215975846, + "step": 3053 + }, + { + "epoch": 0.32576, + "grad_norm": 1.7347244298131794, + "learning_rate": 7.876955144289594e-06, + "loss": 0.5456, + "step": 3054 + }, + { + "avg_step_time": 5.6423762976521195, + "epoch": 0.32576, + "eta_time": 9.907072382627513, + "step": 3054 + }, + { + "epoch": 0.3258666666666667, + "grad_norm": 1.9078758232844788, + "learning_rate": 7.87554210505332e-06, + "loss": 0.5567, + "step": 3055 + }, + { + "avg_step_time": 5.639069576456089, + "epoch": 0.3258666666666667, + "eta_time": 9.8996999231118, + "step": 3055 + }, + { + "epoch": 0.32597333333333334, + "grad_norm": 1.6447237520249083, + "learning_rate": 7.874128722571359e-06, + "loss": 0.4644, + "step": 3056 + }, + { + "avg_step_time": 5.632907566398081, + "epoch": 0.32597333333333334, + "eta_time": 9.887317475574854, + "step": 3056 + }, + { + "epoch": 0.32608, + "grad_norm": 1.7347578758282678, + "learning_rate": 7.872714997012421e-06, + "loss": 0.5495, + "step": 3057 + }, + { + "avg_step_time": 5.6372991282530505, + "epoch": 0.32608, + "eta_time": 9.893459970084104, + "step": 3057 + }, + { + "epoch": 0.3261866666666667, + "grad_norm": 1.8561113602851942, + "learning_rate": 7.87130092854526e-06, + "loss": 0.5602, + "step": 3058 + }, + { + "avg_step_time": 5.637269114003037, + "epoch": 0.3261866666666667, + "eta_time": 9.891841386988109, + "step": 3058 + }, + { + "epoch": 0.3262933333333333, + "grad_norm": 0.6516674405951679, + "learning_rate": 7.86988651733867e-06, + "loss": 0.4402, + "step": 3059 + }, + { + "avg_step_time": 5.607610011341596, + "epoch": 0.3262933333333333, + "eta_time": 9.83824023100931, + "step": 3059 + }, + { + "epoch": 0.3264, + "grad_norm": 1.6435478602747684, + "learning_rate": 7.868471763561482e-06, + "loss": 0.4511, + "step": 3060 + }, + { + "avg_step_time": 5.612010787231753, + "epoch": 0.3264, + "eta_time": 9.844402255935702, + "step": 3060 + }, + { + "epoch": 0.32650666666666667, + "grad_norm": 1.6031169431789623, + "learning_rate": 7.867056667382576e-06, + "loss": 0.4709, + "step": 3061 + }, + { + "avg_step_time": 5.612901533492888, + "epoch": 0.32650666666666667, + "eta_time": 9.844405634020582, + "step": 3061 + }, + { + "epoch": 0.3266133333333333, + "grad_norm": 1.548669266942278, + "learning_rate": 7.865641228970865e-06, + "loss": 0.4357, + "step": 3062 + }, + { + "avg_step_time": 5.61384617680251, + "epoch": 0.3266133333333333, + "eta_time": 9.844503031709513, + "step": 3062 + }, + { + "epoch": 0.32672, + "grad_norm": 1.502481581600307, + "learning_rate": 7.864225448495304e-06, + "loss": 0.5269, + "step": 3063 + }, + { + "avg_step_time": 5.582789192296038, + "epoch": 0.32672, + "eta_time": 9.78849038382572, + "step": 3063 + }, + { + "epoch": 0.32682666666666665, + "grad_norm": 1.938924930770349, + "learning_rate": 7.862809326124896e-06, + "loss": 0.4919, + "step": 3064 + }, + { + "avg_step_time": 5.578561696139249, + "epoch": 0.32682666666666665, + "eta_time": 9.779528573426333, + "step": 3064 + }, + { + "epoch": 0.32693333333333335, + "grad_norm": 1.7446266099296435, + "learning_rate": 7.861392862028678e-06, + "loss": 0.4641, + "step": 3065 + }, + { + "avg_step_time": 5.580463558736474, + "epoch": 0.32693333333333335, + "eta_time": 9.781312515451987, + "step": 3065 + }, + { + "epoch": 0.32704, + "grad_norm": 1.8509512141864426, + "learning_rate": 7.85997605637573e-06, + "loss": 0.5473, + "step": 3066 + }, + { + "avg_step_time": 5.582289770396069, + "epoch": 0.32704, + "eta_time": 9.782962822619112, + "step": 3066 + }, + { + "epoch": 0.32714666666666664, + "grad_norm": 1.7594514485196544, + "learning_rate": 7.85855890933517e-06, + "loss": 0.4883, + "step": 3067 + }, + { + "avg_step_time": 5.585622917522084, + "epoch": 0.32714666666666664, + "eta_time": 9.787252601035918, + "step": 3067 + }, + { + "epoch": 0.32725333333333334, + "grad_norm": 1.6172519916271315, + "learning_rate": 7.85714142107616e-06, + "loss": 0.4548, + "step": 3068 + }, + { + "avg_step_time": 5.587629994960746, + "epoch": 0.32725333333333334, + "eta_time": 9.789217327282618, + "step": 3068 + }, + { + "epoch": 0.32736, + "grad_norm": 0.6545104345261893, + "learning_rate": 7.855723591767903e-06, + "loss": 0.4441, + "step": 3069 + }, + { + "avg_step_time": 5.55534561475118, + "epoch": 0.32736, + "eta_time": 9.731113735172483, + "step": 3069 + }, + { + "epoch": 0.3274666666666667, + "grad_norm": 0.6546015001325289, + "learning_rate": 7.85430542157964e-06, + "loss": 0.4606, + "step": 3070 + }, + { + "avg_step_time": 5.523985761584657, + "epoch": 0.3274666666666667, + "eta_time": 9.674647285219796, + "step": 3070 + }, + { + "epoch": 0.3275733333333333, + "grad_norm": 1.798367044847639, + "learning_rate": 7.852886910680654e-06, + "loss": 0.5328, + "step": 3071 + }, + { + "avg_step_time": 5.520349883069896, + "epoch": 0.3275733333333333, + "eta_time": 9.666746017464618, + "step": 3071 + }, + { + "epoch": 0.32768, + "grad_norm": 1.6114692405300928, + "learning_rate": 7.85146805924027e-06, + "loss": 0.4817, + "step": 3072 + }, + { + "avg_step_time": 5.519497098344745, + "epoch": 0.32768, + "eta_time": 9.66371950301859, + "step": 3072 + }, + { + "epoch": 0.32778666666666667, + "grad_norm": 1.7527772706749063, + "learning_rate": 7.850048867427851e-06, + "loss": 0.4948, + "step": 3073 + }, + { + "avg_step_time": 5.551907609207461, + "epoch": 0.32778666666666667, + "eta_time": 9.718922709229284, + "step": 3073 + }, + { + "epoch": 0.3278933333333333, + "grad_norm": 1.6688703937116542, + "learning_rate": 7.848629335412803e-06, + "loss": 0.5253, + "step": 3074 + }, + { + "avg_step_time": 5.57765722756434, + "epoch": 0.3278933333333333, + "eta_time": 9.762449497467474, + "step": 3074 + }, + { + "epoch": 0.328, + "grad_norm": 1.9444299288244957, + "learning_rate": 7.847209463364574e-06, + "loss": 0.6118, + "step": 3075 + }, + { + "avg_step_time": 5.576167836333767, + "epoch": 0.328, + "eta_time": 9.758293713584093, + "step": 3075 + }, + { + "epoch": 0.32810666666666666, + "grad_norm": 1.6540589327856465, + "learning_rate": 7.845789251452646e-06, + "loss": 0.585, + "step": 3076 + }, + { + "avg_step_time": 5.574830633221251, + "epoch": 0.32810666666666666, + "eta_time": 9.754405044072405, + "step": 3076 + }, + { + "epoch": 0.32821333333333336, + "grad_norm": 1.7319034449788278, + "learning_rate": 7.844368699846547e-06, + "loss": 0.5775, + "step": 3077 + }, + { + "avg_step_time": 5.605989704228411, + "epoch": 0.32821333333333336, + "eta_time": 9.807367543675149, + "step": 3077 + }, + { + "epoch": 0.32832, + "grad_norm": 2.234500559459662, + "learning_rate": 7.842947808715848e-06, + "loss": 0.5048, + "step": 3078 + }, + { + "avg_step_time": 5.60381911017678, + "epoch": 0.32832, + "eta_time": 9.802013593550885, + "step": 3078 + }, + { + "epoch": 0.32842666666666664, + "grad_norm": 0.6601561928479667, + "learning_rate": 7.84152657823015e-06, + "loss": 0.4576, + "step": 3079 + }, + { + "avg_step_time": 5.541260830079667, + "epoch": 0.32842666666666664, + "eta_time": 9.69104949616155, + "step": 3079 + }, + { + "epoch": 0.32853333333333334, + "grad_norm": 0.6093592119490934, + "learning_rate": 7.840105008559109e-06, + "loss": 0.463, + "step": 3080 + }, + { + "avg_step_time": 5.5125870126666445, + "epoch": 0.32853333333333334, + "eta_time": 9.639370901315703, + "step": 3080 + }, + { + "epoch": 0.32864, + "grad_norm": 1.5821443863192755, + "learning_rate": 7.83868309987241e-06, + "loss": 0.4983, + "step": 3081 + }, + { + "avg_step_time": 5.4898452132639255, + "epoch": 0.32864, + "eta_time": 9.598079381189764, + "step": 3081 + }, + { + "epoch": 0.3287466666666667, + "grad_norm": 1.6517674579145503, + "learning_rate": 7.837260852339782e-06, + "loss": 0.529, + "step": 3082 + }, + { + "avg_step_time": 5.46874129410946, + "epoch": 0.3287466666666667, + "eta_time": 9.55966360106412, + "step": 3082 + }, + { + "epoch": 0.32885333333333333, + "grad_norm": 1.5525396598065064, + "learning_rate": 7.835838266130997e-06, + "loss": 0.4446, + "step": 3083 + }, + { + "avg_step_time": 5.451405079677851, + "epoch": 0.32885333333333333, + "eta_time": 9.527844655925845, + "step": 3083 + }, + { + "epoch": 0.32896, + "grad_norm": 1.712371263127649, + "learning_rate": 7.834415341415862e-06, + "loss": 0.4831, + "step": 3084 + }, + { + "avg_step_time": 5.453148663646043, + "epoch": 0.32896, + "eta_time": 9.52937728972146, + "step": 3084 + }, + { + "epoch": 0.3290666666666667, + "grad_norm": 1.5543979452949221, + "learning_rate": 7.832992078364231e-06, + "loss": 0.4365, + "step": 3085 + }, + { + "avg_step_time": 5.455874076997391, + "epoch": 0.3290666666666667, + "eta_time": 9.532624428975998, + "step": 3085 + }, + { + "epoch": 0.3291733333333333, + "grad_norm": 1.5547419052908946, + "learning_rate": 7.831568477145994e-06, + "loss": 0.4678, + "step": 3086 + }, + { + "avg_step_time": 5.456159779519746, + "epoch": 0.3291733333333333, + "eta_time": 9.531608014833244, + "step": 3086 + }, + { + "epoch": 0.32928, + "grad_norm": 1.9538063893693018, + "learning_rate": 7.830144537931082e-06, + "loss": 0.4509, + "step": 3087 + }, + { + "avg_step_time": 5.4590221583241165, + "epoch": 0.32928, + "eta_time": 9.535092036539456, + "step": 3087 + }, + { + "epoch": 0.32938666666666666, + "grad_norm": 1.718212009972113, + "learning_rate": 7.828720260889468e-06, + "loss": 0.4987, + "step": 3088 + }, + { + "avg_step_time": 5.466487966402613, + "epoch": 0.32938666666666666, + "eta_time": 9.54661384577034, + "step": 3088 + }, + { + "epoch": 0.32949333333333336, + "grad_norm": 0.6642390822742259, + "learning_rate": 7.827295646191161e-06, + "loss": 0.4556, + "step": 3089 + }, + { + "avg_step_time": 5.434663644944779, + "epoch": 0.32949333333333336, + "eta_time": 9.48952657558969, + "step": 3089 + }, + { + "epoch": 0.3296, + "grad_norm": 1.7906733011529647, + "learning_rate": 7.825870694006217e-06, + "loss": 0.5209, + "step": 3090 + }, + { + "avg_step_time": 5.459874829860649, + "epoch": 0.3296, + "eta_time": 9.532031473798384, + "step": 3090 + }, + { + "epoch": 0.32970666666666665, + "grad_norm": 1.6265795901772144, + "learning_rate": 7.824445404504727e-06, + "loss": 0.5567, + "step": 3091 + }, + { + "avg_step_time": 5.453876688022806, + "epoch": 0.32970666666666665, + "eta_time": 9.520044752093142, + "step": 3091 + }, + { + "epoch": 0.32981333333333335, + "grad_norm": 0.6580116536645626, + "learning_rate": 7.823019777856823e-06, + "loss": 0.4455, + "step": 3092 + }, + { + "avg_step_time": 5.42261269839123, + "epoch": 0.32981333333333335, + "eta_time": 9.463965439997805, + "step": 3092 + }, + { + "epoch": 0.32992, + "grad_norm": 1.536208585141898, + "learning_rate": 7.82159381423268e-06, + "loss": 0.4842, + "step": 3093 + }, + { + "avg_step_time": 5.422476236266319, + "epoch": 0.32992, + "eta_time": 9.462221032284726, + "step": 3093 + }, + { + "epoch": 0.3300266666666667, + "grad_norm": 1.5638038062956074, + "learning_rate": 7.82016751380251e-06, + "loss": 0.4787, + "step": 3094 + }, + { + "avg_step_time": 5.441929489675195, + "epoch": 0.3300266666666667, + "eta_time": 9.49465531240275, + "step": 3094 + }, + { + "epoch": 0.33013333333333333, + "grad_norm": 1.62554157579242, + "learning_rate": 7.818740876736568e-06, + "loss": 0.5624, + "step": 3095 + }, + { + "avg_step_time": 5.440304414190427, + "epoch": 0.33013333333333333, + "eta_time": 9.490308811421079, + "step": 3095 + }, + { + "epoch": 0.33024, + "grad_norm": 1.5954224805939106, + "learning_rate": 7.817313903205148e-06, + "loss": 0.425, + "step": 3096 + }, + { + "avg_step_time": 5.438944260279338, + "epoch": 0.33024, + "eta_time": 9.486425280637212, + "step": 3096 + }, + { + "epoch": 0.3303466666666667, + "grad_norm": 2.0308096140324463, + "learning_rate": 7.815886593378583e-06, + "loss": 0.5427, + "step": 3097 + }, + { + "avg_step_time": 5.4740654362572565, + "epoch": 0.3303466666666667, + "eta_time": 9.546161891339738, + "step": 3097 + }, + { + "epoch": 0.3304533333333333, + "grad_norm": 0.6440268621668807, + "learning_rate": 7.814458947427246e-06, + "loss": 0.4462, + "step": 3098 + }, + { + "avg_step_time": 5.437294153252033, + "epoch": 0.3304533333333333, + "eta_time": 9.480526499989725, + "step": 3098 + }, + { + "epoch": 0.33056, + "grad_norm": 1.7407068537774781, + "learning_rate": 7.813030965521554e-06, + "loss": 0.4924, + "step": 3099 + }, + { + "avg_step_time": 5.439934891883773, + "epoch": 0.33056, + "eta_time": 9.483619828184045, + "step": 3099 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 2.180876868617941, + "learning_rate": 7.811602647831959e-06, + "loss": 0.4743, + "step": 3100 + }, + { + "avg_step_time": 5.437144712968306, + "epoch": 0.33066666666666666, + "eta_time": 9.477245298298923, + "step": 3100 + }, + { + "epoch": 0.3307733333333333, + "grad_norm": 1.776570467681043, + "learning_rate": 7.810173994528956e-06, + "loss": 0.4917, + "step": 3101 + }, + { + "avg_step_time": 5.437821525515932, + "epoch": 0.3307733333333333, + "eta_time": 9.47691451419082, + "step": 3101 + }, + { + "epoch": 0.33088, + "grad_norm": 1.6980340607075324, + "learning_rate": 7.80874500578308e-06, + "loss": 0.4303, + "step": 3102 + }, + { + "avg_step_time": 5.437842768852157, + "epoch": 0.33088, + "eta_time": 9.475441024724883, + "step": 3102 + }, + { + "epoch": 0.33098666666666665, + "grad_norm": 1.5828592282189713, + "learning_rate": 7.807315681764907e-06, + "loss": 0.4355, + "step": 3103 + }, + { + "avg_step_time": 5.419005887676971, + "epoch": 0.33098666666666665, + "eta_time": 9.441112479863879, + "step": 3103 + }, + { + "epoch": 0.33109333333333335, + "grad_norm": 1.403547211737359, + "learning_rate": 7.805886022645046e-06, + "loss": 0.5096, + "step": 3104 + }, + { + "avg_step_time": 5.442843509442879, + "epoch": 0.33109333333333335, + "eta_time": 9.481131013254526, + "step": 3104 + }, + { + "epoch": 0.3312, + "grad_norm": 1.80897712413555, + "learning_rate": 7.804456028594158e-06, + "loss": 0.5232, + "step": 3105 + }, + { + "avg_step_time": 5.474416277625344, + "epoch": 0.3312, + "eta_time": 9.534608350197475, + "step": 3105 + }, + { + "epoch": 0.3313066666666667, + "grad_norm": 1.715287194775132, + "learning_rate": 7.803025699782935e-06, + "loss": 0.4376, + "step": 3106 + }, + { + "avg_step_time": 5.477238414263485, + "epoch": 0.3313066666666667, + "eta_time": 9.53800211639383, + "step": 3106 + }, + { + "epoch": 0.33141333333333334, + "grad_norm": 1.4788396907444503, + "learning_rate": 7.80159503638211e-06, + "loss": 0.4834, + "step": 3107 + }, + { + "avg_step_time": 5.509988635477393, + "epoch": 0.33141333333333334, + "eta_time": 9.59350243532564, + "step": 3107 + }, + { + "epoch": 0.33152, + "grad_norm": 1.8263763987372925, + "learning_rate": 7.80016403856246e-06, + "loss": 0.5238, + "step": 3108 + }, + { + "avg_step_time": 5.5109196672535905, + "epoch": 0.33152, + "eta_time": 9.593592654077293, + "step": 3108 + }, + { + "epoch": 0.3316266666666667, + "grad_norm": 1.4944756231868153, + "learning_rate": 7.798732706494799e-06, + "loss": 0.4939, + "step": 3109 + }, + { + "avg_step_time": 5.50315441025628, + "epoch": 0.3316266666666667, + "eta_time": 9.578545981851626, + "step": 3109 + }, + { + "epoch": 0.3317333333333333, + "grad_norm": 1.6008190514479383, + "learning_rate": 7.797301040349978e-06, + "loss": 0.5591, + "step": 3110 + }, + { + "avg_step_time": 5.553455102323282, + "epoch": 0.3317333333333333, + "eta_time": 9.664554504459824, + "step": 3110 + }, + { + "epoch": 0.33184, + "grad_norm": 1.7009064261769913, + "learning_rate": 7.795869040298895e-06, + "loss": 0.4188, + "step": 3111 + }, + { + "avg_step_time": 5.555042481181597, + "epoch": 0.33184, + "eta_time": 9.665773917255978, + "step": 3111 + }, + { + "epoch": 0.33194666666666667, + "grad_norm": 1.80204118013855, + "learning_rate": 7.794436706512483e-06, + "loss": 0.4848, + "step": 3112 + }, + { + "avg_step_time": 5.549095071927465, + "epoch": 0.33194666666666667, + "eta_time": 9.653884009856032, + "step": 3112 + }, + { + "epoch": 0.3320533333333333, + "grad_norm": 1.5799512683256802, + "learning_rate": 7.793004039161714e-06, + "loss": 0.5287, + "step": 3113 + }, + { + "avg_step_time": 5.5505350430806475, + "epoch": 0.3320533333333333, + "eta_time": 9.654847344380837, + "step": 3113 + }, + { + "epoch": 0.33216, + "grad_norm": 2.0713885140942003, + "learning_rate": 7.791571038417602e-06, + "loss": 0.5864, + "step": 3114 + }, + { + "avg_step_time": 5.549143745441629, + "epoch": 0.33216, + "eta_time": 9.6508858306139, + "step": 3114 + }, + { + "epoch": 0.33226666666666665, + "grad_norm": 1.7493457311015712, + "learning_rate": 7.790137704451203e-06, + "loss": 0.5085, + "step": 3115 + }, + { + "avg_step_time": 5.541521657596935, + "epoch": 0.33226666666666665, + "eta_time": 9.636090437932447, + "step": 3115 + }, + { + "epoch": 0.33237333333333335, + "grad_norm": 1.9478357035147316, + "learning_rate": 7.788704037433608e-06, + "loss": 0.6022, + "step": 3116 + }, + { + "avg_step_time": 5.541507735396877, + "epoch": 0.33237333333333335, + "eta_time": 9.634526921069181, + "step": 3116 + }, + { + "epoch": 0.33248, + "grad_norm": 1.754345260725063, + "learning_rate": 7.78727003753595e-06, + "loss": 0.5602, + "step": 3117 + }, + { + "avg_step_time": 5.541278280393041, + "epoch": 0.33248, + "eta_time": 9.632588744083238, + "step": 3117 + }, + { + "epoch": 0.33258666666666664, + "grad_norm": 1.615478680896508, + "learning_rate": 7.785835704929403e-06, + "loss": 0.5428, + "step": 3118 + }, + { + "avg_step_time": 5.5444166636226155, + "epoch": 0.33258666666666664, + "eta_time": 9.636504184524084, + "step": 3118 + }, + { + "epoch": 0.33269333333333334, + "grad_norm": 1.5410284549194364, + "learning_rate": 7.784401039785179e-06, + "loss": 0.4964, + "step": 3119 + }, + { + "avg_step_time": 5.5459591403152, + "epoch": 0.33269333333333334, + "eta_time": 9.637644550503303, + "step": 3119 + }, + { + "epoch": 0.3328, + "grad_norm": 1.5734955315688026, + "learning_rate": 7.782966042274529e-06, + "loss": 0.4612, + "step": 3120 + }, + { + "avg_step_time": 5.556986755794949, + "epoch": 0.3328, + "eta_time": 9.655264488193724, + "step": 3120 + }, + { + "epoch": 0.3329066666666667, + "grad_norm": 1.683555170002198, + "learning_rate": 7.781530712568746e-06, + "loss": 0.4596, + "step": 3121 + }, + { + "avg_step_time": 5.594689997759732, + "epoch": 0.3329066666666667, + "eta_time": 9.719219790552602, + "step": 3121 + }, + { + "epoch": 0.33301333333333333, + "grad_norm": 1.5990024361116275, + "learning_rate": 7.78009505083916e-06, + "loss": 0.5189, + "step": 3122 + }, + { + "avg_step_time": 5.59483529822995, + "epoch": 0.33301333333333333, + "eta_time": 9.717918088842188, + "step": 3122 + }, + { + "epoch": 0.33312, + "grad_norm": 1.6354695727043815, + "learning_rate": 7.778659057257144e-06, + "loss": 0.5288, + "step": 3123 + }, + { + "avg_step_time": 5.599902832146847, + "epoch": 0.33312, + "eta_time": 9.725164585161691, + "step": 3123 + }, + { + "epoch": 0.33322666666666667, + "grad_norm": 1.840968272757105, + "learning_rate": 7.777222731994107e-06, + "loss": 0.4988, + "step": 3124 + }, + { + "avg_step_time": 5.599197982537626, + "epoch": 0.33322666666666667, + "eta_time": 9.722385163567417, + "step": 3124 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 1.7678108068391594, + "learning_rate": 7.7757860752215e-06, + "loss": 0.465, + "step": 3125 + }, + { + "avg_step_time": 5.611093465727989, + "epoch": 0.3333333333333333, + "eta_time": 9.741481711333314, + "step": 3125 + }, + { + "epoch": 0.33344, + "grad_norm": 1.5101606666242606, + "learning_rate": 7.774349087110813e-06, + "loss": 0.505, + "step": 3126 + }, + { + "avg_step_time": 5.609248500881773, + "epoch": 0.33344, + "eta_time": 9.736720522780612, + "step": 3126 + }, + { + "epoch": 0.33354666666666666, + "grad_norm": 1.640118146919288, + "learning_rate": 7.772911767833576e-06, + "loss": 0.478, + "step": 3127 + }, + { + "avg_step_time": 5.606747152829411, + "epoch": 0.33354666666666666, + "eta_time": 9.730821169688378, + "step": 3127 + }, + { + "epoch": 0.33365333333333336, + "grad_norm": 1.863396364833483, + "learning_rate": 7.771474117561353e-06, + "loss": 0.4496, + "step": 3128 + }, + { + "avg_step_time": 5.6122997096090605, + "epoch": 0.33365333333333336, + "eta_time": 9.73889896831328, + "step": 3128 + }, + { + "epoch": 0.33376, + "grad_norm": 1.6532292640025619, + "learning_rate": 7.77003613646576e-06, + "loss": 0.5113, + "step": 3129 + }, + { + "avg_step_time": 5.609359567815607, + "epoch": 0.33376, + "eta_time": 9.73223885016008, + "step": 3129 + }, + { + "epoch": 0.33386666666666664, + "grad_norm": 1.879571336219437, + "learning_rate": 7.76859782471844e-06, + "loss": 0.6271, + "step": 3130 + }, + { + "avg_step_time": 5.60857083099057, + "epoch": 0.33386666666666664, + "eta_time": 9.729312455426697, + "step": 3130 + }, + { + "epoch": 0.33397333333333334, + "grad_norm": 1.6376363880549303, + "learning_rate": 7.767159182491084e-06, + "loss": 0.4778, + "step": 3131 + }, + { + "avg_step_time": 5.643059463211984, + "epoch": 0.33397333333333334, + "eta_time": 9.787573135637675, + "step": 3131 + }, + { + "epoch": 0.33408, + "grad_norm": 1.6034898120475034, + "learning_rate": 7.765720209955414e-06, + "loss": 0.4126, + "step": 3132 + }, + { + "avg_step_time": 5.651956392057015, + "epoch": 0.33408, + "eta_time": 9.801434376558873, + "step": 3132 + }, + { + "epoch": 0.3341866666666667, + "grad_norm": 1.629773019481816, + "learning_rate": 7.764280907283198e-06, + "loss": 0.6323, + "step": 3133 + }, + { + "avg_step_time": 5.65112156097335, + "epoch": 0.3341866666666667, + "eta_time": 9.798416884332125, + "step": 3133 + }, + { + "epoch": 0.33429333333333333, + "grad_norm": 0.647645699168494, + "learning_rate": 7.762841274646247e-06, + "loss": 0.4647, + "step": 3134 + }, + { + "avg_step_time": 5.6065775818294945, + "epoch": 0.33429333333333333, + "eta_time": 9.719625191166077, + "step": 3134 + }, + { + "epoch": 0.3344, + "grad_norm": 1.6967481928924413, + "learning_rate": 7.761401312216398e-06, + "loss": 0.4125, + "step": 3135 + }, + { + "avg_step_time": 5.606415758229265, + "epoch": 0.3344, + "eta_time": 9.71778731426406, + "step": 3135 + }, + { + "epoch": 0.3345066666666667, + "grad_norm": 0.644273728031152, + "learning_rate": 7.75996102016554e-06, + "loss": 0.4344, + "step": 3136 + }, + { + "avg_step_time": 5.571741679702142, + "epoch": 0.3345066666666667, + "eta_time": 9.656137872128241, + "step": 3136 + }, + { + "epoch": 0.3346133333333333, + "grad_norm": 1.797154796532292, + "learning_rate": 7.758520398665596e-06, + "loss": 0.5643, + "step": 3137 + }, + { + "avg_step_time": 5.569147952879318, + "epoch": 0.3346133333333333, + "eta_time": 9.650095813905883, + "step": 3137 + }, + { + "epoch": 0.33472, + "grad_norm": 0.6662519379826971, + "learning_rate": 7.757079447888529e-06, + "loss": 0.4591, + "step": 3138 + }, + { + "avg_step_time": 5.53628809524305, + "epoch": 0.33472, + "eta_time": 9.591619125008583, + "step": 3138 + }, + { + "epoch": 0.33482666666666666, + "grad_norm": 1.8175266560120438, + "learning_rate": 7.75563816800634e-06, + "loss": 0.4809, + "step": 3139 + }, + { + "avg_step_time": 5.540382691104003, + "epoch": 0.33482666666666666, + "eta_time": 9.597174017145711, + "step": 3139 + }, + { + "epoch": 0.33493333333333336, + "grad_norm": 1.8196789819152615, + "learning_rate": 7.754196559191072e-06, + "loss": 0.4988, + "step": 3140 + }, + { + "avg_step_time": 5.538736068841183, + "epoch": 0.33493333333333336, + "eta_time": 9.592783163673548, + "step": 3140 + }, + { + "epoch": 0.33504, + "grad_norm": 1.6717986346440787, + "learning_rate": 7.752754621614807e-06, + "loss": 0.4529, + "step": 3141 + }, + { + "avg_step_time": 5.53523490164015, + "epoch": 0.33504, + "eta_time": 9.585181771340192, + "step": 3141 + }, + { + "epoch": 0.33514666666666665, + "grad_norm": 1.9008868716064682, + "learning_rate": 7.751312355449664e-06, + "loss": 0.5349, + "step": 3142 + }, + { + "avg_step_time": 5.538908736874359, + "epoch": 0.33514666666666665, + "eta_time": 9.590005043593855, + "step": 3142 + }, + { + "epoch": 0.33525333333333335, + "grad_norm": 1.95567889024983, + "learning_rate": 7.749869760867803e-06, + "loss": 0.5299, + "step": 3143 + }, + { + "avg_step_time": 5.5731752569025215, + "epoch": 0.33525333333333335, + "eta_time": 9.647785611393477, + "step": 3143 + }, + { + "epoch": 0.33536, + "grad_norm": 1.7550598949218417, + "learning_rate": 7.748426838041421e-06, + "loss": 0.4582, + "step": 3144 + }, + { + "avg_step_time": 5.574826727009783, + "epoch": 0.33536, + "eta_time": 9.6490959266661, + "step": 3144 + }, + { + "epoch": 0.3354666666666667, + "grad_norm": 1.5354122561397936, + "learning_rate": 7.746983587142757e-06, + "loss": 0.4178, + "step": 3145 + }, + { + "avg_step_time": 5.5628653535939225, + "epoch": 0.3354666666666667, + "eta_time": 9.626847542469482, + "step": 3145 + }, + { + "epoch": 0.33557333333333333, + "grad_norm": 1.7068687200483246, + "learning_rate": 7.745540008344088e-06, + "loss": 0.5677, + "step": 3146 + }, + { + "avg_step_time": 5.5624096562164, + "epoch": 0.33557333333333333, + "eta_time": 9.624513819047767, + "step": 3146 + }, + { + "epoch": 0.33568, + "grad_norm": 1.5037443783839985, + "learning_rate": 7.744096101817731e-06, + "loss": 0.5281, + "step": 3147 + }, + { + "avg_step_time": 5.56816009078363, + "epoch": 0.33568, + "eta_time": 9.63291695705568, + "step": 3147 + }, + { + "epoch": 0.3357866666666667, + "grad_norm": 1.563601154618974, + "learning_rate": 7.742651867736037e-06, + "loss": 0.457, + "step": 3148 + }, + { + "avg_step_time": 5.544256535443393, + "epoch": 0.3357866666666667, + "eta_time": 9.590023735057224, + "step": 3148 + }, + { + "epoch": 0.3358933333333333, + "grad_norm": 0.68872803041703, + "learning_rate": 7.741207306271409e-06, + "loss": 0.4481, + "step": 3149 + }, + { + "avg_step_time": 5.513819470550075, + "epoch": 0.3358933333333333, + "eta_time": 9.535844451012435, + "step": 3149 + }, + { + "epoch": 0.336, + "grad_norm": 1.6774231883811315, + "learning_rate": 7.73976241759627e-06, + "loss": 0.4612, + "step": 3150 + }, + { + "avg_step_time": 5.505231228741732, + "epoch": 0.336, + "eta_time": 9.519462333032578, + "step": 3150 + }, + { + "epoch": 0.33610666666666666, + "grad_norm": 1.776815319079771, + "learning_rate": 7.738317201883098e-06, + "loss": 0.4873, + "step": 3151 + }, + { + "avg_step_time": 5.509778764512804, + "epoch": 0.33610666666666666, + "eta_time": 9.525795286202138, + "step": 3151 + }, + { + "epoch": 0.3362133333333333, + "grad_norm": 1.6990748953259207, + "learning_rate": 7.736871659304404e-06, + "loss": 0.4728, + "step": 3152 + }, + { + "avg_step_time": 5.509862998519281, + "epoch": 0.3362133333333333, + "eta_time": 9.524410399940413, + "step": 3152 + }, + { + "epoch": 0.33632, + "grad_norm": 1.825552922752026, + "learning_rate": 7.73542579003274e-06, + "loss": 0.5198, + "step": 3153 + }, + { + "avg_step_time": 5.486398872703012, + "epoch": 0.33632, + "eta_time": 9.48232605165504, + "step": 3153 + }, + { + "epoch": 0.33642666666666665, + "grad_norm": 0.6670441303683727, + "learning_rate": 7.733979594240694e-06, + "loss": 0.4771, + "step": 3154 + }, + { + "avg_step_time": 5.454092639865297, + "epoch": 0.33642666666666665, + "eta_time": 9.424975086833893, + "step": 3154 + }, + { + "epoch": 0.33653333333333335, + "grad_norm": 0.6390229819892529, + "learning_rate": 7.732533072100892e-06, + "loss": 0.4349, + "step": 3155 + }, + { + "avg_step_time": 5.441745240278919, + "epoch": 0.33653333333333335, + "eta_time": 9.402126498481909, + "step": 3155 + }, + { + "epoch": 0.33664, + "grad_norm": 1.9473193777102336, + "learning_rate": 7.731086223786006e-06, + "loss": 0.5009, + "step": 3156 + }, + { + "avg_step_time": 5.438740323288272, + "epoch": 0.33664, + "eta_time": 9.39542390848049, + "step": 3156 + }, + { + "epoch": 0.3367466666666667, + "grad_norm": 1.6728181836285478, + "learning_rate": 7.72963904946874e-06, + "loss": 0.4714, + "step": 3157 + }, + { + "avg_step_time": 5.462011387853911, + "epoch": 0.3367466666666667, + "eta_time": 9.434107447132117, + "step": 3157 + }, + { + "epoch": 0.33685333333333334, + "grad_norm": 1.7437029084640083, + "learning_rate": 7.728191549321837e-06, + "loss": 0.5499, + "step": 3158 + }, + { + "avg_step_time": 5.495006496256048, + "epoch": 0.33685333333333334, + "eta_time": 9.489570940895513, + "step": 3158 + }, + { + "epoch": 0.33696, + "grad_norm": 1.6674214477465858, + "learning_rate": 7.726743723518087e-06, + "loss": 0.4357, + "step": 3159 + }, + { + "avg_step_time": 5.491274903518985, + "epoch": 0.33696, + "eta_time": 9.481601333409447, + "step": 3159 + }, + { + "epoch": 0.3370666666666667, + "grad_norm": 1.8777939543486937, + "learning_rate": 7.725295572230307e-06, + "loss": 0.5113, + "step": 3160 + }, + { + "avg_step_time": 5.491759088304308, + "epoch": 0.3370666666666667, + "eta_time": 9.480911870503132, + "step": 3160 + }, + { + "epoch": 0.3371733333333333, + "grad_norm": 1.564148356372956, + "learning_rate": 7.723847095631362e-06, + "loss": 0.4003, + "step": 3161 + }, + { + "avg_step_time": 5.495242171817356, + "epoch": 0.3371733333333333, + "eta_time": 9.48539857102029, + "step": 3161 + }, + { + "epoch": 0.33728, + "grad_norm": 1.457008802381865, + "learning_rate": 7.722398293894153e-06, + "loss": 0.4259, + "step": 3162 + }, + { + "avg_step_time": 5.504951260306618, + "epoch": 0.33728, + "eta_time": 9.500628383412506, + "step": 3162 + }, + { + "epoch": 0.33738666666666667, + "grad_norm": 1.8578801772408402, + "learning_rate": 7.72094916719162e-06, + "loss": 0.4925, + "step": 3163 + }, + { + "avg_step_time": 5.506393471149483, + "epoch": 0.33738666666666667, + "eta_time": 9.50158784521683, + "step": 3163 + }, + { + "epoch": 0.3374933333333333, + "grad_norm": 0.6523264086214147, + "learning_rate": 7.719499715696738e-06, + "loss": 0.4637, + "step": 3164 + }, + { + "avg_step_time": 5.46737401413195, + "epoch": 0.3374933333333333, + "eta_time": 9.43273888938154, + "step": 3164 + }, + { + "epoch": 0.3376, + "grad_norm": 2.0031860590139674, + "learning_rate": 7.718049939582529e-06, + "loss": 0.5217, + "step": 3165 + }, + { + "avg_step_time": 5.464533649309717, + "epoch": 0.3376, + "eta_time": 9.426320545059264, + "step": 3165 + }, + { + "epoch": 0.33770666666666666, + "grad_norm": 1.9991266152650327, + "learning_rate": 7.716599839022044e-06, + "loss": 0.4938, + "step": 3166 + }, + { + "avg_step_time": 5.462989424214219, + "epoch": 0.33770666666666666, + "eta_time": 9.422139259707246, + "step": 3166 + }, + { + "epoch": 0.33781333333333335, + "grad_norm": 1.4849322991289795, + "learning_rate": 7.71514941418838e-06, + "loss": 0.4128, + "step": 3167 + }, + { + "avg_step_time": 5.46276770216046, + "epoch": 0.33781333333333335, + "eta_time": 9.420239415281149, + "step": 3167 + }, + { + "epoch": 0.33792, + "grad_norm": 1.5463782122248815, + "learning_rate": 7.713698665254669e-06, + "loss": 0.508, + "step": 3168 + }, + { + "avg_step_time": 5.492938552239929, + "epoch": 0.33792, + "eta_time": 9.470741553820345, + "step": 3168 + }, + { + "epoch": 0.33802666666666664, + "grad_norm": 1.7909300418109337, + "learning_rate": 7.712247592394087e-06, + "loss": 0.5075, + "step": 3169 + }, + { + "avg_step_time": 5.534022275847618, + "epoch": 0.33802666666666664, + "eta_time": 9.54003951219731, + "step": 3169 + }, + { + "epoch": 0.33813333333333334, + "grad_norm": 1.9563705685827595, + "learning_rate": 7.71079619577984e-06, + "loss": 0.4562, + "step": 3170 + }, + { + "avg_step_time": 5.532226969497373, + "epoch": 0.33813333333333334, + "eta_time": 9.535407873814222, + "step": 3170 + }, + { + "epoch": 0.33824, + "grad_norm": 1.6180520249316481, + "learning_rate": 7.70934447558518e-06, + "loss": 0.4882, + "step": 3171 + }, + { + "avg_step_time": 5.531961400099475, + "epoch": 0.33824, + "eta_time": 9.533413479504762, + "step": 3171 + }, + { + "epoch": 0.3383466666666667, + "grad_norm": 1.9539762044375626, + "learning_rate": 7.70789243198339e-06, + "loss": 0.4988, + "step": 3172 + }, + { + "avg_step_time": 5.539551864970814, + "epoch": 0.3383466666666667, + "eta_time": 9.544955616226101, + "step": 3172 + }, + { + "epoch": 0.33845333333333333, + "grad_norm": 1.7465836637126393, + "learning_rate": 7.706440065147805e-06, + "loss": 0.4593, + "step": 3173 + }, + { + "avg_step_time": 5.537919042086361, + "epoch": 0.33845333333333333, + "eta_time": 9.54060386083878, + "step": 3173 + }, + { + "epoch": 0.33856, + "grad_norm": 1.6088748918218587, + "learning_rate": 7.704987375251782e-06, + "loss": 0.5112, + "step": 3174 + }, + { + "avg_step_time": 5.539634350574378, + "epoch": 0.33856, + "eta_time": 9.542020168864367, + "step": 3174 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 1.6437691655925486, + "learning_rate": 7.70353436246873e-06, + "loss": 0.5485, + "step": 3175 + }, + { + "avg_step_time": 5.539445990263814, + "epoch": 0.33866666666666667, + "eta_time": 9.540156983232125, + "step": 3175 + }, + { + "epoch": 0.3387733333333333, + "grad_norm": 1.5830813385628804, + "learning_rate": 7.70208102697209e-06, + "loss": 0.4394, + "step": 3176 + }, + { + "avg_step_time": 5.546430891210383, + "epoch": 0.3387733333333333, + "eta_time": 9.550645859614768, + "step": 3176 + }, + { + "epoch": 0.33888, + "grad_norm": 1.8617126111558144, + "learning_rate": 7.70062736893534e-06, + "loss": 0.554, + "step": 3177 + }, + { + "avg_step_time": 5.5441622950813985, + "epoch": 0.33888, + "eta_time": 9.545199418031807, + "step": 3177 + }, + { + "epoch": 0.33898666666666666, + "grad_norm": 1.7889007235398058, + "learning_rate": 7.699173388532004e-06, + "loss": 0.5163, + "step": 3178 + }, + { + "avg_step_time": 5.580885655952223, + "epoch": 0.33898666666666666, + "eta_time": 9.606874558315534, + "step": 3178 + }, + { + "epoch": 0.33909333333333336, + "grad_norm": 1.734069650849926, + "learning_rate": 7.697719085935634e-06, + "loss": 0.5775, + "step": 3179 + }, + { + "avg_step_time": 5.612934685716725, + "epoch": 0.33909333333333336, + "eta_time": 9.660484253528008, + "step": 3179 + }, + { + "epoch": 0.3392, + "grad_norm": 1.7065122444837548, + "learning_rate": 7.696264461319831e-06, + "loss": 0.5375, + "step": 3180 + }, + { + "avg_step_time": 5.615348334264273, + "epoch": 0.3392, + "eta_time": 9.66307859187977, + "step": 3180 + }, + { + "epoch": 0.33930666666666665, + "grad_norm": 1.8097263951781681, + "learning_rate": 7.694809514858227e-06, + "loss": 0.5306, + "step": 3181 + }, + { + "avg_step_time": 5.616106204312257, + "epoch": 0.33930666666666665, + "eta_time": 9.662822730419478, + "step": 3181 + }, + { + "epoch": 0.33941333333333334, + "grad_norm": 1.6834045665659163, + "learning_rate": 7.693354246724496e-06, + "loss": 0.4905, + "step": 3182 + }, + { + "avg_step_time": 5.617951535215282, + "epoch": 0.33941333333333334, + "eta_time": 9.664437182663399, + "step": 3182 + }, + { + "epoch": 0.33952, + "grad_norm": 1.9403953533966978, + "learning_rate": 7.69189865709235e-06, + "loss": 0.431, + "step": 3183 + }, + { + "avg_step_time": 5.6177588713289515, + "epoch": 0.33952, + "eta_time": 9.662545258685796, + "step": 3183 + }, + { + "epoch": 0.3396266666666667, + "grad_norm": 1.6578283802109557, + "learning_rate": 7.690442746135538e-06, + "loss": 0.4546, + "step": 3184 + }, + { + "avg_step_time": 5.6475884071504225, + "epoch": 0.3396266666666667, + "eta_time": 9.712283285741186, + "step": 3184 + }, + { + "epoch": 0.33973333333333333, + "grad_norm": 0.6666486314754173, + "learning_rate": 7.688986514027848e-06, + "loss": 0.4642, + "step": 3185 + }, + { + "avg_step_time": 5.615726533562246, + "epoch": 0.33973333333333333, + "eta_time": 9.655929789652863, + "step": 3185 + }, + { + "epoch": 0.33984, + "grad_norm": 1.824910566998469, + "learning_rate": 7.687529960943107e-06, + "loss": 0.506, + "step": 3186 + }, + { + "avg_step_time": 5.6128141494712445, + "epoch": 0.33984, + "eta_time": 9.649362991965981, + "step": 3186 + }, + { + "epoch": 0.3399466666666667, + "grad_norm": 1.9815536051737788, + "learning_rate": 7.686073087055179e-06, + "loss": 0.4802, + "step": 3187 + }, + { + "avg_step_time": 5.606192974129108, + "epoch": 0.3399466666666667, + "eta_time": 9.636422812197479, + "step": 3187 + }, + { + "epoch": 0.3400533333333333, + "grad_norm": 1.5249549627578631, + "learning_rate": 7.684615892537968e-06, + "loss": 0.4561, + "step": 3188 + }, + { + "avg_step_time": 5.638293237397165, + "epoch": 0.3400533333333333, + "eta_time": 9.690033405493406, + "step": 3188 + }, + { + "epoch": 0.34016, + "grad_norm": 1.6368341907875823, + "learning_rate": 7.683158377565415e-06, + "loss": 0.4585, + "step": 3189 + }, + { + "avg_step_time": 5.610702030586474, + "epoch": 0.34016, + "eta_time": 9.641056322557757, + "step": 3189 + }, + { + "epoch": 0.34026666666666666, + "grad_norm": 2.069623433025036, + "learning_rate": 7.681700542311499e-06, + "loss": 0.5407, + "step": 3190 + }, + { + "avg_step_time": 5.61920150121053, + "epoch": 0.34026666666666666, + "eta_time": 9.65410035694087, + "step": 3190 + }, + { + "epoch": 0.34037333333333336, + "grad_norm": 0.616263434083907, + "learning_rate": 7.680242386950239e-06, + "loss": 0.4723, + "step": 3191 + }, + { + "avg_step_time": 5.6197089546858665, + "epoch": 0.34037333333333336, + "eta_time": 9.653411159938166, + "step": 3191 + }, + { + "epoch": 0.34048, + "grad_norm": 1.8539342145796616, + "learning_rate": 7.678783911655691e-06, + "loss": 0.4519, + "step": 3192 + }, + { + "avg_step_time": 5.62043193855671, + "epoch": 0.34048, + "eta_time": 9.65309185447115, + "step": 3192 + }, + { + "epoch": 0.34058666666666665, + "grad_norm": 0.6238329540957249, + "learning_rate": 7.677325116601948e-06, + "loss": 0.443, + "step": 3193 + }, + { + "avg_step_time": 5.560162657439107, + "epoch": 0.34058666666666665, + "eta_time": 9.5480348745246, + "step": 3193 + }, + { + "epoch": 0.34069333333333335, + "grad_norm": 1.911678368549362, + "learning_rate": 7.675866001963144e-06, + "loss": 0.5467, + "step": 3194 + }, + { + "avg_step_time": 5.562881419152925, + "epoch": 0.34069333333333335, + "eta_time": 9.551158347717841, + "step": 3194 + }, + { + "epoch": 0.3408, + "grad_norm": 1.9957969651450478, + "learning_rate": 7.674406567913447e-06, + "loss": 0.4909, + "step": 3195 + }, + { + "avg_step_time": 5.562781025664975, + "epoch": 0.3408, + "eta_time": 9.549440760724876, + "step": 3195 + }, + { + "epoch": 0.3409066666666667, + "grad_norm": 1.7188182493194615, + "learning_rate": 7.672946814627069e-06, + "loss": 0.4998, + "step": 3196 + }, + { + "avg_step_time": 5.563917451434666, + "epoch": 0.3409066666666667, + "eta_time": 9.549846092337443, + "step": 3196 + }, + { + "epoch": 0.34101333333333333, + "grad_norm": 1.7845275979964585, + "learning_rate": 7.671486742278254e-06, + "loss": 0.5124, + "step": 3197 + }, + { + "avg_step_time": 5.599528076672795, + "epoch": 0.34101333333333333, + "eta_time": 9.60941234935681, + "step": 3197 + }, + { + "epoch": 0.34112, + "grad_norm": 1.6823531424877003, + "learning_rate": 7.67002635104129e-06, + "loss": 0.5288, + "step": 3198 + }, + { + "avg_step_time": 5.600714972524932, + "epoch": 0.34112, + "eta_time": 9.60989344035736, + "step": 3198 + }, + { + "epoch": 0.3412266666666667, + "grad_norm": 1.7053109088194616, + "learning_rate": 7.668565641090495e-06, + "loss": 0.496, + "step": 3199 + }, + { + "avg_step_time": 5.615512590215664, + "epoch": 0.3412266666666667, + "eta_time": 9.63372382143665, + "step": 3199 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 1.6146770603841873, + "learning_rate": 7.667104612600236e-06, + "loss": 0.4923, + "step": 3200 + }, + { + "avg_step_time": 5.6143367964812, + "epoch": 0.3413333333333333, + "eta_time": 9.63014714396428, + "step": 3200 + }, + { + "epoch": 0.34144, + "grad_norm": 1.5925911812278708, + "learning_rate": 7.66564326574491e-06, + "loss": 0.4811, + "step": 3201 + }, + { + "avg_step_time": 5.624918022541085, + "epoch": 0.34144, + "eta_time": 9.64673440865796, + "step": 3201 + }, + { + "epoch": 0.34154666666666667, + "grad_norm": 1.5491638154506493, + "learning_rate": 7.66418160069895e-06, + "loss": 0.4767, + "step": 3202 + }, + { + "avg_step_time": 5.625599658850468, + "epoch": 0.34154666666666667, + "eta_time": 9.64634074835665, + "step": 3202 + }, + { + "epoch": 0.3416533333333333, + "grad_norm": 1.7401361804568667, + "learning_rate": 7.662719617636836e-06, + "loss": 0.573, + "step": 3203 + }, + { + "avg_step_time": 5.623996712944725, + "epoch": 0.3416533333333333, + "eta_time": 9.6420299200819, + "step": 3203 + }, + { + "epoch": 0.34176, + "grad_norm": 1.8449637458723402, + "learning_rate": 7.661257316733078e-06, + "loss": 0.4933, + "step": 3204 + }, + { + "avg_step_time": 5.652243549173528, + "epoch": 0.34176, + "eta_time": 9.688887483874957, + "step": 3204 + }, + { + "epoch": 0.34186666666666665, + "grad_norm": 1.6218781835618665, + "learning_rate": 7.659794698162229e-06, + "loss": 0.5053, + "step": 3205 + }, + { + "avg_step_time": 5.654118906367909, + "epoch": 0.34186666666666665, + "eta_time": 9.690531570080555, + "step": 3205 + }, + { + "epoch": 0.34197333333333335, + "grad_norm": 1.6263465010569926, + "learning_rate": 7.658331762098876e-06, + "loss": 0.5103, + "step": 3206 + }, + { + "avg_step_time": 5.656456896753022, + "epoch": 0.34197333333333335, + "eta_time": 9.692967387797054, + "step": 3206 + }, + { + "epoch": 0.34208, + "grad_norm": 1.5632822991837907, + "learning_rate": 7.656868508717648e-06, + "loss": 0.4784, + "step": 3207 + }, + { + "avg_step_time": 5.6859659811463015, + "epoch": 0.34208, + "eta_time": 9.74195504769733, + "step": 3207 + }, + { + "epoch": 0.34218666666666664, + "grad_norm": 1.6397258512512787, + "learning_rate": 7.655404938193207e-06, + "loss": 0.4519, + "step": 3208 + }, + { + "avg_step_time": 5.682749557976771, + "epoch": 0.34218666666666664, + "eta_time": 9.734865701122985, + "step": 3208 + }, + { + "epoch": 0.34229333333333334, + "grad_norm": 1.6075285275486757, + "learning_rate": 7.653941050700257e-06, + "loss": 0.5271, + "step": 3209 + }, + { + "avg_step_time": 5.667668190869418, + "epoch": 0.34229333333333334, + "eta_time": 9.70745612913912, + "step": 3209 + }, + { + "epoch": 0.3424, + "grad_norm": 1.842699215911198, + "learning_rate": 7.652476846413537e-06, + "loss": 0.5198, + "step": 3210 + }, + { + "avg_step_time": 5.664973468491525, + "epoch": 0.3424, + "eta_time": 9.701267064791736, + "step": 3210 + }, + { + "epoch": 0.3425066666666667, + "grad_norm": 1.6913498412267125, + "learning_rate": 7.651012325507827e-06, + "loss": 0.5087, + "step": 3211 + }, + { + "avg_step_time": 5.670204174638998, + "epoch": 0.3425066666666667, + "eta_time": 9.708649592354107, + "step": 3211 + }, + { + "epoch": 0.3426133333333333, + "grad_norm": 1.773913514925973, + "learning_rate": 7.649547488157943e-06, + "loss": 0.5717, + "step": 3212 + }, + { + "avg_step_time": 5.669961551223138, + "epoch": 0.3426133333333333, + "eta_time": 9.706659177830055, + "step": 3212 + }, + { + "epoch": 0.34272, + "grad_norm": 1.4432367207354504, + "learning_rate": 7.648082334538735e-06, + "loss": 0.5177, + "step": 3213 + }, + { + "avg_step_time": 5.66981411943532, + "epoch": 0.34272, + "eta_time": 9.704831834433456, + "step": 3213 + }, + { + "epoch": 0.34282666666666667, + "grad_norm": 1.606428564305948, + "learning_rate": 7.646616864825099e-06, + "loss": 0.4294, + "step": 3214 + }, + { + "avg_step_time": 5.6662930069547714, + "epoch": 0.34282666666666667, + "eta_time": 9.69723089329121, + "step": 3214 + }, + { + "epoch": 0.3429333333333333, + "grad_norm": 1.4485404795884107, + "learning_rate": 7.645151079191962e-06, + "loss": 0.4671, + "step": 3215 + }, + { + "avg_step_time": 5.687132016576902, + "epoch": 0.3429333333333333, + "eta_time": 9.731314783920475, + "step": 3215 + }, + { + "epoch": 0.34304, + "grad_norm": 1.432372371326109, + "learning_rate": 7.64368497781429e-06, + "loss": 0.4516, + "step": 3216 + }, + { + "avg_step_time": 5.6869180250649505, + "epoch": 0.34304, + "eta_time": 9.729368921215286, + "step": 3216 + }, + { + "epoch": 0.34314666666666666, + "grad_norm": 1.7936071608763078, + "learning_rate": 7.64221856086709e-06, + "loss": 0.5315, + "step": 3217 + }, + { + "avg_step_time": 5.702559796246615, + "epoch": 0.34314666666666666, + "eta_time": 9.754545340357405, + "step": 3217 + }, + { + "epoch": 0.34325333333333335, + "grad_norm": 1.8631685776372682, + "learning_rate": 7.640751828525402e-06, + "loss": 0.4772, + "step": 3218 + }, + { + "avg_step_time": 5.701918948780406, + "epoch": 0.34325333333333335, + "eta_time": 9.751865268789155, + "step": 3218 + }, + { + "epoch": 0.34336, + "grad_norm": 1.643715037932395, + "learning_rate": 7.639284780964307e-06, + "loss": 0.5495, + "step": 3219 + }, + { + "avg_step_time": 5.69533447785811, + "epoch": 0.34336, + "eta_time": 9.739021957137368, + "step": 3219 + }, + { + "epoch": 0.34346666666666664, + "grad_norm": 1.8611725716741006, + "learning_rate": 7.637817418358922e-06, + "loss": 0.5196, + "step": 3220 + }, + { + "avg_step_time": 5.686710136105316, + "epoch": 0.34346666666666664, + "eta_time": 9.722694691035617, + "step": 3220 + }, + { + "epoch": 0.34357333333333334, + "grad_norm": 1.5520903523671543, + "learning_rate": 7.636349740884402e-06, + "loss": 0.4685, + "step": 3221 + }, + { + "avg_step_time": 5.691257231163256, + "epoch": 0.34357333333333334, + "eta_time": 9.728888055716299, + "step": 3221 + }, + { + "epoch": 0.34368, + "grad_norm": 1.6504302008038814, + "learning_rate": 7.634881748715941e-06, + "loss": 0.5464, + "step": 3222 + }, + { + "avg_step_time": 5.700600515712392, + "epoch": 0.34368, + "eta_time": 9.74327638143843, + "step": 3222 + }, + { + "epoch": 0.3437866666666667, + "grad_norm": 1.5358426055947176, + "learning_rate": 7.633413442028768e-06, + "loss": 0.4527, + "step": 3223 + }, + { + "avg_step_time": 5.699743947597465, + "epoch": 0.3437866666666667, + "eta_time": 9.740229101561, + "step": 3223 + }, + { + "epoch": 0.34389333333333333, + "grad_norm": 1.6958772503359396, + "learning_rate": 7.63194482099815e-06, + "loss": 0.534, + "step": 3224 + }, + { + "avg_step_time": 5.7194763963872735, + "epoch": 0.34389333333333333, + "eta_time": 9.772360920605033, + "step": 3224 + }, + { + "epoch": 0.344, + "grad_norm": 1.5957182106782615, + "learning_rate": 7.630475885799395e-06, + "loss": 0.4462, + "step": 3225 + }, + { + "avg_step_time": 5.722794662822377, + "epoch": 0.344, + "eta_time": 9.77644088232156, + "step": 3225 + }, + { + "epoch": 0.34410666666666667, + "grad_norm": 1.463972924520122, + "learning_rate": 7.629006636607843e-06, + "loss": 0.526, + "step": 3226 + }, + { + "avg_step_time": 5.7491321371059225, + "epoch": 0.34410666666666667, + "eta_time": 9.819837086406755, + "step": 3226 + }, + { + "epoch": 0.3442133333333333, + "grad_norm": 1.3753034719683634, + "learning_rate": 7.627537073598876e-06, + "loss": 0.4939, + "step": 3227 + }, + { + "avg_step_time": 5.778417613771227, + "epoch": 0.3442133333333333, + "eta_time": 9.868253191518194, + "step": 3227 + }, + { + "epoch": 0.34432, + "grad_norm": 1.6843480244862528, + "learning_rate": 7.626067196947913e-06, + "loss": 0.5309, + "step": 3228 + }, + { + "avg_step_time": 5.782515410220984, + "epoch": 0.34432, + "eta_time": 9.87364506295233, + "step": 3228 + }, + { + "epoch": 0.34442666666666666, + "grad_norm": 1.6325859073342766, + "learning_rate": 7.624597006830405e-06, + "loss": 0.439, + "step": 3229 + }, + { + "avg_step_time": 5.785241709815131, + "epoch": 0.34442666666666666, + "eta_time": 9.876693207923276, + "step": 3229 + }, + { + "epoch": 0.34453333333333336, + "grad_norm": 1.671505485708663, + "learning_rate": 7.623126503421848e-06, + "loss": 0.4731, + "step": 3230 + }, + { + "avg_step_time": 5.850714541444875, + "epoch": 0.34453333333333336, + "eta_time": 9.986844682549654, + "step": 3230 + }, + { + "epoch": 0.34464, + "grad_norm": 1.5161881974299654, + "learning_rate": 7.621655686897771e-06, + "loss": 0.4607, + "step": 3231 + }, + { + "avg_step_time": 5.841936335419163, + "epoch": 0.34464, + "eta_time": 9.970238012448705, + "step": 3231 + }, + { + "epoch": 0.34474666666666665, + "grad_norm": 1.5793867319264883, + "learning_rate": 7.620184557433742e-06, + "loss": 0.4943, + "step": 3232 + }, + { + "avg_step_time": 5.844695047898726, + "epoch": 0.34474666666666665, + "eta_time": 9.973322688678298, + "step": 3232 + }, + { + "epoch": 0.34485333333333335, + "grad_norm": 1.7182831230406597, + "learning_rate": 7.618713115205364e-06, + "loss": 0.4711, + "step": 3233 + }, + { + "avg_step_time": 5.881003237733937, + "epoch": 0.34485333333333335, + "eta_time": 10.033644968378288, + "step": 3233 + }, + { + "epoch": 0.34496, + "grad_norm": 1.8416694011284989, + "learning_rate": 7.617241360388282e-06, + "loss": 0.5375, + "step": 3234 + }, + { + "avg_step_time": 5.884286512028087, + "epoch": 0.34496, + "eta_time": 10.037612075101244, + "step": 3234 + }, + { + "epoch": 0.3450666666666667, + "grad_norm": 1.6962468639165353, + "learning_rate": 7.615769293158173e-06, + "loss": 0.5675, + "step": 3235 + }, + { + "avg_step_time": 5.921256079818264, + "epoch": 0.3450666666666667, + "eta_time": 10.099031202801148, + "step": 3235 + }, + { + "epoch": 0.34517333333333333, + "grad_norm": 1.7848210898622638, + "learning_rate": 7.614296913690756e-06, + "loss": 0.6168, + "step": 3236 + }, + { + "avg_step_time": 5.925002589370266, + "epoch": 0.34517333333333333, + "eta_time": 10.103775248928905, + "step": 3236 + }, + { + "epoch": 0.34528, + "grad_norm": 1.7180021005335093, + "learning_rate": 7.612824222161781e-06, + "loss": 0.5089, + "step": 3237 + }, + { + "avg_step_time": 5.971153225561585, + "epoch": 0.34528, + "eta_time": 10.180816249582502, + "step": 3237 + }, + { + "epoch": 0.3453866666666667, + "grad_norm": 1.5787880096623939, + "learning_rate": 7.61135121874704e-06, + "loss": 0.5421, + "step": 3238 + }, + { + "avg_step_time": 5.96691883453215, + "epoch": 0.3453866666666667, + "eta_time": 10.171939135423278, + "step": 3238 + }, + { + "epoch": 0.3454933333333333, + "grad_norm": 1.4458087058810698, + "learning_rate": 7.609877903622368e-06, + "loss": 0.4487, + "step": 3239 + }, + { + "avg_step_time": 5.968151677738536, + "epoch": 0.3454933333333333, + "eta_time": 10.17238297072324, + "step": 3239 + }, + { + "epoch": 0.3456, + "grad_norm": 1.7377734720237004, + "learning_rate": 7.608404276963623e-06, + "loss": 0.445, + "step": 3240 + }, + { + "avg_step_time": 5.970229591986145, + "epoch": 0.3456, + "eta_time": 10.174266263009722, + "step": 3240 + }, + { + "epoch": 0.34570666666666666, + "grad_norm": 1.947914052599267, + "learning_rate": 7.60693033894671e-06, + "loss": 0.6187, + "step": 3241 + }, + { + "avg_step_time": 5.969690616684731, + "epoch": 0.34570666666666666, + "eta_time": 10.171689511873371, + "step": 3241 + }, + { + "epoch": 0.3458133333333333, + "grad_norm": 1.7088523680107828, + "learning_rate": 7.6054560897475715e-06, + "loss": 0.503, + "step": 3242 + }, + { + "avg_step_time": 5.969701730843746, + "epoch": 0.3458133333333333, + "eta_time": 10.170050198684637, + "step": 3242 + }, + { + "epoch": 0.34592, + "grad_norm": 0.6412205180385643, + "learning_rate": 7.60398152954218e-06, + "loss": 0.4303, + "step": 3243 + }, + { + "avg_step_time": 5.933805434390752, + "epoch": 0.34592, + "eta_time": 10.107248589912247, + "step": 3243 + }, + { + "epoch": 0.34602666666666665, + "grad_norm": 1.637164882503448, + "learning_rate": 7.602506658506554e-06, + "loss": 0.4901, + "step": 3244 + }, + { + "avg_step_time": 5.916386081714823, + "epoch": 0.34602666666666665, + "eta_time": 10.075934185275996, + "step": 3244 + }, + { + "epoch": 0.34613333333333335, + "grad_norm": 1.55970368015743, + "learning_rate": 7.601031476816742e-06, + "loss": 0.5623, + "step": 3245 + }, + { + "avg_step_time": 5.918770190441247, + "epoch": 0.34613333333333335, + "eta_time": 10.078350352056901, + "step": 3245 + }, + { + "epoch": 0.34624, + "grad_norm": 1.5078687912443, + "learning_rate": 7.599555984648836e-06, + "loss": 0.4505, + "step": 3246 + }, + { + "avg_step_time": 5.904898212413595, + "epoch": 0.34624, + "eta_time": 10.053089206634146, + "step": 3246 + }, + { + "epoch": 0.3463466666666667, + "grad_norm": 1.599442556569866, + "learning_rate": 7.598080182178957e-06, + "loss": 0.4997, + "step": 3247 + }, + { + "avg_step_time": 5.912429438696967, + "epoch": 0.3463466666666667, + "eta_time": 10.064268777870836, + "step": 3247 + }, + { + "epoch": 0.34645333333333334, + "grad_norm": 1.585803835734811, + "learning_rate": 7.5966040695832725e-06, + "loss": 0.4231, + "step": 3248 + }, + { + "avg_step_time": 5.940336542900162, + "epoch": 0.34645333333333334, + "eta_time": 10.110122777319248, + "step": 3248 + }, + { + "epoch": 0.34656, + "grad_norm": 1.6024067732887552, + "learning_rate": 7.595127647037976e-06, + "loss": 0.4211, + "step": 3249 + }, + { + "avg_step_time": 5.935303059491244, + "epoch": 0.34656, + "eta_time": 10.099907372900933, + "step": 3249 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 1.690065212384437, + "learning_rate": 7.593650914719311e-06, + "loss": 0.531, + "step": 3250 + }, + { + "avg_step_time": 5.943009282603408, + "epoch": 0.3466666666666667, + "eta_time": 10.111369959984966, + "step": 3250 + }, + { + "epoch": 0.3467733333333333, + "grad_norm": 1.825796462766733, + "learning_rate": 7.5921738728035454e-06, + "loss": 0.4184, + "step": 3251 + }, + { + "avg_step_time": 5.964531012255736, + "epoch": 0.3467733333333333, + "eta_time": 10.146329977515036, + "step": 3251 + }, + { + "epoch": 0.34688, + "grad_norm": 1.8221498541446575, + "learning_rate": 7.590696521466992e-06, + "loss": 0.5114, + "step": 3252 + }, + { + "avg_step_time": 5.958582899787209, + "epoch": 0.34688, + "eta_time": 10.134556415388078, + "step": 3252 + }, + { + "epoch": 0.34698666666666667, + "grad_norm": 1.7107806117903337, + "learning_rate": 7.5892188608859985e-06, + "loss": 0.514, + "step": 3253 + }, + { + "avg_step_time": 5.990040417873498, + "epoch": 0.34698666666666667, + "eta_time": 10.186396510617099, + "step": 3253 + }, + { + "epoch": 0.3470933333333333, + "grad_norm": 1.929995208501669, + "learning_rate": 7.587740891236948e-06, + "loss": 0.5537, + "step": 3254 + }, + { + "avg_step_time": 6.014939154037322, + "epoch": 0.3470933333333333, + "eta_time": 10.227067378295123, + "step": 3254 + }, + { + "epoch": 0.3472, + "grad_norm": 1.8189206285192412, + "learning_rate": 7.586262612696263e-06, + "loss": 0.4308, + "step": 3255 + }, + { + "avg_step_time": 6.012848191791111, + "epoch": 0.3472, + "eta_time": 10.221841926044888, + "step": 3255 + }, + { + "epoch": 0.34730666666666665, + "grad_norm": 1.6697744124798082, + "learning_rate": 7.5847840254404e-06, + "loss": 0.5296, + "step": 3256 + }, + { + "avg_step_time": 5.994294130440914, + "epoch": 0.34730666666666665, + "eta_time": 10.188634940046654, + "step": 3256 + }, + { + "epoch": 0.34741333333333335, + "grad_norm": 1.7178088438501706, + "learning_rate": 7.583305129645857e-06, + "loss": 0.5601, + "step": 3257 + }, + { + "avg_step_time": 5.994199333768902, + "epoch": 0.34741333333333335, + "eta_time": 10.186808756666151, + "step": 3257 + }, + { + "epoch": 0.34752, + "grad_norm": 1.6302230582461117, + "learning_rate": 7.5818259254891614e-06, + "loss": 0.4629, + "step": 3258 + }, + { + "avg_step_time": 5.99162483215332, + "epoch": 0.34752, + "eta_time": 10.180769193967183, + "step": 3258 + }, + { + "epoch": 0.34762666666666664, + "grad_norm": 1.6290900373042039, + "learning_rate": 7.580346413146886e-06, + "loss": 0.5022, + "step": 3259 + }, + { + "avg_step_time": 5.989429666538431, + "epoch": 0.34762666666666664, + "eta_time": 10.175375511263624, + "step": 3259 + }, + { + "epoch": 0.34773333333333334, + "grad_norm": 1.708847222442532, + "learning_rate": 7.578866592795635e-06, + "loss": 0.5691, + "step": 3260 + }, + { + "avg_step_time": 5.990615777295045, + "epoch": 0.34773333333333334, + "eta_time": 10.17572652171089, + "step": 3260 + }, + { + "epoch": 0.34784, + "grad_norm": 1.6509979750445236, + "learning_rate": 7.577386464612049e-06, + "loss": 0.5228, + "step": 3261 + }, + { + "avg_step_time": 5.982457329528501, + "epoch": 0.34784, + "eta_time": 10.16020669798257, + "step": 3261 + }, + { + "epoch": 0.3479466666666667, + "grad_norm": 2.0923854963844044, + "learning_rate": 7.575906028772808e-06, + "loss": 0.5324, + "step": 3262 + }, + { + "avg_step_time": 5.981426219747524, + "epoch": 0.3479466666666667, + "eta_time": 10.156794022587949, + "step": 3262 + }, + { + "epoch": 0.3480533333333333, + "grad_norm": 1.8376719655913225, + "learning_rate": 7.574425285454627e-06, + "loss": 0.4889, + "step": 3263 + }, + { + "avg_step_time": 6.01591481825318, + "epoch": 0.3480533333333333, + "eta_time": 10.213686491434288, + "step": 3263 + }, + { + "epoch": 0.34816, + "grad_norm": 1.8478774874843211, + "learning_rate": 7.572944234834261e-06, + "loss": 0.5408, + "step": 3264 + }, + { + "avg_step_time": 6.039233029490769, + "epoch": 0.34816, + "eta_time": 10.251598067560582, + "step": 3264 + }, + { + "epoch": 0.34826666666666667, + "grad_norm": 1.7902887705620871, + "learning_rate": 7.571462877088496e-06, + "loss": 0.5095, + "step": 3265 + }, + { + "avg_step_time": 6.0372047954135475, + "epoch": 0.34826666666666667, + "eta_time": 10.246478138882438, + "step": 3265 + }, + { + "epoch": 0.3483733333333333, + "grad_norm": 1.7121672058489006, + "learning_rate": 7.569981212394157e-06, + "loss": 0.4923, + "step": 3266 + }, + { + "avg_step_time": 6.046062459849348, + "epoch": 0.3483733333333333, + "eta_time": 10.259832102005463, + "step": 3266 + }, + { + "epoch": 0.34848, + "grad_norm": 0.6867979863002922, + "learning_rate": 7.568499240928109e-06, + "loss": 0.4592, + "step": 3267 + }, + { + "avg_step_time": 6.017049789428711, + "epoch": 0.34848, + "eta_time": 10.20892780939738, + "step": 3267 + }, + { + "epoch": 0.34858666666666666, + "grad_norm": 1.8053601207255128, + "learning_rate": 7.56701696286725e-06, + "loss": 0.5364, + "step": 3268 + }, + { + "avg_step_time": 6.008579292682686, + "epoch": 0.34858666666666666, + "eta_time": 10.192887150114768, + "step": 3268 + }, + { + "epoch": 0.34869333333333336, + "grad_norm": 1.8027575017612858, + "learning_rate": 7.565534378388515e-06, + "loss": 0.6248, + "step": 3269 + }, + { + "avg_step_time": 6.007908852413447, + "epoch": 0.34869333333333336, + "eta_time": 10.190080959121252, + "step": 3269 + }, + { + "epoch": 0.3488, + "grad_norm": 2.0504405440151356, + "learning_rate": 7.5640514876688765e-06, + "loss": 0.5808, + "step": 3270 + }, + { + "avg_step_time": 6.011480006304654, + "epoch": 0.3488, + "eta_time": 10.19446817735831, + "step": 3270 + }, + { + "epoch": 0.34890666666666664, + "grad_norm": 0.6357275861447149, + "learning_rate": 7.562568290885344e-06, + "loss": 0.4512, + "step": 3271 + }, + { + "avg_step_time": 5.9753015113599375, + "epoch": 0.34890666666666664, + "eta_time": 10.13145567370585, + "step": 3271 + }, + { + "epoch": 0.34901333333333334, + "grad_norm": 1.7967102723050379, + "learning_rate": 7.561084788214958e-06, + "loss": 0.5644, + "step": 3272 + }, + { + "avg_step_time": 5.977879601295548, + "epoch": 0.34901333333333334, + "eta_time": 10.134166446307425, + "step": 3272 + }, + { + "epoch": 0.34912, + "grad_norm": 1.6070812554175038, + "learning_rate": 7.559600979834809e-06, + "loss": 0.5126, + "step": 3273 + }, + { + "avg_step_time": 5.983338156131783, + "epoch": 0.34912, + "eta_time": 10.141758174643373, + "step": 3273 + }, + { + "epoch": 0.3492266666666667, + "grad_norm": 1.541123987875624, + "learning_rate": 7.558116865922007e-06, + "loss": 0.3952, + "step": 3274 + }, + { + "avg_step_time": 5.98403593265649, + "epoch": 0.3492266666666667, + "eta_time": 10.141278673649234, + "step": 3274 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 1.6236607754338277, + "learning_rate": 7.556632446653711e-06, + "loss": 0.4757, + "step": 3275 + }, + { + "avg_step_time": 5.977260269299902, + "epoch": 0.34933333333333333, + "eta_time": 10.128135456313723, + "step": 3275 + }, + { + "epoch": 0.34944, + "grad_norm": 1.6006629414434088, + "learning_rate": 7.555147722207111e-06, + "loss": 0.501, + "step": 3276 + }, + { + "avg_step_time": 5.9782632480968125, + "epoch": 0.34944, + "eta_time": 10.128174319484016, + "step": 3276 + }, + { + "epoch": 0.34954666666666667, + "grad_norm": 1.8952488380733659, + "learning_rate": 7.553662692759434e-06, + "loss": 0.5195, + "step": 3277 + }, + { + "avg_step_time": 5.978288226657444, + "epoch": 0.34954666666666667, + "eta_time": 10.126556001710304, + "step": 3277 + }, + { + "epoch": 0.3496533333333333, + "grad_norm": 1.7199334371545492, + "learning_rate": 7.552177358487944e-06, + "loss": 0.5104, + "step": 3278 + }, + { + "avg_step_time": 5.981321563624372, + "epoch": 0.3496533333333333, + "eta_time": 10.13003265928272, + "step": 3278 + }, + { + "epoch": 0.34976, + "grad_norm": 1.4758362531737799, + "learning_rate": 7.550691719569944e-06, + "loss": 0.453, + "step": 3279 + }, + { + "avg_step_time": 5.971903709450153, + "epoch": 0.34976, + "eta_time": 10.112423614668927, + "step": 3279 + }, + { + "epoch": 0.34986666666666666, + "grad_norm": 0.6596726084681983, + "learning_rate": 7.549205776182766e-06, + "loss": 0.4503, + "step": 3280 + }, + { + "avg_step_time": 5.941873906838773, + "epoch": 0.34986666666666666, + "eta_time": 10.059922628383978, + "step": 3280 + }, + { + "epoch": 0.34997333333333336, + "grad_norm": 1.6065400116797084, + "learning_rate": 7.5477195285037875e-06, + "loss": 0.564, + "step": 3281 + }, + { + "avg_step_time": 5.954714014072611, + "epoch": 0.34997333333333336, + "eta_time": 10.080007556044023, + "step": 3281 + }, + { + "epoch": 0.35008, + "grad_norm": 0.6759587946229235, + "learning_rate": 7.546232976710413e-06, + "loss": 0.4519, + "step": 3282 + }, + { + "avg_step_time": 5.921929749575528, + "epoch": 0.35008, + "eta_time": 10.022866101156582, + "step": 3282 + }, + { + "epoch": 0.35018666666666665, + "grad_norm": 1.4929236594646507, + "learning_rate": 7.544746120980093e-06, + "loss": 0.5627, + "step": 3283 + }, + { + "avg_step_time": 5.890263480369491, + "epoch": 0.35018666666666665, + "eta_time": 9.96763475622526, + "step": 3283 + }, + { + "epoch": 0.35029333333333335, + "grad_norm": 1.7459147225261225, + "learning_rate": 7.543258961490309e-06, + "loss": 0.4559, + "step": 3284 + }, + { + "avg_step_time": 5.926417822789664, + "epoch": 0.35029333333333335, + "eta_time": 10.027169710725513, + "step": 3284 + }, + { + "epoch": 0.3504, + "grad_norm": 1.462853288239125, + "learning_rate": 7.541771498418575e-06, + "loss": 0.362, + "step": 3285 + }, + { + "avg_step_time": 5.927027637308294, + "epoch": 0.3504, + "eta_time": 10.026555086446532, + "step": 3285 + }, + { + "epoch": 0.3505066666666667, + "grad_norm": 1.596937289939834, + "learning_rate": 7.5402837319424495e-06, + "loss": 0.5118, + "step": 3286 + }, + { + "avg_step_time": 5.926108827494612, + "epoch": 0.3505066666666667, + "eta_time": 10.023354625170747, + "step": 3286 + }, + { + "epoch": 0.35061333333333333, + "grad_norm": 1.387224898479623, + "learning_rate": 7.538795662239522e-06, + "loss": 0.491, + "step": 3287 + }, + { + "avg_step_time": 5.924775256050958, + "epoch": 0.35061333333333333, + "eta_time": 10.019453266343954, + "step": 3287 + }, + { + "epoch": 0.35072, + "grad_norm": 1.8188822730910081, + "learning_rate": 7.537307289487419e-06, + "loss": 0.5297, + "step": 3288 + }, + { + "avg_step_time": 5.922963067738697, + "epoch": 0.35072, + "eta_time": 10.014743387034846, + "step": 3288 + }, + { + "epoch": 0.3508266666666667, + "grad_norm": 1.8007811898785295, + "learning_rate": 7.535818613863804e-06, + "loss": 0.5032, + "step": 3289 + }, + { + "avg_step_time": 5.937570374421399, + "epoch": 0.3508266666666667, + "eta_time": 10.037792582980176, + "step": 3289 + }, + { + "epoch": 0.3509333333333333, + "grad_norm": 1.5107178342998728, + "learning_rate": 7.534329635546374e-06, + "loss": 0.4064, + "step": 3290 + }, + { + "avg_step_time": 5.9676333798302545, + "epoch": 0.3509333333333333, + "eta_time": 10.086958087851972, + "step": 3290 + }, + { + "epoch": 0.35104, + "grad_norm": 1.736027953700066, + "learning_rate": 7.532840354712868e-06, + "loss": 0.4712, + "step": 3291 + }, + { + "avg_step_time": 5.99323579518482, + "epoch": 0.35104, + "eta_time": 10.128568493862344, + "step": 3291 + }, + { + "epoch": 0.35114666666666666, + "grad_norm": 1.7047864574321743, + "learning_rate": 7.531350771541055e-06, + "loss": 0.5599, + "step": 3292 + }, + { + "avg_step_time": 6.02864555397419, + "epoch": 0.35114666666666666, + "eta_time": 10.18673636245139, + "step": 3292 + }, + { + "epoch": 0.3512533333333333, + "grad_norm": 1.68852814885751, + "learning_rate": 7.529860886208744e-06, + "loss": 0.5779, + "step": 3293 + }, + { + "avg_step_time": 6.026123104673443, + "epoch": 0.3512533333333333, + "eta_time": 10.180800200728857, + "step": 3293 + }, + { + "epoch": 0.35136, + "grad_norm": 1.702301099950366, + "learning_rate": 7.5283706988937765e-06, + "loss": 0.5304, + "step": 3294 + }, + { + "avg_step_time": 6.027369911020452, + "epoch": 0.35136, + "eta_time": 10.18123234136538, + "step": 3294 + }, + { + "epoch": 0.35146666666666665, + "grad_norm": 1.632180346361305, + "learning_rate": 7.526880209774034e-06, + "loss": 0.5118, + "step": 3295 + }, + { + "avg_step_time": 6.028198726249464, + "epoch": 0.35146666666666665, + "eta_time": 10.180957848776872, + "step": 3295 + }, + { + "epoch": 0.35157333333333335, + "grad_norm": 1.3595994039879589, + "learning_rate": 7.5253894190274335e-06, + "loss": 0.5461, + "step": 3296 + }, + { + "avg_step_time": 6.054290713685932, + "epoch": 0.35157333333333335, + "eta_time": 10.223342569026883, + "step": 3296 + }, + { + "epoch": 0.35168, + "grad_norm": 0.649123235945915, + "learning_rate": 7.523898326831921e-06, + "loss": 0.4294, + "step": 3297 + }, + { + "avg_step_time": 6.02283128825101, + "epoch": 0.35168, + "eta_time": 10.168546824997122, + "step": 3297 + }, + { + "epoch": 0.3517866666666667, + "grad_norm": 1.4405225178904857, + "learning_rate": 7.522406933365491e-06, + "loss": 0.5089, + "step": 3298 + }, + { + "avg_step_time": 6.0124759457328105, + "epoch": 0.3517866666666667, + "eta_time": 10.149393422838415, + "step": 3298 + }, + { + "epoch": 0.35189333333333334, + "grad_norm": 1.7469356265751335, + "learning_rate": 7.520915238806161e-06, + "loss": 0.4942, + "step": 3299 + }, + { + "avg_step_time": 6.015676717565517, + "epoch": 0.35189333333333334, + "eta_time": 10.153125482202245, + "step": 3299 + }, + { + "epoch": 0.352, + "grad_norm": 0.6731416036507962, + "learning_rate": 7.5194232433319955e-06, + "loss": 0.4573, + "step": 3300 + }, + { + "avg_step_time": 5.967547614165027, + "epoch": 0.352, + "eta_time": 10.070236598903483, + "step": 3300 + }, + { + "epoch": 0.3521066666666667, + "grad_norm": 2.0772096230883608, + "learning_rate": 7.517930947121088e-06, + "loss": 0.5329, + "step": 3301 + }, + { + "avg_step_time": 5.982930898666382, + "epoch": 0.3521066666666667, + "eta_time": 10.09453396624989, + "step": 3301 + }, + { + "epoch": 0.3522133333333333, + "grad_norm": 1.8930161359451119, + "learning_rate": 7.51643835035157e-06, + "loss": 0.5152, + "step": 3302 + }, + { + "avg_step_time": 5.985364492493447, + "epoch": 0.3522133333333333, + "eta_time": 10.09697737858686, + "step": 3302 + }, + { + "epoch": 0.35232, + "grad_norm": 1.643577631779592, + "learning_rate": 7.514945453201608e-06, + "loss": 0.5518, + "step": 3303 + }, + { + "avg_step_time": 5.959182101066666, + "epoch": 0.35232, + "eta_time": 10.051153810465777, + "step": 3303 + }, + { + "epoch": 0.35242666666666667, + "grad_norm": 1.68874574652519, + "learning_rate": 7.513452255849405e-06, + "loss": 0.4897, + "step": 3304 + }, + { + "avg_step_time": 5.955736340898456, + "epoch": 0.35242666666666667, + "eta_time": 10.043687590442925, + "step": 3304 + }, + { + "epoch": 0.3525333333333333, + "grad_norm": 1.4577961214209398, + "learning_rate": 7.511958758473201e-06, + "loss": 0.4906, + "step": 3305 + }, + { + "avg_step_time": 5.960879648574675, + "epoch": 0.3525333333333333, + "eta_time": 10.050705407457855, + "step": 3305 + }, + { + "epoch": 0.35264, + "grad_norm": 1.8516226150126396, + "learning_rate": 7.510464961251271e-06, + "loss": 0.4999, + "step": 3306 + }, + { + "avg_step_time": 5.931728194458316, + "epoch": 0.35264, + "eta_time": 9.999905114490977, + "step": 3306 + }, + { + "epoch": 0.35274666666666665, + "grad_norm": 1.685874112986791, + "learning_rate": 7.508970864361924e-06, + "loss": 0.5036, + "step": 3307 + }, + { + "avg_step_time": 5.9299072231909244, + "epoch": 0.35274666666666665, + "eta_time": 9.99518806397848, + "step": 3307 + }, + { + "epoch": 0.35285333333333335, + "grad_norm": 2.515090798147679, + "learning_rate": 7.507476467983508e-06, + "loss": 0.632, + "step": 3308 + }, + { + "avg_step_time": 5.9262018131487295, + "epoch": 0.35285333333333335, + "eta_time": 9.987296222325929, + "step": 3308 + }, + { + "epoch": 0.35296, + "grad_norm": 0.6494880560955552, + "learning_rate": 7.505981772294404e-06, + "loss": 0.4599, + "step": 3309 + }, + { + "avg_step_time": 5.894923530443751, + "epoch": 0.35296, + "eta_time": 9.93294614879772, + "step": 3309 + }, + { + "epoch": 0.35306666666666664, + "grad_norm": 1.7331187256287404, + "learning_rate": 7.50448677747303e-06, + "loss": 0.4986, + "step": 3310 + }, + { + "avg_step_time": 5.893189543425435, + "epoch": 0.35306666666666664, + "eta_time": 9.928387383576462, + "step": 3310 + }, + { + "epoch": 0.35317333333333334, + "grad_norm": 1.5743884340646463, + "learning_rate": 7.502991483697839e-06, + "loss": 0.4508, + "step": 3311 + }, + { + "avg_step_time": 5.893067971624509, + "epoch": 0.35317333333333334, + "eta_time": 9.926545605536395, + "step": 3311 + }, + { + "epoch": 0.35328, + "grad_norm": 1.5792511691856848, + "learning_rate": 7.501495891147322e-06, + "loss": 0.4662, + "step": 3312 + }, + { + "avg_step_time": 5.924603881257953, + "epoch": 0.35328, + "eta_time": 9.978020370018603, + "step": 3312 + }, + { + "epoch": 0.3533866666666667, + "grad_norm": 1.6308377255806012, + "learning_rate": 7.500000000000001e-06, + "loss": 0.5086, + "step": 3313 + }, + { + "avg_step_time": 5.9539393583933515, + "epoch": 0.3533866666666667, + "eta_time": 10.025772330716805, + "step": 3313 + }, + { + "epoch": 0.3534933333333333, + "grad_norm": 1.8633186502600698, + "learning_rate": 7.498503810434438e-06, + "loss": 0.5146, + "step": 3314 + }, + { + "avg_step_time": 5.9333138658542826, + "epoch": 0.3534933333333333, + "eta_time": 9.98939315026189, + "step": 3314 + }, + { + "epoch": 0.3536, + "grad_norm": 1.687001290642553, + "learning_rate": 7.497007322629231e-06, + "loss": 0.5184, + "step": 3315 + }, + { + "avg_step_time": 5.935299851677635, + "epoch": 0.3536, + "eta_time": 9.99108808365735, + "step": 3315 + }, + { + "epoch": 0.35370666666666667, + "grad_norm": 2.0325102546855236, + "learning_rate": 7.495510536763008e-06, + "loss": 0.5485, + "step": 3316 + }, + { + "avg_step_time": 5.927558552135121, + "epoch": 0.35370666666666667, + "eta_time": 9.97641035205186, + "step": 3316 + }, + { + "epoch": 0.3538133333333333, + "grad_norm": 1.4893128357170027, + "learning_rate": 7.494013453014438e-06, + "loss": 0.4538, + "step": 3317 + }, + { + "avg_step_time": 5.927687247594197, + "epoch": 0.3538133333333333, + "eta_time": 9.974980373868235, + "step": 3317 + }, + { + "epoch": 0.35392, + "grad_norm": 1.864441985751103, + "learning_rate": 7.492516071562226e-06, + "loss": 0.5262, + "step": 3318 + }, + { + "avg_step_time": 5.924635451249402, + "epoch": 0.35392, + "eta_time": 9.96819914672712, + "step": 3318 + }, + { + "epoch": 0.35402666666666666, + "grad_norm": 1.6082595085091445, + "learning_rate": 7.4910183925851055e-06, + "loss": 0.4426, + "step": 3319 + }, + { + "avg_step_time": 5.939076062404748, + "epoch": 0.35402666666666666, + "eta_time": 9.99084573164532, + "step": 3319 + }, + { + "epoch": 0.35413333333333336, + "grad_norm": 1.6134922072501892, + "learning_rate": 7.489520416261855e-06, + "loss": 0.499, + "step": 3320 + }, + { + "avg_step_time": 5.9371343020236855, + "epoch": 0.35413333333333336, + "eta_time": 9.985930055209282, + "step": 3320 + }, + { + "epoch": 0.35424, + "grad_norm": 1.817403174703381, + "learning_rate": 7.488022142771282e-06, + "loss": 0.4738, + "step": 3321 + }, + { + "avg_step_time": 5.921780969157363, + "epoch": 0.35424, + "eta_time": 9.958461663132967, + "step": 3321 + }, + { + "epoch": 0.35434666666666664, + "grad_norm": 1.57348197479581, + "learning_rate": 7.486523572292231e-06, + "loss": 0.4272, + "step": 3322 + }, + { + "avg_step_time": 5.921481435949152, + "epoch": 0.35434666666666664, + "eta_time": 9.956313092166727, + "step": 3322 + }, + { + "epoch": 0.35445333333333334, + "grad_norm": 1.9667884723722873, + "learning_rate": 7.485024705003583e-06, + "loss": 0.5313, + "step": 3323 + }, + { + "avg_step_time": 5.888112029643974, + "epoch": 0.35445333333333334, + "eta_time": 9.89857055650148, + "step": 3323 + }, + { + "epoch": 0.35456, + "grad_norm": 1.7015184754283397, + "learning_rate": 7.483525541084253e-06, + "loss": 0.3839, + "step": 3324 + }, + { + "avg_step_time": 5.885697042099153, + "epoch": 0.35456, + "eta_time": 9.89287577826166, + "step": 3324 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 1.814699268315553, + "learning_rate": 7.4820260807131935e-06, + "loss": 0.5197, + "step": 3325 + }, + { + "avg_step_time": 5.859078257974952, + "epoch": 0.3546666666666667, + "eta_time": 9.846506516874573, + "step": 3325 + }, + { + "epoch": 0.35477333333333333, + "grad_norm": 2.102360720381262, + "learning_rate": 7.480526324069391e-06, + "loss": 0.5794, + "step": 3326 + }, + { + "avg_step_time": 5.824890803809118, + "epoch": 0.35477333333333333, + "eta_time": 9.787434575622598, + "step": 3326 + }, + { + "epoch": 0.35488, + "grad_norm": 1.5196726410548527, + "learning_rate": 7.479026271331864e-06, + "loss": 0.3942, + "step": 3327 + }, + { + "avg_step_time": 5.821549769603845, + "epoch": 0.35488, + "eta_time": 9.78020361293446, + "step": 3327 + }, + { + "epoch": 0.3549866666666667, + "grad_norm": 1.6839657486925885, + "learning_rate": 7.477525922679673e-06, + "loss": 0.5319, + "step": 3328 + }, + { + "avg_step_time": 5.8467317855719365, + "epoch": 0.3549866666666667, + "eta_time": 9.820885307598195, + "step": 3328 + }, + { + "epoch": 0.3550933333333333, + "grad_norm": 2.033192068624213, + "learning_rate": 7.476025278291912e-06, + "loss": 0.4795, + "step": 3329 + }, + { + "avg_step_time": 5.784465989681205, + "epoch": 0.3550933333333333, + "eta_time": 9.714689270447936, + "step": 3329 + }, + { + "epoch": 0.3552, + "grad_norm": 1.6076642348696446, + "learning_rate": 7.4745243383477055e-06, + "loss": 0.4832, + "step": 3330 + }, + { + "avg_step_time": 5.786874848182755, + "epoch": 0.3552, + "eta_time": 9.71712734924021, + "step": 3330 + }, + { + "epoch": 0.35530666666666666, + "grad_norm": 1.6975870870726104, + "learning_rate": 7.4730231030262164e-06, + "loss": 0.4302, + "step": 3331 + }, + { + "avg_step_time": 5.790083307208437, + "epoch": 0.35530666666666666, + "eta_time": 9.720906530213275, + "step": 3331 + }, + { + "epoch": 0.35541333333333336, + "grad_norm": 1.4971345968596375, + "learning_rate": 7.471521572506647e-06, + "loss": 0.5044, + "step": 3332 + }, + { + "avg_step_time": 5.789360891688954, + "epoch": 0.35541333333333336, + "eta_time": 9.718085519021209, + "step": 3332 + }, + { + "epoch": 0.35552, + "grad_norm": 1.6493225706677044, + "learning_rate": 7.470019746968226e-06, + "loss": 0.5271, + "step": 3333 + }, + { + "avg_step_time": 5.78864940970835, + "epoch": 0.35552, + "eta_time": 9.715283259293848, + "step": 3333 + }, + { + "epoch": 0.35562666666666665, + "grad_norm": 1.920568758577237, + "learning_rate": 7.468517626590229e-06, + "loss": 0.5157, + "step": 3334 + }, + { + "avg_step_time": 5.784081589091908, + "epoch": 0.35562666666666665, + "eta_time": 9.706010244362282, + "step": 3334 + }, + { + "epoch": 0.35573333333333335, + "grad_norm": 1.8347618059104323, + "learning_rate": 7.467015211551951e-06, + "loss": 0.4925, + "step": 3335 + }, + { + "avg_step_time": 5.821177085240682, + "epoch": 0.35573333333333335, + "eta_time": 9.766641554126032, + "step": 3335 + }, + { + "epoch": 0.35584, + "grad_norm": 1.7543297219911074, + "learning_rate": 7.4655125020327376e-06, + "loss": 0.5047, + "step": 3336 + }, + { + "avg_step_time": 5.808057002346925, + "epoch": 0.35584, + "eta_time": 9.743015621436967, + "step": 3336 + }, + { + "epoch": 0.3559466666666667, + "grad_norm": 1.6319007262977203, + "learning_rate": 7.464009498211964e-06, + "loss": 0.5758, + "step": 3337 + }, + { + "avg_step_time": 5.806445215687607, + "epoch": 0.3559466666666667, + "eta_time": 9.73869894786716, + "step": 3337 + }, + { + "epoch": 0.35605333333333333, + "grad_norm": 1.898465765667372, + "learning_rate": 7.462506200269034e-06, + "loss": 0.555, + "step": 3338 + }, + { + "avg_step_time": 5.803263693144827, + "epoch": 0.35605333333333333, + "eta_time": 9.731750809865366, + "step": 3338 + }, + { + "epoch": 0.35616, + "grad_norm": 1.7471537898052236, + "learning_rate": 7.461002608383396e-06, + "loss": 0.4737, + "step": 3339 + }, + { + "avg_step_time": 5.816311711012715, + "epoch": 0.35616, + "eta_time": 9.752015968797986, + "step": 3339 + }, + { + "epoch": 0.3562666666666667, + "grad_norm": 2.040249156820613, + "learning_rate": 7.4594987227345314e-06, + "loss": 0.6069, + "step": 3340 + }, + { + "avg_step_time": 5.815129730436537, + "epoch": 0.3562666666666667, + "eta_time": 9.74841886755125, + "step": 3340 + }, + { + "epoch": 0.3563733333333333, + "grad_norm": 1.6698020128286857, + "learning_rate": 7.457994543501951e-06, + "loss": 0.4899, + "step": 3341 + }, + { + "avg_step_time": 5.817354568327316, + "epoch": 0.3563733333333333, + "eta_time": 9.750532629246395, + "step": 3341 + }, + { + "epoch": 0.35648, + "grad_norm": 1.8600306913245528, + "learning_rate": 7.456490070865206e-06, + "loss": 0.5921, + "step": 3342 + }, + { + "avg_step_time": 5.850270056965376, + "epoch": 0.35648, + "eta_time": 9.804077570464475, + "step": 3342 + }, + { + "epoch": 0.35658666666666666, + "grad_norm": 1.6563296195447252, + "learning_rate": 7.454985305003884e-06, + "loss": 0.4526, + "step": 3343 + }, + { + "avg_step_time": 5.850849390029907, + "epoch": 0.35658666666666666, + "eta_time": 9.803423200183445, + "step": 3343 + }, + { + "epoch": 0.3566933333333333, + "grad_norm": 1.6182227728071796, + "learning_rate": 7.453480246097601e-06, + "loss": 0.5265, + "step": 3344 + }, + { + "avg_step_time": 5.862171801653775, + "epoch": 0.3566933333333333, + "eta_time": 9.820766148826088, + "step": 3344 + }, + { + "epoch": 0.3568, + "grad_norm": 1.6445698089571146, + "learning_rate": 7.4519748943260126e-06, + "loss": 0.4198, + "step": 3345 + }, + { + "avg_step_time": 5.857855854612408, + "epoch": 0.3568, + "eta_time": 9.811908556475784, + "step": 3345 + }, + { + "epoch": 0.35690666666666665, + "grad_norm": 1.8485434728929069, + "learning_rate": 7.45046924986881e-06, + "loss": 0.4739, + "step": 3346 + }, + { + "avg_step_time": 5.8489403243016715, + "epoch": 0.35690666666666665, + "eta_time": 9.795350337559661, + "step": 3346 + }, + { + "epoch": 0.35701333333333335, + "grad_norm": 1.8988622039338088, + "learning_rate": 7.448963312905717e-06, + "loss": 0.5037, + "step": 3347 + }, + { + "avg_step_time": 5.872981126862343, + "epoch": 0.35701333333333335, + "eta_time": 9.833980620201723, + "step": 3347 + }, + { + "epoch": 0.35712, + "grad_norm": 0.661892434856671, + "learning_rate": 7.447457083616494e-06, + "loss": 0.4797, + "step": 3348 + }, + { + "avg_step_time": 5.841718435287476, + "epoch": 0.35712, + "eta_time": 9.78001028041045, + "step": 3348 + }, + { + "epoch": 0.3572266666666667, + "grad_norm": 1.8338264421152717, + "learning_rate": 7.445950562180935e-06, + "loss": 0.5322, + "step": 3349 + }, + { + "avg_step_time": 5.832949660041115, + "epoch": 0.3572266666666667, + "eta_time": 9.763709625391044, + "step": 3349 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 1.6123017944294034, + "learning_rate": 7.444443748778869e-06, + "loss": 0.5125, + "step": 3350 + }, + { + "avg_step_time": 5.808723553262576, + "epoch": 0.35733333333333334, + "eta_time": 9.721544280113061, + "step": 3350 + }, + { + "epoch": 0.35744, + "grad_norm": 1.5586349882231525, + "learning_rate": 7.44293664359016e-06, + "loss": 0.5658, + "step": 3351 + }, + { + "avg_step_time": 5.814984783981785, + "epoch": 0.35744, + "eta_time": 9.730407871862855, + "step": 3351 + }, + { + "epoch": 0.3575466666666667, + "grad_norm": 2.100232675947988, + "learning_rate": 7.441429246794708e-06, + "loss": 0.4611, + "step": 3352 + }, + { + "avg_step_time": 5.812215504020151, + "epoch": 0.3575466666666667, + "eta_time": 9.724159439087046, + "step": 3352 + }, + { + "epoch": 0.3576533333333333, + "grad_norm": 1.7399003768658416, + "learning_rate": 7.4399215585724445e-06, + "loss": 0.5849, + "step": 3353 + }, + { + "avg_step_time": 5.797725655815818, + "epoch": 0.3576533333333333, + "eta_time": 9.698306638700794, + "step": 3353 + }, + { + "epoch": 0.35776, + "grad_norm": 1.5013854949086167, + "learning_rate": 7.438413579103344e-06, + "loss": 0.4201, + "step": 3354 + }, + { + "avg_step_time": 5.798130216020526, + "epoch": 0.35776, + "eta_time": 9.69737278629433, + "step": 3354 + }, + { + "epoch": 0.35786666666666667, + "grad_norm": 1.754153016935299, + "learning_rate": 7.436905308567404e-06, + "loss": 0.5371, + "step": 3355 + }, + { + "avg_step_time": 5.793062104119195, + "epoch": 0.35786666666666667, + "eta_time": 9.687287185221544, + "step": 3355 + }, + { + "epoch": 0.3579733333333333, + "grad_norm": 1.9119718985753118, + "learning_rate": 7.435396747144664e-06, + "loss": 0.4955, + "step": 3356 + }, + { + "avg_step_time": 5.793462122329558, + "epoch": 0.3579733333333333, + "eta_time": 9.686346809528224, + "step": 3356 + }, + { + "epoch": 0.35808, + "grad_norm": 1.5051273623892607, + "learning_rate": 7.433887895015199e-06, + "loss": 0.4992, + "step": 3357 + }, + { + "avg_step_time": 5.793362793296274, + "epoch": 0.35808, + "eta_time": 9.684571469460272, + "step": 3357 + }, + { + "epoch": 0.35818666666666665, + "grad_norm": 1.5211127707614374, + "learning_rate": 7.432378752359115e-06, + "loss": 0.452, + "step": 3358 + }, + { + "avg_step_time": 5.8204920508644795, + "epoch": 0.35818666666666665, + "eta_time": 9.728305741680993, + "step": 3358 + }, + { + "epoch": 0.35829333333333335, + "grad_norm": 2.0179970279860493, + "learning_rate": 7.430869319356554e-06, + "loss": 0.5082, + "step": 3359 + }, + { + "avg_step_time": 5.817213544941912, + "epoch": 0.35829333333333335, + "eta_time": 9.721210190658484, + "step": 3359 + }, + { + "epoch": 0.3584, + "grad_norm": 1.6038700939378883, + "learning_rate": 7.429359596187694e-06, + "loss": 0.5255, + "step": 3360 + }, + { + "avg_step_time": 5.8187608983781605, + "epoch": 0.3584, + "eta_time": 9.722179667706843, + "step": 3360 + }, + { + "epoch": 0.35850666666666664, + "grad_norm": 1.6866206340184768, + "learning_rate": 7.4278495830327465e-06, + "loss": 0.512, + "step": 3361 + }, + { + "avg_step_time": 5.823679432724461, + "epoch": 0.35850666666666664, + "eta_time": 9.728780030112475, + "step": 3361 + }, + { + "epoch": 0.35861333333333334, + "grad_norm": 1.8699327264272447, + "learning_rate": 7.426339280071957e-06, + "loss": 0.6149, + "step": 3362 + }, + { + "avg_step_time": 5.831596718894111, + "epoch": 0.35861333333333334, + "eta_time": 9.740386408530634, + "step": 3362 + }, + { + "epoch": 0.35872, + "grad_norm": 1.6171158428778567, + "learning_rate": 7.424828687485606e-06, + "loss": 0.5208, + "step": 3363 + }, + { + "avg_step_time": 5.8125829937482125, + "epoch": 0.35872, + "eta_time": 9.707013599559515, + "step": 3363 + }, + { + "epoch": 0.3588266666666667, + "grad_norm": 1.714318212260655, + "learning_rate": 7.42331780545401e-06, + "loss": 0.5327, + "step": 3364 + }, + { + "avg_step_time": 5.815718662859213, + "epoch": 0.3588266666666667, + "eta_time": 9.710634689568536, + "step": 3364 + }, + { + "epoch": 0.3589333333333333, + "grad_norm": 0.6668051737026037, + "learning_rate": 7.421806634157518e-06, + "loss": 0.4423, + "step": 3365 + }, + { + "avg_step_time": 5.773017461853798, + "epoch": 0.3589333333333333, + "eta_time": 9.637731929372592, + "step": 3365 + }, + { + "epoch": 0.35904, + "grad_norm": 1.7516406250971255, + "learning_rate": 7.420295173776515e-06, + "loss": 0.5792, + "step": 3366 + }, + { + "avg_step_time": 5.802559262574321, + "epoch": 0.35904, + "eta_time": 9.68543850244697, + "step": 3366 + }, + { + "epoch": 0.35914666666666667, + "grad_norm": 1.924917404790433, + "learning_rate": 7.418783424491418e-06, + "loss": 0.4964, + "step": 3367 + }, + { + "avg_step_time": 5.8063527140954525, + "epoch": 0.35914666666666667, + "eta_time": 9.690157529523745, + "step": 3367 + }, + { + "epoch": 0.3592533333333333, + "grad_norm": 1.5035337939291242, + "learning_rate": 7.417271386482684e-06, + "loss": 0.4749, + "step": 3368 + }, + { + "avg_step_time": 5.8073355525431, + "epoch": 0.3592533333333333, + "eta_time": 9.690184628924001, + "step": 3368 + }, + { + "epoch": 0.35936, + "grad_norm": 0.6383843281972211, + "learning_rate": 7.415759059930799e-06, + "loss": 0.4555, + "step": 3369 + }, + { + "avg_step_time": 5.771602661922724, + "epoch": 0.35936, + "eta_time": 9.628957107641078, + "step": 3369 + }, + { + "epoch": 0.35946666666666666, + "grad_norm": 1.8705149021716239, + "learning_rate": 7.414246445016283e-06, + "loss": 0.5795, + "step": 3370 + }, + { + "avg_step_time": 5.8032847317782315, + "epoch": 0.35946666666666666, + "eta_time": 9.680201337313411, + "step": 3370 + }, + { + "epoch": 0.35957333333333336, + "grad_norm": 1.961907101522165, + "learning_rate": 7.412733541919699e-06, + "loss": 0.5434, + "step": 3371 + }, + { + "avg_step_time": 5.801742808987396, + "epoch": 0.35957333333333336, + "eta_time": 9.676017729211203, + "step": 3371 + }, + { + "epoch": 0.35968, + "grad_norm": 1.7101494939438318, + "learning_rate": 7.411220350821631e-06, + "loss": 0.508, + "step": 3372 + }, + { + "avg_step_time": 5.798494211351029, + "epoch": 0.35968, + "eta_time": 9.66898909742784, + "step": 3372 + }, + { + "epoch": 0.35978666666666664, + "grad_norm": 1.6580342151111414, + "learning_rate": 7.409706871902709e-06, + "loss": 0.5339, + "step": 3373 + }, + { + "avg_step_time": 5.797915511661106, + "epoch": 0.35978666666666664, + "eta_time": 9.666413583608323, + "step": 3373 + }, + { + "epoch": 0.35989333333333334, + "grad_norm": 1.9376750793867907, + "learning_rate": 7.408193105343592e-06, + "loss": 0.5923, + "step": 3374 + }, + { + "avg_step_time": 5.797099400048304, + "epoch": 0.35989333333333334, + "eta_time": 9.663442638802744, + "step": 3374 + }, + { + "epoch": 0.36, + "grad_norm": 1.9437925440143897, + "learning_rate": 7.406679051324972e-06, + "loss": 0.5394, + "step": 3375 + }, + { + "avg_step_time": 5.797195029981209, + "epoch": 0.36, + "eta_time": 9.661991716635349, + "step": 3375 + }, + { + "epoch": 0.3601066666666667, + "grad_norm": 1.490908735224714, + "learning_rate": 7.40516471002758e-06, + "loss": 0.4519, + "step": 3376 + }, + { + "avg_step_time": 5.796829442785244, + "epoch": 0.3601066666666667, + "eta_time": 9.659772174241299, + "step": 3376 + }, + { + "epoch": 0.36021333333333333, + "grad_norm": 0.6720756827062708, + "learning_rate": 7.403650081632178e-06, + "loss": 0.5079, + "step": 3377 + }, + { + "avg_step_time": 5.755535193163939, + "epoch": 0.36021333333333333, + "eta_time": 9.589361135721475, + "step": 3377 + }, + { + "epoch": 0.36032, + "grad_norm": 1.720688548193603, + "learning_rate": 7.402135166319567e-06, + "loss": 0.51, + "step": 3378 + }, + { + "avg_step_time": 5.755762861232565, + "epoch": 0.36032, + "eta_time": 9.588141633003248, + "step": 3378 + }, + { + "epoch": 0.3604266666666667, + "grad_norm": 1.820374588652739, + "learning_rate": 7.400619964270571e-06, + "loss": 0.5685, + "step": 3379 + }, + { + "avg_step_time": 5.785871669499561, + "epoch": 0.3604266666666667, + "eta_time": 9.63669070286649, + "step": 3379 + }, + { + "epoch": 0.3605333333333333, + "grad_norm": 1.914160991673689, + "learning_rate": 7.399104475666059e-06, + "loss": 0.5063, + "step": 3380 + }, + { + "avg_step_time": 5.77036929371381, + "epoch": 0.3605333333333333, + "eta_time": 9.609267754392858, + "step": 3380 + }, + { + "epoch": 0.36064, + "grad_norm": 1.732548847882507, + "learning_rate": 7.397588700686933e-06, + "loss": 0.5433, + "step": 3381 + }, + { + "avg_step_time": 5.8046606020493945, + "epoch": 0.36064, + "eta_time": 9.664759902412243, + "step": 3381 + }, + { + "epoch": 0.36074666666666666, + "grad_norm": 2.1687559145881163, + "learning_rate": 7.396072639514123e-06, + "loss": 0.5121, + "step": 3382 + }, + { + "avg_step_time": 5.804921631861215, + "epoch": 0.36074666666666666, + "eta_time": 9.66358203881785, + "step": 3382 + }, + { + "epoch": 0.36085333333333336, + "grad_norm": 0.6379619126136455, + "learning_rate": 7.394556292328601e-06, + "loss": 0.4398, + "step": 3383 + }, + { + "avg_step_time": 5.766473281263101, + "epoch": 0.36085333333333336, + "eta_time": 9.597974417035696, + "step": 3383 + }, + { + "epoch": 0.36096, + "grad_norm": 1.7452246155392233, + "learning_rate": 7.393039659311366e-06, + "loss": 0.5103, + "step": 3384 + }, + { + "avg_step_time": 5.765835721083362, + "epoch": 0.36096, + "eta_time": 9.595311612502895, + "step": 3384 + }, + { + "epoch": 0.36106666666666665, + "grad_norm": 1.8931064797781092, + "learning_rate": 7.391522740643456e-06, + "loss": 0.5242, + "step": 3385 + }, + { + "avg_step_time": 5.763468597874497, + "epoch": 0.36106666666666665, + "eta_time": 9.589771361463399, + "step": 3385 + }, + { + "epoch": 0.36117333333333335, + "grad_norm": 1.8349352901453706, + "learning_rate": 7.390005536505942e-06, + "loss": 0.542, + "step": 3386 + }, + { + "avg_step_time": 5.801937324832184, + "epoch": 0.36117333333333335, + "eta_time": 9.652167399561096, + "step": 3386 + }, + { + "epoch": 0.36128, + "grad_norm": 1.6284538614022739, + "learning_rate": 7.388488047079927e-06, + "loss": 0.5159, + "step": 3387 + }, + { + "avg_step_time": 5.805390668637825, + "epoch": 0.36128, + "eta_time": 9.656299812167584, + "step": 3387 + }, + { + "epoch": 0.3613866666666667, + "grad_norm": 0.661550548424332, + "learning_rate": 7.386970272546551e-06, + "loss": 0.4562, + "step": 3388 + }, + { + "avg_step_time": 5.749085510619963, + "epoch": 0.3613866666666667, + "eta_time": 9.561048597800479, + "step": 3388 + }, + { + "epoch": 0.36149333333333333, + "grad_norm": 1.8445591056756294, + "learning_rate": 7.385452213086985e-06, + "loss": 0.4097, + "step": 3389 + }, + { + "avg_step_time": 5.749885489242246, + "epoch": 0.36149333333333333, + "eta_time": 9.560781816278913, + "step": 3389 + }, + { + "epoch": 0.3616, + "grad_norm": 1.9171557409370643, + "learning_rate": 7.383933868882438e-06, + "loss": 0.5482, + "step": 3390 + }, + { + "avg_step_time": 5.734599118280893, + "epoch": 0.3616, + "eta_time": 9.533771034141983, + "step": 3390 + }, + { + "epoch": 0.3617066666666667, + "grad_norm": 1.7641496654133635, + "learning_rate": 7.382415240114149e-06, + "loss": 0.4456, + "step": 3391 + }, + { + "avg_step_time": 5.733672512902154, + "epoch": 0.3617066666666667, + "eta_time": 9.530637865890693, + "step": 3391 + }, + { + "epoch": 0.3618133333333333, + "grad_norm": 1.92868765172458, + "learning_rate": 7.380896326963392e-06, + "loss": 0.4998, + "step": 3392 + }, + { + "avg_step_time": 5.733298761676056, + "epoch": 0.3618133333333333, + "eta_time": 9.528424025307734, + "step": 3392 + }, + { + "epoch": 0.36192, + "grad_norm": 1.5834071339167235, + "learning_rate": 7.379377129611478e-06, + "loss": 0.4856, + "step": 3393 + }, + { + "avg_step_time": 5.734007438023885, + "epoch": 0.36192, + "eta_time": 9.528009026183023, + "step": 3393 + }, + { + "epoch": 0.36202666666666666, + "grad_norm": 1.7600839684665657, + "learning_rate": 7.377857648239748e-06, + "loss": 0.5398, + "step": 3394 + }, + { + "avg_step_time": 5.733297877841526, + "epoch": 0.36202666666666666, + "eta_time": 9.525237390936157, + "step": 3394 + }, + { + "epoch": 0.3621333333333333, + "grad_norm": 1.5454008589209418, + "learning_rate": 7.376337883029576e-06, + "loss": 0.4717, + "step": 3395 + }, + { + "avg_step_time": 5.707959136577568, + "epoch": 0.3621333333333333, + "eta_time": 9.48155434353718, + "step": 3395 + }, + { + "epoch": 0.36224, + "grad_norm": 2.048140338354619, + "learning_rate": 7.374817834162378e-06, + "loss": 0.5174, + "step": 3396 + }, + { + "avg_step_time": 5.737973218012338, + "epoch": 0.36224, + "eta_time": 9.529817186248826, + "step": 3396 + }, + { + "epoch": 0.36234666666666665, + "grad_norm": 1.6184998670140598, + "learning_rate": 7.373297501819591e-06, + "loss": 0.4927, + "step": 3397 + }, + { + "avg_step_time": 5.735206160882507, + "epoch": 0.36234666666666665, + "eta_time": 9.523628452709897, + "step": 3397 + }, + { + "epoch": 0.36245333333333335, + "grad_norm": 1.5558739307475908, + "learning_rate": 7.371776886182699e-06, + "loss": 0.5515, + "step": 3398 + }, + { + "avg_step_time": 5.735068077992911, + "epoch": 0.36245333333333335, + "eta_time": 9.52180608393434, + "step": 3398 + }, + { + "epoch": 0.36256, + "grad_norm": 1.426714185539871, + "learning_rate": 7.3702559874332125e-06, + "loss": 0.516, + "step": 3399 + }, + { + "avg_step_time": 5.7743691603342695, + "epoch": 0.36256, + "eta_time": 9.585452806154887, + "step": 3399 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 1.5725414351214462, + "learning_rate": 7.368734805752673e-06, + "loss": 0.4825, + "step": 3400 + }, + { + "avg_step_time": 5.757132910718822, + "epoch": 0.3626666666666667, + "eta_time": 9.555241428206932, + "step": 3400 + }, + { + "epoch": 0.36277333333333334, + "grad_norm": 1.9096286960807418, + "learning_rate": 7.367213341322666e-06, + "loss": 0.4595, + "step": 3401 + }, + { + "avg_step_time": 5.753017505009969, + "epoch": 0.36277333333333334, + "eta_time": 9.54681293748043, + "step": 3401 + }, + { + "epoch": 0.36288, + "grad_norm": 1.5348311005557165, + "learning_rate": 7.3656915943247984e-06, + "loss": 0.449, + "step": 3402 + }, + { + "avg_step_time": 5.75137851214168, + "epoch": 0.36288, + "eta_time": 9.542495514728405, + "step": 3402 + }, + { + "epoch": 0.3629866666666667, + "grad_norm": 1.626127734582384, + "learning_rate": 7.364169564940722e-06, + "loss": 0.4986, + "step": 3403 + }, + { + "avg_step_time": 5.754046102966925, + "epoch": 0.3629866666666667, + "eta_time": 9.545323146366245, + "step": 3403 + }, + { + "epoch": 0.3630933333333333, + "grad_norm": 1.5447474638702607, + "learning_rate": 7.362647253352116e-06, + "loss": 0.5139, + "step": 3404 + }, + { + "avg_step_time": 5.748810308148163, + "epoch": 0.3630933333333333, + "eta_time": 9.535040652764634, + "step": 3404 + }, + { + "epoch": 0.3632, + "grad_norm": 1.7728614195632857, + "learning_rate": 7.3611246597406925e-06, + "loss": 0.55, + "step": 3405 + }, + { + "avg_step_time": 5.7499422280475345, + "epoch": 0.3632, + "eta_time": 9.535320861512162, + "step": 3405 + }, + { + "epoch": 0.36330666666666667, + "grad_norm": 1.9767324567372448, + "learning_rate": 7.3596017842882025e-06, + "loss": 0.6095, + "step": 3406 + }, + { + "avg_step_time": 5.747998225568521, + "epoch": 0.36330666666666667, + "eta_time": 9.530500391227363, + "step": 3406 + }, + { + "epoch": 0.3634133333333333, + "grad_norm": 1.8222327209173752, + "learning_rate": 7.358078627176426e-06, + "loss": 0.4707, + "step": 3407 + }, + { + "avg_step_time": 5.752164922579371, + "epoch": 0.3634133333333333, + "eta_time": 9.535811182764913, + "step": 3407 + }, + { + "epoch": 0.36352, + "grad_norm": 1.7141658321648197, + "learning_rate": 7.356555188587178e-06, + "loss": 0.5513, + "step": 3408 + }, + { + "avg_step_time": 5.780965966407699, + "epoch": 0.36352, + "eta_time": 9.58195108932076, + "step": 3408 + }, + { + "epoch": 0.36362666666666665, + "grad_norm": 1.793510591564855, + "learning_rate": 7.355031468702305e-06, + "loss": 0.5585, + "step": 3409 + }, + { + "avg_step_time": 5.779595394327183, + "epoch": 0.36362666666666665, + "eta_time": 9.578073922932216, + "step": 3409 + }, + { + "epoch": 0.36373333333333335, + "grad_norm": 1.6462040265041145, + "learning_rate": 7.3535074677036956e-06, + "loss": 0.5739, + "step": 3410 + }, + { + "avg_step_time": 5.77991511123349, + "epoch": 0.36373333333333335, + "eta_time": 9.576998232918823, + "step": 3410 + }, + { + "epoch": 0.36384, + "grad_norm": 1.5956071772722877, + "learning_rate": 7.351983185773259e-06, + "loss": 0.5163, + "step": 3411 + }, + { + "avg_step_time": 5.752213078315812, + "epoch": 0.36384, + "eta_time": 9.529499666409862, + "step": 3411 + }, + { + "epoch": 0.36394666666666664, + "grad_norm": 1.630117691676431, + "learning_rate": 7.350458623092947e-06, + "loss": 0.4721, + "step": 3412 + }, + { + "avg_step_time": 5.726614441534485, + "epoch": 0.36394666666666664, + "eta_time": 9.485500531908372, + "step": 3412 + }, + { + "epoch": 0.36405333333333334, + "grad_norm": 0.6703090578469655, + "learning_rate": 7.348933779844746e-06, + "loss": 0.4579, + "step": 3413 + }, + { + "avg_step_time": 5.691918866802948, + "epoch": 0.36405333333333334, + "eta_time": 9.426450078855327, + "step": 3413 + }, + { + "epoch": 0.36416, + "grad_norm": 1.631725295997523, + "learning_rate": 7.347408656210666e-06, + "loss": 0.5131, + "step": 3414 + }, + { + "avg_step_time": 5.719170616130636, + "epoch": 0.36416, + "eta_time": 9.469993345209645, + "step": 3414 + }, + { + "epoch": 0.3642666666666667, + "grad_norm": 1.7711069235680126, + "learning_rate": 7.3458832523727615e-06, + "loss": 0.4789, + "step": 3415 + }, + { + "avg_step_time": 5.707835346761376, + "epoch": 0.3642666666666667, + "eta_time": 9.449638518527168, + "step": 3415 + }, + { + "epoch": 0.3643733333333333, + "grad_norm": 1.7624804843759165, + "learning_rate": 7.344357568513116e-06, + "loss": 0.5191, + "step": 3416 + }, + { + "avg_step_time": 5.707711891694502, + "epoch": 0.3643733333333333, + "eta_time": 9.447848656279872, + "step": 3416 + }, + { + "epoch": 0.36448, + "grad_norm": 2.064516122944904, + "learning_rate": 7.342831604813844e-06, + "loss": 0.5926, + "step": 3417 + }, + { + "avg_step_time": 5.709333894228695, + "epoch": 0.36448, + "eta_time": 9.44894759494849, + "step": 3417 + }, + { + "epoch": 0.36458666666666667, + "grad_norm": 1.8125569524971326, + "learning_rate": 7.341305361457096e-06, + "loss": 0.5499, + "step": 3418 + }, + { + "avg_step_time": 5.698349820242988, + "epoch": 0.36458666666666667, + "eta_time": 9.429186077552076, + "step": 3418 + }, + { + "epoch": 0.3646933333333333, + "grad_norm": 1.7522502817664554, + "learning_rate": 7.339778838625055e-06, + "loss": 0.4557, + "step": 3419 + }, + { + "avg_step_time": 5.694362279140588, + "epoch": 0.3646933333333333, + "eta_time": 9.42100603737815, + "step": 3419 + }, + { + "epoch": 0.3648, + "grad_norm": 1.5885478272227498, + "learning_rate": 7.338252036499941e-06, + "loss": 0.4832, + "step": 3420 + }, + { + "avg_step_time": 5.692956531890715, + "epoch": 0.3648, + "eta_time": 9.417098929835891, + "step": 3420 + }, + { + "epoch": 0.36490666666666666, + "grad_norm": 1.7594166672975016, + "learning_rate": 7.336724955264001e-06, + "loss": 0.3994, + "step": 3421 + }, + { + "avg_step_time": 5.691244806906189, + "epoch": 0.36490666666666666, + "eta_time": 9.412686550088736, + "step": 3421 + }, + { + "epoch": 0.36501333333333336, + "grad_norm": 1.4483623274326962, + "learning_rate": 7.33519759509952e-06, + "loss": 0.3881, + "step": 3422 + }, + { + "avg_step_time": 5.693199839254822, + "epoch": 0.36501333333333336, + "eta_time": 9.414338511967767, + "step": 3422 + }, + { + "epoch": 0.36512, + "grad_norm": 1.63828100974016, + "learning_rate": 7.333669956188815e-06, + "loss": 0.5021, + "step": 3423 + }, + { + "avg_step_time": 5.692562151436854, + "epoch": 0.36512, + "eta_time": 9.411702757042265, + "step": 3423 + }, + { + "epoch": 0.36522666666666664, + "grad_norm": 1.7386239872024556, + "learning_rate": 7.332142038714236e-06, + "loss": 0.5502, + "step": 3424 + }, + { + "avg_step_time": 5.691272778944536, + "epoch": 0.36522666666666664, + "eta_time": 9.40799008541637, + "step": 3424 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 1.9478564617732288, + "learning_rate": 7.330613842858165e-06, + "loss": 0.6012, + "step": 3425 + }, + { + "avg_step_time": 5.691443197654955, + "epoch": 0.36533333333333334, + "eta_time": 9.406690840568606, + "step": 3425 + }, + { + "epoch": 0.36544, + "grad_norm": 1.4304555865063162, + "learning_rate": 7.3290853688030196e-06, + "loss": 0.5079, + "step": 3426 + }, + { + "avg_step_time": 5.713518186049028, + "epoch": 0.36544, + "eta_time": 9.44158880244602, + "step": 3426 + }, + { + "epoch": 0.3655466666666667, + "grad_norm": 1.760355614070065, + "learning_rate": 7.3275566167312504e-06, + "loss": 0.5171, + "step": 3427 + }, + { + "avg_step_time": 5.687235326477976, + "epoch": 0.3655466666666667, + "eta_time": 9.396576589414167, + "step": 3427 + }, + { + "epoch": 0.36565333333333333, + "grad_norm": 1.4321459111392636, + "learning_rate": 7.32602758682534e-06, + "loss": 0.4319, + "step": 3428 + }, + { + "avg_step_time": 5.692070228884918, + "epoch": 0.36565333333333333, + "eta_time": 9.402983791994057, + "step": 3428 + }, + { + "epoch": 0.36576, + "grad_norm": 1.7922422804623297, + "learning_rate": 7.324498279267803e-06, + "loss": 0.5626, + "step": 3429 + }, + { + "avg_step_time": 5.693118165237735, + "epoch": 0.36576, + "eta_time": 9.403133502917658, + "step": 3429 + }, + { + "epoch": 0.3658666666666667, + "grad_norm": 1.5268877248856656, + "learning_rate": 7.322968694241193e-06, + "loss": 0.4398, + "step": 3430 + }, + { + "avg_step_time": 5.695326807523014, + "epoch": 0.3658666666666667, + "eta_time": 9.405199408534534, + "step": 3430 + }, + { + "epoch": 0.3659733333333333, + "grad_norm": 0.6609151387090887, + "learning_rate": 7.3214388319280845e-06, + "loss": 0.4545, + "step": 3431 + }, + { + "avg_step_time": 5.683064248826769, + "epoch": 0.3659733333333333, + "eta_time": 9.383370526396199, + "step": 3431 + }, + { + "epoch": 0.36608, + "grad_norm": 1.5888799803134754, + "learning_rate": 7.319908692511103e-06, + "loss": 0.479, + "step": 3432 + }, + { + "avg_step_time": 5.696008000710998, + "epoch": 0.36608, + "eta_time": 9.403159874507073, + "step": 3432 + }, + { + "epoch": 0.36618666666666666, + "grad_norm": 1.704087920623538, + "learning_rate": 7.318378276172889e-06, + "loss": 0.4708, + "step": 3433 + }, + { + "avg_step_time": 5.695501431070193, + "epoch": 0.36618666666666666, + "eta_time": 9.400741528727524, + "step": 3433 + }, + { + "epoch": 0.36629333333333336, + "grad_norm": 1.7351555291955598, + "learning_rate": 7.316847583096128e-06, + "loss": 0.5477, + "step": 3434 + }, + { + "avg_step_time": 5.655947759898022, + "epoch": 0.36629333333333336, + "eta_time": 9.333884900431709, + "step": 3434 + }, + { + "epoch": 0.3664, + "grad_norm": 1.6666761675690267, + "learning_rate": 7.315316613463535e-06, + "loss": 0.4432, + "step": 3435 + }, + { + "avg_step_time": 5.655891813413061, + "epoch": 0.3664, + "eta_time": 9.33222149213155, + "step": 3435 + }, + { + "epoch": 0.36650666666666665, + "grad_norm": 1.9050660277285776, + "learning_rate": 7.313785367457855e-06, + "loss": 0.4935, + "step": 3436 + }, + { + "avg_step_time": 5.660185129955561, + "epoch": 0.36650666666666665, + "eta_time": 9.337733190779467, + "step": 3436 + }, + { + "epoch": 0.36661333333333335, + "grad_norm": 1.7443273335030822, + "learning_rate": 7.312253845261871e-06, + "loss": 0.4935, + "step": 3437 + }, + { + "avg_step_time": 5.671743482050269, + "epoch": 0.36661333333333335, + "eta_time": 9.355225776781804, + "step": 3437 + }, + { + "epoch": 0.36672, + "grad_norm": 1.5800417241226965, + "learning_rate": 7.310722047058396e-06, + "loss": 0.4817, + "step": 3438 + }, + { + "avg_step_time": 5.677405391076599, + "epoch": 0.36672, + "eta_time": 9.362987724117158, + "step": 3438 + }, + { + "epoch": 0.3668266666666667, + "grad_norm": 1.794797787710275, + "learning_rate": 7.3091899730302765e-06, + "loss": 0.4742, + "step": 3439 + }, + { + "avg_step_time": 5.67663732201162, + "epoch": 0.3668266666666667, + "eta_time": 9.360144206516939, + "step": 3439 + }, + { + "epoch": 0.36693333333333333, + "grad_norm": 1.6250989555223052, + "learning_rate": 7.307657623360393e-06, + "loss": 0.5217, + "step": 3440 + }, + { + "avg_step_time": 5.67558793828945, + "epoch": 0.36693333333333333, + "eta_time": 9.35683733715219, + "step": 3440 + }, + { + "epoch": 0.36704, + "grad_norm": 1.628315506601589, + "learning_rate": 7.306124998231655e-06, + "loss": 0.528, + "step": 3441 + }, + { + "avg_step_time": 5.680711329585374, + "epoch": 0.36704, + "eta_time": 9.36370584159989, + "step": 3441 + }, + { + "epoch": 0.3671466666666667, + "grad_norm": 2.0652016730986964, + "learning_rate": 7.3045920978270116e-06, + "loss": 0.5316, + "step": 3442 + }, + { + "avg_step_time": 5.679885743844388, + "epoch": 0.3671466666666667, + "eta_time": 9.360767255063543, + "step": 3442 + }, + { + "epoch": 0.3672533333333333, + "grad_norm": 1.5227131527774465, + "learning_rate": 7.303058922329439e-06, + "loss": 0.5918, + "step": 3443 + }, + { + "avg_step_time": 5.692207297893486, + "epoch": 0.3672533333333333, + "eta_time": 9.379492691973377, + "step": 3443 + }, + { + "epoch": 0.36736, + "grad_norm": 1.866173879449337, + "learning_rate": 7.301525471921949e-06, + "loss": 0.5321, + "step": 3444 + }, + { + "avg_step_time": 5.695183585388492, + "epoch": 0.36736, + "eta_time": 9.38281495692754, + "step": 3444 + }, + { + "epoch": 0.36746666666666666, + "grad_norm": 1.6024803057664956, + "learning_rate": 7.299991746787584e-06, + "loss": 0.6155, + "step": 3445 + }, + { + "avg_step_time": 5.699182310489693, + "epoch": 0.36746666666666666, + "eta_time": 9.387819750334412, + "step": 3445 + }, + { + "epoch": 0.3675733333333333, + "grad_norm": 1.3234111887072966, + "learning_rate": 7.298457747109421e-06, + "loss": 0.3916, + "step": 3446 + }, + { + "avg_step_time": 5.691225564841068, + "epoch": 0.3675733333333333, + "eta_time": 9.373132326095194, + "step": 3446 + }, + { + "epoch": 0.36768, + "grad_norm": 1.8560218106570279, + "learning_rate": 7.296923473070571e-06, + "loss": 0.5637, + "step": 3447 + }, + { + "avg_step_time": 5.723451072519476, + "epoch": 0.36768, + "eta_time": 9.424616099415404, + "step": 3447 + }, + { + "epoch": 0.36778666666666665, + "grad_norm": 1.725979215664993, + "learning_rate": 7.295388924854174e-06, + "loss": 0.5261, + "step": 3448 + }, + { + "avg_step_time": 5.72974762531242, + "epoch": 0.36778666666666665, + "eta_time": 9.433392826451865, + "step": 3448 + }, + { + "epoch": 0.36789333333333335, + "grad_norm": 2.079451042889502, + "learning_rate": 7.293854102643407e-06, + "loss": 0.558, + "step": 3449 + }, + { + "avg_step_time": 5.731104995265151, + "epoch": 0.36789333333333335, + "eta_time": 9.434035611650357, + "step": 3449 + }, + { + "epoch": 0.368, + "grad_norm": 2.043003539713893, + "learning_rate": 7.292319006621477e-06, + "loss": 0.5785, + "step": 3450 + }, + { + "avg_step_time": 5.7270359968898275, + "epoch": 0.368, + "eta_time": 9.425746744881174, + "step": 3450 + }, + { + "epoch": 0.3681066666666667, + "grad_norm": 1.8275735937621307, + "learning_rate": 7.290783636971622e-06, + "loss": 0.4843, + "step": 3451 + }, + { + "avg_step_time": 5.730997740620315, + "epoch": 0.3681066666666667, + "eta_time": 9.430675170954096, + "step": 3451 + }, + { + "epoch": 0.36821333333333334, + "grad_norm": 1.8717949104938756, + "learning_rate": 7.289247993877119e-06, + "loss": 0.5232, + "step": 3452 + }, + { + "avg_step_time": 5.736275913739445, + "epoch": 0.36821333333333334, + "eta_time": 9.437767288077426, + "step": 3452 + }, + { + "epoch": 0.36832, + "grad_norm": 2.170169374234569, + "learning_rate": 7.2877120775212685e-06, + "loss": 0.5452, + "step": 3453 + }, + { + "avg_step_time": 5.736882378356626, + "epoch": 0.36832, + "eta_time": 9.437171512396649, + "step": 3453 + }, + { + "epoch": 0.3684266666666667, + "grad_norm": 1.7191153714577476, + "learning_rate": 7.286175888087413e-06, + "loss": 0.5076, + "step": 3454 + }, + { + "avg_step_time": 5.739293881136962, + "epoch": 0.3684266666666667, + "eta_time": 9.439544186169986, + "step": 3454 + }, + { + "epoch": 0.3685333333333333, + "grad_norm": 1.6656431160308063, + "learning_rate": 7.284639425758924e-06, + "loss": 0.5197, + "step": 3455 + }, + { + "avg_step_time": 5.742935679175637, + "epoch": 0.3685333333333333, + "eta_time": 9.443938672422158, + "step": 3455 + }, + { + "epoch": 0.36864, + "grad_norm": 1.8097406151497621, + "learning_rate": 7.283102690719198e-06, + "loss": 0.4979, + "step": 3456 + }, + { + "avg_step_time": 5.761800749133331, + "epoch": 0.36864, + "eta_time": 9.473360731700051, + "step": 3456 + }, + { + "epoch": 0.36874666666666667, + "grad_norm": 1.7841397171324813, + "learning_rate": 7.281565683151679e-06, + "loss": 0.4774, + "step": 3457 + }, + { + "avg_step_time": 5.734205149640941, + "epoch": 0.36874666666666667, + "eta_time": 9.426396132104191, + "step": 3457 + }, + { + "epoch": 0.3688533333333333, + "grad_norm": 1.7830795128906103, + "learning_rate": 7.28002840323983e-06, + "loss": 0.5084, + "step": 3458 + }, + { + "avg_step_time": 5.734537979569098, + "epoch": 0.3688533333333333, + "eta_time": 9.425350340308432, + "step": 3458 + }, + { + "epoch": 0.36896, + "grad_norm": 1.7511166472446567, + "learning_rate": 7.278490851167155e-06, + "loss": 0.6145, + "step": 3459 + }, + { + "avg_step_time": 5.732438352372911, + "epoch": 0.36896, + "eta_time": 9.420307025732818, + "step": 3459 + }, + { + "epoch": 0.36906666666666665, + "grad_norm": 0.6790056320471585, + "learning_rate": 7.276953027117186e-06, + "loss": 0.4485, + "step": 3460 + }, + { + "avg_step_time": 5.693947493427932, + "epoch": 0.36906666666666665, + "eta_time": 9.355472062118395, + "step": 3460 + }, + { + "epoch": 0.36917333333333335, + "grad_norm": 1.7459856081624878, + "learning_rate": 7.275414931273489e-06, + "loss": 0.4397, + "step": 3461 + }, + { + "avg_step_time": 5.69390098013059, + "epoch": 0.36917333333333335, + "eta_time": 9.353813999025641, + "step": 3461 + }, + { + "epoch": 0.36928, + "grad_norm": 1.595382833537688, + "learning_rate": 7.2738765638196625e-06, + "loss": 0.5776, + "step": 3462 + }, + { + "avg_step_time": 5.692391804974489, + "epoch": 0.36928, + "eta_time": 9.349753539670596, + "step": 3462 + }, + { + "epoch": 0.36938666666666664, + "grad_norm": 1.763438936759197, + "learning_rate": 7.272337924939338e-06, + "loss": 0.4599, + "step": 3463 + }, + { + "avg_step_time": 5.751399832542496, + "epoch": 0.36938666666666664, + "eta_time": 9.445076613886455, + "step": 3463 + }, + { + "epoch": 0.36949333333333334, + "grad_norm": 2.0258499093676696, + "learning_rate": 7.270799014816178e-06, + "loss": 0.4992, + "step": 3464 + }, + { + "avg_step_time": 5.784830177673186, + "epoch": 0.36949333333333334, + "eta_time": 9.498369772285056, + "step": 3464 + }, + { + "epoch": 0.3696, + "grad_norm": 1.3568542432954604, + "learning_rate": 7.269259833633877e-06, + "loss": 0.4172, + "step": 3465 + }, + { + "avg_step_time": 5.785197412124788, + "epoch": 0.3696, + "eta_time": 9.497365751571525, + "step": 3465 + }, + { + "epoch": 0.3697066666666667, + "grad_norm": 1.4814392319682819, + "learning_rate": 7.267720381576165e-06, + "loss": 0.4057, + "step": 3466 + }, + { + "avg_step_time": 5.780426177111539, + "epoch": 0.3697066666666667, + "eta_time": 9.487927300153357, + "step": 3466 + }, + { + "epoch": 0.3698133333333333, + "grad_norm": 1.2864662498132822, + "learning_rate": 7.2661806588268015e-06, + "loss": 0.4124, + "step": 3467 + }, + { + "avg_step_time": 5.780752764807807, + "epoch": 0.3698133333333333, + "eta_time": 9.486857592912367, + "step": 3467 + }, + { + "epoch": 0.36992, + "grad_norm": 2.003682259251679, + "learning_rate": 7.264640665569577e-06, + "loss": 0.4957, + "step": 3468 + }, + { + "avg_step_time": 5.815592748950226, + "epoch": 0.36992, + "eta_time": 9.54241843556916, + "step": 3468 + }, + { + "epoch": 0.37002666666666667, + "grad_norm": 1.6615913395549298, + "learning_rate": 7.263100401988319e-06, + "loss": 0.4228, + "step": 3469 + }, + { + "avg_step_time": 5.815728177927961, + "epoch": 0.37002666666666667, + "eta_time": 9.541025171900706, + "step": 3469 + }, + { + "epoch": 0.3701333333333333, + "grad_norm": 1.5636467969057397, + "learning_rate": 7.261559868266883e-06, + "loss": 0.4966, + "step": 3470 + }, + { + "avg_step_time": 5.854360864620016, + "epoch": 0.3701333333333333, + "eta_time": 9.60277802932811, + "step": 3470 + }, + { + "epoch": 0.37024, + "grad_norm": 1.6776639980041617, + "learning_rate": 7.26001906458916e-06, + "loss": 0.481, + "step": 3471 + }, + { + "avg_step_time": 5.852248887823086, + "epoch": 0.37024, + "eta_time": 9.59768817602986, + "step": 3471 + }, + { + "epoch": 0.37034666666666666, + "grad_norm": 1.731970689722047, + "learning_rate": 7.258477991139071e-06, + "loss": 0.498, + "step": 3472 + }, + { + "avg_step_time": 5.85384088333207, + "epoch": 0.37034666666666666, + "eta_time": 9.598672981752559, + "step": 3472 + }, + { + "epoch": 0.37045333333333336, + "grad_norm": 1.8563471790039823, + "learning_rate": 7.256936648100567e-06, + "loss": 0.4443, + "step": 3473 + }, + { + "avg_step_time": 5.860414902369182, + "epoch": 0.37045333333333336, + "eta_time": 9.607824653828587, + "step": 3473 + }, + { + "epoch": 0.37056, + "grad_norm": 1.5929914860856635, + "learning_rate": 7.255395035657639e-06, + "loss": 0.4537, + "step": 3474 + }, + { + "avg_step_time": 5.8607098285597985, + "epoch": 0.37056, + "eta_time": 9.606680193980935, + "step": 3474 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 2.0497855102823084, + "learning_rate": 7.253853153994301e-06, + "loss": 0.5651, + "step": 3475 + }, + { + "avg_step_time": 5.883437652780552, + "epoch": 0.37066666666666664, + "eta_time": 9.642300597612572, + "step": 3475 + }, + { + "epoch": 0.37077333333333334, + "grad_norm": 1.6590802054032865, + "learning_rate": 7.252311003294605e-06, + "loss": 0.5163, + "step": 3476 + }, + { + "avg_step_time": 5.918636384636465, + "epoch": 0.37077333333333334, + "eta_time": 9.698343342491807, + "step": 3476 + }, + { + "epoch": 0.37088, + "grad_norm": 1.6079018790770434, + "learning_rate": 7.250768583742634e-06, + "loss": 0.4534, + "step": 3477 + }, + { + "avg_step_time": 5.921034625082305, + "epoch": 0.37088, + "eta_time": 9.700628394093176, + "step": 3477 + }, + { + "epoch": 0.3709866666666667, + "grad_norm": 1.5496811682657554, + "learning_rate": 7.2492258955224995e-06, + "loss": 0.4222, + "step": 3478 + }, + { + "avg_step_time": 5.92207897793163, + "epoch": 0.3709866666666667, + "eta_time": 9.700694370239674, + "step": 3478 + }, + { + "epoch": 0.37109333333333333, + "grad_norm": 2.0214969869302797, + "learning_rate": 7.24768293881835e-06, + "loss": 0.553, + "step": 3479 + }, + { + "avg_step_time": 5.9243061638841725, + "epoch": 0.37109333333333333, + "eta_time": 9.702696983961411, + "step": 3479 + }, + { + "epoch": 0.3712, + "grad_norm": 1.5386301609447262, + "learning_rate": 7.246139713814365e-06, + "loss": 0.4043, + "step": 3480 + }, + { + "avg_step_time": 5.921002956351849, + "epoch": 0.3712, + "eta_time": 9.695642341026154, + "step": 3480 + }, + { + "epoch": 0.3713066666666667, + "grad_norm": 1.7085800343351767, + "learning_rate": 7.244596220694754e-06, + "loss": 0.5287, + "step": 3481 + }, + { + "avg_step_time": 5.922003731583104, + "epoch": 0.3713066666666667, + "eta_time": 9.695636109430781, + "step": 3481 + }, + { + "epoch": 0.3714133333333333, + "grad_norm": 1.6273305107075384, + "learning_rate": 7.24305245964376e-06, + "loss": 0.4906, + "step": 3482 + }, + { + "avg_step_time": 5.959409434385974, + "epoch": 0.3714133333333333, + "eta_time": 9.755222165787929, + "step": 3482 + }, + { + "epoch": 0.37152, + "grad_norm": 1.8905498547105288, + "learning_rate": 7.241508430845656e-06, + "loss": 0.5587, + "step": 3483 + }, + { + "avg_step_time": 5.958779915414675, + "epoch": 0.37152, + "eta_time": 9.752536461562018, + "step": 3483 + }, + { + "epoch": 0.37162666666666666, + "grad_norm": 1.521417388263556, + "learning_rate": 7.239964134484752e-06, + "loss": 0.4467, + "step": 3484 + }, + { + "avg_step_time": 5.9646887947814635, + "epoch": 0.37162666666666666, + "eta_time": 9.760550469460446, + "step": 3484 + }, + { + "epoch": 0.37173333333333336, + "grad_norm": 1.5528864379750191, + "learning_rate": 7.238419570745383e-06, + "loss": 0.5097, + "step": 3485 + }, + { + "avg_step_time": 5.929960424249822, + "epoch": 0.37173333333333336, + "eta_time": 9.702074138564292, + "step": 3485 + }, + { + "epoch": 0.37184, + "grad_norm": 1.7727078829567922, + "learning_rate": 7.236874739811921e-06, + "loss": 0.4807, + "step": 3486 + }, + { + "avg_step_time": 5.968047418979683, + "epoch": 0.37184, + "eta_time": 9.762730902880932, + "step": 3486 + }, + { + "epoch": 0.37194666666666665, + "grad_norm": 1.5068913239180097, + "learning_rate": 7.235329641868768e-06, + "loss": 0.5352, + "step": 3487 + }, + { + "avg_step_time": 6.00157327844639, + "epoch": 0.37194666666666665, + "eta_time": 9.815906517636762, + "step": 3487 + }, + { + "epoch": 0.37205333333333335, + "grad_norm": 1.6405637403792697, + "learning_rate": 7.233784277100359e-06, + "loss": 0.4406, + "step": 3488 + }, + { + "avg_step_time": 6.004803452828918, + "epoch": 0.37205333333333335, + "eta_time": 9.819521646334401, + "step": 3488 + }, + { + "epoch": 0.37216, + "grad_norm": 1.6789560320292218, + "learning_rate": 7.232238645691157e-06, + "loss": 0.5072, + "step": 3489 + }, + { + "avg_step_time": 5.99229492322363, + "epoch": 0.37216, + "eta_time": 9.797402199470634, + "step": 3489 + }, + { + "epoch": 0.3722666666666667, + "grad_norm": 1.6902194546627411, + "learning_rate": 7.2306927478256624e-06, + "loss": 0.523, + "step": 3490 + }, + { + "avg_step_time": 5.994688917892148, + "epoch": 0.3722666666666667, + "eta_time": 9.79965118938758, + "step": 3490 + }, + { + "epoch": 0.37237333333333333, + "grad_norm": 1.6895307794310856, + "learning_rate": 7.2291465836884075e-06, + "loss": 0.5046, + "step": 3491 + }, + { + "avg_step_time": 5.995950118459836, + "epoch": 0.37237333333333333, + "eta_time": 9.800047360282688, + "step": 3491 + }, + { + "epoch": 0.37248, + "grad_norm": 1.6376162550926137, + "learning_rate": 7.227600153463947e-06, + "loss": 0.4148, + "step": 3492 + }, + { + "avg_step_time": 5.994736789452909, + "epoch": 0.37248, + "eta_time": 9.796399036764296, + "step": 3492 + }, + { + "epoch": 0.3725866666666667, + "grad_norm": 1.7526892380768815, + "learning_rate": 7.226053457336881e-06, + "loss": 0.5466, + "step": 3493 + }, + { + "avg_step_time": 5.992859469519721, + "epoch": 0.3725866666666667, + "eta_time": 9.791666499920833, + "step": 3493 + }, + { + "epoch": 0.3726933333333333, + "grad_norm": 1.7386767755069685, + "learning_rate": 7.224506495491831e-06, + "loss": 0.6203, + "step": 3494 + }, + { + "avg_step_time": 6.0485699875186185, + "epoch": 0.3726933333333333, + "eta_time": 9.88101113794361, + "step": 3494 + }, + { + "epoch": 0.3728, + "grad_norm": 1.751082752133639, + "learning_rate": 7.222959268113452e-06, + "loss": 0.516, + "step": 3495 + }, + { + "avg_step_time": 6.046334842238763, + "epoch": 0.3728, + "eta_time": 9.875680242323314, + "step": 3495 + }, + { + "epoch": 0.37290666666666666, + "grad_norm": 1.947364676966354, + "learning_rate": 7.221411775386435e-06, + "loss": 0.5303, + "step": 3496 + }, + { + "avg_step_time": 6.046805687624999, + "epoch": 0.37290666666666666, + "eta_time": 9.874769621540935, + "step": 3496 + }, + { + "epoch": 0.3730133333333333, + "grad_norm": 1.777152581898119, + "learning_rate": 7.219864017495499e-06, + "loss": 0.5119, + "step": 3497 + }, + { + "avg_step_time": 6.047140725935348, + "epoch": 0.3730133333333333, + "eta_time": 9.873636996402215, + "step": 3497 + }, + { + "epoch": 0.37312, + "grad_norm": 1.5419036696637012, + "learning_rate": 7.218315994625397e-06, + "loss": 0.4989, + "step": 3498 + }, + { + "avg_step_time": 6.045148671275437, + "epoch": 0.37312, + "eta_time": 9.868705205857152, + "step": 3498 + }, + { + "epoch": 0.37322666666666665, + "grad_norm": 1.6718820458006485, + "learning_rate": 7.216767706960911e-06, + "loss": 0.5176, + "step": 3499 + }, + { + "avg_step_time": 6.043957454989655, + "epoch": 0.37322666666666665, + "eta_time": 9.86508166819978, + "step": 3499 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 1.7423565164547616, + "learning_rate": 7.215219154686855e-06, + "loss": 0.5285, + "step": 3500 + }, + { + "avg_step_time": 6.04879690420748, + "epoch": 0.37333333333333335, + "eta_time": 9.871300503394151, + "step": 3500 + }, + { + "epoch": 0.37344, + "grad_norm": 1.7077685114932963, + "learning_rate": 7.213670337988079e-06, + "loss": 0.4993, + "step": 3501 + }, + { + "avg_step_time": 6.05152579028197, + "epoch": 0.37344, + "eta_time": 9.874072914476749, + "step": 3501 + }, + { + "epoch": 0.3735466666666667, + "grad_norm": 1.8322519997724973, + "learning_rate": 7.212121257049457e-06, + "loss": 0.5189, + "step": 3502 + }, + { + "avg_step_time": 6.059431950251262, + "epoch": 0.3735466666666667, + "eta_time": 9.885289956618239, + "step": 3502 + }, + { + "epoch": 0.37365333333333334, + "grad_norm": 1.885054074778096, + "learning_rate": 7.2105719120559014e-06, + "loss": 0.5543, + "step": 3503 + }, + { + "avg_step_time": 6.0592109362284345, + "epoch": 0.37365333333333334, + "eta_time": 9.883246282648159, + "step": 3503 + }, + { + "epoch": 0.37376, + "grad_norm": 1.5368682582483608, + "learning_rate": 7.209022303192351e-06, + "loss": 0.4479, + "step": 3504 + }, + { + "avg_step_time": 6.05956501912589, + "epoch": 0.37376, + "eta_time": 9.882140618691139, + "step": 3504 + }, + { + "epoch": 0.3738666666666667, + "grad_norm": 0.6553988373373076, + "learning_rate": 7.207472430643781e-06, + "loss": 0.4443, + "step": 3505 + }, + { + "avg_step_time": 6.028385822219078, + "epoch": 0.3738666666666667, + "eta_time": 9.829617993451663, + "step": 3505 + }, + { + "epoch": 0.3739733333333333, + "grad_norm": 0.6780964804696333, + "learning_rate": 7.205922294595194e-06, + "loss": 0.4982, + "step": 3506 + }, + { + "avg_step_time": 5.989690797497528, + "epoch": 0.3739733333333333, + "eta_time": 9.764859802920276, + "step": 3506 + }, + { + "epoch": 0.37408, + "grad_norm": 1.839797664492231, + "learning_rate": 7.204371895231623e-06, + "loss": 0.6264, + "step": 3507 + }, + { + "avg_step_time": 6.014405698487253, + "epoch": 0.37408, + "eta_time": 9.803481288534222, + "step": 3507 + }, + { + "epoch": 0.37418666666666667, + "grad_norm": 0.6469092273100279, + "learning_rate": 7.202821232738142e-06, + "loss": 0.458, + "step": 3508 + }, + { + "avg_step_time": 5.978490793343746, + "epoch": 0.37418666666666667, + "eta_time": 9.743279301263266, + "step": 3508 + }, + { + "epoch": 0.3742933333333333, + "grad_norm": 1.6088666527544757, + "learning_rate": 7.201270307299844e-06, + "loss": 0.4284, + "step": 3509 + }, + { + "avg_step_time": 5.976282476174711, + "epoch": 0.3742933333333333, + "eta_time": 9.73802027923357, + "step": 3509 + }, + { + "epoch": 0.3744, + "grad_norm": 1.7079421756805113, + "learning_rate": 7.199719119101858e-06, + "loss": 0.5041, + "step": 3510 + }, + { + "avg_step_time": 6.002773696726019, + "epoch": 0.3744, + "eta_time": 9.779518814249471, + "step": 3510 + }, + { + "epoch": 0.37450666666666665, + "grad_norm": 1.7176345196962783, + "learning_rate": 7.198167668329348e-06, + "loss": 0.5522, + "step": 3511 + }, + { + "avg_step_time": 6.002619712039678, + "epoch": 0.37450666666666665, + "eta_time": 9.777600553166852, + "step": 3511 + }, + { + "epoch": 0.37461333333333335, + "grad_norm": 1.6460999704980273, + "learning_rate": 7.196615955167505e-06, + "loss": 0.4887, + "step": 3512 + }, + { + "avg_step_time": 6.036045389946061, + "epoch": 0.37461333333333335, + "eta_time": 9.830370589237155, + "step": 3512 + }, + { + "epoch": 0.37472, + "grad_norm": 1.6008261548122158, + "learning_rate": 7.195063979801554e-06, + "loss": 0.5394, + "step": 3513 + }, + { + "avg_step_time": 6.006359006419326, + "epoch": 0.37472, + "eta_time": 9.78035458211947, + "step": 3513 + }, + { + "epoch": 0.37482666666666664, + "grad_norm": 1.4590489110230729, + "learning_rate": 7.19351174241675e-06, + "loss": 0.4827, + "step": 3514 + }, + { + "avg_step_time": 6.008602192907622, + "epoch": 0.37482666666666664, + "eta_time": 9.78233818128655, + "step": 3514 + }, + { + "epoch": 0.37493333333333334, + "grad_norm": 1.751301954954863, + "learning_rate": 7.191959243198379e-06, + "loss": 0.4737, + "step": 3515 + }, + { + "avg_step_time": 6.02872254631736, + "epoch": 0.37493333333333334, + "eta_time": 9.81342058928326, + "step": 3515 + }, + { + "epoch": 0.37504, + "grad_norm": 1.435029566645944, + "learning_rate": 7.190406482331757e-06, + "loss": 0.4705, + "step": 3516 + }, + { + "avg_step_time": 6.032704757921623, + "epoch": 0.37504, + "eta_time": 9.818226993517442, + "step": 3516 + }, + { + "epoch": 0.3751466666666667, + "grad_norm": 1.7627334089551356, + "learning_rate": 7.188853460002235e-06, + "loss": 0.4959, + "step": 3517 + }, + { + "avg_step_time": 6.031039389696988, + "epoch": 0.3751466666666667, + "eta_time": 9.813841318012487, + "step": 3517 + }, + { + "epoch": 0.3752533333333333, + "grad_norm": 1.8016438657930918, + "learning_rate": 7.187300176395192e-06, + "loss": 0.5532, + "step": 3518 + }, + { + "avg_step_time": 6.029788554316819, + "epoch": 0.3752533333333333, + "eta_time": 9.810130989620447, + "step": 3518 + }, + { + "epoch": 0.37536, + "grad_norm": 1.676297855218876, + "learning_rate": 7.18574663169604e-06, + "loss": 0.4086, + "step": 3519 + }, + { + "avg_step_time": 6.045536616835931, + "epoch": 0.37536, + "eta_time": 9.834072896719782, + "step": 3519 + }, + { + "epoch": 0.37546666666666667, + "grad_norm": 1.79655531543429, + "learning_rate": 7.1841928260902215e-06, + "loss": 0.4947, + "step": 3520 + }, + { + "avg_step_time": 6.048407145220824, + "epoch": 0.37546666666666667, + "eta_time": 9.837062176463313, + "step": 3520 + }, + { + "epoch": 0.3755733333333333, + "grad_norm": 1.742473995990507, + "learning_rate": 7.18263875976321e-06, + "loss": 0.6136, + "step": 3521 + }, + { + "avg_step_time": 6.050428823991255, + "epoch": 0.3755733333333333, + "eta_time": 9.838669537679113, + "step": 3521 + }, + { + "epoch": 0.37568, + "grad_norm": 1.9882222203115991, + "learning_rate": 7.1810844329005095e-06, + "loss": 0.5231, + "step": 3522 + }, + { + "avg_step_time": 6.074727332953251, + "epoch": 0.37568, + "eta_time": 9.876494188826493, + "step": 3522 + }, + { + "epoch": 0.37578666666666666, + "grad_norm": 1.958238693081184, + "learning_rate": 7.179529845687656e-06, + "loss": 0.5221, + "step": 3523 + }, + { + "avg_step_time": 6.078108373314444, + "epoch": 0.37578666666666666, + "eta_time": 9.880302833510033, + "step": 3523 + }, + { + "epoch": 0.37589333333333336, + "grad_norm": 0.6594532432563354, + "learning_rate": 7.1779749983102155e-06, + "loss": 0.4427, + "step": 3524 + }, + { + "avg_step_time": 6.0420117619061715, + "epoch": 0.37589333333333336, + "eta_time": 9.819947449698057, + "step": 3524 + }, + { + "epoch": 0.376, + "grad_norm": 1.8361039800491699, + "learning_rate": 7.176419890953788e-06, + "loss": 0.505, + "step": 3525 + }, + { + "avg_step_time": 6.019386414325599, + "epoch": 0.376, + "eta_time": 9.781502923279097, + "step": 3525 + }, + { + "epoch": 0.37610666666666664, + "grad_norm": 1.894403336288904, + "learning_rate": 7.174864523804002e-06, + "loss": 0.4524, + "step": 3526 + }, + { + "avg_step_time": 6.01648802468271, + "epoch": 0.37610666666666664, + "eta_time": 9.775121793435881, + "step": 3526 + }, + { + "epoch": 0.37621333333333334, + "grad_norm": 1.711305593419697, + "learning_rate": 7.173308897046516e-06, + "loss": 0.5677, + "step": 3527 + }, + { + "avg_step_time": 6.008450592407073, + "epoch": 0.37621333333333334, + "eta_time": 9.7603941845546, + "step": 3527 + }, + { + "epoch": 0.37632, + "grad_norm": 2.0287924137787225, + "learning_rate": 7.171753010867023e-06, + "loss": 0.5585, + "step": 3528 + }, + { + "avg_step_time": 6.006130736283581, + "epoch": 0.37632, + "eta_time": 9.754957337513916, + "step": 3528 + }, + { + "epoch": 0.3764266666666667, + "grad_norm": 1.8696764728339221, + "learning_rate": 7.170196865451242e-06, + "loss": 0.5388, + "step": 3529 + }, + { + "avg_step_time": 5.9997748293057835, + "epoch": 0.3764266666666667, + "eta_time": 9.742967681144892, + "step": 3529 + }, + { + "epoch": 0.37653333333333333, + "grad_norm": 1.7021991759458905, + "learning_rate": 7.168640460984929e-06, + "loss": 0.4795, + "step": 3530 + }, + { + "avg_step_time": 6.012423912684123, + "epoch": 0.37653333333333333, + "eta_time": 9.761838269344084, + "step": 3530 + }, + { + "epoch": 0.37664, + "grad_norm": 1.7863543693839259, + "learning_rate": 7.167083797653866e-06, + "loss": 0.4721, + "step": 3531 + }, + { + "avg_step_time": 6.000343609337855, + "epoch": 0.37664, + "eta_time": 9.740557792491783, + "step": 3531 + }, + { + "epoch": 0.3767466666666667, + "grad_norm": 0.6372850400304106, + "learning_rate": 7.1655268756438675e-06, + "loss": 0.4458, + "step": 3532 + }, + { + "avg_step_time": 5.969171813040068, + "epoch": 0.3767466666666667, + "eta_time": 9.68829747322031, + "step": 3532 + }, + { + "epoch": 0.3768533333333333, + "grad_norm": 2.1847498918448474, + "learning_rate": 7.163969695140782e-06, + "loss": 0.563, + "step": 3533 + }, + { + "avg_step_time": 5.9727395447817715, + "epoch": 0.3768533333333333, + "eta_time": 9.69242900572642, + "step": 3533 + }, + { + "epoch": 0.37696, + "grad_norm": 1.3922365792368905, + "learning_rate": 7.162412256330481e-06, + "loss": 0.4191, + "step": 3534 + }, + { + "avg_step_time": 5.970485870284263, + "epoch": 0.37696, + "eta_time": 9.687113324536218, + "step": 3534 + }, + { + "epoch": 0.37706666666666666, + "grad_norm": 1.713250504310847, + "learning_rate": 7.160854559398876e-06, + "loss": 0.4934, + "step": 3535 + }, + { + "avg_step_time": 5.966717794688061, + "epoch": 0.37706666666666666, + "eta_time": 9.679342200271742, + "step": 3535 + }, + { + "epoch": 0.37717333333333336, + "grad_norm": 1.9433588065398926, + "learning_rate": 7.159296604531902e-06, + "loss": 0.6393, + "step": 3536 + }, + { + "avg_step_time": 6.007047985539292, + "epoch": 0.37717333333333336, + "eta_time": 9.743098107656646, + "step": 3536 + }, + { + "epoch": 0.37728, + "grad_norm": 1.5508726442220757, + "learning_rate": 7.157738391915531e-06, + "loss": 0.4354, + "step": 3537 + }, + { + "avg_step_time": 5.988900724083487, + "epoch": 0.37728, + "eta_time": 9.712000674222054, + "step": 3537 + }, + { + "epoch": 0.37738666666666665, + "grad_norm": 1.9284178973031765, + "learning_rate": 7.15617992173576e-06, + "loss": 0.5249, + "step": 3538 + }, + { + "avg_step_time": 6.023450001321658, + "epoch": 0.37738666666666665, + "eta_time": 9.7663549049207, + "step": 3538 + }, + { + "epoch": 0.37749333333333335, + "grad_norm": 1.8535251965840422, + "learning_rate": 7.15462119417862e-06, + "loss": 0.4863, + "step": 3539 + }, + { + "avg_step_time": 6.038045594186494, + "epoch": 0.37749333333333335, + "eta_time": 9.788342802131217, + "step": 3539 + }, + { + "epoch": 0.3776, + "grad_norm": 1.4211871232086064, + "learning_rate": 7.153062209430174e-06, + "loss": 0.3722, + "step": 3540 + }, + { + "avg_step_time": 6.035248722692932, + "epoch": 0.3776, + "eta_time": 9.782132304698129, + "step": 3540 + }, + { + "epoch": 0.3777066666666667, + "grad_norm": 1.697523321729218, + "learning_rate": 7.151502967676511e-06, + "loss": 0.5343, + "step": 3541 + }, + { + "avg_step_time": 6.039025595693877, + "epoch": 0.3777066666666667, + "eta_time": 9.78657647924391, + "step": 3541 + }, + { + "epoch": 0.37781333333333333, + "grad_norm": 1.5869337483862191, + "learning_rate": 7.149943469103755e-06, + "loss": 0.5922, + "step": 3542 + }, + { + "avg_step_time": 6.058782628088286, + "epoch": 0.37781333333333333, + "eta_time": 9.816910852677491, + "step": 3542 + }, + { + "epoch": 0.37792, + "grad_norm": 1.754717307601881, + "learning_rate": 7.148383713898058e-06, + "loss": 0.4834, + "step": 3543 + }, + { + "avg_step_time": 6.073583439143017, + "epoch": 0.37792, + "eta_time": 9.839205171411688, + "step": 3543 + }, + { + "epoch": 0.3780266666666667, + "grad_norm": 1.598287524767121, + "learning_rate": 7.146823702245606e-06, + "loss": 0.4387, + "step": 3544 + }, + { + "avg_step_time": 6.069669945071442, + "epoch": 0.3780266666666667, + "eta_time": 9.83117929158655, + "step": 3544 + }, + { + "epoch": 0.3781333333333333, + "grad_norm": 0.6660466196661171, + "learning_rate": 7.145263434332611e-06, + "loss": 0.4515, + "step": 3545 + }, + { + "avg_step_time": 6.024988983616685, + "epoch": 0.3781333333333333, + "eta_time": 9.75713493735702, + "step": 3545 + }, + { + "epoch": 0.37824, + "grad_norm": 1.8714666944376233, + "learning_rate": 7.143702910345318e-06, + "loss": 0.5589, + "step": 3546 + }, + { + "avg_step_time": 6.024503310521443, + "epoch": 0.37824, + "eta_time": 9.754674943619305, + "step": 3546 + }, + { + "epoch": 0.37834666666666666, + "grad_norm": 2.0360657621522367, + "learning_rate": 7.142142130470007e-06, + "loss": 0.4376, + "step": 3547 + }, + { + "avg_step_time": 6.0162787124364066, + "epoch": 0.37834666666666666, + "eta_time": 9.739686760022048, + "step": 3547 + }, + { + "epoch": 0.3784533333333333, + "grad_norm": 1.71826015138184, + "learning_rate": 7.140581094892978e-06, + "loss": 0.5257, + "step": 3548 + }, + { + "avg_step_time": 6.018550005826083, + "epoch": 0.3784533333333333, + "eta_time": 9.74169191220794, + "step": 3548 + }, + { + "epoch": 0.37856, + "grad_norm": 1.7182107349362938, + "learning_rate": 7.139019803800569e-06, + "loss": 0.4591, + "step": 3549 + }, + { + "avg_step_time": 6.020283732751404, + "epoch": 0.37856, + "eta_time": 9.742825840836021, + "step": 3549 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 1.81736754219162, + "learning_rate": 7.137458257379151e-06, + "loss": 0.4825, + "step": 3550 + }, + { + "avg_step_time": 6.0476626699621026, + "epoch": 0.37866666666666665, + "eta_time": 9.785454181258125, + "step": 3550 + }, + { + "epoch": 0.37877333333333335, + "grad_norm": 1.6149608731476492, + "learning_rate": 7.135896455815117e-06, + "loss": 0.4512, + "step": 3551 + }, + { + "avg_step_time": 6.044600132739905, + "epoch": 0.37877333333333335, + "eta_time": 9.778819770299226, + "step": 3551 + }, + { + "epoch": 0.37888, + "grad_norm": 1.7078669955849608, + "learning_rate": 7.134334399294897e-06, + "loss": 0.4739, + "step": 3552 + }, + { + "avg_step_time": 6.041301963305233, + "epoch": 0.37888, + "eta_time": 9.771805925646214, + "step": 3552 + }, + { + "epoch": 0.3789866666666667, + "grad_norm": 0.6607986835741019, + "learning_rate": 7.132772088004951e-06, + "loss": 0.4556, + "step": 3553 + }, + { + "avg_step_time": 6.007888550710196, + "epoch": 0.3789866666666667, + "eta_time": 9.716090872842988, + "step": 3553 + }, + { + "epoch": 0.37909333333333334, + "grad_norm": 1.6830485344359563, + "learning_rate": 7.131209522131764e-06, + "loss": 0.4959, + "step": 3554 + }, + { + "avg_step_time": 6.0042656912948145, + "epoch": 0.37909333333333334, + "eta_time": 9.708564052507532, + "step": 3554 + }, + { + "epoch": 0.3792, + "grad_norm": 1.720274087074315, + "learning_rate": 7.129646701861858e-06, + "loss": 0.5342, + "step": 3555 + }, + { + "avg_step_time": 6.016156926299587, + "epoch": 0.3792, + "eta_time": 9.726120364184332, + "step": 3555 + }, + { + "epoch": 0.3793066666666667, + "grad_norm": 1.7866198543204816, + "learning_rate": 7.128083627381782e-06, + "loss": 0.5317, + "step": 3556 + }, + { + "avg_step_time": 6.016396281695125, + "epoch": 0.3793066666666667, + "eta_time": 9.724836100884426, + "step": 3556 + }, + { + "epoch": 0.3794133333333333, + "grad_norm": 1.7680245021282783, + "learning_rate": 7.1265202988781165e-06, + "loss": 0.5494, + "step": 3557 + }, + { + "avg_step_time": 6.015997903515594, + "epoch": 0.3794133333333333, + "eta_time": 9.722521056292702, + "step": 3557 + }, + { + "epoch": 0.37952, + "grad_norm": 1.494990653917719, + "learning_rate": 7.124956716537471e-06, + "loss": 0.4508, + "step": 3558 + }, + { + "avg_step_time": 6.015722086935332, + "epoch": 0.37952, + "eta_time": 9.720404272139675, + "step": 3558 + }, + { + "epoch": 0.37962666666666667, + "grad_norm": 1.6707023012215425, + "learning_rate": 7.123392880546487e-06, + "loss": 0.482, + "step": 3559 + }, + { + "avg_step_time": 6.049052854981086, + "epoch": 0.37962666666666667, + "eta_time": 9.772580945713887, + "step": 3559 + }, + { + "epoch": 0.3797333333333333, + "grad_norm": 1.8068750564989184, + "learning_rate": 7.121828791091834e-06, + "loss": 0.5802, + "step": 3560 + }, + { + "avg_step_time": 6.0415958635734786, + "epoch": 0.3797333333333333, + "eta_time": 9.758855540744383, + "step": 3560 + }, + { + "epoch": 0.37984, + "grad_norm": 1.8734956677891512, + "learning_rate": 7.120264448360214e-06, + "loss": 0.5193, + "step": 3561 + }, + { + "avg_step_time": 6.041597197754214, + "epoch": 0.37984, + "eta_time": 9.757179474373057, + "step": 3561 + }, + { + "epoch": 0.37994666666666665, + "grad_norm": 1.597899714535532, + "learning_rate": 7.11869985253836e-06, + "loss": 0.4799, + "step": 3562 + }, + { + "avg_step_time": 5.981246914526428, + "epoch": 0.37994666666666665, + "eta_time": 9.658052309483924, + "step": 3562 + }, + { + "epoch": 0.38005333333333335, + "grad_norm": 1.8043362543108716, + "learning_rate": 7.11713500381303e-06, + "loss": 0.5142, + "step": 3563 + }, + { + "avg_step_time": 5.991831509753911, + "epoch": 0.38005333333333335, + "eta_time": 9.67347909296937, + "step": 3563 + }, + { + "epoch": 0.38016, + "grad_norm": 0.6223725718928809, + "learning_rate": 7.115569902371018e-06, + "loss": 0.432, + "step": 3564 + }, + { + "avg_step_time": 5.958156128122349, + "epoch": 0.38016, + "eta_time": 9.617457016810825, + "step": 3564 + }, + { + "epoch": 0.38026666666666664, + "grad_norm": 1.8395858881141538, + "learning_rate": 7.114004548399146e-06, + "loss": 0.5191, + "step": 3565 + }, + { + "avg_step_time": 5.965505510869653, + "epoch": 0.38026666666666664, + "eta_time": 9.627663060597968, + "step": 3565 + }, + { + "epoch": 0.38037333333333334, + "grad_norm": 1.7425755215283778, + "learning_rate": 7.112438942084264e-06, + "loss": 0.4867, + "step": 3566 + }, + { + "avg_step_time": 5.963703206091216, + "epoch": 0.38037333333333334, + "eta_time": 9.623097756717744, + "step": 3566 + }, + { + "epoch": 0.38048, + "grad_norm": 1.6002485935907074, + "learning_rate": 7.110873083613259e-06, + "loss": 0.5129, + "step": 3567 + }, + { + "avg_step_time": 5.959873081457736, + "epoch": 0.38048, + "eta_time": 9.615261904751813, + "step": 3567 + }, + { + "epoch": 0.3805866666666667, + "grad_norm": 1.6767380478586889, + "learning_rate": 7.109306973173038e-06, + "loss": 0.4253, + "step": 3568 + }, + { + "avg_step_time": 5.959175145987309, + "epoch": 0.3805866666666667, + "eta_time": 9.612480575763417, + "step": 3568 + }, + { + "epoch": 0.38069333333333333, + "grad_norm": 1.8149348882601197, + "learning_rate": 7.107740610950546e-06, + "loss": 0.4454, + "step": 3569 + }, + { + "avg_step_time": 5.91950798034668, + "epoch": 0.38069333333333333, + "eta_time": 9.546850926081339, + "step": 3569 + }, + { + "epoch": 0.3808, + "grad_norm": 1.7864889155802042, + "learning_rate": 7.106173997132755e-06, + "loss": 0.4766, + "step": 3570 + }, + { + "avg_step_time": 5.921709091976435, + "epoch": 0.3808, + "eta_time": 9.548755910812003, + "step": 3570 + }, + { + "epoch": 0.38090666666666667, + "grad_norm": 0.6544492486899292, + "learning_rate": 7.104607131906667e-06, + "loss": 0.4587, + "step": 3571 + }, + { + "avg_step_time": 5.886208409010762, + "epoch": 0.38090666666666667, + "eta_time": 9.489876001638462, + "step": 3571 + }, + { + "epoch": 0.3810133333333333, + "grad_norm": 1.4451482308017665, + "learning_rate": 7.103040015459315e-06, + "loss": 0.4037, + "step": 3572 + }, + { + "avg_step_time": 5.881590060513429, + "epoch": 0.3810133333333333, + "eta_time": 9.480796422544286, + "step": 3572 + }, + { + "epoch": 0.38112, + "grad_norm": 0.6455890901979723, + "learning_rate": 7.101472647977761e-06, + "loss": 0.4604, + "step": 3573 + }, + { + "avg_step_time": 5.846725702285767, + "epoch": 0.38112, + "eta_time": 9.422972923517227, + "step": 3573 + }, + { + "epoch": 0.38122666666666666, + "grad_norm": 1.757292483101795, + "learning_rate": 7.099905029649098e-06, + "loss": 0.5356, + "step": 3574 + }, + { + "avg_step_time": 5.82152941010215, + "epoch": 0.38122666666666666, + "eta_time": 9.380747807778492, + "step": 3574 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 1.6686890228454383, + "learning_rate": 7.098337160660449e-06, + "loss": 0.4344, + "step": 3575 + }, + { + "avg_step_time": 5.825456311004331, + "epoch": 0.38133333333333336, + "eta_time": 9.385457389951421, + "step": 3575 + }, + { + "epoch": 0.38144, + "grad_norm": 1.6541735442069372, + "learning_rate": 7.096769041198964e-06, + "loss": 0.4962, + "step": 3576 + }, + { + "avg_step_time": 5.823867000714697, + "epoch": 0.38144, + "eta_time": 9.381279093651257, + "step": 3576 + }, + { + "epoch": 0.38154666666666665, + "grad_norm": 1.6619679004639654, + "learning_rate": 7.0952006714518275e-06, + "loss": 0.5143, + "step": 3577 + }, + { + "avg_step_time": 5.824502795633643, + "epoch": 0.38154666666666665, + "eta_time": 9.38068533585663, + "step": 3577 + }, + { + "epoch": 0.38165333333333334, + "grad_norm": 1.5894326342570675, + "learning_rate": 7.09363205160625e-06, + "loss": 0.557, + "step": 3578 + }, + { + "avg_step_time": 5.8242369757758246, + "epoch": 0.38165333333333334, + "eta_time": 9.378639374603459, + "step": 3578 + }, + { + "epoch": 0.38176, + "grad_norm": 1.881444718029898, + "learning_rate": 7.0920631818494745e-06, + "loss": 0.567, + "step": 3579 + }, + { + "avg_step_time": 5.856447711135402, + "epoch": 0.38176, + "eta_time": 9.428880814927998, + "step": 3579 + }, + { + "epoch": 0.3818666666666667, + "grad_norm": 1.7844714915186475, + "learning_rate": 7.090494062368771e-06, + "loss": 0.5762, + "step": 3580 + }, + { + "avg_step_time": 5.861102860383313, + "epoch": 0.3818666666666667, + "eta_time": 9.43474752108925, + "step": 3580 + }, + { + "epoch": 0.38197333333333333, + "grad_norm": 1.787094392950213, + "learning_rate": 7.088924693351445e-06, + "loss": 0.4922, + "step": 3581 + }, + { + "avg_step_time": 5.860424020073631, + "epoch": 0.38197333333333333, + "eta_time": 9.432026881196283, + "step": 3581 + }, + { + "epoch": 0.38208, + "grad_norm": 1.6235490064054618, + "learning_rate": 7.087355074984823e-06, + "loss": 0.4454, + "step": 3582 + }, + { + "avg_step_time": 5.863691298648565, + "epoch": 0.38208, + "eta_time": 9.435656581408649, + "step": 3582 + }, + { + "epoch": 0.3821866666666667, + "grad_norm": 2.0127345523379634, + "learning_rate": 7.085785207456268e-06, + "loss": 0.5729, + "step": 3583 + }, + { + "avg_step_time": 5.861936694443828, + "epoch": 0.3821866666666667, + "eta_time": 9.431204815060736, + "step": 3583 + }, + { + "epoch": 0.3822933333333333, + "grad_norm": 1.5314673503107732, + "learning_rate": 7.084215090953172e-06, + "loss": 0.552, + "step": 3584 + }, + { + "avg_step_time": 5.856100467720417, + "epoch": 0.3822933333333333, + "eta_time": 9.420188280158039, + "step": 3584 + }, + { + "epoch": 0.3824, + "grad_norm": 1.9745178751263401, + "learning_rate": 7.082644725662954e-06, + "loss": 0.5118, + "step": 3585 + }, + { + "avg_step_time": 5.8189193118702285, + "epoch": 0.3824, + "eta_time": 9.35876189325795, + "step": 3585 + }, + { + "epoch": 0.38250666666666666, + "grad_norm": 1.6629416141049476, + "learning_rate": 7.081074111773066e-06, + "loss": 0.4481, + "step": 3586 + }, + { + "avg_step_time": 5.824462871358852, + "epoch": 0.38250666666666666, + "eta_time": 9.366059878415665, + "step": 3586 + }, + { + "epoch": 0.38261333333333336, + "grad_norm": 1.748523851837129, + "learning_rate": 7.079503249470987e-06, + "loss": 0.4269, + "step": 3587 + }, + { + "avg_step_time": 5.820296535588274, + "epoch": 0.38261333333333336, + "eta_time": 9.357743429995814, + "step": 3587 + }, + { + "epoch": 0.38272, + "grad_norm": 1.7016804679600295, + "learning_rate": 7.077932138944225e-06, + "loss": 0.5329, + "step": 3588 + }, + { + "avg_step_time": 5.8237100755325475, + "epoch": 0.38272, + "eta_time": 9.361613946418569, + "step": 3588 + }, + { + "epoch": 0.38282666666666665, + "grad_norm": 1.4197912854950592, + "learning_rate": 7.076360780380321e-06, + "loss": 0.5378, + "step": 3589 + }, + { + "avg_step_time": 5.8283635486256, + "epoch": 0.38282666666666665, + "eta_time": 9.367475414541033, + "step": 3589 + }, + { + "epoch": 0.38293333333333335, + "grad_norm": 1.7965946813662381, + "learning_rate": 7.074789173966843e-06, + "loss": 0.491, + "step": 3590 + }, + { + "avg_step_time": 5.82717411205022, + "epoch": 0.38293333333333335, + "eta_time": 9.363945066169588, + "step": 3590 + }, + { + "epoch": 0.38304, + "grad_norm": 1.5744464850423567, + "learning_rate": 7.073217319891391e-06, + "loss": 0.4732, + "step": 3591 + }, + { + "avg_step_time": 5.828805239513667, + "epoch": 0.38304, + "eta_time": 9.364947084818624, + "step": 3591 + }, + { + "epoch": 0.3831466666666667, + "grad_norm": 0.6846250990454547, + "learning_rate": 7.071645218341593e-06, + "loss": 0.4696, + "step": 3592 + }, + { + "avg_step_time": 5.7914628332311455, + "epoch": 0.3831466666666667, + "eta_time": 9.303341545715476, + "step": 3592 + }, + { + "epoch": 0.38325333333333333, + "grad_norm": 0.6613905578696551, + "learning_rate": 7.070072869505103e-06, + "loss": 0.4748, + "step": 3593 + }, + { + "avg_step_time": 5.700340615378486, + "epoch": 0.38325333333333333, + "eta_time": 9.155380399477334, + "step": 3593 + }, + { + "epoch": 0.38336, + "grad_norm": 0.6703779543601933, + "learning_rate": 7.068500273569612e-06, + "loss": 0.4911, + "step": 3594 + }, + { + "avg_step_time": 5.690666740590876, + "epoch": 0.38336, + "eta_time": 9.138262340932181, + "step": 3594 + }, + { + "epoch": 0.3834666666666667, + "grad_norm": 1.6808572440175074, + "learning_rate": 7.066927430722833e-06, + "loss": 0.5103, + "step": 3595 + }, + { + "avg_step_time": 5.6877245782601715, + "epoch": 0.3834666666666667, + "eta_time": 9.131957795095497, + "step": 3595 + }, + { + "epoch": 0.3835733333333333, + "grad_norm": 1.5329168287941382, + "learning_rate": 7.065354341152515e-06, + "loss": 0.5109, + "step": 3596 + }, + { + "avg_step_time": 5.688845665767939, + "epoch": 0.3835733333333333, + "eta_time": 9.1321775284647, + "step": 3596 + }, + { + "epoch": 0.38368, + "grad_norm": 1.5764529977089374, + "learning_rate": 7.063781005046433e-06, + "loss": 0.5228, + "step": 3597 + }, + { + "avg_step_time": 5.699851527358547, + "epoch": 0.38368, + "eta_time": 9.148261701410467, + "step": 3597 + }, + { + "epoch": 0.38378666666666666, + "grad_norm": 1.8261563253707955, + "learning_rate": 7.062207422592391e-06, + "loss": 0.5915, + "step": 3598 + }, + { + "avg_step_time": 5.700133318852896, + "epoch": 0.38378666666666666, + "eta_time": 9.14713060639255, + "step": 3598 + }, + { + "epoch": 0.3838933333333333, + "grad_norm": 1.9506249471491586, + "learning_rate": 7.060633593978223e-06, + "loss": 0.5527, + "step": 3599 + }, + { + "avg_step_time": 5.697584287084714, + "epoch": 0.3838933333333333, + "eta_time": 9.14145745616703, + "step": 3599 + }, + { + "epoch": 0.384, + "grad_norm": 1.750593983170296, + "learning_rate": 7.059059519391794e-06, + "loss": 0.5661, + "step": 3600 + }, + { + "avg_step_time": 5.69451128593599, + "epoch": 0.384, + "eta_time": 9.134945187855651, + "step": 3600 + }, + { + "epoch": 0.38410666666666665, + "grad_norm": 0.6194005335289312, + "learning_rate": 7.057485199020996e-06, + "loss": 0.42, + "step": 3601 + }, + { + "avg_step_time": 5.647161438007547, + "epoch": 0.38410666666666665, + "eta_time": 9.057419484182105, + "step": 3601 + }, + { + "epoch": 0.38421333333333335, + "grad_norm": 1.573945294003783, + "learning_rate": 7.055910633053751e-06, + "loss": 0.431, + "step": 3602 + }, + { + "avg_step_time": 5.657272553203081, + "epoch": 0.38421333333333335, + "eta_time": 9.072065124900385, + "step": 3602 + }, + { + "epoch": 0.38432, + "grad_norm": 1.809306404059165, + "learning_rate": 7.054335821678012e-06, + "loss": 0.4876, + "step": 3603 + }, + { + "avg_step_time": 5.655231090507122, + "epoch": 0.38432, + "eta_time": 9.067220515113087, + "step": 3603 + }, + { + "epoch": 0.3844266666666667, + "grad_norm": 1.7396954421503386, + "learning_rate": 7.0527607650817585e-06, + "loss": 0.5244, + "step": 3604 + }, + { + "avg_step_time": 5.708729322510536, + "epoch": 0.3844266666666667, + "eta_time": 9.151410255613417, + "step": 3604 + }, + { + "epoch": 0.38453333333333334, + "grad_norm": 1.8089021616065688, + "learning_rate": 7.051185463453001e-06, + "loss": 0.5656, + "step": 3605 + }, + { + "avg_step_time": 5.743192272956925, + "epoch": 0.38453333333333334, + "eta_time": 9.205060948600405, + "step": 3605 + }, + { + "epoch": 0.38464, + "grad_norm": 1.8382053685271684, + "learning_rate": 7.049609916979782e-06, + "loss": 0.5849, + "step": 3606 + }, + { + "avg_step_time": 5.719900675494261, + "epoch": 0.38464, + "eta_time": 9.166140832479554, + "step": 3606 + }, + { + "epoch": 0.3847466666666667, + "grad_norm": 1.7613239176885045, + "learning_rate": 7.048034125850165e-06, + "loss": 0.4637, + "step": 3607 + }, + { + "avg_step_time": 5.754433147835009, + "epoch": 0.3847466666666667, + "eta_time": 9.219880665753426, + "step": 3607 + }, + { + "epoch": 0.3848533333333333, + "grad_norm": 1.6002961475171702, + "learning_rate": 7.046458090252252e-06, + "loss": 0.5223, + "step": 3608 + }, + { + "avg_step_time": 5.7594211125614665, + "epoch": 0.3848533333333333, + "eta_time": 9.226272654483884, + "step": 3608 + }, + { + "epoch": 0.38496, + "grad_norm": 0.6904245818762847, + "learning_rate": 7.044881810374169e-06, + "loss": 0.4477, + "step": 3609 + }, + { + "avg_step_time": 5.698666926586267, + "epoch": 0.38496, + "eta_time": 9.127364860749003, + "step": 3609 + }, + { + "epoch": 0.38506666666666667, + "grad_norm": 1.6328116717776189, + "learning_rate": 7.043305286404071e-06, + "loss": 0.5181, + "step": 3610 + }, + { + "avg_step_time": 5.712510267893474, + "epoch": 0.38506666666666667, + "eta_time": 9.147950470668299, + "step": 3610 + }, + { + "epoch": 0.3851733333333333, + "grad_norm": 1.6864878458888606, + "learning_rate": 7.0417285185301445e-06, + "loss": 0.4846, + "step": 3611 + }, + { + "avg_step_time": 5.712490599564831, + "epoch": 0.3851733333333333, + "eta_time": 9.146332171081024, + "step": 3611 + }, + { + "epoch": 0.38528, + "grad_norm": 1.7967580989726122, + "learning_rate": 7.040151506940605e-06, + "loss": 0.516, + "step": 3612 + }, + { + "avg_step_time": 5.712106909414734, + "epoch": 0.38528, + "eta_time": 9.144131144154754, + "step": 3612 + }, + { + "epoch": 0.38538666666666666, + "grad_norm": 1.8007117626461906, + "learning_rate": 7.038574251823694e-06, + "loss": 0.5645, + "step": 3613 + }, + { + "avg_step_time": 5.709746630504878, + "epoch": 0.38538666666666666, + "eta_time": 9.138766690269195, + "step": 3613 + }, + { + "epoch": 0.38549333333333335, + "grad_norm": 1.606961650895596, + "learning_rate": 7.036996753367686e-06, + "loss": 0.4568, + "step": 3614 + }, + { + "avg_step_time": 5.689624104836975, + "epoch": 0.38549333333333335, + "eta_time": 9.104979018879392, + "step": 3614 + }, + { + "epoch": 0.3856, + "grad_norm": 1.8675224134656911, + "learning_rate": 7.035419011760882e-06, + "loss": 0.4718, + "step": 3615 + }, + { + "avg_step_time": 5.681775724044954, + "epoch": 0.3856, + "eta_time": 9.090841158471926, + "step": 3615 + }, + { + "epoch": 0.38570666666666664, + "grad_norm": 0.6282373856719955, + "learning_rate": 7.0338410271916126e-06, + "loss": 0.451, + "step": 3616 + }, + { + "avg_step_time": 5.6718796142424, + "epoch": 0.38570666666666664, + "eta_time": 9.073431860672772, + "step": 3616 + }, + { + "epoch": 0.38581333333333334, + "grad_norm": 0.618526159581272, + "learning_rate": 7.032262799848237e-06, + "loss": 0.4343, + "step": 3617 + }, + { + "avg_step_time": 5.63856495751275, + "epoch": 0.38581333333333334, + "eta_time": 9.018571395932891, + "step": 3617 + }, + { + "epoch": 0.38592, + "grad_norm": 0.6578341878753767, + "learning_rate": 7.0306843299191465e-06, + "loss": 0.4633, + "step": 3618 + }, + { + "avg_step_time": 5.590931716591421, + "epoch": 0.38592, + "eta_time": 8.940831636782448, + "step": 3618 + }, + { + "epoch": 0.3860266666666667, + "grad_norm": 1.7511610187302895, + "learning_rate": 7.029105617592755e-06, + "loss": 0.4641, + "step": 3619 + }, + { + "avg_step_time": 5.586978799164897, + "epoch": 0.3860266666666667, + "eta_time": 8.932958324442541, + "step": 3619 + }, + { + "epoch": 0.38613333333333333, + "grad_norm": 1.529038996151285, + "learning_rate": 7.027526663057511e-06, + "loss": 0.5171, + "step": 3620 + }, + { + "avg_step_time": 5.586727515615598, + "epoch": 0.38613333333333333, + "eta_time": 8.931004681213269, + "step": 3620 + }, + { + "epoch": 0.38624, + "grad_norm": 1.596289727319462, + "learning_rate": 7.0259474665018915e-06, + "loss": 0.5049, + "step": 3621 + }, + { + "avg_step_time": 5.5628481513322, + "epoch": 0.38624, + "eta_time": 8.891285628545965, + "step": 3621 + }, + { + "epoch": 0.38634666666666667, + "grad_norm": 1.833443529269054, + "learning_rate": 7.024368028114397e-06, + "loss": 0.5439, + "step": 3622 + }, + { + "avg_step_time": 5.560453104250358, + "epoch": 0.38634666666666667, + "eta_time": 8.88591297465342, + "step": 3622 + }, + { + "epoch": 0.3864533333333333, + "grad_norm": 0.6500749370464265, + "learning_rate": 7.022788348083567e-06, + "loss": 0.4558, + "step": 3623 + }, + { + "avg_step_time": 5.565055317348904, + "epoch": 0.3864533333333333, + "eta_time": 8.891721718164137, + "step": 3623 + }, + { + "epoch": 0.38656, + "grad_norm": 1.9031657231457535, + "learning_rate": 7.0212084265979575e-06, + "loss": 0.5187, + "step": 3624 + }, + { + "avg_step_time": 5.566462692588266, + "epoch": 0.38656, + "eta_time": 8.892424151409756, + "step": 3624 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 2.128555181872286, + "learning_rate": 7.0196282638461624e-06, + "loss": 0.632, + "step": 3625 + }, + { + "avg_step_time": 5.568241143467451, + "epoch": 0.38666666666666666, + "eta_time": 8.893718493038289, + "step": 3625 + }, + { + "epoch": 0.38677333333333336, + "grad_norm": 0.6671827570188573, + "learning_rate": 7.0180478600168e-06, + "loss": 0.4481, + "step": 3626 + }, + { + "avg_step_time": 5.532120680568194, + "epoch": 0.38677333333333336, + "eta_time": 8.834489386829596, + "step": 3626 + }, + { + "epoch": 0.38688, + "grad_norm": 1.5393271944553182, + "learning_rate": 7.016467215298519e-06, + "loss": 0.434, + "step": 3627 + }, + { + "avg_step_time": 5.533224760883987, + "epoch": 0.38688, + "eta_time": 8.834715534878098, + "step": 3627 + }, + { + "epoch": 0.38698666666666665, + "grad_norm": 1.8912575591082124, + "learning_rate": 7.0148863298800005e-06, + "loss": 0.4849, + "step": 3628 + }, + { + "avg_step_time": 5.532744867633087, + "epoch": 0.38698666666666665, + "eta_time": 8.832412431746487, + "step": 3628 + }, + { + "epoch": 0.38709333333333334, + "grad_norm": 1.6090848629120087, + "learning_rate": 7.013305203949945e-06, + "loss": 0.5363, + "step": 3629 + }, + { + "avg_step_time": 5.532649709720804, + "epoch": 0.38709333333333334, + "eta_time": 8.830723675571038, + "step": 3629 + }, + { + "epoch": 0.3872, + "grad_norm": 0.627323326042394, + "learning_rate": 7.011723837697091e-06, + "loss": 0.4309, + "step": 3630 + }, + { + "avg_step_time": 5.497204609591551, + "epoch": 0.3872, + "eta_time": 8.77262235613985, + "step": 3630 + }, + { + "epoch": 0.3873066666666667, + "grad_norm": 1.4677885261835089, + "learning_rate": 7.010142231310201e-06, + "loss": 0.4759, + "step": 3631 + }, + { + "avg_step_time": 5.534767902258671, + "epoch": 0.3873066666666667, + "eta_time": 8.83102967515939, + "step": 3631 + }, + { + "epoch": 0.38741333333333333, + "grad_norm": 1.893362593576045, + "learning_rate": 7.008560384978065e-06, + "loss": 0.554, + "step": 3632 + }, + { + "avg_step_time": 5.536855473662868, + "epoch": 0.38741333333333333, + "eta_time": 8.832822495901626, + "step": 3632 + }, + { + "epoch": 0.38752, + "grad_norm": 1.6649165974617468, + "learning_rate": 7.0069782988895056e-06, + "loss": 0.4556, + "step": 3633 + }, + { + "avg_step_time": 5.555564637135977, + "epoch": 0.38752, + "eta_time": 8.861125596231883, + "step": 3633 + }, + { + "epoch": 0.3876266666666667, + "grad_norm": 1.9988279553737975, + "learning_rate": 7.005395973233372e-06, + "loss": 0.5579, + "step": 3634 + }, + { + "avg_step_time": 5.5572757070714776, + "epoch": 0.3876266666666667, + "eta_time": 8.862311065082597, + "step": 3634 + }, + { + "epoch": 0.3877333333333333, + "grad_norm": 1.97865219861167, + "learning_rate": 7.003813408198543e-06, + "loss": 0.5832, + "step": 3635 + }, + { + "avg_step_time": 5.510120312372844, + "epoch": 0.3877333333333333, + "eta_time": 8.785580720283367, + "step": 3635 + }, + { + "epoch": 0.38784, + "grad_norm": 1.5927473858631649, + "learning_rate": 7.002230603973924e-06, + "loss": 0.5671, + "step": 3636 + }, + { + "avg_step_time": 5.519463146575774, + "epoch": 0.38784, + "eta_time": 8.798944166166212, + "step": 3636 + }, + { + "epoch": 0.38794666666666666, + "grad_norm": 1.7667665181686776, + "learning_rate": 7.00064756074845e-06, + "loss": 0.5773, + "step": 3637 + }, + { + "avg_step_time": 5.493572829949735, + "epoch": 0.38794666666666666, + "eta_time": 8.756144693958772, + "step": 3637 + }, + { + "epoch": 0.3880533333333333, + "grad_norm": 0.6378288197959916, + "learning_rate": 6.999064278711085e-06, + "loss": 0.4911, + "step": 3638 + }, + { + "avg_step_time": 5.448680735597707, + "epoch": 0.3880533333333333, + "eta_time": 8.683078161145568, + "step": 3638 + }, + { + "epoch": 0.38816, + "grad_norm": 1.9312001027207364, + "learning_rate": 6.9974807580508205e-06, + "loss": 0.5323, + "step": 3639 + }, + { + "avg_step_time": 5.445973319236678, + "epoch": 0.38816, + "eta_time": 8.677250821983774, + "step": 3639 + }, + { + "epoch": 0.38826666666666665, + "grad_norm": 1.8623174491615777, + "learning_rate": 6.995896998956677e-06, + "loss": 0.5602, + "step": 3640 + }, + { + "avg_step_time": 5.446004183605464, + "epoch": 0.38826666666666665, + "eta_time": 8.67578722027148, + "step": 3640 + }, + { + "epoch": 0.38837333333333335, + "grad_norm": 1.5844913754414416, + "learning_rate": 6.994313001617705e-06, + "loss": 0.4441, + "step": 3641 + }, + { + "avg_step_time": 5.404136893725155, + "epoch": 0.38837333333333335, + "eta_time": 8.607589152394455, + "step": 3641 + }, + { + "epoch": 0.38848, + "grad_norm": 1.7104866245103536, + "learning_rate": 6.992728766222982e-06, + "loss": 0.5378, + "step": 3642 + }, + { + "avg_step_time": 5.385409256424567, + "epoch": 0.38848, + "eta_time": 8.576264240856123, + "step": 3642 + }, + { + "epoch": 0.3885866666666667, + "grad_norm": 1.6525284004388867, + "learning_rate": 6.991144292961611e-06, + "loss": 0.5122, + "step": 3643 + }, + { + "avg_step_time": 5.383622248967488, + "epoch": 0.3885866666666667, + "eta_time": 8.571922980856012, + "step": 3643 + }, + { + "epoch": 0.38869333333333334, + "grad_norm": 1.4975532487619432, + "learning_rate": 6.989559582022728e-06, + "loss": 0.456, + "step": 3644 + }, + { + "avg_step_time": 5.414518972839972, + "epoch": 0.38869333333333334, + "eta_time": 8.619613398151634, + "step": 3644 + }, + { + "epoch": 0.3888, + "grad_norm": 1.7092440110697238, + "learning_rate": 6.987974633595498e-06, + "loss": 0.4831, + "step": 3645 + }, + { + "avg_step_time": 5.418789916568333, + "epoch": 0.3888, + "eta_time": 8.624907283871263, + "step": 3645 + }, + { + "epoch": 0.3889066666666667, + "grad_norm": 2.079069896271033, + "learning_rate": 6.986389447869108e-06, + "loss": 0.5242, + "step": 3646 + }, + { + "avg_step_time": 5.419946244268706, + "epoch": 0.3889066666666667, + "eta_time": 8.625242231504282, + "step": 3646 + }, + { + "epoch": 0.3890133333333333, + "grad_norm": 1.5661779310017663, + "learning_rate": 6.984804025032781e-06, + "loss": 0.4623, + "step": 3647 + }, + { + "avg_step_time": 5.415247317516442, + "epoch": 0.3890133333333333, + "eta_time": 8.61626017631505, + "step": 3647 + }, + { + "epoch": 0.38912, + "grad_norm": 1.967768251409145, + "learning_rate": 6.9832183652757625e-06, + "loss": 0.5079, + "step": 3648 + }, + { + "avg_step_time": 5.416694318405305, + "epoch": 0.38912, + "eta_time": 8.617057878196439, + "step": 3648 + }, + { + "epoch": 0.38922666666666667, + "grad_norm": 1.5748818828039766, + "learning_rate": 6.981632468787327e-06, + "loss": 0.4591, + "step": 3649 + }, + { + "avg_step_time": 5.401216270947697, + "epoch": 0.38922666666666667, + "eta_time": 8.590934546512921, + "step": 3649 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 2.295540536811111, + "learning_rate": 6.980046335756782e-06, + "loss": 0.572, + "step": 3650 + }, + { + "avg_step_time": 5.4210619468881625, + "epoch": 0.3893333333333333, + "eta_time": 8.62099434609298, + "step": 3650 + }, + { + "epoch": 0.38944, + "grad_norm": 1.7948208312992413, + "learning_rate": 6.978459966373458e-06, + "loss": 0.5397, + "step": 3651 + }, + { + "avg_step_time": 5.422626420705005, + "epoch": 0.38944, + "eta_time": 8.621976008920958, + "step": 3651 + }, + { + "epoch": 0.38954666666666665, + "grad_norm": 1.928425768887621, + "learning_rate": 6.976873360826716e-06, + "loss": 0.5508, + "step": 3652 + }, + { + "avg_step_time": 5.462331571964302, + "epoch": 0.38954666666666665, + "eta_time": 8.683589885097694, + "step": 3652 + }, + { + "epoch": 0.38965333333333335, + "grad_norm": 1.8367953956343315, + "learning_rate": 6.975286519305944e-06, + "loss": 0.504, + "step": 3653 + }, + { + "avg_step_time": 5.475963662369082, + "epoch": 0.38965333333333335, + "eta_time": 8.703740021132191, + "step": 3653 + }, + { + "epoch": 0.38976, + "grad_norm": 0.670724897658818, + "learning_rate": 6.973699442000561e-06, + "loss": 0.4333, + "step": 3654 + }, + { + "avg_step_time": 5.414067032361271, + "epoch": 0.38976, + "eta_time": 8.603854858927454, + "step": 3654 + }, + { + "epoch": 0.38986666666666664, + "grad_norm": 1.553027428601378, + "learning_rate": 6.972112129100011e-06, + "loss": 0.5695, + "step": 3655 + }, + { + "avg_step_time": 5.416737908064717, + "epoch": 0.38986666666666664, + "eta_time": 8.606594676147273, + "step": 3655 + }, + { + "epoch": 0.38997333333333334, + "grad_norm": 1.8086630907251509, + "learning_rate": 6.970524580793766e-06, + "loss": 0.5889, + "step": 3656 + }, + { + "avg_step_time": 5.414996744406344, + "epoch": 0.38997333333333334, + "eta_time": 8.602323994794412, + "step": 3656 + }, + { + "epoch": 0.39008, + "grad_norm": 1.7180680138796496, + "learning_rate": 6.96893679727133e-06, + "loss": 0.5407, + "step": 3657 + }, + { + "avg_step_time": 5.414687021814212, + "epoch": 0.39008, + "eta_time": 8.600327886314906, + "step": 3657 + }, + { + "epoch": 0.3901866666666667, + "grad_norm": 1.4943698822813454, + "learning_rate": 6.967348778722229e-06, + "loss": 0.4648, + "step": 3658 + }, + { + "avg_step_time": 5.4199746738780625, + "epoch": 0.3901866666666667, + "eta_time": 8.607220891822468, + "step": 3658 + }, + { + "epoch": 0.3902933333333333, + "grad_norm": 0.6408543378149049, + "learning_rate": 6.965760525336025e-06, + "loss": 0.4506, + "step": 3659 + }, + { + "avg_step_time": 5.387991428375244, + "epoch": 0.3902933333333333, + "eta_time": 8.55493305683136, + "step": 3659 + }, + { + "epoch": 0.3904, + "grad_norm": 1.9883551288321157, + "learning_rate": 6.9641720373022996e-06, + "loss": 0.5388, + "step": 3660 + }, + { + "avg_step_time": 5.391427191821012, + "epoch": 0.3904, + "eta_time": 8.558890667015856, + "step": 3660 + }, + { + "epoch": 0.39050666666666667, + "grad_norm": 1.7555646561213505, + "learning_rate": 6.962583314810666e-06, + "loss": 0.5294, + "step": 3661 + }, + { + "avg_step_time": 5.390882814773406, + "epoch": 0.39050666666666667, + "eta_time": 8.556529001004233, + "step": 3661 + }, + { + "epoch": 0.3906133333333333, + "grad_norm": 1.6690039990687398, + "learning_rate": 6.96099435805077e-06, + "loss": 0.525, + "step": 3662 + }, + { + "avg_step_time": 5.383885467895354, + "epoch": 0.3906133333333333, + "eta_time": 8.543927132801711, + "step": 3662 + }, + { + "epoch": 0.39072, + "grad_norm": 1.799886859535346, + "learning_rate": 6.959405167212278e-06, + "loss": 0.477, + "step": 3663 + }, + { + "avg_step_time": 5.419320185979207, + "epoch": 0.39072, + "eta_time": 8.598654695087008, + "step": 3663 + }, + { + "epoch": 0.39082666666666666, + "grad_norm": 1.7892182044217197, + "learning_rate": 6.957815742484886e-06, + "loss": 0.5545, + "step": 3664 + }, + { + "avg_step_time": 5.412971171465787, + "epoch": 0.39082666666666666, + "eta_time": 8.587077322289197, + "step": 3664 + }, + { + "epoch": 0.39093333333333335, + "grad_norm": 1.5978997673305377, + "learning_rate": 6.956226084058324e-06, + "loss": 0.4793, + "step": 3665 + }, + { + "avg_step_time": 5.414175587471085, + "epoch": 0.39093333333333335, + "eta_time": 8.587484056794416, + "step": 3665 + }, + { + "epoch": 0.39104, + "grad_norm": 1.6128294669368022, + "learning_rate": 6.954636192122339e-06, + "loss": 0.4887, + "step": 3666 + }, + { + "avg_step_time": 5.419133061110371, + "epoch": 0.39104, + "eta_time": 8.593841846077531, + "step": 3666 + }, + { + "epoch": 0.39114666666666664, + "grad_norm": 1.8796261376883503, + "learning_rate": 6.953046066866717e-06, + "loss": 0.479, + "step": 3667 + }, + { + "avg_step_time": 5.420716887772685, + "epoch": 0.39114666666666664, + "eta_time": 8.594847776501803, + "step": 3667 + }, + { + "epoch": 0.39125333333333334, + "grad_norm": 1.9680370120095898, + "learning_rate": 6.951455708481268e-06, + "loss": 0.5324, + "step": 3668 + }, + { + "avg_step_time": 5.424473733612985, + "epoch": 0.39125333333333334, + "eta_time": 8.59929766603592, + "step": 3668 + }, + { + "epoch": 0.39136, + "grad_norm": 0.659572737022496, + "learning_rate": 6.949865117155823e-06, + "loss": 0.4594, + "step": 3669 + }, + { + "avg_step_time": 5.387643640691584, + "epoch": 0.39136, + "eta_time": 8.539415170496161, + "step": 3669 + }, + { + "epoch": 0.3914666666666667, + "grad_norm": 2.02859125296568, + "learning_rate": 6.948274293080252e-06, + "loss": 0.5166, + "step": 3670 + }, + { + "avg_step_time": 5.4225227351140495, + "epoch": 0.3914666666666667, + "eta_time": 8.593192278840458, + "step": 3670 + }, + { + "epoch": 0.39157333333333333, + "grad_norm": 1.9744428189391048, + "learning_rate": 6.946683236444444e-06, + "loss": 0.5143, + "step": 3671 + }, + { + "avg_step_time": 5.427251900085295, + "epoch": 0.39157333333333333, + "eta_time": 8.599179121690701, + "step": 3671 + }, + { + "epoch": 0.39168, + "grad_norm": 1.7880329692854677, + "learning_rate": 6.94509194743832e-06, + "loss": 0.5203, + "step": 3672 + }, + { + "avg_step_time": 5.46119908371357, + "epoch": 0.39168, + "eta_time": 8.65144954844958, + "step": 3672 + }, + { + "epoch": 0.39178666666666667, + "grad_norm": 1.5118527492415788, + "learning_rate": 6.94350042625183e-06, + "loss": 0.4021, + "step": 3673 + }, + { + "avg_step_time": 5.461791823608706, + "epoch": 0.39178666666666667, + "eta_time": 8.650871382838012, + "step": 3673 + }, + { + "epoch": 0.3918933333333333, + "grad_norm": 1.8456083854569985, + "learning_rate": 6.941908673074946e-06, + "loss": 0.4937, + "step": 3674 + }, + { + "avg_step_time": 5.458638116566822, + "epoch": 0.3918933333333333, + "eta_time": 8.644359972929847, + "step": 3674 + }, + { + "epoch": 0.392, + "grad_norm": 1.8755816398401315, + "learning_rate": 6.940316688097675e-06, + "loss": 0.5225, + "step": 3675 + }, + { + "avg_step_time": 5.4613073835469255, + "epoch": 0.392, + "eta_time": 8.647070023949299, + "step": 3675 + }, + { + "epoch": 0.39210666666666666, + "grad_norm": 1.8480535407248324, + "learning_rate": 6.938724471510043e-06, + "loss": 0.5129, + "step": 3676 + }, + { + "avg_step_time": 5.460337674979008, + "epoch": 0.39210666666666666, + "eta_time": 8.644017891584824, + "step": 3676 + }, + { + "epoch": 0.39221333333333336, + "grad_norm": 1.7383243807793494, + "learning_rate": 6.937132023502114e-06, + "loss": 0.5676, + "step": 3677 + }, + { + "avg_step_time": 5.463527164073906, + "epoch": 0.39221333333333336, + "eta_time": 8.64754938358142, + "step": 3677 + }, + { + "epoch": 0.39232, + "grad_norm": 1.6189011876951658, + "learning_rate": 6.935539344263971e-06, + "loss": 0.4499, + "step": 3678 + }, + { + "avg_step_time": 5.433605080903178, + "epoch": 0.39232, + "eta_time": 8.59868004052928, + "step": 3678 + }, + { + "epoch": 0.39242666666666665, + "grad_norm": 2.0919790805007117, + "learning_rate": 6.9339464339857295e-06, + "loss": 0.5182, + "step": 3679 + }, + { + "avg_step_time": 5.43075979358018, + "epoch": 0.39242666666666665, + "eta_time": 8.59266882895353, + "step": 3679 + }, + { + "epoch": 0.39253333333333335, + "grad_norm": 1.51077146544996, + "learning_rate": 6.93235329285753e-06, + "loss": 0.5133, + "step": 3680 + }, + { + "avg_step_time": 5.431674692365858, + "epoch": 0.39253333333333335, + "eta_time": 8.592607603617656, + "step": 3680 + }, + { + "epoch": 0.39264, + "grad_norm": 1.4701462027210443, + "learning_rate": 6.93075992106954e-06, + "loss": 0.4547, + "step": 3681 + }, + { + "avg_step_time": 5.42890557616648, + "epoch": 0.39264, + "eta_time": 8.586718986303316, + "step": 3681 + }, + { + "epoch": 0.3927466666666667, + "grad_norm": 1.7058692149072543, + "learning_rate": 6.929166318811959e-06, + "loss": 0.5049, + "step": 3682 + }, + { + "avg_step_time": 5.42752903880495, + "epoch": 0.3927466666666667, + "eta_time": 8.583034116087939, + "step": 3682 + }, + { + "epoch": 0.39285333333333333, + "grad_norm": 1.6736334091908736, + "learning_rate": 6.927572486275007e-06, + "loss": 0.4075, + "step": 3683 + }, + { + "avg_step_time": 5.4482235956673675, + "epoch": 0.39285333333333333, + "eta_time": 8.614246862927404, + "step": 3683 + }, + { + "epoch": 0.39296, + "grad_norm": 1.760566116625725, + "learning_rate": 6.925978423648941e-06, + "loss": 0.599, + "step": 3684 + }, + { + "avg_step_time": 5.445947321978482, + "epoch": 0.39296, + "eta_time": 8.609135058160984, + "step": 3684 + }, + { + "epoch": 0.3930666666666667, + "grad_norm": 1.70830652488305, + "learning_rate": 6.9243841311240356e-06, + "loss": 0.5743, + "step": 3685 + }, + { + "avg_step_time": 5.448743726267959, + "epoch": 0.3930666666666667, + "eta_time": 8.612042167351301, + "step": 3685 + }, + { + "epoch": 0.3931733333333333, + "grad_norm": 1.7145081993836147, + "learning_rate": 6.922789608890598e-06, + "loss": 0.438, + "step": 3686 + }, + { + "avg_step_time": 5.462788791367502, + "epoch": 0.3931733333333333, + "eta_time": 8.632723731691588, + "step": 3686 + }, + { + "epoch": 0.39328, + "grad_norm": 1.5359968144676819, + "learning_rate": 6.921194857138963e-06, + "loss": 0.4789, + "step": 3687 + }, + { + "avg_step_time": 5.531673255592886, + "epoch": 0.39328, + "eta_time": 8.74004374383676, + "step": 3687 + }, + { + "epoch": 0.39338666666666666, + "grad_norm": 1.4062306705055394, + "learning_rate": 6.91959987605949e-06, + "loss": 0.4606, + "step": 3688 + }, + { + "avg_step_time": 5.530650165345934, + "epoch": 0.39338666666666666, + "eta_time": 8.73689096953398, + "step": 3688 + }, + { + "epoch": 0.3934933333333333, + "grad_norm": 1.9030839765489453, + "learning_rate": 6.918004665842571e-06, + "loss": 0.4303, + "step": 3689 + }, + { + "avg_step_time": 5.529829981351139, + "epoch": 0.3934933333333333, + "eta_time": 8.734059242767383, + "step": 3689 + }, + { + "epoch": 0.3936, + "grad_norm": 1.8105037075626782, + "learning_rate": 6.91640922667862e-06, + "loss": 0.4499, + "step": 3690 + }, + { + "avg_step_time": 5.525944008971706, + "epoch": 0.3936, + "eta_time": 8.726386580834486, + "step": 3690 + }, + { + "epoch": 0.39370666666666665, + "grad_norm": 1.6819387895711797, + "learning_rate": 6.914813558758078e-06, + "loss": 0.4791, + "step": 3691 + }, + { + "avg_step_time": 5.5611874479236025, + "epoch": 0.39370666666666665, + "eta_time": 8.780497070554933, + "step": 3691 + }, + { + "epoch": 0.39381333333333335, + "grad_norm": 1.8214529932731953, + "learning_rate": 6.913217662271419e-06, + "loss": 0.4867, + "step": 3692 + }, + { + "avg_step_time": 5.600743866930104, + "epoch": 0.39381333333333335, + "eta_time": 8.841396498823274, + "step": 3692 + }, + { + "epoch": 0.39392, + "grad_norm": 1.7135156574615584, + "learning_rate": 6.911621537409139e-06, + "loss": 0.4917, + "step": 3693 + }, + { + "avg_step_time": 5.610875666743577, + "epoch": 0.39392, + "eta_time": 8.855832094010278, + "step": 3693 + }, + { + "epoch": 0.3940266666666667, + "grad_norm": 1.9618499150170026, + "learning_rate": 6.910025184361764e-06, + "loss": 0.5587, + "step": 3694 + }, + { + "avg_step_time": 5.615026071818188, + "epoch": 0.3940266666666667, + "eta_time": 8.860823087221979, + "step": 3694 + }, + { + "epoch": 0.39413333333333334, + "grad_norm": 1.7773988194759067, + "learning_rate": 6.908428603319844e-06, + "loss": 0.445, + "step": 3695 + }, + { + "avg_step_time": 5.615124846949722, + "epoch": 0.39413333333333334, + "eta_time": 8.859419202965116, + "step": 3695 + }, + { + "epoch": 0.39424, + "grad_norm": 0.666925148125922, + "learning_rate": 6.906831794473963e-06, + "loss": 0.4628, + "step": 3696 + }, + { + "avg_step_time": 5.567588331723454, + "epoch": 0.39424, + "eta_time": 8.78287059329375, + "step": 3696 + }, + { + "epoch": 0.3943466666666667, + "grad_norm": 1.5367129694506803, + "learning_rate": 6.905234758014724e-06, + "loss": 0.5169, + "step": 3697 + }, + { + "avg_step_time": 5.568885834530146, + "epoch": 0.3943466666666667, + "eta_time": 8.783370491239491, + "step": 3697 + }, + { + "epoch": 0.3944533333333333, + "grad_norm": 1.7970216749397865, + "learning_rate": 6.903637494132762e-06, + "loss": 0.4741, + "step": 3698 + }, + { + "avg_step_time": 5.568904973039723, + "epoch": 0.3944533333333333, + "eta_time": 8.78185375887403, + "step": 3698 + }, + { + "epoch": 0.39456, + "grad_norm": 1.780431880434978, + "learning_rate": 6.9020400030187394e-06, + "loss": 0.4793, + "step": 3699 + }, + { + "avg_step_time": 5.569394102000227, + "epoch": 0.39456, + "eta_time": 8.781078034153692, + "step": 3699 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 1.5489854869412722, + "learning_rate": 6.900442284863342e-06, + "loss": 0.4815, + "step": 3700 + }, + { + "avg_step_time": 5.607655404794095, + "epoch": 0.39466666666666667, + "eta_time": 8.839845672835137, + "step": 3700 + }, + { + "epoch": 0.3947733333333333, + "grad_norm": 2.19331937753494, + "learning_rate": 6.898844339857288e-06, + "loss": 0.5709, + "step": 3701 + }, + { + "avg_step_time": 5.599494628231935, + "epoch": 0.3947733333333333, + "eta_time": 8.825425700163333, + "step": 3701 + }, + { + "epoch": 0.39488, + "grad_norm": 0.6475210802179028, + "learning_rate": 6.897246168191317e-06, + "loss": 0.4602, + "step": 3702 + }, + { + "avg_step_time": 5.564200466329401, + "epoch": 0.39488, + "eta_time": 8.768252568190748, + "step": 3702 + }, + { + "epoch": 0.39498666666666665, + "grad_norm": 1.691832938417978, + "learning_rate": 6.895647770056199e-06, + "loss": 0.5162, + "step": 3703 + }, + { + "avg_step_time": 5.546762454389322, + "epoch": 0.39498666666666665, + "eta_time": 8.739232400360065, + "step": 3703 + }, + { + "epoch": 0.39509333333333335, + "grad_norm": 1.4193213536721945, + "learning_rate": 6.894049145642731e-06, + "loss": 0.454, + "step": 3704 + }, + { + "avg_step_time": 5.555270956020163, + "epoch": 0.39509333333333335, + "eta_time": 8.751094886552874, + "step": 3704 + }, + { + "epoch": 0.3952, + "grad_norm": 2.6193937618206533, + "learning_rate": 6.892450295141737e-06, + "loss": 0.5063, + "step": 3705 + }, + { + "avg_step_time": 5.555339945687188, + "epoch": 0.3952, + "eta_time": 8.74966041445732, + "step": 3705 + }, + { + "epoch": 0.39530666666666664, + "grad_norm": 1.967844089767473, + "learning_rate": 6.890851218744068e-06, + "loss": 0.5291, + "step": 3706 + }, + { + "avg_step_time": 5.558030617357504, + "epoch": 0.39530666666666664, + "eta_time": 8.752354324944358, + "step": 3706 + }, + { + "epoch": 0.39541333333333334, + "grad_norm": 1.571189139288144, + "learning_rate": 6.8892519166406e-06, + "loss": 0.444, + "step": 3707 + }, + { + "avg_step_time": 5.553440361311941, + "epoch": 0.39541333333333334, + "eta_time": 8.743583324421135, + "step": 3707 + }, + { + "epoch": 0.39552, + "grad_norm": 1.6787402875481783, + "learning_rate": 6.887652389022236e-06, + "loss": 0.4979, + "step": 3708 + }, + { + "avg_step_time": 5.58578074821318, + "epoch": 0.39552, + "eta_time": 8.792949861145582, + "step": 3708 + }, + { + "epoch": 0.3956266666666667, + "grad_norm": 1.8407943152228727, + "learning_rate": 6.8860526360799105e-06, + "loss": 0.4178, + "step": 3709 + }, + { + "avg_step_time": 5.5703767116623695, + "epoch": 0.3956266666666667, + "eta_time": 8.76715401341083, + "step": 3709 + }, + { + "epoch": 0.3957333333333333, + "grad_norm": 2.24401605209492, + "learning_rate": 6.88445265800458e-06, + "loss": 0.5069, + "step": 3710 + }, + { + "avg_step_time": 5.573987496019614, + "epoch": 0.3957333333333333, + "eta_time": 8.771288656930864, + "step": 3710 + }, + { + "epoch": 0.39584, + "grad_norm": 2.033306711352334, + "learning_rate": 6.88285245498723e-06, + "loss": 0.4571, + "step": 3711 + }, + { + "avg_step_time": 5.574938138326009, + "epoch": 0.39584, + "eta_time": 8.771236004299588, + "step": 3711 + }, + { + "epoch": 0.39594666666666667, + "grad_norm": 0.6348265842471683, + "learning_rate": 6.881252027218872e-06, + "loss": 0.4504, + "step": 3712 + }, + { + "avg_step_time": 5.543958736188484, + "epoch": 0.39594666666666667, + "eta_time": 8.720955089732051, + "step": 3712 + }, + { + "epoch": 0.3960533333333333, + "grad_norm": 1.4865835268834022, + "learning_rate": 6.8796513748905446e-06, + "loss": 0.5104, + "step": 3713 + }, + { + "avg_step_time": 5.542133526368574, + "epoch": 0.3960533333333333, + "eta_time": 8.716544451749686, + "step": 3713 + }, + { + "epoch": 0.39616, + "grad_norm": 1.666360994683715, + "learning_rate": 6.878050498193314e-06, + "loss": 0.4247, + "step": 3714 + }, + { + "avg_step_time": 5.545136475803877, + "epoch": 0.39616, + "eta_time": 8.719727108201596, + "step": 3714 + }, + { + "epoch": 0.39626666666666666, + "grad_norm": 1.6547594342032137, + "learning_rate": 6.876449397318272e-06, + "loss": 0.4641, + "step": 3715 + }, + { + "avg_step_time": 5.5578124739907, + "epoch": 0.39626666666666666, + "eta_time": 8.738116278552045, + "step": 3715 + }, + { + "epoch": 0.39637333333333336, + "grad_norm": 1.6466325057939066, + "learning_rate": 6.874848072456538e-06, + "loss": 0.5007, + "step": 3716 + }, + { + "avg_step_time": 5.6095282405313815, + "epoch": 0.39637333333333336, + "eta_time": 8.817866753657524, + "step": 3716 + }, + { + "epoch": 0.39648, + "grad_norm": 2.0025623004493043, + "learning_rate": 6.873246523799256e-06, + "loss": 0.6361, + "step": 3717 + }, + { + "avg_step_time": 5.643535115502098, + "epoch": 0.39648, + "eta_time": 8.869756023197464, + "step": 3717 + }, + { + "epoch": 0.39658666666666664, + "grad_norm": 2.0343674049080116, + "learning_rate": 6.871644751537604e-06, + "loss": 0.4877, + "step": 3718 + }, + { + "avg_step_time": 5.677409196140791, + "epoch": 0.39658666666666664, + "eta_time": 8.921417728491237, + "step": 3718 + }, + { + "epoch": 0.39669333333333334, + "grad_norm": 1.5387748702374457, + "learning_rate": 6.870042755862775e-06, + "loss": 0.5093, + "step": 3719 + }, + { + "avg_step_time": 5.6769131241422714, + "epoch": 0.39669333333333334, + "eta_time": 8.919061286152413, + "step": 3719 + }, + { + "epoch": 0.3968, + "grad_norm": 1.650300098046599, + "learning_rate": 6.868440536965997e-06, + "loss": 0.4889, + "step": 3720 + }, + { + "avg_step_time": 5.67566365184206, + "epoch": 0.3968, + "eta_time": 8.915521653101901, + "step": 3720 + }, + { + "epoch": 0.3969066666666667, + "grad_norm": 1.6724099831052386, + "learning_rate": 6.866838095038524e-06, + "loss": 0.4702, + "step": 3721 + }, + { + "avg_step_time": 5.674020608266194, + "epoch": 0.3969066666666667, + "eta_time": 8.911364588649183, + "step": 3721 + }, + { + "epoch": 0.39701333333333333, + "grad_norm": 1.9621028341304054, + "learning_rate": 6.865235430271633e-06, + "loss": 0.5165, + "step": 3722 + }, + { + "avg_step_time": 5.708043069550485, + "epoch": 0.39701333333333333, + "eta_time": 8.963213186713581, + "step": 3722 + }, + { + "epoch": 0.39712, + "grad_norm": 1.7478886858058496, + "learning_rate": 6.863632542856632e-06, + "loss": 0.4447, + "step": 3723 + }, + { + "avg_step_time": 5.7089167002475625, + "epoch": 0.39712, + "eta_time": 8.962999219388674, + "step": 3723 + }, + { + "epoch": 0.3972266666666667, + "grad_norm": 1.8055628427088937, + "learning_rate": 6.862029432984852e-06, + "loss": 0.3946, + "step": 3724 + }, + { + "avg_step_time": 5.706034325590037, + "epoch": 0.3972266666666667, + "eta_time": 8.956888881641474, + "step": 3724 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 1.8001141513266647, + "learning_rate": 6.86042610084765e-06, + "loss": 0.4826, + "step": 3725 + }, + { + "avg_step_time": 5.738515157892246, + "epoch": 0.3973333333333333, + "eta_time": 9.00628073391422, + "step": 3725 + }, + { + "epoch": 0.39744, + "grad_norm": 1.6418042745728543, + "learning_rate": 6.858822546636417e-06, + "loss": 0.5269, + "step": 3726 + }, + { + "avg_step_time": 5.736145660130664, + "epoch": 0.39744, + "eta_time": 9.0009685650217, + "step": 3726 + }, + { + "epoch": 0.39754666666666666, + "grad_norm": 1.8390246972260602, + "learning_rate": 6.857218770542557e-06, + "loss": 0.5085, + "step": 3727 + }, + { + "avg_step_time": 5.739837290060641, + "epoch": 0.39754666666666666, + "eta_time": 9.005166948406249, + "step": 3727 + }, + { + "epoch": 0.39765333333333336, + "grad_norm": 1.534205864648483, + "learning_rate": 6.855614772757516e-06, + "loss": 0.5308, + "step": 3728 + }, + { + "avg_step_time": 5.74227978725626, + "epoch": 0.39765333333333336, + "eta_time": 9.007403877398916, + "step": 3728 + }, + { + "epoch": 0.39776, + "grad_norm": 1.4169806696180827, + "learning_rate": 6.854010553472757e-06, + "loss": 0.4159, + "step": 3729 + }, + { + "avg_step_time": 5.7751068779916475, + "epoch": 0.39776, + "eta_time": 9.0572926203169, + "step": 3729 + }, + { + "epoch": 0.39786666666666665, + "grad_norm": 0.6318534979829348, + "learning_rate": 6.852406112879766e-06, + "loss": 0.4317, + "step": 3730 + }, + { + "avg_step_time": 5.7396483324994945, + "epoch": 0.39786666666666665, + "eta_time": 9.000087454711013, + "step": 3730 + }, + { + "epoch": 0.39797333333333335, + "grad_norm": 1.4856940562689596, + "learning_rate": 6.850801451170066e-06, + "loss": 0.4388, + "step": 3731 + }, + { + "avg_step_time": 5.735434992144806, + "epoch": 0.39797333333333335, + "eta_time": 8.99188752657369, + "step": 3731 + }, + { + "epoch": 0.39808, + "grad_norm": 1.768787392049657, + "learning_rate": 6.849196568535201e-06, + "loss": 0.4391, + "step": 3732 + }, + { + "avg_step_time": 5.728543240614612, + "epoch": 0.39808, + "eta_time": 8.979491529663404, + "step": 3732 + }, + { + "epoch": 0.3981866666666667, + "grad_norm": 1.8059002458447557, + "learning_rate": 6.847591465166741e-06, + "loss": 0.5369, + "step": 3733 + }, + { + "avg_step_time": 5.72635580554153, + "epoch": 0.3981866666666667, + "eta_time": 8.97447207079592, + "step": 3733 + }, + { + "epoch": 0.39829333333333333, + "grad_norm": 1.6687381506243009, + "learning_rate": 6.84598614125628e-06, + "loss": 0.5153, + "step": 3734 + }, + { + "avg_step_time": 5.723186146129262, + "epoch": 0.39829333333333333, + "eta_time": 8.967914736198658, + "step": 3734 + }, + { + "epoch": 0.3984, + "grad_norm": 1.635918857941786, + "learning_rate": 6.8443805969954445e-06, + "loss": 0.5117, + "step": 3735 + }, + { + "avg_step_time": 5.713116294205791, + "epoch": 0.3984, + "eta_time": 8.950548860922405, + "step": 3735 + }, + { + "epoch": 0.3985066666666667, + "grad_norm": 2.0181079522907788, + "learning_rate": 6.8427748325758834e-06, + "loss": 0.5444, + "step": 3736 + }, + { + "avg_step_time": 5.7292025402338815, + "epoch": 0.3985066666666667, + "eta_time": 8.97415920121635, + "step": 3736 + }, + { + "epoch": 0.3986133333333333, + "grad_norm": 1.4680504993596115, + "learning_rate": 6.8411688481892715e-06, + "loss": 0.4315, + "step": 3737 + }, + { + "avg_step_time": 5.763322599006422, + "epoch": 0.3986133333333333, + "eta_time": 9.026003559221724, + "step": 3737 + }, + { + "epoch": 0.39872, + "grad_norm": 1.8508751640656838, + "learning_rate": 6.839562644027311e-06, + "loss": 0.5908, + "step": 3738 + }, + { + "avg_step_time": 5.766246610217625, + "epoch": 0.39872, + "eta_time": 9.028981150499098, + "step": 3738 + }, + { + "epoch": 0.39882666666666666, + "grad_norm": 1.7726257936099907, + "learning_rate": 6.8379562202817295e-06, + "loss": 0.5317, + "step": 3739 + }, + { + "avg_step_time": 5.7618152372764815, + "epoch": 0.39882666666666666, + "eta_time": 9.020441854802847, + "step": 3739 + }, + { + "epoch": 0.3989333333333333, + "grad_norm": 1.778175937474789, + "learning_rate": 6.836349577144284e-06, + "loss": 0.5453, + "step": 3740 + }, + { + "avg_step_time": 5.757995990791706, + "epoch": 0.3989333333333333, + "eta_time": 9.012863168919795, + "step": 3740 + }, + { + "epoch": 0.39904, + "grad_norm": 1.6662360893007184, + "learning_rate": 6.834742714806754e-06, + "loss": 0.4811, + "step": 3741 + }, + { + "avg_step_time": 5.783930036756727, + "epoch": 0.39904, + "eta_time": 9.051850507524279, + "step": 3741 + }, + { + "epoch": 0.39914666666666665, + "grad_norm": 1.8042424021735883, + "learning_rate": 6.833135633460943e-06, + "loss": 0.4776, + "step": 3742 + }, + { + "avg_step_time": 5.786353877096465, + "epoch": 0.39914666666666665, + "eta_time": 9.054036497134552, + "step": 3742 + }, + { + "epoch": 0.39925333333333335, + "grad_norm": 1.6150222106010872, + "learning_rate": 6.83152833329869e-06, + "loss": 0.4002, + "step": 3743 + }, + { + "avg_step_time": 5.788680004351066, + "epoch": 0.39925333333333335, + "eta_time": 9.056068273473668, + "step": 3743 + }, + { + "epoch": 0.39936, + "grad_norm": 1.5365731327617855, + "learning_rate": 6.8299208145118475e-06, + "loss": 0.4558, + "step": 3744 + }, + { + "avg_step_time": 5.784723351700137, + "epoch": 0.39936, + "eta_time": 9.048271442617631, + "step": 3744 + }, + { + "epoch": 0.3994666666666667, + "grad_norm": 0.6236603273827835, + "learning_rate": 6.828313077292307e-06, + "loss": 0.4337, + "step": 3745 + }, + { + "avg_step_time": 5.755149576399061, + "epoch": 0.3994666666666667, + "eta_time": 9.000414476424087, + "step": 3745 + }, + { + "epoch": 0.39957333333333334, + "grad_norm": 1.9279868837252196, + "learning_rate": 6.8267051218319766e-06, + "loss": 0.5687, + "step": 3746 + }, + { + "avg_step_time": 5.760589640549939, + "epoch": 0.39957333333333334, + "eta_time": 9.007321968515445, + "step": 3746 + }, + { + "epoch": 0.39968, + "grad_norm": 2.113573540012207, + "learning_rate": 6.825096948322791e-06, + "loss": 0.4695, + "step": 3747 + }, + { + "avg_step_time": 5.761415594756001, + "epoch": 0.39968, + "eta_time": 9.007013046468549, + "step": 3747 + }, + { + "epoch": 0.3997866666666667, + "grad_norm": 2.4493338735811894, + "learning_rate": 6.823488556956719e-06, + "loss": 0.4857, + "step": 3748 + }, + { + "avg_step_time": 5.745004165052164, + "epoch": 0.3997866666666667, + "eta_time": 8.97976067687459, + "step": 3748 + }, + { + "epoch": 0.3998933333333333, + "grad_norm": 0.6595112143709672, + "learning_rate": 6.821879947925747e-06, + "loss": 0.4582, + "step": 3749 + }, + { + "avg_step_time": 5.688492529319994, + "epoch": 0.3998933333333333, + "eta_time": 8.889849713876192, + "step": 3749 + }, + { + "epoch": 0.4, + "grad_norm": 1.9592487425150324, + "learning_rate": 6.820271121421889e-06, + "loss": 0.5667, + "step": 3750 + }, + { + "avg_step_time": 5.689362053919321, + "epoch": 0.4, + "eta_time": 8.889628209248938, + "step": 3750 + }, + { + "epoch": 0.40010666666666667, + "grad_norm": 2.019067467148987, + "learning_rate": 6.818662077637189e-06, + "loss": 0.4857, + "step": 3751 + }, + { + "avg_step_time": 5.706834976119224, + "epoch": 0.40010666666666667, + "eta_time": 8.915344418248477, + "step": 3751 + }, + { + "epoch": 0.4002133333333333, + "grad_norm": 1.957781314473532, + "learning_rate": 6.817052816763713e-06, + "loss": 0.5342, + "step": 3752 + }, + { + "avg_step_time": 5.694539241116456, + "epoch": 0.4002133333333333, + "eta_time": 8.894553931332732, + "step": 3752 + }, + { + "epoch": 0.40032, + "grad_norm": 0.6243174273037192, + "learning_rate": 6.815443338993554e-06, + "loss": 0.4554, + "step": 3753 + }, + { + "avg_step_time": 5.691862522953689, + "epoch": 0.40032, + "eta_time": 8.888791973346011, + "step": 3753 + }, + { + "epoch": 0.40042666666666665, + "grad_norm": 1.5207410120005456, + "learning_rate": 6.81383364451883e-06, + "loss": 0.4939, + "step": 3754 + }, + { + "avg_step_time": 5.690111292733087, + "epoch": 0.40042666666666665, + "eta_time": 8.884476549014634, + "step": 3754 + }, + { + "epoch": 0.40053333333333335, + "grad_norm": 1.5935131991530986, + "learning_rate": 6.812223733531689e-06, + "loss": 0.5058, + "step": 3755 + }, + { + "avg_step_time": 5.6916641611041445, + "epoch": 0.40053333333333335, + "eta_time": 8.885320162612581, + "step": 3755 + }, + { + "epoch": 0.40064, + "grad_norm": 2.010810157998217, + "learning_rate": 6.810613606224299e-06, + "loss": 0.5613, + "step": 3756 + }, + { + "avg_step_time": 5.692792762409557, + "epoch": 0.40064, + "eta_time": 8.885500703327583, + "step": 3756 + }, + { + "epoch": 0.40074666666666664, + "grad_norm": 2.2623308420416754, + "learning_rate": 6.809003262788857e-06, + "loss": 0.4879, + "step": 3757 + }, + { + "avg_step_time": 5.688854660650696, + "epoch": 0.40074666666666664, + "eta_time": 8.877773745426557, + "step": 3757 + }, + { + "epoch": 0.40085333333333334, + "grad_norm": 1.783993490567397, + "learning_rate": 6.807392703417586e-06, + "loss": 0.5467, + "step": 3758 + }, + { + "avg_step_time": 5.722164067355069, + "epoch": 0.40085333333333334, + "eta_time": 8.928165435092618, + "step": 3758 + }, + { + "epoch": 0.40096, + "grad_norm": 1.4486488711527346, + "learning_rate": 6.805781928302732e-06, + "loss": 0.399, + "step": 3759 + }, + { + "avg_step_time": 5.7155651516384545, + "epoch": 0.40096, + "eta_time": 8.916281636555988, + "step": 3759 + }, + { + "epoch": 0.4010666666666667, + "grad_norm": 2.0695066275344707, + "learning_rate": 6.804170937636573e-06, + "loss": 0.5443, + "step": 3760 + }, + { + "avg_step_time": 5.718298830167211, + "epoch": 0.4010666666666667, + "eta_time": 8.918957758719136, + "step": 3760 + }, + { + "epoch": 0.4011733333333333, + "grad_norm": 1.894049360084765, + "learning_rate": 6.802559731611404e-06, + "loss": 0.5498, + "step": 3761 + }, + { + "avg_step_time": 5.716884044685749, + "epoch": 0.4011733333333333, + "eta_time": 8.915163063018277, + "step": 3761 + }, + { + "epoch": 0.40128, + "grad_norm": 1.990442969293266, + "learning_rate": 6.800948310419554e-06, + "loss": 0.5819, + "step": 3762 + }, + { + "avg_step_time": 5.713952938715617, + "epoch": 0.40128, + "eta_time": 8.909004956947433, + "step": 3762 + }, + { + "epoch": 0.40138666666666667, + "grad_norm": 1.8556322421910796, + "learning_rate": 6.799336674253373e-06, + "loss": 0.5945, + "step": 3763 + }, + { + "avg_step_time": 5.7137283050652705, + "epoch": 0.40138666666666667, + "eta_time": 8.907067568896194, + "step": 3763 + }, + { + "epoch": 0.4014933333333333, + "grad_norm": 0.6447074231077895, + "learning_rate": 6.797724823305236e-06, + "loss": 0.4474, + "step": 3764 + }, + { + "avg_step_time": 5.6822530428568525, + "epoch": 0.4014933333333333, + "eta_time": 8.856422728741611, + "step": 3764 + }, + { + "epoch": 0.4016, + "grad_norm": 1.7033424857208597, + "learning_rate": 6.796112757767547e-06, + "loss": 0.4823, + "step": 3765 + }, + { + "avg_step_time": 5.681550902549667, + "epoch": 0.4016, + "eta_time": 8.85375015647323, + "step": 3765 + }, + { + "epoch": 0.40170666666666666, + "grad_norm": 1.6709892145312044, + "learning_rate": 6.794500477832733e-06, + "loss": 0.4686, + "step": 3766 + }, + { + "avg_step_time": 5.680316029172955, + "epoch": 0.40170666666666666, + "eta_time": 8.850247946564195, + "step": 3766 + }, + { + "epoch": 0.40181333333333336, + "grad_norm": 1.8974326105717436, + "learning_rate": 6.792887983693248e-06, + "loss": 0.5501, + "step": 3767 + }, + { + "avg_step_time": 5.676544480853611, + "epoch": 0.40181333333333336, + "eta_time": 8.842794846840848, + "step": 3767 + }, + { + "epoch": 0.40192, + "grad_norm": 1.621109889192715, + "learning_rate": 6.7912752755415716e-06, + "loss": 0.5155, + "step": 3768 + }, + { + "avg_step_time": 5.720209302324237, + "epoch": 0.40192, + "eta_time": 8.90922598837, + "step": 3768 + }, + { + "epoch": 0.40202666666666664, + "grad_norm": 1.5464668638141705, + "learning_rate": 6.789662353570207e-06, + "loss": 0.4803, + "step": 3769 + }, + { + "avg_step_time": 5.721039735909664, + "epoch": 0.40202666666666664, + "eta_time": 8.908930210974882, + "step": 3769 + }, + { + "epoch": 0.40213333333333334, + "grad_norm": 2.0396078829090434, + "learning_rate": 6.788049217971685e-06, + "loss": 0.5134, + "step": 3770 + }, + { + "avg_step_time": 5.715412857556584, + "epoch": 0.40213333333333334, + "eta_time": 8.89858029627907, + "step": 3770 + }, + { + "epoch": 0.40224, + "grad_norm": 1.9009168492776753, + "learning_rate": 6.786435868938561e-06, + "loss": 0.4819, + "step": 3771 + }, + { + "avg_step_time": 5.716470759324353, + "epoch": 0.40224, + "eta_time": 8.898639482014909, + "step": 3771 + }, + { + "epoch": 0.4023466666666667, + "grad_norm": 1.6891646209188087, + "learning_rate": 6.7848223066634174e-06, + "loss": 0.4832, + "step": 3772 + }, + { + "avg_step_time": 5.730418369023487, + "epoch": 0.4023466666666667, + "eta_time": 8.918759478232943, + "step": 3772 + }, + { + "epoch": 0.40245333333333333, + "grad_norm": 1.829219165529692, + "learning_rate": 6.783208531338861e-06, + "loss": 0.5298, + "step": 3773 + }, + { + "avg_step_time": 5.7268930854219375, + "epoch": 0.40245333333333333, + "eta_time": 8.911681962370471, + "step": 3773 + }, + { + "epoch": 0.40256, + "grad_norm": 1.6096443936730769, + "learning_rate": 6.78159454315752e-06, + "loss": 0.444, + "step": 3774 + }, + { + "avg_step_time": 5.7258973217973805, + "epoch": 0.40256, + "eta_time": 8.908541916496425, + "step": 3774 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 1.495656685269863, + "learning_rate": 6.779980342312056e-06, + "loss": 0.4052, + "step": 3775 + }, + { + "avg_step_time": 5.728759486265857, + "epoch": 0.4026666666666667, + "eta_time": 8.911403645302444, + "step": 3775 + }, + { + "epoch": 0.4027733333333333, + "grad_norm": 0.6704807056522076, + "learning_rate": 6.77836592899515e-06, + "loss": 0.4347, + "step": 3776 + }, + { + "avg_step_time": 5.695232651450417, + "epoch": 0.4027733333333333, + "eta_time": 8.857668782075246, + "step": 3776 + }, + { + "epoch": 0.40288, + "grad_norm": 0.6663244594362333, + "learning_rate": 6.776751303399509e-06, + "loss": 0.4628, + "step": 3777 + }, + { + "avg_step_time": 5.6580393025369355, + "epoch": 0.40288, + "eta_time": 8.798251115444934, + "step": 3777 + }, + { + "epoch": 0.40298666666666666, + "grad_norm": 1.823932736611982, + "learning_rate": 6.775136465717868e-06, + "loss": 0.4841, + "step": 3778 + }, + { + "avg_step_time": 5.655756487990871, + "epoch": 0.40298666666666666, + "eta_time": 8.793130295356917, + "step": 3778 + }, + { + "epoch": 0.40309333333333336, + "grad_norm": 1.770725333280883, + "learning_rate": 6.773521416142987e-06, + "loss": 0.4745, + "step": 3779 + }, + { + "avg_step_time": 5.6658634248406, + "epoch": 0.40309333333333336, + "eta_time": 8.807269923724443, + "step": 3779 + }, + { + "epoch": 0.4032, + "grad_norm": 1.742387912590504, + "learning_rate": 6.771906154867649e-06, + "loss": 0.4607, + "step": 3780 + }, + { + "avg_step_time": 5.672151753396699, + "epoch": 0.4032, + "eta_time": 8.815469183404037, + "step": 3780 + }, + { + "epoch": 0.40330666666666665, + "grad_norm": 1.4989157033969338, + "learning_rate": 6.770290682084661e-06, + "loss": 0.4582, + "step": 3781 + }, + { + "avg_step_time": 5.673910121725063, + "epoch": 0.40330666666666665, + "eta_time": 8.816625894702778, + "step": 3781 + }, + { + "epoch": 0.40341333333333335, + "grad_norm": 1.6583623431308578, + "learning_rate": 6.768674997986863e-06, + "loss": 0.4325, + "step": 3782 + }, + { + "avg_step_time": 5.657035755388664, + "epoch": 0.40341333333333335, + "eta_time": 8.788833605524665, + "step": 3782 + }, + { + "epoch": 0.40352, + "grad_norm": 1.951603787835184, + "learning_rate": 6.767059102767109e-06, + "loss": 0.5454, + "step": 3783 + }, + { + "avg_step_time": 5.660304782366512, + "epoch": 0.40352, + "eta_time": 8.792340095275982, + "step": 3783 + }, + { + "epoch": 0.4036266666666667, + "grad_norm": 1.8185091706810486, + "learning_rate": 6.765442996618287e-06, + "loss": 0.522, + "step": 3784 + }, + { + "avg_step_time": 5.654080207901772, + "epoch": 0.4036266666666667, + "eta_time": 8.781100678438557, + "step": 3784 + }, + { + "epoch": 0.40373333333333333, + "grad_norm": 2.201745455124502, + "learning_rate": 6.763826679733307e-06, + "loss": 0.5013, + "step": 3785 + }, + { + "avg_step_time": 5.642302161515361, + "epoch": 0.40373333333333333, + "eta_time": 8.761241411908573, + "step": 3785 + }, + { + "epoch": 0.40384, + "grad_norm": 1.4232359771796042, + "learning_rate": 6.7622101523051045e-06, + "loss": 0.5025, + "step": 3786 + }, + { + "avg_step_time": 5.584613867480345, + "epoch": 0.40384, + "eta_time": 8.670113029263236, + "step": 3786 + }, + { + "epoch": 0.4039466666666667, + "grad_norm": 1.7535347745156462, + "learning_rate": 6.7605934145266395e-06, + "loss": 0.5251, + "step": 3787 + }, + { + "avg_step_time": 5.583397499238602, + "epoch": 0.4039466666666667, + "eta_time": 8.666673673818142, + "step": 3787 + }, + { + "epoch": 0.4040533333333333, + "grad_norm": 1.8553505762934275, + "learning_rate": 6.758976466590898e-06, + "loss": 0.465, + "step": 3788 + }, + { + "avg_step_time": 5.590092483192984, + "epoch": 0.4040533333333333, + "eta_time": 8.675512973222, + "step": 3788 + }, + { + "epoch": 0.40416, + "grad_norm": 1.7192446566720672, + "learning_rate": 6.757359308690889e-06, + "loss": 0.5095, + "step": 3789 + }, + { + "avg_step_time": 5.594637745558614, + "epoch": 0.40416, + "eta_time": 8.681012901858448, + "step": 3789 + }, + { + "epoch": 0.40426666666666666, + "grad_norm": 0.6467787502171434, + "learning_rate": 6.755741941019652e-06, + "loss": 0.4593, + "step": 3790 + }, + { + "avg_step_time": 5.561583827240298, + "epoch": 0.40426666666666666, + "eta_time": 8.628179354204741, + "step": 3790 + }, + { + "epoch": 0.4043733333333333, + "grad_norm": 1.6607890115759916, + "learning_rate": 6.754124363770246e-06, + "loss": 0.4447, + "step": 3791 + }, + { + "avg_step_time": 5.555529165749598, + "epoch": 0.4043733333333333, + "eta_time": 8.617243017096044, + "step": 3791 + }, + { + "epoch": 0.40448, + "grad_norm": 2.268723778314563, + "learning_rate": 6.7525065771357546e-06, + "loss": 0.5782, + "step": 3792 + }, + { + "avg_step_time": 5.555826242523964, + "epoch": 0.40448, + "eta_time": 8.616160531114248, + "step": 3792 + }, + { + "epoch": 0.40458666666666665, + "grad_norm": 1.6354317379361074, + "learning_rate": 6.7508885813092915e-06, + "loss": 0.4344, + "step": 3793 + }, + { + "avg_step_time": 5.552622775838833, + "epoch": 0.40458666666666665, + "eta_time": 8.609650092981212, + "step": 3793 + }, + { + "epoch": 0.40469333333333335, + "grad_norm": 1.6744643950455473, + "learning_rate": 6.749270376483992e-06, + "loss": 0.5645, + "step": 3794 + }, + { + "avg_step_time": 5.553317857511116, + "epoch": 0.40469333333333335, + "eta_time": 8.609185267435983, + "step": 3794 + }, + { + "epoch": 0.4048, + "grad_norm": 1.719255896779751, + "learning_rate": 6.7476519628530145e-06, + "loss": 0.5337, + "step": 3795 + }, + { + "avg_step_time": 5.591448856122566, + "epoch": 0.4048, + "eta_time": 8.666745726989978, + "step": 3795 + }, + { + "epoch": 0.4049066666666667, + "grad_norm": 1.6738164449597597, + "learning_rate": 6.746033340609548e-06, + "loss": 0.4357, + "step": 3796 + }, + { + "avg_step_time": 5.591050042046441, + "epoch": 0.4049066666666667, + "eta_time": 8.66457449571586, + "step": 3796 + }, + { + "epoch": 0.40501333333333334, + "grad_norm": 1.8617664928453541, + "learning_rate": 6.744414509946802e-06, + "loss": 0.5078, + "step": 3797 + }, + { + "avg_step_time": 5.589490825479681, + "epoch": 0.40501333333333334, + "eta_time": 8.660605506812683, + "step": 3797 + }, + { + "epoch": 0.40512, + "grad_norm": 1.7130995920217742, + "learning_rate": 6.742795471058009e-06, + "loss": 0.3818, + "step": 3798 + }, + { + "avg_step_time": 5.587320207345365, + "epoch": 0.40512, + "eta_time": 8.655690221212527, + "step": 3798 + }, + { + "epoch": 0.4052266666666667, + "grad_norm": 0.6700399132064733, + "learning_rate": 6.741176224136434e-06, + "loss": 0.4694, + "step": 3799 + }, + { + "avg_step_time": 5.5743373090570625, + "epoch": 0.4052266666666667, + "eta_time": 8.634029120917273, + "step": 3799 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 1.5340977884999694, + "learning_rate": 6.739556769375359e-06, + "loss": 0.4044, + "step": 3800 + }, + { + "avg_step_time": 5.578553915023804, + "epoch": 0.4053333333333333, + "eta_time": 8.63901057673825, + "step": 3800 + }, + { + "epoch": 0.40544, + "grad_norm": 1.6166687725509623, + "learning_rate": 6.737937106968094e-06, + "loss": 0.4349, + "step": 3801 + }, + { + "avg_step_time": 5.614145565514613, + "epoch": 0.40544, + "eta_time": 8.692568717271792, + "step": 3801 + }, + { + "epoch": 0.40554666666666667, + "grad_norm": 0.6134545467343693, + "learning_rate": 6.736317237107976e-06, + "loss": 0.4164, + "step": 3802 + }, + { + "avg_step_time": 5.581186578731344, + "epoch": 0.40554666666666667, + "eta_time": 8.63998688979716, + "step": 3802 + }, + { + "epoch": 0.4056533333333333, + "grad_norm": 1.5638182730160166, + "learning_rate": 6.734697159988362e-06, + "loss": 0.4009, + "step": 3803 + }, + { + "avg_step_time": 5.574387504596903, + "epoch": 0.4056533333333333, + "eta_time": 8.627913104337205, + "step": 3803 + }, + { + "epoch": 0.40576, + "grad_norm": 1.846306542506402, + "learning_rate": 6.7330768758026374e-06, + "loss": 0.509, + "step": 3804 + }, + { + "avg_step_time": 5.614311577093722, + "epoch": 0.40576, + "eta_time": 8.688147165552534, + "step": 3804 + }, + { + "epoch": 0.40586666666666665, + "grad_norm": 1.9880159236771737, + "learning_rate": 6.731456384744212e-06, + "loss": 0.5816, + "step": 3805 + }, + { + "avg_step_time": 5.614482210140036, + "epoch": 0.40586666666666665, + "eta_time": 8.686851641799999, + "step": 3805 + }, + { + "epoch": 0.40597333333333335, + "grad_norm": 1.741323911293914, + "learning_rate": 6.729835687006519e-06, + "loss": 0.5197, + "step": 3806 + }, + { + "avg_step_time": 5.618614847009832, + "epoch": 0.40597333333333335, + "eta_time": 8.691685023054932, + "step": 3806 + }, + { + "epoch": 0.40608, + "grad_norm": 1.953354801954789, + "learning_rate": 6.728214782783013e-06, + "loss": 0.5492, + "step": 3807 + }, + { + "avg_step_time": 5.618427507805102, + "epoch": 0.40608, + "eta_time": 8.689834545405224, + "step": 3807 + }, + { + "epoch": 0.40618666666666664, + "grad_norm": 1.8235963424773838, + "learning_rate": 6.726593672267183e-06, + "loss": 0.5534, + "step": 3808 + }, + { + "avg_step_time": 5.621082055448282, + "epoch": 0.40618666666666664, + "eta_time": 8.69237883407794, + "step": 3808 + }, + { + "epoch": 0.40629333333333334, + "grad_norm": 1.6592777753468038, + "learning_rate": 6.724972355652533e-06, + "loss": 0.3842, + "step": 3809 + }, + { + "avg_step_time": 5.6190391742821895, + "epoch": 0.40629333333333334, + "eta_time": 8.687658901126296, + "step": 3809 + }, + { + "epoch": 0.4064, + "grad_norm": 1.9381074747311384, + "learning_rate": 6.723350833132596e-06, + "loss": 0.4789, + "step": 3810 + }, + { + "avg_step_time": 5.618341761406022, + "epoch": 0.4064, + "eta_time": 8.685019972840141, + "step": 3810 + }, + { + "epoch": 0.4065066666666667, + "grad_norm": 1.8567693213327552, + "learning_rate": 6.721729104900927e-06, + "loss": 0.4702, + "step": 3811 + }, + { + "avg_step_time": 5.648372534549598, + "epoch": 0.4065066666666667, + "eta_time": 8.729873550620546, + "step": 3811 + }, + { + "epoch": 0.4066133333333333, + "grad_norm": 1.851860569715653, + "learning_rate": 6.720107171151112e-06, + "loss": 0.4818, + "step": 3812 + }, + { + "avg_step_time": 5.647222747706404, + "epoch": 0.4066133333333333, + "eta_time": 8.726527818191869, + "step": 3812 + }, + { + "epoch": 0.40672, + "grad_norm": 1.6315006306611564, + "learning_rate": 6.7184850320767505e-06, + "loss": 0.5222, + "step": 3813 + }, + { + "avg_step_time": 5.645842727988657, + "epoch": 0.40672, + "eta_time": 8.722827014742474, + "step": 3813 + }, + { + "epoch": 0.40682666666666667, + "grad_norm": 1.8835374996069445, + "learning_rate": 6.716862687871477e-06, + "loss": 0.4876, + "step": 3814 + }, + { + "avg_step_time": 5.646963528912477, + "epoch": 0.40682666666666667, + "eta_time": 8.722990051189523, + "step": 3814 + }, + { + "epoch": 0.4069333333333333, + "grad_norm": 1.5738520668469071, + "learning_rate": 6.715240138728946e-06, + "loss": 0.4651, + "step": 3815 + }, + { + "avg_step_time": 5.635075364450012, + "epoch": 0.4069333333333333, + "eta_time": 8.703060840650574, + "step": 3815 + }, + { + "epoch": 0.40704, + "grad_norm": 1.7095185979776408, + "learning_rate": 6.7136173848428375e-06, + "loss": 0.4863, + "step": 3816 + }, + { + "avg_step_time": 5.640018118752374, + "epoch": 0.40704, + "eta_time": 8.709127978373457, + "step": 3816 + }, + { + "epoch": 0.40714666666666666, + "grad_norm": 1.854692991534006, + "learning_rate": 6.711994426406853e-06, + "loss": 0.5774, + "step": 3817 + }, + { + "avg_step_time": 5.608339283201429, + "epoch": 0.40714666666666666, + "eta_time": 8.658652704453763, + "step": 3817 + }, + { + "epoch": 0.40725333333333336, + "grad_norm": 1.6867241922313516, + "learning_rate": 6.71037126361472e-06, + "loss": 0.4674, + "step": 3818 + }, + { + "avg_step_time": 5.605287431466459, + "epoch": 0.40725333333333336, + "eta_time": 8.652383960183087, + "step": 3818 + }, + { + "epoch": 0.40736, + "grad_norm": 1.6651130291691862, + "learning_rate": 6.708747896660196e-06, + "loss": 0.5305, + "step": 3819 + }, + { + "avg_step_time": 5.62385976675785, + "epoch": 0.40736, + "eta_time": 8.679490240029615, + "step": 3819 + }, + { + "epoch": 0.40746666666666664, + "grad_norm": 0.7028500840460571, + "learning_rate": 6.707124325737051e-06, + "loss": 0.4497, + "step": 3820 + }, + { + "avg_step_time": 5.58838448379979, + "epoch": 0.40746666666666664, + "eta_time": 8.623187724307732, + "step": 3820 + }, + { + "epoch": 0.40757333333333334, + "grad_norm": 1.830172975518959, + "learning_rate": 6.7055005510390935e-06, + "loss": 0.4656, + "step": 3821 + }, + { + "avg_step_time": 5.583955230134906, + "epoch": 0.40757333333333334, + "eta_time": 8.61480204115813, + "step": 3821 + }, + { + "epoch": 0.40768, + "grad_norm": 1.4983837602817207, + "learning_rate": 6.703876572760144e-06, + "loss": 0.4843, + "step": 3822 + }, + { + "avg_step_time": 5.583575585875848, + "epoch": 0.40768, + "eta_time": 8.612665341213496, + "step": 3822 + }, + { + "epoch": 0.4077866666666667, + "grad_norm": 1.7856064368242905, + "learning_rate": 6.702252391094053e-06, + "loss": 0.4871, + "step": 3823 + }, + { + "avg_step_time": 5.58942931830281, + "epoch": 0.4077866666666667, + "eta_time": 8.620142104227, + "step": 3823 + }, + { + "epoch": 0.40789333333333333, + "grad_norm": 1.5997284661117506, + "learning_rate": 6.700628006234698e-06, + "loss": 0.4655, + "step": 3824 + }, + { + "avg_step_time": 5.6037191887094515, + "epoch": 0.40789333333333333, + "eta_time": 8.640623671257268, + "step": 3824 + }, + { + "epoch": 0.408, + "grad_norm": 1.670367905599528, + "learning_rate": 6.6990034183759726e-06, + "loss": 0.5213, + "step": 3825 + }, + { + "avg_step_time": 5.61238958137204, + "epoch": 0.408, + "eta_time": 8.65243393794856, + "step": 3825 + }, + { + "epoch": 0.4081066666666667, + "grad_norm": 1.7899661532618794, + "learning_rate": 6.6973786277118026e-06, + "loss": 0.5313, + "step": 3826 + }, + { + "avg_step_time": 5.6091903893634525, + "epoch": 0.4081066666666667, + "eta_time": 8.645943741827166, + "step": 3826 + }, + { + "epoch": 0.4082133333333333, + "grad_norm": 1.6533302833316057, + "learning_rate": 6.695753634436134e-06, + "loss": 0.4763, + "step": 3827 + }, + { + "avg_step_time": 5.620253647216643, + "epoch": 0.4082133333333333, + "eta_time": 8.661435342988314, + "step": 3827 + }, + { + "epoch": 0.40832, + "grad_norm": 1.485523958704559, + "learning_rate": 6.694128438742939e-06, + "loss": 0.4806, + "step": 3828 + }, + { + "avg_step_time": 5.619294419433132, + "epoch": 0.40832, + "eta_time": 8.65839615127655, + "step": 3828 + }, + { + "epoch": 0.40842666666666666, + "grad_norm": 1.6115805113383694, + "learning_rate": 6.692503040826211e-06, + "loss": 0.3822, + "step": 3829 + }, + { + "avg_step_time": 5.652282182616417, + "epoch": 0.40842666666666666, + "eta_time": 8.707654717997402, + "step": 3829 + }, + { + "epoch": 0.40853333333333336, + "grad_norm": 1.7293948620781208, + "learning_rate": 6.690877440879971e-06, + "loss": 0.5401, + "step": 3830 + }, + { + "avg_step_time": 5.6582353741231595, + "epoch": 0.40853333333333336, + "eta_time": 8.715254208198033, + "step": 3830 + }, + { + "epoch": 0.40864, + "grad_norm": 1.7537424958135137, + "learning_rate": 6.689251639098261e-06, + "loss": 0.4556, + "step": 3831 + }, + { + "avg_step_time": 5.667791872313528, + "epoch": 0.40864, + "eta_time": 8.728399483362834, + "step": 3831 + }, + { + "epoch": 0.40874666666666665, + "grad_norm": 1.7834189518803985, + "learning_rate": 6.68762563567515e-06, + "loss": 0.5162, + "step": 3832 + }, + { + "avg_step_time": 5.671081697097932, + "epoch": 0.40874666666666665, + "eta_time": 8.7318905130594, + "step": 3832 + }, + { + "epoch": 0.40885333333333335, + "grad_norm": 1.6917470656748304, + "learning_rate": 6.685999430804729e-06, + "loss": 0.499, + "step": 3833 + }, + { + "avg_step_time": 5.672490418559373, + "epoch": 0.40885333333333335, + "eta_time": 8.732483861015568, + "step": 3833 + }, + { + "epoch": 0.40896, + "grad_norm": 1.9779790409896034, + "learning_rate": 6.684373024681112e-06, + "loss": 0.6032, + "step": 3834 + }, + { + "avg_step_time": 5.67746452851729, + "epoch": 0.40896, + "eta_time": 8.738564153476196, + "step": 3834 + }, + { + "epoch": 0.4090666666666667, + "grad_norm": 1.6476382645682324, + "learning_rate": 6.6827464174984405e-06, + "loss": 0.4377, + "step": 3835 + }, + { + "avg_step_time": 5.651185481235235, + "epoch": 0.4090666666666667, + "eta_time": 8.69654654612311, + "step": 3835 + }, + { + "epoch": 0.40917333333333333, + "grad_norm": 0.6575183701501918, + "learning_rate": 6.681119609450879e-06, + "loss": 0.4368, + "step": 3836 + }, + { + "avg_step_time": 5.611441332884509, + "epoch": 0.40917333333333333, + "eta_time": 8.63382598412425, + "step": 3836 + }, + { + "epoch": 0.40928, + "grad_norm": 1.6764148046409804, + "learning_rate": 6.679492600732614e-06, + "loss": 0.53, + "step": 3837 + }, + { + "avg_step_time": 5.611380690276021, + "epoch": 0.40928, + "eta_time": 8.632173961874612, + "step": 3837 + }, + { + "epoch": 0.4093866666666667, + "grad_norm": 1.6288082970429036, + "learning_rate": 6.677865391537857e-06, + "loss": 0.4936, + "step": 3838 + }, + { + "avg_step_time": 5.611485565551604, + "epoch": 0.4093866666666667, + "eta_time": 8.630776549016453, + "step": 3838 + }, + { + "epoch": 0.4094933333333333, + "grad_norm": 1.6459211175430741, + "learning_rate": 6.676237982060844e-06, + "loss": 0.4723, + "step": 3839 + }, + { + "avg_step_time": 5.62121807926833, + "epoch": 0.4094933333333333, + "eta_time": 8.644184246341522, + "step": 3839 + }, + { + "epoch": 0.4096, + "grad_norm": 1.6833920409567127, + "learning_rate": 6.674610372495832e-06, + "loss": 0.4877, + "step": 3840 + }, + { + "avg_step_time": 5.6144118622095895, + "epoch": 0.4096, + "eta_time": 8.632158238147245, + "step": 3840 + }, + { + "epoch": 0.40970666666666666, + "grad_norm": 1.9798256431545551, + "learning_rate": 6.67298256303711e-06, + "loss": 0.5395, + "step": 3841 + }, + { + "avg_step_time": 5.612827221552531, + "epoch": 0.40970666666666666, + "eta_time": 8.628162734464363, + "step": 3841 + }, + { + "epoch": 0.4098133333333333, + "grad_norm": 0.6379892202275855, + "learning_rate": 6.67135455387898e-06, + "loss": 0.4746, + "step": 3842 + }, + { + "avg_step_time": 5.580327604756211, + "epoch": 0.4098133333333333, + "eta_time": 8.576653510310033, + "step": 3842 + }, + { + "epoch": 0.40992, + "grad_norm": 1.7543991245539796, + "learning_rate": 6.669726345215776e-06, + "loss": 0.5328, + "step": 3843 + }, + { + "avg_step_time": 5.582653630863536, + "epoch": 0.40992, + "eta_time": 8.578677746093634, + "step": 3843 + }, + { + "epoch": 0.41002666666666665, + "grad_norm": 1.9049266546615422, + "learning_rate": 6.668097937241852e-06, + "loss": 0.46, + "step": 3844 + }, + { + "avg_step_time": 5.611913156027746, + "epoch": 0.41002666666666665, + "eta_time": 8.622081018330407, + "step": 3844 + }, + { + "epoch": 0.41013333333333335, + "grad_norm": 1.8494555481906403, + "learning_rate": 6.666469330151585e-06, + "loss": 0.4649, + "step": 3845 + }, + { + "avg_step_time": 5.606949295660462, + "epoch": 0.41013333333333335, + "eta_time": 8.612897112500653, + "step": 3845 + }, + { + "epoch": 0.41024, + "grad_norm": 0.6349387575895923, + "learning_rate": 6.66484052413938e-06, + "loss": 0.4619, + "step": 3846 + }, + { + "avg_step_time": 5.568565467391351, + "epoch": 0.41024, + "eta_time": 8.55238846366855, + "step": 3846 + }, + { + "epoch": 0.4103466666666667, + "grad_norm": 1.651341853453802, + "learning_rate": 6.663211519399661e-06, + "loss": 0.4198, + "step": 3847 + }, + { + "avg_step_time": 5.56958582907012, + "epoch": 0.4103466666666667, + "eta_time": 8.552408461972117, + "step": 3847 + }, + { + "epoch": 0.41045333333333334, + "grad_norm": 1.5566732769423834, + "learning_rate": 6.66158231612688e-06, + "loss": 0.4552, + "step": 3848 + }, + { + "avg_step_time": 5.611677740559434, + "epoch": 0.41045333333333334, + "eta_time": 8.615484131131108, + "step": 3848 + }, + { + "epoch": 0.41056, + "grad_norm": 1.7049537176035212, + "learning_rate": 6.659952914515508e-06, + "loss": 0.5295, + "step": 3849 + }, + { + "avg_step_time": 5.613474658041289, + "epoch": 0.41056, + "eta_time": 8.616683600093378, + "step": 3849 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 1.9325297864789357, + "learning_rate": 6.658323314760046e-06, + "loss": 0.483, + "step": 3850 + }, + { + "avg_step_time": 5.626693935105295, + "epoch": 0.4106666666666667, + "eta_time": 8.635412219849098, + "step": 3850 + }, + { + "epoch": 0.4107733333333333, + "grad_norm": 0.6256408839582829, + "learning_rate": 6.656693517055011e-06, + "loss": 0.4504, + "step": 3851 + }, + { + "avg_step_time": 5.589029394014918, + "epoch": 0.4107733333333333, + "eta_time": 8.57605510348289, + "step": 3851 + }, + { + "epoch": 0.41088, + "grad_norm": 1.7510416155760382, + "learning_rate": 6.65506352159495e-06, + "loss": 0.55, + "step": 3852 + }, + { + "avg_step_time": 5.6279473617823434, + "epoch": 0.41088, + "eta_time": 8.63420924420108, + "step": 3852 + }, + { + "epoch": 0.41098666666666667, + "grad_norm": 1.708222652235198, + "learning_rate": 6.65343332857443e-06, + "loss": 0.4954, + "step": 3853 + }, + { + "avg_step_time": 5.625036186642117, + "epoch": 0.41098666666666667, + "eta_time": 8.628180506288269, + "step": 3853 + }, + { + "epoch": 0.4110933333333333, + "grad_norm": 2.1397933641630735, + "learning_rate": 6.651802938188044e-06, + "loss": 0.4687, + "step": 3854 + }, + { + "avg_step_time": 5.649713817268911, + "epoch": 0.4110933333333333, + "eta_time": 8.664463884761572, + "step": 3854 + }, + { + "epoch": 0.4112, + "grad_norm": 1.8137111304739175, + "learning_rate": 6.650172350630406e-06, + "loss": 0.5836, + "step": 3855 + }, + { + "avg_step_time": 5.6502708907079215, + "epoch": 0.4112, + "eta_time": 8.66374869908548, + "step": 3855 + }, + { + "epoch": 0.41130666666666665, + "grad_norm": 2.006296288213949, + "learning_rate": 6.648541566096155e-06, + "loss": 0.4909, + "step": 3856 + }, + { + "avg_step_time": 5.670780299889921, + "epoch": 0.41130666666666665, + "eta_time": 8.693621243081243, + "step": 3856 + }, + { + "epoch": 0.41141333333333335, + "grad_norm": 1.604351611791813, + "learning_rate": 6.646910584779953e-06, + "loss": 0.4945, + "step": 3857 + }, + { + "avg_step_time": 5.670805372373022, + "epoch": 0.41141333333333335, + "eta_time": 8.692084456876204, + "step": 3857 + }, + { + "epoch": 0.41152, + "grad_norm": 1.6037628548608838, + "learning_rate": 6.645279406876488e-06, + "loss": 0.4211, + "step": 3858 + }, + { + "avg_step_time": 5.671511510405877, + "epoch": 0.41152, + "eta_time": 8.691591389697008, + "step": 3858 + }, + { + "epoch": 0.41162666666666664, + "grad_norm": 1.5915529594046196, + "learning_rate": 6.643648032580466e-06, + "loss": 0.5172, + "step": 3859 + }, + { + "avg_step_time": 5.66748426177285, + "epoch": 0.41162666666666664, + "eta_time": 8.683845329983066, + "step": 3859 + }, + { + "epoch": 0.41173333333333334, + "grad_norm": 1.8256540057975053, + "learning_rate": 6.6420164620866226e-06, + "loss": 0.5118, + "step": 3860 + }, + { + "avg_step_time": 5.666399707697859, + "epoch": 0.41173333333333334, + "eta_time": 8.68060955220936, + "step": 3860 + }, + { + "epoch": 0.41184, + "grad_norm": 2.0163232056062896, + "learning_rate": 6.640384695589714e-06, + "loss": 0.4919, + "step": 3861 + }, + { + "avg_step_time": 5.667053798232415, + "epoch": 0.41184, + "eta_time": 8.680037400959316, + "step": 3861 + }, + { + "epoch": 0.4119466666666667, + "grad_norm": 0.654185835235426, + "learning_rate": 6.638752733284514e-06, + "loss": 0.4379, + "step": 3862 + }, + { + "avg_step_time": 5.634020525999744, + "epoch": 0.4119466666666667, + "eta_time": 8.627876433287941, + "step": 3862 + }, + { + "epoch": 0.4120533333333333, + "grad_norm": 1.7274744542961384, + "learning_rate": 6.637120575365834e-06, + "loss": 0.5236, + "step": 3863 + }, + { + "avg_step_time": 5.666421555509471, + "epoch": 0.4120533333333333, + "eta_time": 8.675921003880056, + "step": 3863 + }, + { + "epoch": 0.41216, + "grad_norm": 1.8516021363221205, + "learning_rate": 6.635488222028497e-06, + "loss": 0.5819, + "step": 3864 + }, + { + "avg_step_time": 5.670509128859549, + "epoch": 0.41216, + "eta_time": 8.68060439142916, + "step": 3864 + }, + { + "epoch": 0.41226666666666667, + "grad_norm": 1.8478462496294654, + "learning_rate": 6.63385567346735e-06, + "loss": 0.4216, + "step": 3865 + }, + { + "avg_step_time": 5.671000709437361, + "epoch": 0.41226666666666667, + "eta_time": 8.67978164138885, + "step": 3865 + }, + { + "epoch": 0.4123733333333333, + "grad_norm": 1.6775323948472654, + "learning_rate": 6.632222929877268e-06, + "loss": 0.4299, + "step": 3866 + }, + { + "avg_step_time": 5.669708779363921, + "epoch": 0.4123733333333333, + "eta_time": 8.676229351532177, + "step": 3866 + }, + { + "epoch": 0.41248, + "grad_norm": 1.6305842313443681, + "learning_rate": 6.630589991453148e-06, + "loss": 0.5346, + "step": 3867 + }, + { + "avg_step_time": 5.676303858708853, + "epoch": 0.41248, + "eta_time": 8.684744903824546, + "step": 3867 + }, + { + "epoch": 0.41258666666666666, + "grad_norm": 1.7705296986473862, + "learning_rate": 6.6289568583899074e-06, + "loss": 0.5299, + "step": 3868 + }, + { + "avg_step_time": 5.6833594856840195, + "epoch": 0.41258666666666666, + "eta_time": 8.693961302128304, + "step": 3868 + }, + { + "epoch": 0.41269333333333336, + "grad_norm": 1.6861567125219783, + "learning_rate": 6.627323530882491e-06, + "loss": 0.4544, + "step": 3869 + }, + { + "avg_step_time": 5.683197231003732, + "epoch": 0.41269333333333336, + "eta_time": 8.692134431640708, + "step": 3869 + }, + { + "epoch": 0.4128, + "grad_norm": 1.936055582466953, + "learning_rate": 6.6256900091258644e-06, + "loss": 0.4326, + "step": 3870 + }, + { + "avg_step_time": 5.68326754521842, + "epoch": 0.4128, + "eta_time": 8.6906632878965, + "step": 3870 + }, + { + "epoch": 0.41290666666666664, + "grad_norm": 1.879257177381911, + "learning_rate": 6.624056293315015e-06, + "loss": 0.5617, + "step": 3871 + }, + { + "avg_step_time": 5.670441059151081, + "epoch": 0.41290666666666664, + "eta_time": 8.669474330435431, + "step": 3871 + }, + { + "epoch": 0.41301333333333334, + "grad_norm": 1.5754426496243545, + "learning_rate": 6.622422383644956e-06, + "loss": 0.4463, + "step": 3872 + }, + { + "avg_step_time": 5.672245791464141, + "epoch": 0.41301333333333334, + "eta_time": 8.670657941785324, + "step": 3872 + }, + { + "epoch": 0.41312, + "grad_norm": 1.6076452867718152, + "learning_rate": 6.620788280310722e-06, + "loss": 0.5107, + "step": 3873 + }, + { + "avg_step_time": 5.6723545488685065, + "epoch": 0.41312, + "eta_time": 8.669248535520701, + "step": 3873 + }, + { + "epoch": 0.4132266666666667, + "grad_norm": 1.915427077429538, + "learning_rate": 6.619153983507373e-06, + "loss": 0.5184, + "step": 3874 + }, + { + "avg_step_time": 5.671760209883102, + "epoch": 0.4132266666666667, + "eta_time": 8.666764698490818, + "step": 3874 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 1.7119561564891215, + "learning_rate": 6.617519493429991e-06, + "loss": 0.4245, + "step": 3875 + }, + { + "avg_step_time": 5.711474917151711, + "epoch": 0.41333333333333333, + "eta_time": 8.72586445675956, + "step": 3875 + }, + { + "epoch": 0.41344, + "grad_norm": 1.9186849123698784, + "learning_rate": 6.615884810273678e-06, + "loss": 0.5046, + "step": 3876 + }, + { + "avg_step_time": 5.752051071687178, + "epoch": 0.41344, + "eta_time": 8.786258012002165, + "step": 3876 + }, + { + "epoch": 0.4135466666666667, + "grad_norm": 1.7792581051857075, + "learning_rate": 6.614249934233565e-06, + "loss": 0.4947, + "step": 3877 + }, + { + "avg_step_time": 5.775423466557204, + "epoch": 0.4135466666666667, + "eta_time": 8.820355060869863, + "step": 3877 + }, + { + "epoch": 0.4136533333333333, + "grad_norm": 1.8618136957249094, + "learning_rate": 6.6126148655048e-06, + "loss": 0.5777, + "step": 3878 + }, + { + "avg_step_time": 5.851156198617184, + "epoch": 0.4136533333333333, + "eta_time": 8.934390451055183, + "step": 3878 + }, + { + "epoch": 0.41376, + "grad_norm": 0.6646480093435087, + "learning_rate": 6.610979604282557e-06, + "loss": 0.4516, + "step": 3879 + }, + { + "avg_step_time": 5.812547197245588, + "epoch": 0.41376, + "eta_time": 8.873822054461598, + "step": 3879 + }, + { + "epoch": 0.41386666666666666, + "grad_norm": 1.6828532700536893, + "learning_rate": 6.609344150762035e-06, + "loss": 0.471, + "step": 3880 + }, + { + "avg_step_time": 5.8082366278677275, + "epoch": 0.41386666666666666, + "eta_time": 8.865627852814768, + "step": 3880 + }, + { + "epoch": 0.41397333333333336, + "grad_norm": 1.873556386699355, + "learning_rate": 6.60770850513845e-06, + "loss": 0.4794, + "step": 3881 + }, + { + "avg_step_time": 5.805618466752948, + "epoch": 0.41397333333333336, + "eta_time": 8.860018848983527, + "step": 3881 + }, + { + "epoch": 0.41408, + "grad_norm": 1.8469361036582124, + "learning_rate": 6.606072667607048e-06, + "loss": 0.4495, + "step": 3882 + }, + { + "avg_step_time": 5.802592287159929, + "epoch": 0.41408, + "eta_time": 8.853788731491525, + "step": 3882 + }, + { + "epoch": 0.41418666666666665, + "grad_norm": 2.2916422401902854, + "learning_rate": 6.604436638363094e-06, + "loss": 0.6228, + "step": 3883 + }, + { + "avg_step_time": 5.8017982593690505, + "epoch": 0.41418666666666665, + "eta_time": 8.850965566793008, + "step": 3883 + }, + { + "epoch": 0.41429333333333335, + "grad_norm": 1.7664932173518166, + "learning_rate": 6.602800417601874e-06, + "loss": 0.4613, + "step": 3884 + }, + { + "avg_step_time": 5.8032129099874785, + "epoch": 0.41429333333333335, + "eta_time": 8.851511691317013, + "step": 3884 + }, + { + "epoch": 0.4144, + "grad_norm": 0.6503678664218451, + "learning_rate": 6.601164005518702e-06, + "loss": 0.4639, + "step": 3885 + }, + { + "avg_step_time": 5.755827318538319, + "epoch": 0.4144, + "eta_time": 8.777636660770936, + "step": 3885 + }, + { + "epoch": 0.4145066666666667, + "grad_norm": 0.642160150910912, + "learning_rate": 6.5995274023089105e-06, + "loss": 0.4488, + "step": 3886 + }, + { + "avg_step_time": 5.717892463761147, + "epoch": 0.4145066666666667, + "eta_time": 8.718197703773594, + "step": 3886 + }, + { + "epoch": 0.41461333333333333, + "grad_norm": 0.7087567302638128, + "learning_rate": 6.597890608167856e-06, + "loss": 0.4771, + "step": 3887 + }, + { + "avg_step_time": 5.68184711475565, + "epoch": 0.41461333333333333, + "eta_time": 8.661660268271946, + "step": 3887 + }, + { + "epoch": 0.41472, + "grad_norm": 1.9239648576150803, + "learning_rate": 6.59625362329092e-06, + "loss": 0.554, + "step": 3888 + }, + { + "avg_step_time": 5.678783517895323, + "epoch": 0.41472, + "eta_time": 8.655412545192123, + "step": 3888 + }, + { + "epoch": 0.4148266666666667, + "grad_norm": 1.76213106426155, + "learning_rate": 6.594616447873506e-06, + "loss": 0.4488, + "step": 3889 + }, + { + "avg_step_time": 5.724850042901858, + "epoch": 0.4148266666666667, + "eta_time": 8.72403537093322, + "step": 3889 + }, + { + "epoch": 0.4149333333333333, + "grad_norm": 1.4869720040918262, + "learning_rate": 6.592979082111034e-06, + "loss": 0.5398, + "step": 3890 + }, + { + "avg_step_time": 5.728610096555768, + "epoch": 0.4149333333333333, + "eta_time": 8.728173994335663, + "step": 3890 + }, + { + "epoch": 0.41504, + "grad_norm": 1.541035498492405, + "learning_rate": 6.591341526198955e-06, + "loss": 0.4724, + "step": 3891 + }, + { + "avg_step_time": 5.742361104849613, + "epoch": 0.41504, + "eta_time": 8.747530083054244, + "step": 3891 + }, + { + "epoch": 0.41514666666666666, + "grad_norm": 1.7803534765868563, + "learning_rate": 6.589703780332742e-06, + "loss": 0.4804, + "step": 3892 + }, + { + "avg_step_time": 5.8252187810762965, + "epoch": 0.41514666666666666, + "eta_time": 8.872131826844814, + "step": 3892 + }, + { + "epoch": 0.4152533333333333, + "grad_norm": 1.778130695777905, + "learning_rate": 6.588065844707885e-06, + "loss": 0.5756, + "step": 3893 + }, + { + "avg_step_time": 5.823833056170531, + "epoch": 0.4152533333333333, + "eta_time": 8.868403559424126, + "step": 3893 + }, + { + "epoch": 0.41536, + "grad_norm": 1.828080665258465, + "learning_rate": 6.586427719519901e-06, + "loss": 0.4858, + "step": 3894 + }, + { + "avg_step_time": 5.819791837172075, + "epoch": 0.41536, + "eta_time": 8.860633072094485, + "step": 3894 + }, + { + "epoch": 0.41546666666666665, + "grad_norm": 1.5553622981521926, + "learning_rate": 6.584789404964329e-06, + "loss": 0.4958, + "step": 3895 + }, + { + "avg_step_time": 5.823508693714334, + "epoch": 0.41546666666666665, + "eta_time": 8.864674344876263, + "step": 3895 + }, + { + "epoch": 0.41557333333333335, + "grad_norm": 1.7563393341089182, + "learning_rate": 6.5831509012367275e-06, + "loss": 0.5059, + "step": 3896 + }, + { + "avg_step_time": 5.825208066689847, + "epoch": 0.41557333333333335, + "eta_time": 8.865643054831576, + "step": 3896 + }, + { + "epoch": 0.41568, + "grad_norm": 1.6145882849271733, + "learning_rate": 6.581512208532685e-06, + "loss": 0.525, + "step": 3897 + }, + { + "avg_step_time": 5.8278379632969095, + "epoch": 0.41568, + "eta_time": 8.868026767483464, + "step": 3897 + }, + { + "epoch": 0.4157866666666667, + "grad_norm": 1.652090085140227, + "learning_rate": 6.579873327047805e-06, + "loss": 0.5506, + "step": 3898 + }, + { + "avg_step_time": 5.839555417648469, + "epoch": 0.4157866666666667, + "eta_time": 8.884234728461296, + "step": 3898 + }, + { + "epoch": 0.41589333333333334, + "grad_norm": 0.6539333121585249, + "learning_rate": 6.5782342569777155e-06, + "loss": 0.4477, + "step": 3899 + }, + { + "avg_step_time": 5.797903535341976, + "epoch": 0.41589333333333334, + "eta_time": 8.819255488759072, + "step": 3899 + }, + { + "epoch": 0.416, + "grad_norm": 1.9239135622703603, + "learning_rate": 6.576594998518071e-06, + "loss": 0.6306, + "step": 3900 + }, + { + "avg_step_time": 5.799450614235618, + "epoch": 0.416, + "eta_time": 8.819997809150003, + "step": 3900 + }, + { + "epoch": 0.4161066666666667, + "grad_norm": 1.9664626160895653, + "learning_rate": 6.574955551864541e-06, + "loss": 0.6047, + "step": 3901 + }, + { + "avg_step_time": 5.830984761016538, + "epoch": 0.4161066666666667, + "eta_time": 8.86633627272348, + "step": 3901 + }, + { + "epoch": 0.4162133333333333, + "grad_norm": 1.823104711758926, + "learning_rate": 6.573315917212826e-06, + "loss": 0.4743, + "step": 3902 + }, + { + "avg_step_time": 5.833798321810636, + "epoch": 0.4162133333333333, + "eta_time": 8.868993948686002, + "step": 3902 + }, + { + "epoch": 0.41632, + "grad_norm": 1.8485997900013371, + "learning_rate": 6.5716760947586425e-06, + "loss": 0.5066, + "step": 3903 + }, + { + "avg_step_time": 5.792674353628447, + "epoch": 0.41632, + "eta_time": 8.80486501751524, + "step": 3903 + }, + { + "epoch": 0.41642666666666667, + "grad_norm": 1.5149045497580784, + "learning_rate": 6.570036084697732e-06, + "loss": 0.4582, + "step": 3904 + }, + { + "avg_step_time": 5.788735823197798, + "epoch": 0.41642666666666667, + "eta_time": 8.797270469087543, + "step": 3904 + }, + { + "epoch": 0.4165333333333333, + "grad_norm": 1.6385592550644923, + "learning_rate": 6.568395887225858e-06, + "loss": 0.4781, + "step": 3905 + }, + { + "avg_step_time": 5.783798461008554, + "epoch": 0.4165333333333333, + "eta_time": 8.788160439365775, + "step": 3905 + }, + { + "epoch": 0.41664, + "grad_norm": 2.08533953153008, + "learning_rate": 6.566755502538806e-06, + "loss": 0.6289, + "step": 3906 + }, + { + "avg_step_time": 5.784045544537631, + "epoch": 0.41664, + "eta_time": 8.786929189743416, + "step": 3906 + }, + { + "epoch": 0.41674666666666665, + "grad_norm": 1.910444199606626, + "learning_rate": 6.565114930832387e-06, + "loss": 0.5299, + "step": 3907 + }, + { + "avg_step_time": 5.783427898329918, + "epoch": 0.41674666666666665, + "eta_time": 8.78438437446333, + "step": 3907 + }, + { + "epoch": 0.41685333333333335, + "grad_norm": 1.8219458475392505, + "learning_rate": 6.563474172302429e-06, + "loss": 0.5949, + "step": 3908 + }, + { + "avg_step_time": 5.782034462148493, + "epoch": 0.41685333333333335, + "eta_time": 8.780661779046058, + "step": 3908 + }, + { + "epoch": 0.41696, + "grad_norm": 1.776304915478265, + "learning_rate": 6.561833227144784e-06, + "loss": 0.4216, + "step": 3909 + }, + { + "avg_step_time": 5.797255874884249, + "epoch": 0.41696, + "eta_time": 8.802166836699252, + "step": 3909 + }, + { + "epoch": 0.41706666666666664, + "grad_norm": 1.5685282088623356, + "learning_rate": 6.5601920955553285e-06, + "loss": 0.5135, + "step": 3910 + }, + { + "avg_step_time": 5.799599820917303, + "epoch": 0.41706666666666664, + "eta_time": 8.804114728142517, + "step": 3910 + }, + { + "epoch": 0.41717333333333334, + "grad_norm": 1.7519274158716458, + "learning_rate": 6.558550777729962e-06, + "loss": 0.5297, + "step": 3911 + }, + { + "avg_step_time": 5.80148188273112, + "epoch": 0.41717333333333334, + "eta_time": 8.805360279789678, + "step": 3911 + }, + { + "epoch": 0.41728, + "grad_norm": 1.8832506851511506, + "learning_rate": 6.556909273864601e-06, + "loss": 0.4855, + "step": 3912 + }, + { + "avg_step_time": 5.803109412241464, + "epoch": 0.41728, + "eta_time": 8.806218533076422, + "step": 3912 + }, + { + "epoch": 0.4173866666666667, + "grad_norm": 1.8293055225005146, + "learning_rate": 6.555267584155188e-06, + "loss": 0.5506, + "step": 3913 + }, + { + "avg_step_time": 5.82272905291933, + "epoch": 0.4173866666666667, + "eta_time": 8.834373913068161, + "step": 3913 + }, + { + "epoch": 0.4174933333333333, + "grad_norm": 0.6601866056898985, + "learning_rate": 6.55362570879769e-06, + "loss": 0.4503, + "step": 3914 + }, + { + "avg_step_time": 5.7838635251979635, + "epoch": 0.4174933333333333, + "eta_time": 8.77379964197391, + "step": 3914 + }, + { + "epoch": 0.4176, + "grad_norm": 1.8716115274346534, + "learning_rate": 6.551983647988089e-06, + "loss": 0.4997, + "step": 3915 + }, + { + "avg_step_time": 5.778951372763123, + "epoch": 0.4176, + "eta_time": 8.764742915357402, + "step": 3915 + }, + { + "epoch": 0.41770666666666667, + "grad_norm": 1.8597410596492292, + "learning_rate": 6.550341401922395e-06, + "loss": 0.4598, + "step": 3916 + }, + { + "avg_step_time": 5.778248105386291, + "epoch": 0.41770666666666667, + "eta_time": 8.762071224251047, + "step": 3916 + }, + { + "epoch": 0.4178133333333333, + "grad_norm": 1.609983970707708, + "learning_rate": 6.548698970796641e-06, + "loss": 0.4273, + "step": 3917 + }, + { + "avg_step_time": 5.793587780962087, + "epoch": 0.4178133333333333, + "eta_time": 8.783722807914186, + "step": 3917 + }, + { + "epoch": 0.41792, + "grad_norm": 1.9361511715191526, + "learning_rate": 6.547056354806874e-06, + "loss": 0.4961, + "step": 3918 + }, + { + "avg_step_time": 5.776829339037038, + "epoch": 0.41792, + "eta_time": 8.75671047309031, + "step": 3918 + }, + { + "epoch": 0.41802666666666666, + "grad_norm": 0.6579836056622681, + "learning_rate": 6.545413554149175e-06, + "loss": 0.4543, + "step": 3919 + }, + { + "avg_step_time": 5.781774417318479, + "epoch": 0.41802666666666666, + "eta_time": 8.762600339136005, + "step": 3919 + }, + { + "epoch": 0.41813333333333336, + "grad_norm": 1.7527494191396027, + "learning_rate": 6.543770569019635e-06, + "loss": 0.4756, + "step": 3920 + }, + { + "avg_step_time": 5.783647115784462, + "epoch": 0.41813333333333336, + "eta_time": 8.763831949056733, + "step": 3920 + }, + { + "epoch": 0.41824, + "grad_norm": 1.9212373620368282, + "learning_rate": 6.542127399614376e-06, + "loss": 0.5045, + "step": 3921 + }, + { + "avg_step_time": 5.78333241530139, + "epoch": 0.41824, + "eta_time": 8.761748609181607, + "step": 3921 + }, + { + "epoch": 0.41834666666666664, + "grad_norm": 1.7473591990308248, + "learning_rate": 6.54048404612954e-06, + "loss": 0.4742, + "step": 3922 + }, + { + "avg_step_time": 5.781463367770416, + "epoch": 0.41834666666666664, + "eta_time": 8.757311040125579, + "step": 3922 + }, + { + "epoch": 0.41845333333333334, + "grad_norm": 1.7463877998137074, + "learning_rate": 6.538840508761286e-06, + "loss": 0.4797, + "step": 3923 + }, + { + "avg_step_time": 5.7711341019832725, + "epoch": 0.41845333333333334, + "eta_time": 8.740061978892445, + "step": 3923 + }, + { + "epoch": 0.41856, + "grad_norm": 1.54314948186704, + "learning_rate": 6.5371967877058e-06, + "loss": 0.5539, + "step": 3924 + }, + { + "avg_step_time": 5.765145879803282, + "epoch": 0.41856, + "eta_time": 8.729391719668802, + "step": 3924 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 1.932238283981291, + "learning_rate": 6.53555288315929e-06, + "loss": 0.5433, + "step": 3925 + }, + { + "avg_step_time": 5.771180957254737, + "epoch": 0.4186666666666667, + "eta_time": 8.736926726955089, + "step": 3925 + }, + { + "epoch": 0.41877333333333333, + "grad_norm": 1.737439789688683, + "learning_rate": 6.533908795317982e-06, + "loss": 0.536, + "step": 3926 + }, + { + "avg_step_time": 5.761056644747955, + "epoch": 0.41877333333333333, + "eta_time": 8.719999349231003, + "step": 3926 + }, + { + "epoch": 0.41888, + "grad_norm": 1.7668592233209464, + "learning_rate": 6.532264524378128e-06, + "loss": 0.5262, + "step": 3927 + }, + { + "avg_step_time": 5.761583807492497, + "epoch": 0.41888, + "eta_time": 8.71919682867198, + "step": 3927 + }, + { + "epoch": 0.4189866666666667, + "grad_norm": 2.150567611629938, + "learning_rate": 6.530620070536e-06, + "loss": 0.5612, + "step": 3928 + }, + { + "avg_step_time": 5.774765932198727, + "epoch": 0.4189866666666667, + "eta_time": 8.73754167574624, + "step": 3928 + }, + { + "epoch": 0.4190933333333333, + "grad_norm": 1.9192836717408188, + "learning_rate": 6.528975433987892e-06, + "loss": 0.499, + "step": 3929 + }, + { + "avg_step_time": 5.769561302782309, + "epoch": 0.4190933333333333, + "eta_time": 8.728064126375683, + "step": 3929 + }, + { + "epoch": 0.4192, + "grad_norm": 1.5966497652284466, + "learning_rate": 6.52733061493012e-06, + "loss": 0.5102, + "step": 3930 + }, + { + "avg_step_time": 5.758157544665867, + "epoch": 0.4192, + "eta_time": 8.709213286307124, + "step": 3930 + }, + { + "epoch": 0.41930666666666666, + "grad_norm": 0.6721550953754762, + "learning_rate": 6.52568561355902e-06, + "loss": 0.4513, + "step": 3931 + }, + { + "avg_step_time": 5.722686310007115, + "epoch": 0.41930666666666666, + "eta_time": 8.653973408799647, + "step": 3931 + }, + { + "epoch": 0.41941333333333336, + "grad_norm": 1.7618568108727448, + "learning_rate": 6.524040430070953e-06, + "loss": 0.5952, + "step": 3932 + }, + { + "avg_step_time": 5.728383950512819, + "epoch": 0.41941333333333336, + "eta_time": 8.660998289622576, + "step": 3932 + }, + { + "epoch": 0.41952, + "grad_norm": 1.7687510497243537, + "learning_rate": 6.522395064662299e-06, + "loss": 0.4958, + "step": 3933 + }, + { + "avg_step_time": 5.722126402036108, + "epoch": 0.41952, + "eta_time": 8.64994774441125, + "step": 3933 + }, + { + "epoch": 0.41962666666666665, + "grad_norm": 1.5463656499234792, + "learning_rate": 6.520749517529463e-06, + "loss": 0.4676, + "step": 3934 + }, + { + "avg_step_time": 5.724239961065427, + "epoch": 0.41962666666666665, + "eta_time": 8.651552674488052, + "step": 3934 + }, + { + "epoch": 0.41973333333333335, + "grad_norm": 1.8530465114523593, + "learning_rate": 6.519103788868866e-06, + "loss": 0.5224, + "step": 3935 + }, + { + "avg_step_time": 5.761520535054833, + "epoch": 0.41973333333333335, + "eta_time": 8.706297697416193, + "step": 3935 + }, + { + "epoch": 0.41984, + "grad_norm": 1.8723038246996482, + "learning_rate": 6.517457878876958e-06, + "loss": 0.5564, + "step": 3936 + }, + { + "avg_step_time": 5.760946420708088, + "epoch": 0.41984, + "eta_time": 8.703829883953135, + "step": 3936 + }, + { + "epoch": 0.4199466666666667, + "grad_norm": 1.691369939513888, + "learning_rate": 6.515811787750204e-06, + "loss": 0.4628, + "step": 3937 + }, + { + "avg_step_time": 5.767653279834324, + "epoch": 0.4199466666666667, + "eta_time": 8.71236070437196, + "step": 3937 + }, + { + "epoch": 0.42005333333333333, + "grad_norm": 0.6861309654682438, + "learning_rate": 6.5141655156850936e-06, + "loss": 0.4537, + "step": 3938 + }, + { + "avg_step_time": 5.720634226847177, + "epoch": 0.42005333333333333, + "eta_time": 8.639746747602251, + "step": 3938 + }, + { + "epoch": 0.42016, + "grad_norm": 1.5571591980530366, + "learning_rate": 6.512519062878142e-06, + "loss": 0.5068, + "step": 3939 + }, + { + "avg_step_time": 5.704422876088306, + "epoch": 0.42016, + "eta_time": 8.613678542893341, + "step": 3939 + }, + { + "epoch": 0.4202666666666667, + "grad_norm": 1.6382082398267956, + "learning_rate": 6.510872429525875e-06, + "loss": 0.3788, + "step": 3940 + }, + { + "avg_step_time": 5.708128086244217, + "epoch": 0.4202666666666667, + "eta_time": 8.617687819093701, + "step": 3940 + }, + { + "epoch": 0.4203733333333333, + "grad_norm": 1.6708071869658336, + "learning_rate": 6.509225615824851e-06, + "loss": 0.5323, + "step": 3941 + }, + { + "avg_step_time": 5.741603222760287, + "epoch": 0.4203733333333333, + "eta_time": 8.666631086799834, + "step": 3941 + }, + { + "epoch": 0.42048, + "grad_norm": 1.9025963079058053, + "learning_rate": 6.507578621971646e-06, + "loss": 0.4934, + "step": 3942 + }, + { + "avg_step_time": 5.739623621256665, + "epoch": 0.42048, + "eta_time": 8.662048648413183, + "step": 3942 + }, + { + "epoch": 0.42058666666666666, + "grad_norm": 1.8257160952862763, + "learning_rate": 6.505931448162857e-06, + "loss": 0.5096, + "step": 3943 + }, + { + "avg_step_time": 5.742211772937967, + "epoch": 0.42058666666666666, + "eta_time": 8.664359541833067, + "step": 3943 + }, + { + "epoch": 0.4206933333333333, + "grad_norm": 0.6558672007871487, + "learning_rate": 6.504284094595099e-06, + "loss": 0.4394, + "step": 3944 + }, + { + "avg_step_time": 5.7323257754547425, + "epoch": 0.4206933333333333, + "eta_time": 8.64785035735964, + "step": 3944 + }, + { + "epoch": 0.4208, + "grad_norm": 2.2404250765169875, + "learning_rate": 6.502636561465018e-06, + "loss": 0.5139, + "step": 3945 + }, + { + "avg_step_time": 5.76329858616145, + "epoch": 0.4208, + "eta_time": 8.692975367460187, + "step": 3945 + }, + { + "epoch": 0.42090666666666665, + "grad_norm": 1.6261642809136463, + "learning_rate": 6.500988848969271e-06, + "loss": 0.5022, + "step": 3946 + }, + { + "avg_step_time": 5.762002643912729, + "epoch": 0.42090666666666665, + "eta_time": 8.68942009827839, + "step": 3946 + }, + { + "epoch": 0.42101333333333335, + "grad_norm": 0.6466224988640015, + "learning_rate": 6.499340957304543e-06, + "loss": 0.4697, + "step": 3947 + }, + { + "avg_step_time": 5.728060194940278, + "epoch": 0.42101333333333335, + "eta_time": 8.636641871704397, + "step": 3947 + }, + { + "epoch": 0.42112, + "grad_norm": 1.6130131341661536, + "learning_rate": 6.497692886667537e-06, + "loss": 0.4264, + "step": 3948 + }, + { + "avg_step_time": 5.725347273277514, + "epoch": 0.42112, + "eta_time": 8.630961014465852, + "step": 3948 + }, + { + "epoch": 0.4212266666666667, + "grad_norm": 1.6598231183743077, + "learning_rate": 6.496044637254982e-06, + "loss": 0.4937, + "step": 3949 + }, + { + "avg_step_time": 5.683853455264159, + "epoch": 0.4212266666666667, + "eta_time": 8.566830235628702, + "step": 3949 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 1.9153726434694127, + "learning_rate": 6.4943962092636205e-06, + "loss": 0.5451, + "step": 3950 + }, + { + "avg_step_time": 5.7223652757779515, + "epoch": 0.42133333333333334, + "eta_time": 8.623286561415386, + "step": 3950 + }, + { + "epoch": 0.42144, + "grad_norm": 1.702329708873256, + "learning_rate": 6.492747602890223e-06, + "loss": 0.4475, + "step": 3951 + }, + { + "avg_step_time": 5.7429611779222585, + "epoch": 0.42144, + "eta_time": 8.652728174736204, + "step": 3951 + }, + { + "epoch": 0.4215466666666667, + "grad_norm": 2.0542417357184544, + "learning_rate": 6.4910988183315805e-06, + "loss": 0.5131, + "step": 3952 + }, + { + "avg_step_time": 5.7486565522473265, + "epoch": 0.4215466666666667, + "eta_time": 8.65971235634368, + "step": 3952 + }, + { + "epoch": 0.4216533333333333, + "grad_norm": 1.7460261712350718, + "learning_rate": 6.4894498557845035e-06, + "loss": 0.4854, + "step": 3953 + }, + { + "avg_step_time": 5.726233525709673, + "epoch": 0.4216533333333333, + "eta_time": 8.624343937888291, + "step": 3953 + }, + { + "epoch": 0.42176, + "grad_norm": 1.515757414929661, + "learning_rate": 6.487800715445822e-06, + "loss": 0.4698, + "step": 3954 + }, + { + "avg_step_time": 5.7290569098308834, + "epoch": 0.42176, + "eta_time": 8.627004863387006, + "step": 3954 + }, + { + "epoch": 0.42186666666666667, + "grad_norm": 1.6944806864184871, + "learning_rate": 6.486151397512391e-06, + "loss": 0.574, + "step": 3955 + }, + { + "avg_step_time": 5.709637049472693, + "epoch": 0.42186666666666667, + "eta_time": 8.596175780039443, + "step": 3955 + }, + { + "epoch": 0.4219733333333333, + "grad_norm": 2.1703072570460953, + "learning_rate": 6.484501902181086e-06, + "loss": 0.5491, + "step": 3956 + }, + { + "avg_step_time": 5.709705364824545, + "epoch": 0.4219733333333333, + "eta_time": 8.594692603328948, + "step": 3956 + }, + { + "epoch": 0.42208, + "grad_norm": 1.5999556729283055, + "learning_rate": 6.4828522296488014e-06, + "loss": 0.4281, + "step": 3957 + }, + { + "avg_step_time": 5.713610800829801, + "epoch": 0.42208, + "eta_time": 8.59898425524885, + "step": 3957 + }, + { + "epoch": 0.42218666666666665, + "grad_norm": 1.7385876105197788, + "learning_rate": 6.481202380112454e-06, + "loss": 0.4909, + "step": 3958 + }, + { + "avg_step_time": 5.715327156914605, + "epoch": 0.42218666666666665, + "eta_time": 8.59997978027956, + "step": 3958 + }, + { + "epoch": 0.42229333333333335, + "grad_norm": 1.7363260473296889, + "learning_rate": 6.479552353768986e-06, + "loss": 0.4478, + "step": 3959 + }, + { + "avg_step_time": 5.717169744799835, + "epoch": 0.42229333333333335, + "eta_time": 8.601164260509975, + "step": 3959 + }, + { + "epoch": 0.4224, + "grad_norm": 0.6431279061479745, + "learning_rate": 6.477902150815347e-06, + "loss": 0.4764, + "step": 3960 + }, + { + "avg_step_time": 5.683595110671689, + "epoch": 0.4224, + "eta_time": 8.549074312301999, + "step": 3960 + }, + { + "epoch": 0.42250666666666664, + "grad_norm": 1.6475863739080654, + "learning_rate": 6.4762517714485275e-06, + "loss": 0.4151, + "step": 3961 + }, + { + "avg_step_time": 5.714668440096306, + "epoch": 0.42250666666666664, + "eta_time": 8.594226370744833, + "step": 3961 + }, + { + "epoch": 0.42261333333333334, + "grad_norm": 1.7424932115646918, + "learning_rate": 6.474601215865523e-06, + "loss": 0.612, + "step": 3962 + }, + { + "avg_step_time": 5.71591525366812, + "epoch": 0.42261333333333334, + "eta_time": 8.59451368558487, + "step": 3962 + }, + { + "epoch": 0.42272, + "grad_norm": 0.6452934047505434, + "learning_rate": 6.472950484263359e-06, + "loss": 0.4401, + "step": 3963 + }, + { + "avg_step_time": 5.676288611961134, + "epoch": 0.42272, + "eta_time": 8.53335387998157, + "step": 3963 + }, + { + "epoch": 0.4228266666666667, + "grad_norm": 1.7796964238416626, + "learning_rate": 6.471299576839076e-06, + "loss": 0.5074, + "step": 3964 + }, + { + "avg_step_time": 5.674022313320275, + "epoch": 0.4228266666666667, + "eta_time": 8.528370760382225, + "step": 3964 + }, + { + "epoch": 0.42293333333333333, + "grad_norm": 0.632706741107245, + "learning_rate": 6.469648493789741e-06, + "loss": 0.4308, + "step": 3965 + }, + { + "avg_step_time": 5.664472269289421, + "epoch": 0.42293333333333333, + "eta_time": 8.512443049126603, + "step": 3965 + }, + { + "epoch": 0.42304, + "grad_norm": 1.5495332180797103, + "learning_rate": 6.467997235312437e-06, + "loss": 0.5171, + "step": 3966 + }, + { + "avg_step_time": 5.652043679747918, + "epoch": 0.42304, + "eta_time": 8.492195628821246, + "step": 3966 + }, + { + "epoch": 0.42314666666666667, + "grad_norm": 1.631953727844366, + "learning_rate": 6.466345801604272e-06, + "loss": 0.556, + "step": 3967 + }, + { + "avg_step_time": 5.646488131898822, + "epoch": 0.42314666666666667, + "eta_time": 8.482279949252453, + "step": 3967 + }, + { + "epoch": 0.4232533333333333, + "grad_norm": 2.0363000990314317, + "learning_rate": 6.464694192862372e-06, + "loss": 0.561, + "step": 3968 + }, + { + "avg_step_time": 5.647263919464265, + "epoch": 0.4232533333333333, + "eta_time": 8.481876670150912, + "step": 3968 + }, + { + "epoch": 0.42336, + "grad_norm": 1.4441877317161913, + "learning_rate": 6.463042409283885e-06, + "loss": 0.4389, + "step": 3969 + }, + { + "avg_step_time": 5.648557643697719, + "epoch": 0.42336, + "eta_time": 8.482250728286076, + "step": 3969 + }, + { + "epoch": 0.42346666666666666, + "grad_norm": 1.8335057383309892, + "learning_rate": 6.461390451065982e-06, + "loss": 0.4663, + "step": 3970 + }, + { + "avg_step_time": 5.647682211615822, + "epoch": 0.42346666666666666, + "eta_time": 8.479367320495422, + "step": 3970 + }, + { + "epoch": 0.42357333333333336, + "grad_norm": 0.654350956425418, + "learning_rate": 6.45973831840585e-06, + "loss": 0.4462, + "step": 3971 + }, + { + "avg_step_time": 5.613107601801555, + "epoch": 0.42357333333333336, + "eta_time": 8.425898188926556, + "step": 3971 + }, + { + "epoch": 0.42368, + "grad_norm": 1.8282989109634316, + "learning_rate": 6.458086011500703e-06, + "loss": 0.4671, + "step": 3972 + }, + { + "avg_step_time": 5.613444482437288, + "epoch": 0.42368, + "eta_time": 8.424844594057962, + "step": 3972 + }, + { + "epoch": 0.42378666666666664, + "grad_norm": 0.6330303379789178, + "learning_rate": 6.456433530547768e-06, + "loss": 0.4449, + "step": 3973 + }, + { + "avg_step_time": 5.577454068443992, + "epoch": 0.42378666666666664, + "eta_time": 8.369279688259569, + "step": 3973 + }, + { + "epoch": 0.42389333333333334, + "grad_norm": 1.9207160137324713, + "learning_rate": 6.4547808757442995e-06, + "loss": 0.521, + "step": 3974 + }, + { + "avg_step_time": 5.566074636247423, + "epoch": 0.42389333333333334, + "eta_time": 8.350658086214537, + "step": 3974 + }, + { + "epoch": 0.424, + "grad_norm": 1.6266800868711078, + "learning_rate": 6.453128047287573e-06, + "loss": 0.4731, + "step": 3975 + }, + { + "avg_step_time": 5.5593747105261295, + "epoch": 0.424, + "eta_time": 8.339062065789195, + "step": 3975 + }, + { + "epoch": 0.4241066666666667, + "grad_norm": 1.9617483915922795, + "learning_rate": 6.451475045374877e-06, + "loss": 0.5496, + "step": 3976 + }, + { + "avg_step_time": 5.534819959390043, + "epoch": 0.4241066666666667, + "eta_time": 8.300692489096345, + "step": 3976 + }, + { + "epoch": 0.42421333333333333, + "grad_norm": 1.7357848098478117, + "learning_rate": 6.449821870203529e-06, + "loss": 0.4354, + "step": 3977 + }, + { + "avg_step_time": 5.4473149607879945, + "epoch": 0.42421333333333333, + "eta_time": 8.167946155092665, + "step": 3977 + }, + { + "epoch": 0.42432, + "grad_norm": 1.5884402539069336, + "learning_rate": 6.448168521970865e-06, + "loss": 0.4699, + "step": 3978 + }, + { + "avg_step_time": 5.4809952456541735, + "epoch": 0.42432, + "eta_time": 8.216925372443216, + "step": 3978 + }, + { + "epoch": 0.4244266666666667, + "grad_norm": 1.9117132457653072, + "learning_rate": 6.4465150008742365e-06, + "loss": 0.5143, + "step": 3979 + }, + { + "avg_step_time": 5.4825241999192675, + "epoch": 0.4244266666666667, + "eta_time": 8.217694606323436, + "step": 3979 + }, + { + "epoch": 0.4245333333333333, + "grad_norm": 1.7579652068078722, + "learning_rate": 6.444861307111023e-06, + "loss": 0.4826, + "step": 3980 + }, + { + "avg_step_time": 5.481367852952745, + "epoch": 0.4245333333333333, + "eta_time": 8.214438768522239, + "step": 3980 + }, + { + "epoch": 0.42464, + "grad_norm": 0.6747837792884469, + "learning_rate": 6.443207440878624e-06, + "loss": 0.4445, + "step": 3981 + }, + { + "avg_step_time": 5.446011654054276, + "epoch": 0.42464, + "eta_time": 8.159940794991323, + "step": 3981 + }, + { + "epoch": 0.42474666666666666, + "grad_norm": 1.7994628984060326, + "learning_rate": 6.441553402374451e-06, + "loss": 0.5028, + "step": 3982 + }, + { + "avg_step_time": 5.44574153062069, + "epoch": 0.42474666666666666, + "eta_time": 8.15802335406594, + "step": 3982 + }, + { + "epoch": 0.42485333333333336, + "grad_norm": 0.6961967662906093, + "learning_rate": 6.439899191795946e-06, + "loss": 0.4475, + "step": 3983 + }, + { + "avg_step_time": 5.4076337164098565, + "epoch": 0.42485333333333336, + "eta_time": 8.09943361080054, + "step": 3983 + }, + { + "epoch": 0.42496, + "grad_norm": 1.8753735197553785, + "learning_rate": 6.438244809340568e-06, + "loss": 0.5311, + "step": 3984 + }, + { + "avg_step_time": 5.4445186600540625, + "epoch": 0.42496, + "eta_time": 8.15316669343096, + "step": 3984 + }, + { + "epoch": 0.42506666666666665, + "grad_norm": 1.4516168277509904, + "learning_rate": 6.4365902552057945e-06, + "loss": 0.3945, + "step": 3985 + }, + { + "avg_step_time": 5.499348556152498, + "epoch": 0.42506666666666665, + "eta_time": 8.233746866017212, + "step": 3985 + }, + { + "epoch": 0.42517333333333335, + "grad_norm": 1.9769096935582047, + "learning_rate": 6.4349355295891246e-06, + "loss": 0.5575, + "step": 3986 + }, + { + "avg_step_time": 5.529662040748981, + "epoch": 0.42517333333333335, + "eta_time": 8.277596871554517, + "step": 3986 + }, + { + "epoch": 0.42528, + "grad_norm": 1.6904353258248048, + "learning_rate": 6.43328063268808e-06, + "loss": 0.5254, + "step": 3987 + }, + { + "avg_step_time": 5.532989516402736, + "epoch": 0.42528, + "eta_time": 8.281040976216095, + "step": 3987 + }, + { + "epoch": 0.4253866666666667, + "grad_norm": 1.4672740103986208, + "learning_rate": 6.431625564700201e-06, + "loss": 0.3566, + "step": 3988 + }, + { + "avg_step_time": 5.575969854990642, + "epoch": 0.4253866666666667, + "eta_time": 8.343819335787385, + "step": 3988 + }, + { + "epoch": 0.42549333333333333, + "grad_norm": 2.124947720399452, + "learning_rate": 6.4299703258230485e-06, + "loss": 0.586, + "step": 3989 + }, + { + "avg_step_time": 5.575297945677632, + "epoch": 0.42549333333333333, + "eta_time": 8.341265204283257, + "step": 3989 + }, + { + "epoch": 0.4256, + "grad_norm": 1.7451296192406158, + "learning_rate": 6.428314916254203e-06, + "loss": 0.4631, + "step": 3990 + }, + { + "avg_step_time": 5.562539762920803, + "epoch": 0.4256, + "eta_time": 8.320632395369035, + "step": 3990 + }, + { + "epoch": 0.4257066666666667, + "grad_norm": 1.8981881913515022, + "learning_rate": 6.4266593361912665e-06, + "loss": 0.4509, + "step": 3991 + }, + { + "avg_step_time": 5.482451583399917, + "epoch": 0.4257066666666667, + "eta_time": 8.199310923618098, + "step": 3991 + }, + { + "epoch": 0.4258133333333333, + "grad_norm": 1.8379744956474608, + "learning_rate": 6.4250035858318635e-06, + "loss": 0.5233, + "step": 3992 + }, + { + "avg_step_time": 5.478584761571402, + "epoch": 0.4258133333333333, + "eta_time": 8.192006047649683, + "step": 3992 + }, + { + "epoch": 0.42592, + "grad_norm": 2.081211777048781, + "learning_rate": 6.423347665373633e-06, + "loss": 0.5363, + "step": 3993 + }, + { + "avg_step_time": 5.482750834840717, + "epoch": 0.42592, + "eta_time": 8.196712498086873, + "step": 3993 + }, + { + "epoch": 0.42602666666666666, + "grad_norm": 0.6520772205025179, + "learning_rate": 6.42169157501424e-06, + "loss": 0.4633, + "step": 3994 + }, + { + "avg_step_time": 5.448584891328908, + "epoch": 0.42602666666666666, + "eta_time": 8.14412091673357, + "step": 3994 + }, + { + "epoch": 0.4261333333333333, + "grad_norm": 1.5551372518286786, + "learning_rate": 6.4200353149513674e-06, + "loss": 0.5057, + "step": 3995 + }, + { + "avg_step_time": 5.455332650078668, + "epoch": 0.4261333333333333, + "eta_time": 8.152691571506454, + "step": 3995 + }, + { + "epoch": 0.42624, + "grad_norm": 1.498086229386793, + "learning_rate": 6.418378885382716e-06, + "loss": 0.3894, + "step": 3996 + }, + { + "avg_step_time": 5.473414356058294, + "epoch": 0.42624, + "eta_time": 8.178193283677102, + "step": 3996 + }, + { + "epoch": 0.42634666666666665, + "grad_norm": 1.5913886039032985, + "learning_rate": 6.416722286506013e-06, + "loss": 0.5157, + "step": 3997 + }, + { + "avg_step_time": 5.560696729505905, + "epoch": 0.42634666666666665, + "eta_time": 8.307063058689653, + "step": 3997 + }, + { + "epoch": 0.42645333333333335, + "grad_norm": 0.6763681915710468, + "learning_rate": 6.415065518519e-06, + "loss": 0.4756, + "step": 3998 + }, + { + "avg_step_time": 5.561971606630268, + "epoch": 0.42645333333333335, + "eta_time": 8.307422591347486, + "step": 3998 + }, + { + "epoch": 0.42656, + "grad_norm": 1.814437239629471, + "learning_rate": 6.41340858161944e-06, + "loss": 0.4189, + "step": 3999 + }, + { + "avg_step_time": 5.570196346803145, + "epoch": 0.42656, + "eta_time": 8.318159877892695, + "step": 3999 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 1.645962076767183, + "learning_rate": 6.411751476005119e-06, + "loss": 0.4803, + "step": 4000 + }, + { + "avg_step_time": 5.5692565152139375, + "epoch": 0.4266666666666667, + "eta_time": 8.315209380354142, + "step": 4000 + }, + { + "epoch": 0.42677333333333334, + "grad_norm": 2.0550381941481293, + "learning_rate": 6.410094201873842e-06, + "loss": 0.5852, + "step": 4001 + }, + { + "avg_step_time": 5.577463735233653, + "epoch": 0.42677333333333334, + "eta_time": 8.325913920318238, + "step": 4001 + }, + { + "epoch": 0.42688, + "grad_norm": 1.6754938254135225, + "learning_rate": 6.408436759423431e-06, + "loss": 0.4862, + "step": 4002 + }, + { + "avg_step_time": 5.587491206448488, + "epoch": 0.42688, + "eta_time": 8.339330625624367, + "step": 4002 + }, + { + "epoch": 0.4269866666666667, + "grad_norm": 1.7998815382146223, + "learning_rate": 6.406779148851731e-06, + "loss": 0.5521, + "step": 4003 + }, + { + "avg_step_time": 5.589475643755209, + "epoch": 0.4269866666666667, + "eta_time": 8.340739766181384, + "step": 4003 + }, + { + "epoch": 0.4270933333333333, + "grad_norm": 1.8601926278882954, + "learning_rate": 6.405121370356606e-06, + "loss": 0.5428, + "step": 4004 + }, + { + "avg_step_time": 5.594803499452995, + "epoch": 0.4270933333333333, + "eta_time": 8.347135998767232, + "step": 4004 + }, + { + "epoch": 0.4272, + "grad_norm": 1.9688487721574606, + "learning_rate": 6.403463424135943e-06, + "loss": 0.6594, + "step": 4005 + }, + { + "avg_step_time": 5.593204835448602, + "epoch": 0.4272, + "eta_time": 8.343197212877499, + "step": 4005 + }, + { + "epoch": 0.42730666666666667, + "grad_norm": 2.1950623661817943, + "learning_rate": 6.401805310387644e-06, + "loss": 0.5322, + "step": 4006 + }, + { + "avg_step_time": 5.592929194671939, + "epoch": 0.42730666666666667, + "eta_time": 8.34123245727601, + "step": 4006 + }, + { + "epoch": 0.4274133333333333, + "grad_norm": 1.687482279265714, + "learning_rate": 6.400147029309635e-06, + "loss": 0.5074, + "step": 4007 + }, + { + "avg_step_time": 5.591673260987407, + "epoch": 0.4274133333333333, + "eta_time": 8.337806129161223, + "step": 4007 + }, + { + "epoch": 0.42752, + "grad_norm": 1.9059821213408223, + "learning_rate": 6.398488581099859e-06, + "loss": 0.5173, + "step": 4008 + }, + { + "avg_step_time": 5.576561383526735, + "epoch": 0.42752, + "eta_time": 8.313723595941108, + "step": 4008 + }, + { + "epoch": 0.42762666666666665, + "grad_norm": 1.7928693455142701, + "learning_rate": 6.396829965956283e-06, + "loss": 0.4892, + "step": 4009 + }, + { + "avg_step_time": 5.5767098051128965, + "epoch": 0.42762666666666665, + "eta_time": 8.312395781732167, + "step": 4009 + }, + { + "epoch": 0.42773333333333335, + "grad_norm": 1.7160676753772197, + "learning_rate": 6.395171184076889e-06, + "loss": 0.4413, + "step": 4010 + }, + { + "avg_step_time": 5.581223261476767, + "epoch": 0.42773333333333335, + "eta_time": 8.317572999395237, + "step": 4010 + }, + { + "epoch": 0.42784, + "grad_norm": 1.9517043796208868, + "learning_rate": 6.393512235659681e-06, + "loss": 0.4573, + "step": 4011 + }, + { + "avg_step_time": 5.579902309359926, + "epoch": 0.42784, + "eta_time": 8.31405444094629, + "step": 4011 + }, + { + "epoch": 0.42794666666666664, + "grad_norm": 0.6793701763959044, + "learning_rate": 6.391853120902687e-06, + "loss": 0.4573, + "step": 4012 + }, + { + "avg_step_time": 5.545474245090677, + "epoch": 0.42794666666666664, + "eta_time": 8.261216215672583, + "step": 4012 + }, + { + "epoch": 0.42805333333333334, + "grad_norm": 1.816205166587748, + "learning_rate": 6.390193840003945e-06, + "loss": 0.3933, + "step": 4013 + }, + { + "avg_step_time": 5.582741048600939, + "epoch": 0.42805333333333334, + "eta_time": 8.31518263961062, + "step": 4013 + }, + { + "epoch": 0.42816, + "grad_norm": 1.859495141129021, + "learning_rate": 6.388534393161525e-06, + "loss": 0.5209, + "step": 4014 + }, + { + "avg_step_time": 5.585890543581259, + "epoch": 0.42816, + "eta_time": 8.318322001149758, + "step": 4014 + }, + { + "epoch": 0.4282666666666667, + "grad_norm": 0.6437888611197391, + "learning_rate": 6.3868747805735084e-06, + "loss": 0.4568, + "step": 4015 + }, + { + "avg_step_time": 5.550211371797504, + "epoch": 0.4282666666666667, + "eta_time": 8.263648042454061, + "step": 4015 + }, + { + "epoch": 0.42837333333333333, + "grad_norm": 1.6496665633464087, + "learning_rate": 6.385215002437997e-06, + "loss": 0.5202, + "step": 4016 + }, + { + "avg_step_time": 5.535616665175467, + "epoch": 0.42837333333333333, + "eta_time": 8.240380474632035, + "step": 4016 + }, + { + "epoch": 0.42848, + "grad_norm": 1.819238308375985, + "learning_rate": 6.383555058953115e-06, + "loss": 0.5058, + "step": 4017 + }, + { + "avg_step_time": 5.5476627783341845, + "epoch": 0.42848, + "eta_time": 8.256771435087378, + "step": 4017 + }, + { + "epoch": 0.42858666666666667, + "grad_norm": 1.959879024130191, + "learning_rate": 6.381894950317006e-06, + "loss": 0.5065, + "step": 4018 + }, + { + "avg_step_time": 5.577285667862555, + "epoch": 0.42858666666666667, + "eta_time": 8.299310922983253, + "step": 4018 + }, + { + "epoch": 0.4286933333333333, + "grad_norm": 1.7221657430846284, + "learning_rate": 6.380234676727832e-06, + "loss": 0.4707, + "step": 4019 + }, + { + "avg_step_time": 5.578256366228817, + "epoch": 0.4286933333333333, + "eta_time": 8.299205860422651, + "step": 4019 + }, + { + "epoch": 0.4288, + "grad_norm": 0.6832409579609346, + "learning_rate": 6.378574238383776e-06, + "loss": 0.4466, + "step": 4020 + }, + { + "avg_step_time": 5.542640462066188, + "epoch": 0.4288, + "eta_time": 8.244677687323456, + "step": 4020 + }, + { + "epoch": 0.42890666666666666, + "grad_norm": 1.8363588319556439, + "learning_rate": 6.3769136354830395e-06, + "loss": 0.5411, + "step": 4021 + }, + { + "avg_step_time": 5.542917359958995, + "epoch": 0.42890666666666666, + "eta_time": 8.24354987367235, + "step": 4021 + }, + { + "epoch": 0.42901333333333336, + "grad_norm": 1.6884045042572327, + "learning_rate": 6.375252868223845e-06, + "loss": 0.4831, + "step": 4022 + }, + { + "avg_step_time": 5.539869826249402, + "epoch": 0.42901333333333336, + "eta_time": 8.237478661086957, + "step": 4022 + }, + { + "epoch": 0.42912, + "grad_norm": 0.6569342433329822, + "learning_rate": 6.373591936804433e-06, + "loss": 0.4566, + "step": 4023 + }, + { + "avg_step_time": 5.503437786391287, + "epoch": 0.42912, + "eta_time": 8.181777509101714, + "step": 4023 + }, + { + "epoch": 0.42922666666666665, + "grad_norm": 1.612859331822889, + "learning_rate": 6.3719308414230645e-06, + "loss": 0.4355, + "step": 4024 + }, + { + "avg_step_time": 5.4993992116716175, + "epoch": 0.42922666666666665, + "eta_time": 8.174245883793008, + "step": 4024 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 0.6477493947116247, + "learning_rate": 6.3702695822780206e-06, + "loss": 0.4476, + "step": 4025 + }, + { + "avg_step_time": 5.4621000434413105, + "epoch": 0.42933333333333334, + "eta_time": 8.117287564558614, + "step": 4025 + }, + { + "epoch": 0.42944, + "grad_norm": 0.6466514648317028, + "learning_rate": 6.3686081595676e-06, + "loss": 0.4219, + "step": 4026 + }, + { + "avg_step_time": 5.429058619219847, + "epoch": 0.42944, + "eta_time": 8.06667626505749, + "step": 4026 + }, + { + "epoch": 0.4295466666666667, + "grad_norm": 1.8626244747297456, + "learning_rate": 6.366946573490124e-06, + "loss": 0.5616, + "step": 4027 + }, + { + "avg_step_time": 5.416905805318042, + "epoch": 0.4295466666666667, + "eta_time": 8.047114513011358, + "step": 4027 + }, + { + "epoch": 0.42965333333333333, + "grad_norm": 1.8004597668489366, + "learning_rate": 6.365284824243929e-06, + "loss": 0.4957, + "step": 4028 + }, + { + "avg_step_time": 5.414787533307316, + "epoch": 0.42965333333333333, + "eta_time": 8.042463594609506, + "step": 4028 + }, + { + "epoch": 0.42976, + "grad_norm": 1.7390425024380904, + "learning_rate": 6.3636229120273766e-06, + "loss": 0.5051, + "step": 4029 + }, + { + "avg_step_time": 5.405443242101958, + "epoch": 0.42976, + "eta_time": 8.027083214521408, + "step": 4029 + }, + { + "epoch": 0.4298666666666667, + "grad_norm": 1.5878922419523231, + "learning_rate": 6.361960837038842e-06, + "loss": 0.4632, + "step": 4030 + }, + { + "avg_step_time": 5.44262782250992, + "epoch": 0.4298666666666667, + "eta_time": 8.080790475365422, + "step": 4030 + }, + { + "epoch": 0.4299733333333333, + "grad_norm": 1.777029122568992, + "learning_rate": 6.360298599476727e-06, + "loss": 0.4594, + "step": 4031 + }, + { + "avg_step_time": 5.437236116390036, + "epoch": 0.4299733333333333, + "eta_time": 8.071274946107875, + "step": 4031 + }, + { + "epoch": 0.43008, + "grad_norm": 0.6197341975853525, + "learning_rate": 6.3586361995394415e-06, + "loss": 0.4357, + "step": 4032 + }, + { + "avg_step_time": 5.403099999283299, + "epoch": 0.43008, + "eta_time": 8.019100915602962, + "step": 4032 + }, + { + "epoch": 0.43018666666666666, + "grad_norm": 1.7640819066160816, + "learning_rate": 6.356973637425427e-06, + "loss": 0.4791, + "step": 4033 + }, + { + "avg_step_time": 5.424100897528908, + "epoch": 0.43018666666666666, + "eta_time": 8.048763054055396, + "step": 4033 + }, + { + "epoch": 0.43029333333333336, + "grad_norm": 2.0438966364224487, + "learning_rate": 6.355310913333139e-06, + "loss": 0.5108, + "step": 4034 + }, + { + "avg_step_time": 5.422316363363555, + "epoch": 0.43029333333333336, + "eta_time": 8.044608804645764, + "step": 4034 + }, + { + "epoch": 0.4304, + "grad_norm": 1.7102309745794586, + "learning_rate": 6.353648027461048e-06, + "loss": 0.4817, + "step": 4035 + }, + { + "avg_step_time": 5.428071320658982, + "epoch": 0.4304, + "eta_time": 8.051639125644158, + "step": 4035 + }, + { + "epoch": 0.43050666666666665, + "grad_norm": 1.735554556428794, + "learning_rate": 6.351984980007653e-06, + "loss": 0.5074, + "step": 4036 + }, + { + "avg_step_time": 5.421554693067916, + "epoch": 0.43050666666666665, + "eta_time": 8.040466807302668, + "step": 4036 + }, + { + "epoch": 0.43061333333333335, + "grad_norm": 1.8874968690934255, + "learning_rate": 6.350321771171467e-06, + "loss": 0.3809, + "step": 4037 + }, + { + "avg_step_time": 5.467530000089395, + "epoch": 0.43061333333333335, + "eta_time": 8.107131983465887, + "step": 4037 + }, + { + "epoch": 0.43072, + "grad_norm": 1.573529899710532, + "learning_rate": 6.348658401151018e-06, + "loss": 0.4892, + "step": 4038 + }, + { + "avg_step_time": 5.466220407774954, + "epoch": 0.43072, + "eta_time": 8.103671754526369, + "step": 4038 + }, + { + "epoch": 0.4308266666666667, + "grad_norm": 0.6320992561723069, + "learning_rate": 6.3469948701448644e-06, + "loss": 0.4395, + "step": 4039 + }, + { + "avg_step_time": 5.42991422884392, + "epoch": 0.4308266666666667, + "eta_time": 8.048339534753099, + "step": 4039 + }, + { + "epoch": 0.43093333333333333, + "grad_norm": 1.6153951101365425, + "learning_rate": 6.345331178351572e-06, + "loss": 0.3849, + "step": 4040 + }, + { + "avg_step_time": 5.444901789077605, + "epoch": 0.43093333333333333, + "eta_time": 8.069041956869173, + "step": 4040 + }, + { + "epoch": 0.43104, + "grad_norm": 1.8301234705456155, + "learning_rate": 6.343667325969736e-06, + "loss": 0.4767, + "step": 4041 + }, + { + "avg_step_time": 5.444599573058311, + "epoch": 0.43104, + "eta_time": 8.067081700748064, + "step": 4041 + }, + { + "epoch": 0.4311466666666667, + "grad_norm": 1.906442732034502, + "learning_rate": 6.342003313197962e-06, + "loss": 0.4752, + "step": 4042 + }, + { + "avg_step_time": 5.440754989180902, + "epoch": 0.4311466666666667, + "eta_time": 8.059873988139374, + "step": 4042 + }, + { + "epoch": 0.4312533333333333, + "grad_norm": 1.9115800438187318, + "learning_rate": 6.340339140234882e-06, + "loss": 0.4836, + "step": 4043 + }, + { + "avg_step_time": 5.4557824833224515, + "epoch": 0.4312533333333333, + "eta_time": 8.080620055854254, + "step": 4043 + }, + { + "epoch": 0.43136, + "grad_norm": 2.182489644152302, + "learning_rate": 6.3386748072791395e-06, + "loss": 0.504, + "step": 4044 + }, + { + "avg_step_time": 5.458435578779741, + "epoch": 0.43136, + "eta_time": 8.083033352909666, + "step": 4044 + }, + { + "epoch": 0.43146666666666667, + "grad_norm": 2.116297933066469, + "learning_rate": 6.3370103145294045e-06, + "loss": 0.5698, + "step": 4045 + }, + { + "avg_step_time": 5.460159740062675, + "epoch": 0.43146666666666667, + "eta_time": 8.084069837370572, + "step": 4045 + }, + { + "epoch": 0.4315733333333333, + "grad_norm": 0.673561781582765, + "learning_rate": 6.3353456621843635e-06, + "loss": 0.4633, + "step": 4046 + }, + { + "avg_step_time": 5.454986129144226, + "epoch": 0.4315733333333333, + "eta_time": 8.074894745058216, + "step": 4046 + }, + { + "epoch": 0.43168, + "grad_norm": 1.7752837901166998, + "learning_rate": 6.33368085044272e-06, + "loss": 0.6123, + "step": 4047 + }, + { + "avg_step_time": 5.453997525301847, + "epoch": 0.43168, + "eta_time": 8.071916337446734, + "step": 4047 + }, + { + "epoch": 0.43178666666666665, + "grad_norm": 1.7662469248327488, + "learning_rate": 6.332015879503198e-06, + "loss": 0.5695, + "step": 4048 + }, + { + "avg_step_time": 5.459233823448721, + "epoch": 0.43178666666666665, + "eta_time": 8.07814960486426, + "step": 4048 + }, + { + "epoch": 0.43189333333333335, + "grad_norm": 1.545155453226525, + "learning_rate": 6.330350749564542e-06, + "loss": 0.4699, + "step": 4049 + }, + { + "avg_step_time": 5.456166168656012, + "epoch": 0.43189333333333335, + "eta_time": 8.072094726183867, + "step": 4049 + }, + { + "epoch": 0.432, + "grad_norm": 2.0682052045665364, + "learning_rate": 6.328685460825512e-06, + "loss": 0.5341, + "step": 4050 + }, + { + "avg_step_time": 5.434521542655097, + "epoch": 0.432, + "eta_time": 8.03856311517733, + "step": 4050 + }, + { + "epoch": 0.43210666666666664, + "grad_norm": 2.024950951763855, + "learning_rate": 6.327020013484893e-06, + "loss": 0.5196, + "step": 4051 + }, + { + "avg_step_time": 5.431721155089561, + "epoch": 0.43210666666666664, + "eta_time": 8.032912063804673, + "step": 4051 + }, + { + "epoch": 0.43221333333333334, + "grad_norm": 2.003775439453081, + "learning_rate": 6.32535440774148e-06, + "loss": 0.586, + "step": 4052 + }, + { + "avg_step_time": 5.425460682974921, + "epoch": 0.43221333333333334, + "eta_time": 8.022146448743197, + "step": 4052 + }, + { + "epoch": 0.43232, + "grad_norm": 1.6322744236359727, + "learning_rate": 6.323688643794094e-06, + "loss": 0.5214, + "step": 4053 + }, + { + "avg_step_time": 5.42233935991923, + "epoch": 0.43232, + "eta_time": 8.01602502041393, + "step": 4053 + }, + { + "epoch": 0.4324266666666667, + "grad_norm": 1.8788515027888668, + "learning_rate": 6.322022721841574e-06, + "loss": 0.453, + "step": 4054 + }, + { + "avg_step_time": 5.4202832043772995, + "epoch": 0.4324266666666667, + "eta_time": 8.011479702914336, + "step": 4054 + }, + { + "epoch": 0.4325333333333333, + "grad_norm": 1.7059526517716155, + "learning_rate": 6.320356642082774e-06, + "loss": 0.4843, + "step": 4055 + }, + { + "avg_step_time": 5.4200030336476335, + "epoch": 0.4325333333333333, + "eta_time": 8.009560038612614, + "step": 4055 + }, + { + "epoch": 0.43264, + "grad_norm": 1.7959074793911554, + "learning_rate": 6.318690404716572e-06, + "loss": 0.4675, + "step": 4056 + }, + { + "avg_step_time": 5.419179723720358, + "epoch": 0.43264, + "eta_time": 8.00683804179683, + "step": 4056 + }, + { + "epoch": 0.43274666666666667, + "grad_norm": 1.827390779307905, + "learning_rate": 6.31702400994186e-06, + "loss": 0.4104, + "step": 4057 + }, + { + "avg_step_time": 5.422905168148002, + "epoch": 0.43274666666666667, + "eta_time": 8.010836023391965, + "step": 4057 + }, + { + "epoch": 0.4328533333333333, + "grad_norm": 2.14640628423925, + "learning_rate": 6.315357457957553e-06, + "loss": 0.5347, + "step": 4058 + }, + { + "avg_step_time": 5.422959710612441, + "epoch": 0.4328533333333333, + "eta_time": 8.009410217035098, + "step": 4058 + }, + { + "epoch": 0.43296, + "grad_norm": 1.6227971251965683, + "learning_rate": 6.313690748962582e-06, + "loss": 0.522, + "step": 4059 + }, + { + "avg_step_time": 5.463686981586495, + "epoch": 0.43296, + "eta_time": 8.068044442809391, + "step": 4059 + }, + { + "epoch": 0.43306666666666666, + "grad_norm": 1.6228675358291713, + "learning_rate": 6.312023883155897e-06, + "loss": 0.6155, + "step": 4060 + }, + { + "avg_step_time": 5.46834907628069, + "epoch": 0.43306666666666666, + "eta_time": 8.07340981678663, + "step": 4060 + }, + { + "epoch": 0.43317333333333335, + "grad_norm": 1.976331247801335, + "learning_rate": 6.310356860736468e-06, + "loss": 0.5286, + "step": 4061 + }, + { + "avg_step_time": 5.465575251916443, + "epoch": 0.43317333333333335, + "eta_time": 8.067796357967772, + "step": 4061 + }, + { + "epoch": 0.43328, + "grad_norm": 1.9659774859257462, + "learning_rate": 6.3086896819032814e-06, + "loss": 0.5653, + "step": 4062 + }, + { + "avg_step_time": 5.522261845945108, + "epoch": 0.43328, + "eta_time": 8.149938107640656, + "step": 4062 + }, + { + "epoch": 0.43338666666666664, + "grad_norm": 1.7151087531958995, + "learning_rate": 6.307022346855347e-06, + "loss": 0.5222, + "step": 4063 + }, + { + "avg_step_time": 5.520202499447447, + "epoch": 0.43338666666666664, + "eta_time": 8.145365465851343, + "step": 4063 + }, + { + "epoch": 0.43349333333333334, + "grad_norm": 1.8555800397632567, + "learning_rate": 6.305354855791688e-06, + "loss": 0.4899, + "step": 4064 + }, + { + "avg_step_time": 5.56892201153919, + "epoch": 0.43349333333333334, + "eta_time": 8.215706889801288, + "step": 4064 + }, + { + "epoch": 0.4336, + "grad_norm": 1.8438400388381742, + "learning_rate": 6.303687208911348e-06, + "loss": 0.5364, + "step": 4065 + }, + { + "avg_step_time": 5.56712075435754, + "epoch": 0.4336, + "eta_time": 8.211503112677372, + "step": 4065 + }, + { + "epoch": 0.4337066666666667, + "grad_norm": 1.7295475434635588, + "learning_rate": 6.30201940641339e-06, + "loss": 0.4148, + "step": 4066 + }, + { + "avg_step_time": 5.562926263520212, + "epoch": 0.4337066666666667, + "eta_time": 8.20377098139689, + "step": 4066 + }, + { + "epoch": 0.43381333333333333, + "grad_norm": 0.6218903676263744, + "learning_rate": 6.300351448496894e-06, + "loss": 0.4272, + "step": 4067 + }, + { + "avg_step_time": 5.5256300670932035, + "epoch": 0.43381333333333333, + "eta_time": 8.147234554480757, + "step": 4067 + }, + { + "epoch": 0.43392, + "grad_norm": 2.147554345857786, + "learning_rate": 6.298683335360962e-06, + "loss": 0.6314, + "step": 4068 + }, + { + "avg_step_time": 5.5252354096884675, + "epoch": 0.43392, + "eta_time": 8.145117866449082, + "step": 4068 + }, + { + "epoch": 0.43402666666666667, + "grad_norm": 1.5178005932055445, + "learning_rate": 6.2970150672047115e-06, + "loss": 0.4356, + "step": 4069 + }, + { + "avg_step_time": 5.52556606735846, + "epoch": 0.43402666666666667, + "eta_time": 8.144070431501108, + "step": 4069 + }, + { + "epoch": 0.4341333333333333, + "grad_norm": 1.766984924497747, + "learning_rate": 6.295346644227278e-06, + "loss": 0.501, + "step": 4070 + }, + { + "avg_step_time": 5.560617930961378, + "epoch": 0.4341333333333333, + "eta_time": 8.194188367708364, + "step": 4070 + }, + { + "epoch": 0.43424, + "grad_norm": 0.7112574419495731, + "learning_rate": 6.293678066627816e-06, + "loss": 0.463, + "step": 4071 + }, + { + "avg_step_time": 5.525798306320652, + "epoch": 0.43424, + "eta_time": 8.141342837979094, + "step": 4071 + }, + { + "epoch": 0.43434666666666666, + "grad_norm": 2.4174081497279043, + "learning_rate": 6.292009334605501e-06, + "loss": 0.5331, + "step": 4072 + }, + { + "avg_step_time": 5.558917079309021, + "epoch": 0.43434666666666666, + "eta_time": 8.188593686548817, + "step": 4072 + }, + { + "epoch": 0.43445333333333336, + "grad_norm": 1.8680930228750576, + "learning_rate": 6.290340448359526e-06, + "loss": 0.5499, + "step": 4073 + }, + { + "avg_step_time": 5.5632888018482864, + "epoch": 0.43445333333333336, + "eta_time": 8.193488118722115, + "step": 4073 + }, + { + "epoch": 0.43456, + "grad_norm": 1.9844019812912879, + "learning_rate": 6.288671408089098e-06, + "loss": 0.6007, + "step": 4074 + }, + { + "avg_step_time": 5.56816083253032, + "epoch": 0.43456, + "eta_time": 8.199116825900896, + "step": 4074 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 1.7164209740223078, + "learning_rate": 6.287002213993446e-06, + "loss": 0.409, + "step": 4075 + }, + { + "avg_step_time": 5.570497011897539, + "epoch": 0.43466666666666665, + "eta_time": 8.201009489738045, + "step": 4075 + }, + { + "epoch": 0.43477333333333334, + "grad_norm": 1.6931493005179457, + "learning_rate": 6.2853328662718215e-06, + "loss": 0.47, + "step": 4076 + }, + { + "avg_step_time": 5.574617267859103, + "epoch": 0.43477333333333334, + "eta_time": 8.205526917329275, + "step": 4076 + }, + { + "epoch": 0.43488, + "grad_norm": 1.658495184894354, + "learning_rate": 6.283663365123486e-06, + "loss": 0.5438, + "step": 4077 + }, + { + "avg_step_time": 5.582350769428292, + "epoch": 0.43488, + "eta_time": 8.215359549008635, + "step": 4077 + }, + { + "epoch": 0.4349866666666667, + "grad_norm": 2.029093971920993, + "learning_rate": 6.281993710747725e-06, + "loss": 0.5505, + "step": 4078 + }, + { + "avg_step_time": 5.580533933157873, + "epoch": 0.4349866666666667, + "eta_time": 8.211135623315903, + "step": 4078 + }, + { + "epoch": 0.43509333333333333, + "grad_norm": 0.6348353056872632, + "learning_rate": 6.280323903343839e-06, + "loss": 0.4187, + "step": 4079 + }, + { + "avg_step_time": 5.551404844630849, + "epoch": 0.43509333333333333, + "eta_time": 8.166733349212492, + "step": 4079 + }, + { + "epoch": 0.4352, + "grad_norm": 1.8385468543140684, + "learning_rate": 6.278653943111152e-06, + "loss": 0.4796, + "step": 4080 + }, + { + "avg_step_time": 5.586620687234281, + "epoch": 0.4352, + "eta_time": 8.216987927473754, + "step": 4080 + }, + { + "epoch": 0.4353066666666667, + "grad_norm": 1.5386105472668212, + "learning_rate": 6.276983830248998e-06, + "loss": 0.4708, + "step": 4081 + }, + { + "avg_step_time": 5.618302884728018, + "epoch": 0.4353066666666667, + "eta_time": 8.262026519930592, + "step": 4081 + }, + { + "epoch": 0.4354133333333333, + "grad_norm": 0.657775766891685, + "learning_rate": 6.275313564956738e-06, + "loss": 0.4379, + "step": 4082 + }, + { + "avg_step_time": 5.618989291817251, + "epoch": 0.4354133333333333, + "eta_time": 8.261475089330197, + "step": 4082 + }, + { + "epoch": 0.43552, + "grad_norm": 1.824599285854204, + "learning_rate": 6.273643147433743e-06, + "loss": 0.4748, + "step": 4083 + }, + { + "avg_step_time": 5.617174403836029, + "epoch": 0.43552, + "eta_time": 8.257246373638962, + "step": 4083 + }, + { + "epoch": 0.43562666666666666, + "grad_norm": 1.7931321885892602, + "learning_rate": 6.27197257787941e-06, + "loss": 0.434, + "step": 4084 + }, + { + "avg_step_time": 5.596390584502557, + "epoch": 0.43562666666666666, + "eta_time": 8.225139606278619, + "step": 4084 + }, + { + "epoch": 0.4357333333333333, + "grad_norm": 1.6223935375370866, + "learning_rate": 6.270301856493149e-06, + "loss": 0.4504, + "step": 4085 + }, + { + "avg_step_time": 5.596504714753893, + "epoch": 0.4357333333333333, + "eta_time": 8.223752761402249, + "step": 4085 + }, + { + "epoch": 0.43584, + "grad_norm": 1.8156203860111402, + "learning_rate": 6.268630983474388e-06, + "loss": 0.5078, + "step": 4086 + }, + { + "avg_step_time": 5.595269073139537, + "epoch": 0.43584, + "eta_time": 8.220382813287502, + "step": 4086 + }, + { + "epoch": 0.43594666666666665, + "grad_norm": 1.5369701977568877, + "learning_rate": 6.266959959022578e-06, + "loss": 0.4412, + "step": 4087 + }, + { + "avg_step_time": 5.566016351333772, + "epoch": 0.43594666666666665, + "eta_time": 8.175859573848053, + "step": 4087 + }, + { + "epoch": 0.43605333333333335, + "grad_norm": 1.7988119734724228, + "learning_rate": 6.265288783337181e-06, + "loss": 0.5274, + "step": 4088 + }, + { + "avg_step_time": 5.565173787300033, + "epoch": 0.43605333333333335, + "eta_time": 8.173076059293132, + "step": 4088 + }, + { + "epoch": 0.43616, + "grad_norm": 1.7782180238415257, + "learning_rate": 6.263617456617681e-06, + "loss": 0.4983, + "step": 4089 + }, + { + "avg_step_time": 5.564050828567659, + "epoch": 0.43616, + "eta_time": 8.169881299946846, + "step": 4089 + }, + { + "epoch": 0.4362666666666667, + "grad_norm": 1.535677477460631, + "learning_rate": 6.2619459790635835e-06, + "loss": 0.4053, + "step": 4090 + }, + { + "avg_step_time": 5.562747191901159, + "epoch": 0.4362666666666667, + "eta_time": 8.166421919221563, + "step": 4090 + }, + { + "epoch": 0.43637333333333334, + "grad_norm": 1.514293889729963, + "learning_rate": 6.260274350874406e-06, + "loss": 0.49, + "step": 4091 + }, + { + "avg_step_time": 5.561596660903006, + "epoch": 0.43637333333333334, + "eta_time": 8.163187987836523, + "step": 4091 + }, + { + "epoch": 0.43648, + "grad_norm": 1.9567081758257894, + "learning_rate": 6.258602572249683e-06, + "loss": 0.4937, + "step": 4092 + }, + { + "avg_step_time": 5.560605858311509, + "epoch": 0.43648, + "eta_time": 8.16018909707214, + "step": 4092 + }, + { + "epoch": 0.4365866666666667, + "grad_norm": 1.6020915264523736, + "learning_rate": 6.256930643388977e-06, + "loss": 0.4796, + "step": 4093 + }, + { + "avg_step_time": 5.593823582235009, + "epoch": 0.4365866666666667, + "eta_time": 8.207382267045922, + "step": 4093 + }, + { + "epoch": 0.4366933333333333, + "grad_norm": 0.6411228352065023, + "learning_rate": 6.255258564491854e-06, + "loss": 0.4439, + "step": 4094 + }, + { + "avg_step_time": 5.552774487119732, + "epoch": 0.4366933333333333, + "eta_time": 8.14561168513314, + "step": 4094 + }, + { + "epoch": 0.4368, + "grad_norm": 1.6867133335008055, + "learning_rate": 6.2535863357579105e-06, + "loss": 0.4881, + "step": 4095 + }, + { + "avg_step_time": 5.532161125028976, + "epoch": 0.4368, + "eta_time": 8.113836316709165, + "step": 4095 + }, + { + "epoch": 0.43690666666666667, + "grad_norm": 2.0508953618694132, + "learning_rate": 6.251913957386757e-06, + "loss": 0.5568, + "step": 4096 + }, + { + "avg_step_time": 5.446678250727027, + "epoch": 0.43690666666666667, + "eta_time": 7.986948468218882, + "step": 4096 + }, + { + "epoch": 0.4370133333333333, + "grad_norm": 1.8355282882479345, + "learning_rate": 6.250241429578017e-06, + "loss": 0.5498, + "step": 4097 + }, + { + "avg_step_time": 5.4778123455818255, + "epoch": 0.4370133333333333, + "eta_time": 8.031081544439132, + "step": 4097 + }, + { + "epoch": 0.43712, + "grad_norm": 1.9048859199532238, + "learning_rate": 6.248568752531337e-06, + "loss": 0.5122, + "step": 4098 + }, + { + "avg_step_time": 5.466641146727283, + "epoch": 0.43712, + "eta_time": 8.01318481424441, + "step": 4098 + }, + { + "epoch": 0.43722666666666665, + "grad_norm": 1.7191835120020613, + "learning_rate": 6.2468959264463805e-06, + "loss": 0.5985, + "step": 4099 + }, + { + "avg_step_time": 5.468448542585277, + "epoch": 0.43722666666666665, + "eta_time": 8.014315141855533, + "step": 4099 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 1.555312537478763, + "learning_rate": 6.2452229515228276e-06, + "loss": 0.5618, + "step": 4100 + }, + { + "avg_step_time": 5.461940079024344, + "epoch": 0.43733333333333335, + "eta_time": 8.00325942134817, + "step": 4100 + }, + { + "epoch": 0.43744, + "grad_norm": 0.6332272197848654, + "learning_rate": 6.243549827960378e-06, + "loss": 0.4208, + "step": 4101 + }, + { + "avg_step_time": 5.420358624121155, + "epoch": 0.43744, + "eta_time": 7.940825384337492, + "step": 4101 + }, + { + "epoch": 0.43754666666666664, + "grad_norm": 1.6501367144344323, + "learning_rate": 6.241876555958746e-06, + "loss": 0.4573, + "step": 4102 + }, + { + "avg_step_time": 5.428338932268547, + "epoch": 0.43754666666666664, + "eta_time": 7.951008663847791, + "step": 4102 + }, + { + "epoch": 0.43765333333333334, + "grad_norm": 1.8644209374165692, + "learning_rate": 6.240203135717667e-06, + "loss": 0.5131, + "step": 4103 + }, + { + "avg_step_time": 5.42592863121418, + "epoch": 0.43765333333333334, + "eta_time": 7.945971039933656, + "step": 4103 + }, + { + "epoch": 0.43776, + "grad_norm": 1.4759999799653745, + "learning_rate": 6.238529567436892e-06, + "loss": 0.4636, + "step": 4104 + }, + { + "avg_step_time": 5.428324545272673, + "epoch": 0.43776, + "eta_time": 7.947971855036739, + "step": 4104 + }, + { + "epoch": 0.4378666666666667, + "grad_norm": 0.6698706159848667, + "learning_rate": 6.23685585131619e-06, + "loss": 0.4647, + "step": 4105 + }, + { + "avg_step_time": 5.390984580974386, + "epoch": 0.4378666666666667, + "eta_time": 7.8918024282597266, + "step": 4105 + }, + { + "epoch": 0.4379733333333333, + "grad_norm": 1.7095272546758664, + "learning_rate": 6.235181987555349e-06, + "loss": 0.4759, + "step": 4106 + }, + { + "avg_step_time": 5.395585883747447, + "epoch": 0.4379733333333333, + "eta_time": 7.8970394504070285, + "step": 4106 + }, + { + "epoch": 0.43808, + "grad_norm": 1.6941351978710235, + "learning_rate": 6.233507976354174e-06, + "loss": 0.4509, + "step": 4107 + }, + { + "avg_step_time": 5.396891297716083, + "epoch": 0.43808, + "eta_time": 7.897450932324534, + "step": 4107 + }, + { + "epoch": 0.43818666666666667, + "grad_norm": 0.6566064028366643, + "learning_rate": 6.231833817912486e-06, + "loss": 0.4543, + "step": 4108 + }, + { + "avg_step_time": 5.361417659605392, + "epoch": 0.43818666666666667, + "eta_time": 7.844051892539333, + "step": 4108 + }, + { + "epoch": 0.4382933333333333, + "grad_norm": 2.0187070893892174, + "learning_rate": 6.230159512430124e-06, + "loss": 0.5496, + "step": 4109 + }, + { + "avg_step_time": 5.3553304286918255, + "epoch": 0.4382933333333333, + "eta_time": 7.833658343747542, + "step": 4109 + }, + { + "epoch": 0.4384, + "grad_norm": 1.6517832205134293, + "learning_rate": 6.228485060106948e-06, + "loss": 0.5447, + "step": 4110 + }, + { + "avg_step_time": 5.38658204945651, + "epoch": 0.4384, + "eta_time": 7.877876247330145, + "step": 4110 + }, + { + "epoch": 0.43850666666666666, + "grad_norm": 1.624594603458848, + "learning_rate": 6.226810461142829e-06, + "loss": 0.4353, + "step": 4111 + }, + { + "avg_step_time": 5.4400241832540495, + "epoch": 0.43850666666666666, + "eta_time": 7.954524250180366, + "step": 4111 + }, + { + "epoch": 0.43861333333333336, + "grad_norm": 1.6111167902193158, + "learning_rate": 6.225135715737662e-06, + "loss": 0.5082, + "step": 4112 + }, + { + "avg_step_time": 5.442107622069542, + "epoch": 0.43861333333333336, + "eta_time": 7.956059004153333, + "step": 4112 + }, + { + "epoch": 0.43872, + "grad_norm": 0.6533039396719638, + "learning_rate": 6.223460824091358e-06, + "loss": 0.4605, + "step": 4113 + }, + { + "avg_step_time": 5.410088346462057, + "epoch": 0.43872, + "eta_time": 7.907745799745374, + "step": 4113 + }, + { + "epoch": 0.43882666666666664, + "grad_norm": 1.6322678401999546, + "learning_rate": 6.221785786403843e-06, + "loss": 0.4622, + "step": 4114 + }, + { + "avg_step_time": 5.447602616416083, + "epoch": 0.43882666666666664, + "eta_time": 7.9610659347125035, + "step": 4114 + }, + { + "epoch": 0.43893333333333334, + "grad_norm": 1.7125462876181008, + "learning_rate": 6.2201106028750605e-06, + "loss": 0.4855, + "step": 4115 + }, + { + "avg_step_time": 5.452109204398261, + "epoch": 0.43893333333333334, + "eta_time": 7.966137337537459, + "step": 4115 + }, + { + "epoch": 0.43904, + "grad_norm": 1.6378215371739573, + "learning_rate": 6.218435273704973e-06, + "loss": 0.5344, + "step": 4116 + }, + { + "avg_step_time": 5.445142481062147, + "epoch": 0.43904, + "eta_time": 7.954445641084953, + "step": 4116 + }, + { + "epoch": 0.4391466666666667, + "grad_norm": 1.5620094134550628, + "learning_rate": 6.216759799093561e-06, + "loss": 0.3967, + "step": 4117 + }, + { + "avg_step_time": 5.453013933066166, + "epoch": 0.4391466666666667, + "eta_time": 7.96442979446164, + "step": 4117 + }, + { + "epoch": 0.43925333333333333, + "grad_norm": 1.9450919660669694, + "learning_rate": 6.215084179240821e-06, + "loss": 0.495, + "step": 4118 + }, + { + "avg_step_time": 5.451109483988598, + "epoch": 0.43925333333333333, + "eta_time": 7.960134043702239, + "step": 4118 + }, + { + "epoch": 0.43936, + "grad_norm": 1.75035458527357, + "learning_rate": 6.213408414346765e-06, + "loss": 0.4751, + "step": 4119 + }, + { + "avg_step_time": 5.486224954778498, + "epoch": 0.43936, + "eta_time": 8.009888433976608, + "step": 4119 + }, + { + "epoch": 0.43946666666666667, + "grad_norm": 1.754968338815716, + "learning_rate": 6.211732504611429e-06, + "loss": 0.5079, + "step": 4120 + }, + { + "avg_step_time": 5.484832607134424, + "epoch": 0.43946666666666667, + "eta_time": 8.006332041803168, + "step": 4120 + }, + { + "epoch": 0.4395733333333333, + "grad_norm": 1.755065221801792, + "learning_rate": 6.21005645023486e-06, + "loss": 0.4653, + "step": 4121 + }, + { + "avg_step_time": 5.4860107970960215, + "epoch": 0.4395733333333333, + "eta_time": 8.006527979984027, + "step": 4121 + }, + { + "epoch": 0.43968, + "grad_norm": 2.031306991234111, + "learning_rate": 6.208380251417122e-06, + "loss": 0.492, + "step": 4122 + }, + { + "avg_step_time": 5.521041607615923, + "epoch": 0.43968, + "eta_time": 8.056119879112902, + "step": 4122 + }, + { + "epoch": 0.43978666666666666, + "grad_norm": 1.9126460235002136, + "learning_rate": 6.206703908358301e-06, + "loss": 0.4776, + "step": 4123 + }, + { + "avg_step_time": 5.517602874775125, + "epoch": 0.43978666666666666, + "eta_time": 8.049569527310823, + "step": 4123 + }, + { + "epoch": 0.43989333333333336, + "grad_norm": 1.7451479579859288, + "learning_rate": 6.205027421258496e-06, + "loss": 0.4304, + "step": 4124 + }, + { + "avg_step_time": 5.551075246598986, + "epoch": 0.43989333333333336, + "eta_time": 8.09686003330313, + "step": 4124 + }, + { + "epoch": 0.44, + "grad_norm": 1.6745261716673145, + "learning_rate": 6.203350790317825e-06, + "loss": 0.4868, + "step": 4125 + }, + { + "avg_step_time": 5.586251133620137, + "epoch": 0.44, + "eta_time": 8.146616236529367, + "step": 4125 + }, + { + "epoch": 0.44010666666666665, + "grad_norm": 1.675607713861772, + "learning_rate": 6.201674015736423e-06, + "loss": 0.5222, + "step": 4126 + }, + { + "avg_step_time": 5.583258154416325, + "epoch": 0.44010666666666665, + "eta_time": 8.140700570147581, + "step": 4126 + }, + { + "epoch": 0.44021333333333335, + "grad_norm": 1.6685619117353971, + "learning_rate": 6.199997097714443e-06, + "loss": 0.5325, + "step": 4127 + }, + { + "avg_step_time": 5.581743989327942, + "epoch": 0.44021333333333335, + "eta_time": 8.136942348886954, + "step": 4127 + }, + { + "epoch": 0.44032, + "grad_norm": 1.7648880036568346, + "learning_rate": 6.198320036452051e-06, + "loss": 0.5387, + "step": 4128 + }, + { + "avg_step_time": 5.587728608738292, + "epoch": 0.44032, + "eta_time": 8.144114447236062, + "step": 4128 + }, + { + "epoch": 0.4404266666666667, + "grad_norm": 1.8133540565846802, + "learning_rate": 6.196642832149439e-06, + "loss": 0.4796, + "step": 4129 + }, + { + "avg_step_time": 5.583397125956988, + "epoch": 0.4404266666666667, + "eta_time": 8.13625036743621, + "step": 4129 + }, + { + "epoch": 0.44053333333333333, + "grad_norm": 1.866161423510794, + "learning_rate": 6.194965485006805e-06, + "loss": 0.4659, + "step": 4130 + }, + { + "avg_step_time": 5.582165368879684, + "epoch": 0.44053333333333333, + "eta_time": 8.132904822159428, + "step": 4130 + }, + { + "epoch": 0.44064, + "grad_norm": 1.752800808341459, + "learning_rate": 6.193287995224371e-06, + "loss": 0.5287, + "step": 4131 + }, + { + "avg_step_time": 5.637758707759356, + "epoch": 0.44064, + "eta_time": 8.212335184302795, + "step": 4131 + }, + { + "epoch": 0.4407466666666667, + "grad_norm": 1.6914228540588492, + "learning_rate": 6.191610363002376e-06, + "loss": 0.5424, + "step": 4132 + }, + { + "avg_step_time": 5.616621149910821, + "epoch": 0.4407466666666667, + "eta_time": 8.179984635828454, + "step": 4132 + }, + { + "epoch": 0.4408533333333333, + "grad_norm": 1.559997962218541, + "learning_rate": 6.189932588541071e-06, + "loss": 0.5473, + "step": 4133 + }, + { + "avg_step_time": 5.621204354546287, + "epoch": 0.4408533333333333, + "eta_time": 8.18509811848101, + "step": 4133 + }, + { + "epoch": 0.44096, + "grad_norm": 1.922779771733157, + "learning_rate": 6.18825467204073e-06, + "loss": 0.5995, + "step": 4134 + }, + { + "avg_step_time": 5.6237891298351865, + "epoch": 0.44096, + "eta_time": 8.187299674851726, + "step": 4134 + }, + { + "epoch": 0.44106666666666666, + "grad_norm": 1.7351540692479823, + "learning_rate": 6.186576613701644e-06, + "loss": 0.5016, + "step": 4135 + }, + { + "avg_step_time": 5.626976759746821, + "epoch": 0.44106666666666666, + "eta_time": 8.190377283631483, + "step": 4135 + }, + { + "epoch": 0.4411733333333333, + "grad_norm": 1.8527929646716879, + "learning_rate": 6.184898413724111e-06, + "loss": 0.4595, + "step": 4136 + }, + { + "avg_step_time": 5.618899925790652, + "epoch": 0.4411733333333333, + "eta_time": 8.17706019756034, + "step": 4136 + }, + { + "epoch": 0.44128, + "grad_norm": 1.8626371409141877, + "learning_rate": 6.183220072308459e-06, + "loss": 0.4695, + "step": 4137 + }, + { + "avg_step_time": 5.618096349215267, + "epoch": 0.44128, + "eta_time": 8.174330188108213, + "step": 4137 + }, + { + "epoch": 0.44138666666666665, + "grad_norm": 3.2092717395312103, + "learning_rate": 6.181541589655026e-06, + "loss": 0.5102, + "step": 4138 + }, + { + "avg_step_time": 5.65295359582612, + "epoch": 0.44138666666666665, + "eta_time": 8.223477217039276, + "step": 4138 + }, + { + "epoch": 0.44149333333333335, + "grad_norm": 1.666984922746424, + "learning_rate": 6.1798629659641676e-06, + "loss": 0.5415, + "step": 4139 + }, + { + "avg_step_time": 5.65995691761826, + "epoch": 0.44149333333333335, + "eta_time": 8.23209289462478, + "step": 4139 + }, + { + "epoch": 0.4416, + "grad_norm": 1.7048028467814025, + "learning_rate": 6.178184201436256e-06, + "loss": 0.5085, + "step": 4140 + }, + { + "avg_step_time": 5.664608069140502, + "epoch": 0.4416, + "eta_time": 8.237284233875146, + "step": 4140 + }, + { + "epoch": 0.4417066666666667, + "grad_norm": 1.8699574965630967, + "learning_rate": 6.1765052962716805e-06, + "loss": 0.3928, + "step": 4141 + }, + { + "avg_step_time": 5.665959338949184, + "epoch": 0.4417066666666667, + "eta_time": 8.237675327794452, + "step": 4141 + }, + { + "epoch": 0.44181333333333334, + "grad_norm": 0.6333438529348997, + "learning_rate": 6.174826250670849e-06, + "loss": 0.4461, + "step": 4142 + }, + { + "avg_step_time": 5.629840780990293, + "epoch": 0.44181333333333334, + "eta_time": 8.183599113033944, + "step": 4142 + }, + { + "epoch": 0.44192, + "grad_norm": 1.5974119048959676, + "learning_rate": 6.173147064834183e-06, + "loss": 0.4315, + "step": 4143 + }, + { + "avg_step_time": 5.63000159552603, + "epoch": 0.44192, + "eta_time": 8.182268985497831, + "step": 4143 + }, + { + "epoch": 0.4420266666666667, + "grad_norm": 1.6935482173559473, + "learning_rate": 6.171467738962123e-06, + "loss": 0.5181, + "step": 4144 + }, + { + "avg_step_time": 5.630534627220848, + "epoch": 0.4420266666666667, + "eta_time": 8.181479620831182, + "step": 4144 + }, + { + "epoch": 0.4421333333333333, + "grad_norm": 2.1645235452685725, + "learning_rate": 6.169788273255126e-06, + "loss": 0.496, + "step": 4145 + }, + { + "avg_step_time": 5.663151550774622, + "epoch": 0.4421333333333333, + "eta_time": 8.227300725153132, + "step": 4145 + }, + { + "epoch": 0.44224, + "grad_norm": 1.6836995479212733, + "learning_rate": 6.168108667913666e-06, + "loss": 0.5235, + "step": 4146 + }, + { + "avg_step_time": 5.6624973277852995, + "epoch": 0.44224, + "eta_time": 8.224777368608148, + "step": 4146 + }, + { + "epoch": 0.44234666666666667, + "grad_norm": 0.6334866726207831, + "learning_rate": 6.1664289231382315e-06, + "loss": 0.4406, + "step": 4147 + }, + { + "avg_step_time": 5.62899988107007, + "epoch": 0.44234666666666667, + "eta_time": 8.1745587161762, + "step": 4147 + }, + { + "epoch": 0.4424533333333333, + "grad_norm": 1.6498895701625118, + "learning_rate": 6.164749039129328e-06, + "loss": 0.4217, + "step": 4148 + }, + { + "avg_step_time": 5.630386993138477, + "epoch": 0.4424533333333333, + "eta_time": 8.175009114759671, + "step": 4148 + }, + { + "epoch": 0.44256, + "grad_norm": 1.8268635034355618, + "learning_rate": 6.163069016087483e-06, + "loss": 0.4675, + "step": 4149 + }, + { + "avg_step_time": 5.625993210859973, + "epoch": 0.44256, + "eta_time": 8.167066811098394, + "step": 4149 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 1.9091427628294266, + "learning_rate": 6.161388854213231e-06, + "loss": 0.4696, + "step": 4150 + }, + { + "avg_step_time": 5.625511222415501, + "epoch": 0.44266666666666665, + "eta_time": 8.164804482533608, + "step": 4150 + }, + { + "epoch": 0.44277333333333335, + "grad_norm": 1.6185324679037592, + "learning_rate": 6.159708553707131e-06, + "loss": 0.487, + "step": 4151 + }, + { + "avg_step_time": 5.633626237060085, + "epoch": 0.44277333333333335, + "eta_time": 8.175017628444968, + "step": 4151 + }, + { + "epoch": 0.44288, + "grad_norm": 1.6184811927327007, + "learning_rate": 6.158028114769758e-06, + "loss": 0.5052, + "step": 4152 + }, + { + "avg_step_time": 5.629350941590588, + "epoch": 0.44288, + "eta_time": 8.167249991091012, + "step": 4152 + }, + { + "epoch": 0.44298666666666664, + "grad_norm": 1.7362878666396764, + "learning_rate": 6.156347537601698e-06, + "loss": 0.5325, + "step": 4153 + }, + { + "avg_step_time": 5.6291017773175485, + "epoch": 0.44298666666666664, + "eta_time": 8.165324855875623, + "step": 4153 + }, + { + "epoch": 0.44309333333333334, + "grad_norm": 0.6430225124929487, + "learning_rate": 6.154666822403558e-06, + "loss": 0.4441, + "step": 4154 + }, + { + "avg_step_time": 5.618076806116586, + "epoch": 0.44309333333333334, + "eta_time": 8.147771945759638, + "step": 4154 + }, + { + "epoch": 0.4432, + "grad_norm": 1.953227448821166, + "learning_rate": 6.152985969375962e-06, + "loss": 0.4736, + "step": 4155 + }, + { + "avg_step_time": 5.617475796227503, + "epoch": 0.4432, + "eta_time": 8.14533990452988, + "step": 4155 + }, + { + "epoch": 0.4433066666666667, + "grad_norm": 1.7631950024880993, + "learning_rate": 6.151304978719546e-06, + "loss": 0.4487, + "step": 4156 + }, + { + "avg_step_time": 5.612315671612518, + "epoch": 0.4433066666666667, + "eta_time": 8.136298747262703, + "step": 4156 + }, + { + "epoch": 0.4434133333333333, + "grad_norm": 0.6512796604986624, + "learning_rate": 6.149623850634968e-06, + "loss": 0.4551, + "step": 4157 + }, + { + "avg_step_time": 5.576560981345899, + "epoch": 0.4434133333333333, + "eta_time": 8.082915333517473, + "step": 4157 + }, + { + "epoch": 0.44352, + "grad_norm": 1.5851765166443514, + "learning_rate": 6.147942585322898e-06, + "loss": 0.4788, + "step": 4158 + }, + { + "avg_step_time": 5.570136840897377, + "epoch": 0.44352, + "eta_time": 8.072056638600449, + "step": 4158 + }, + { + "epoch": 0.44362666666666667, + "grad_norm": 1.7320673969183031, + "learning_rate": 6.146261182984026e-06, + "loss": 0.4964, + "step": 4159 + }, + { + "avg_step_time": 5.568845361170142, + "epoch": 0.44362666666666667, + "eta_time": 8.06863816773985, + "step": 4159 + }, + { + "epoch": 0.4437333333333333, + "grad_norm": 1.6940540688148433, + "learning_rate": 6.144579643819053e-06, + "loss": 0.4984, + "step": 4160 + }, + { + "avg_step_time": 5.574272338790123, + "epoch": 0.4437333333333333, + "eta_time": 8.074952846330692, + "step": 4160 + }, + { + "epoch": 0.44384, + "grad_norm": 1.6190470557175116, + "learning_rate": 6.142897968028704e-06, + "loss": 0.4077, + "step": 4161 + }, + { + "avg_step_time": 5.555179593538997, + "epoch": 0.44384, + "eta_time": 8.045751777975648, + "step": 4161 + }, + { + "epoch": 0.44394666666666666, + "grad_norm": 1.8616618712803863, + "learning_rate": 6.141216155813713e-06, + "loss": 0.5248, + "step": 4162 + }, + { + "avg_step_time": 5.55947538578149, + "epoch": 0.44394666666666666, + "eta_time": 8.050429218355251, + "step": 4162 + }, + { + "epoch": 0.44405333333333336, + "grad_norm": 1.7714096523494574, + "learning_rate": 6.1395342073748345e-06, + "loss": 0.4807, + "step": 4163 + }, + { + "avg_step_time": 5.523989422152741, + "epoch": 0.44405333333333336, + "eta_time": 7.997509130072245, + "step": 4163 + }, + { + "epoch": 0.44416, + "grad_norm": 1.7186478811902266, + "learning_rate": 6.137852122912839e-06, + "loss": 0.4076, + "step": 4164 + }, + { + "avg_step_time": 5.5391721051148695, + "epoch": 0.44416, + "eta_time": 8.017951622153774, + "step": 4164 + }, + { + "epoch": 0.44426666666666664, + "grad_norm": 1.4145696043444305, + "learning_rate": 6.136169902628508e-06, + "loss": 0.3548, + "step": 4165 + }, + { + "avg_step_time": 5.549019343925245, + "epoch": 0.44426666666666664, + "eta_time": 8.030664106069592, + "step": 4165 + }, + { + "epoch": 0.44437333333333334, + "grad_norm": 2.0777793958753765, + "learning_rate": 6.134487546722652e-06, + "loss": 0.5132, + "step": 4166 + }, + { + "avg_step_time": 5.585777282714844, + "epoch": 0.44437333333333334, + "eta_time": 8.082309407128228, + "step": 4166 + }, + { + "epoch": 0.44448, + "grad_norm": 1.8502800955649903, + "learning_rate": 6.1328050553960804e-06, + "loss": 0.5083, + "step": 4167 + }, + { + "avg_step_time": 5.58678164385786, + "epoch": 0.44448, + "eta_time": 8.082210778114371, + "step": 4167 + }, + { + "epoch": 0.4445866666666667, + "grad_norm": 1.8671219555847727, + "learning_rate": 6.131122428849634e-06, + "loss": 0.4905, + "step": 4168 + }, + { + "avg_step_time": 5.586859929441202, + "epoch": 0.4445866666666667, + "eta_time": 8.080772125722316, + "step": 4168 + }, + { + "epoch": 0.44469333333333333, + "grad_norm": 0.6792260988119572, + "learning_rate": 6.12943966728416e-06, + "loss": 0.467, + "step": 4169 + }, + { + "avg_step_time": 5.5533337713492035, + "epoch": 0.44469333333333333, + "eta_time": 8.030737670456654, + "step": 4169 + }, + { + "epoch": 0.4448, + "grad_norm": 1.961139759162363, + "learning_rate": 6.1277567709005245e-06, + "loss": 0.5377, + "step": 4170 + }, + { + "avg_step_time": 5.583490870215676, + "epoch": 0.4448, + "eta_time": 8.072797216520165, + "step": 4170 + }, + { + "epoch": 0.4449066666666667, + "grad_norm": 1.723023663444532, + "learning_rate": 6.126073739899615e-06, + "loss": 0.4917, + "step": 4171 + }, + { + "avg_step_time": 5.584641119446418, + "epoch": 0.4449066666666667, + "eta_time": 8.072908995999766, + "step": 4171 + }, + { + "epoch": 0.4450133333333333, + "grad_norm": 1.7158859491448226, + "learning_rate": 6.124390574482324e-06, + "loss": 0.455, + "step": 4172 + }, + { + "avg_step_time": 5.586234824826019, + "epoch": 0.4450133333333333, + "eta_time": 8.073661053769383, + "step": 4172 + }, + { + "epoch": 0.44512, + "grad_norm": 1.6580483972396518, + "learning_rate": 6.122707274849572e-06, + "loss": 0.5454, + "step": 4173 + }, + { + "avg_step_time": 5.582977923479947, + "epoch": 0.44512, + "eta_time": 8.067403099428523, + "step": 4173 + }, + { + "epoch": 0.44522666666666666, + "grad_norm": 1.5081018069980037, + "learning_rate": 6.1210238412022875e-06, + "loss": 0.5272, + "step": 4174 + }, + { + "avg_step_time": 5.588684635932999, + "epoch": 0.44522666666666666, + "eta_time": 8.074096886524314, + "step": 4174 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 1.8640043698119257, + "learning_rate": 6.1193402737414154e-06, + "loss": 0.4749, + "step": 4175 + }, + { + "avg_step_time": 5.583761983447605, + "epoch": 0.44533333333333336, + "eta_time": 8.065433976090985, + "step": 4175 + }, + { + "epoch": 0.44544, + "grad_norm": 1.7707493754899097, + "learning_rate": 6.117656572667921e-06, + "loss": 0.4651, + "step": 4176 + }, + { + "avg_step_time": 5.591784910722212, + "epoch": 0.44544, + "eta_time": 8.075469375234661, + "step": 4176 + }, + { + "epoch": 0.44554666666666665, + "grad_norm": 1.9706917208475265, + "learning_rate": 6.115972738182784e-06, + "loss": 0.4798, + "step": 4177 + }, + { + "avg_step_time": 5.59316875236203, + "epoch": 0.44554666666666665, + "eta_time": 8.075914215216065, + "step": 4177 + }, + { + "epoch": 0.44565333333333335, + "grad_norm": 2.0371052909607026, + "learning_rate": 6.114288770486998e-06, + "loss": 0.4987, + "step": 4178 + }, + { + "avg_step_time": 5.622633319912535, + "epoch": 0.44565333333333335, + "eta_time": 8.11689593432929, + "step": 4178 + }, + { + "epoch": 0.44576, + "grad_norm": 1.973851375087379, + "learning_rate": 6.112604669781572e-06, + "loss": 0.5281, + "step": 4179 + }, + { + "avg_step_time": 5.62467543765752, + "epoch": 0.44576, + "eta_time": 8.118281548352353, + "step": 4179 + }, + { + "epoch": 0.4458666666666667, + "grad_norm": 1.835894454989238, + "learning_rate": 6.110920436267536e-06, + "loss": 0.5658, + "step": 4180 + }, + { + "avg_step_time": 5.592285216456712, + "epoch": 0.4458666666666667, + "eta_time": 8.06997824985906, + "step": 4180 + }, + { + "epoch": 0.44597333333333333, + "grad_norm": 1.8424440752703122, + "learning_rate": 6.10923607014593e-06, + "loss": 0.5681, + "step": 4181 + }, + { + "avg_step_time": 5.630379144591514, + "epoch": 0.44597333333333333, + "eta_time": 8.12338591028009, + "step": 4181 + }, + { + "epoch": 0.44608, + "grad_norm": 1.8604176140112534, + "learning_rate": 6.107551571617813e-06, + "loss": 0.4773, + "step": 4182 + }, + { + "avg_step_time": 5.6561181834249785, + "epoch": 0.44608, + "eta_time": 8.158950479590532, + "step": 4182 + }, + { + "epoch": 0.4461866666666667, + "grad_norm": 1.7331585260271662, + "learning_rate": 6.1058669408842586e-06, + "loss": 0.4167, + "step": 4183 + }, + { + "avg_step_time": 5.6735139687856035, + "epoch": 0.4461866666666667, + "eta_time": 8.182467923870792, + "step": 4183 + }, + { + "epoch": 0.4462933333333333, + "grad_norm": 1.873416326802987, + "learning_rate": 6.1041821781463566e-06, + "loss": 0.5334, + "step": 4184 + }, + { + "avg_step_time": 5.672777245743106, + "epoch": 0.4462933333333333, + "eta_time": 8.179829634070128, + "step": 4184 + }, + { + "epoch": 0.4464, + "grad_norm": 1.8372652655119963, + "learning_rate": 6.1024972836052135e-06, + "loss": 0.5166, + "step": 4185 + }, + { + "avg_step_time": 5.669215012078333, + "epoch": 0.4464, + "eta_time": 8.173118309079598, + "step": 4185 + }, + { + "epoch": 0.44650666666666666, + "grad_norm": 1.9369483856731655, + "learning_rate": 6.100812257461949e-06, + "loss": 0.5519, + "step": 4186 + }, + { + "avg_step_time": 5.644186756827614, + "epoch": 0.44650666666666666, + "eta_time": 8.135468078105136, + "step": 4186 + }, + { + "epoch": 0.4466133333333333, + "grad_norm": 1.8713622377111045, + "learning_rate": 6.0991270999177e-06, + "loss": 0.4133, + "step": 4187 + }, + { + "avg_step_time": 5.643162255335336, + "epoch": 0.4466133333333333, + "eta_time": 8.13242382796659, + "step": 4187 + }, + { + "epoch": 0.44672, + "grad_norm": 1.3916300951897942, + "learning_rate": 6.0974418111736235e-06, + "loss": 0.5409, + "step": 4188 + }, + { + "avg_step_time": 5.645574116947675, + "epoch": 0.44672, + "eta_time": 8.134331373502109, + "step": 4188 + }, + { + "epoch": 0.44682666666666665, + "grad_norm": 1.8454513404006838, + "learning_rate": 6.0957563914308815e-06, + "loss": 0.539, + "step": 4189 + }, + { + "avg_step_time": 5.645466794871321, + "epoch": 0.44682666666666665, + "eta_time": 8.132608555056297, + "step": 4189 + }, + { + "epoch": 0.44693333333333335, + "grad_norm": 1.4955865494192861, + "learning_rate": 6.094070840890663e-06, + "loss": 0.4954, + "step": 4190 + }, + { + "avg_step_time": 5.649935727167612, + "epoch": 0.44693333333333335, + "eta_time": 8.13747687371224, + "step": 4190 + }, + { + "epoch": 0.44704, + "grad_norm": 1.6155390020788998, + "learning_rate": 6.092385159754165e-06, + "loss": 0.5082, + "step": 4191 + }, + { + "avg_step_time": 5.644625186920166, + "epoch": 0.44704, + "eta_time": 8.12826026916504, + "step": 4191 + }, + { + "epoch": 0.4471466666666667, + "grad_norm": 1.6616708373404985, + "learning_rate": 6.0906993482226025e-06, + "loss": 0.6005, + "step": 4192 + }, + { + "avg_step_time": 5.649101250099413, + "epoch": 0.4471466666666667, + "eta_time": 8.13313660535146, + "step": 4192 + }, + { + "epoch": 0.44725333333333334, + "grad_norm": 1.7371367322247842, + "learning_rate": 6.0890134064972085e-06, + "loss": 0.4126, + "step": 4193 + }, + { + "avg_step_time": 5.683707641832756, + "epoch": 0.44725333333333334, + "eta_time": 8.181381388882595, + "step": 4193 + }, + { + "epoch": 0.44736, + "grad_norm": 1.8877861683330672, + "learning_rate": 6.0873273347792275e-06, + "loss": 0.5459, + "step": 4194 + }, + { + "avg_step_time": 5.6890014831465905, + "epoch": 0.44736, + "eta_time": 8.187421301161802, + "step": 4194 + }, + { + "epoch": 0.4474666666666667, + "grad_norm": 1.8437060261086566, + "learning_rate": 6.085641133269923e-06, + "loss": 0.5654, + "step": 4195 + }, + { + "avg_step_time": 5.687565321874136, + "epoch": 0.4474666666666667, + "eta_time": 8.183774546474453, + "step": 4195 + }, + { + "epoch": 0.4475733333333333, + "grad_norm": 1.5016491674845598, + "learning_rate": 6.083954802170569e-06, + "loss": 0.4795, + "step": 4196 + }, + { + "avg_step_time": 5.710182365745005, + "epoch": 0.4475733333333333, + "eta_time": 8.214731797831494, + "step": 4196 + }, + { + "epoch": 0.44768, + "grad_norm": 1.5544743554536888, + "learning_rate": 6.0822683416824625e-06, + "loss": 0.482, + "step": 4197 + }, + { + "avg_step_time": 5.710217302495783, + "epoch": 0.44768, + "eta_time": 8.213195886756434, + "step": 4197 + }, + { + "epoch": 0.44778666666666667, + "grad_norm": 1.7608795747661545, + "learning_rate": 6.080581752006909e-06, + "loss": 0.4982, + "step": 4198 + }, + { + "avg_step_time": 5.714274632810342, + "epoch": 0.44778666666666667, + "eta_time": 8.217444381683094, + "step": 4198 + }, + { + "epoch": 0.4478933333333333, + "grad_norm": 2.0154818627387474, + "learning_rate": 6.0788950333452324e-06, + "loss": 0.5642, + "step": 4199 + }, + { + "avg_step_time": 5.706686094553784, + "epoch": 0.4478933333333333, + "eta_time": 8.204946451502884, + "step": 4199 + }, + { + "epoch": 0.448, + "grad_norm": 0.6553662551062424, + "learning_rate": 6.077208185898772e-06, + "loss": 0.4347, + "step": 4200 + }, + { + "avg_step_time": 5.708447805558793, + "epoch": 0.448, + "eta_time": 8.205893720490764, + "step": 4200 + }, + { + "epoch": 0.44810666666666665, + "grad_norm": 1.770056745241935, + "learning_rate": 6.075521209868882e-06, + "loss": 0.4387, + "step": 4201 + }, + { + "avg_step_time": 5.699115719458069, + "epoch": 0.44810666666666665, + "eta_time": 8.190895759021124, + "step": 4201 + }, + { + "epoch": 0.44821333333333335, + "grad_norm": 1.9441629856504894, + "learning_rate": 6.073834105456934e-06, + "loss": 0.4589, + "step": 4202 + }, + { + "avg_step_time": 5.697347937208233, + "epoch": 0.44821333333333335, + "eta_time": 8.186772466438386, + "step": 4202 + }, + { + "epoch": 0.44832, + "grad_norm": 2.0350091212303, + "learning_rate": 6.07214687286431e-06, + "loss": 0.5751, + "step": 4203 + }, + { + "avg_step_time": 5.694354136784871, + "epoch": 0.44832, + "eta_time": 8.180888776514266, + "step": 4203 + }, + { + "epoch": 0.44842666666666664, + "grad_norm": 1.970229531842323, + "learning_rate": 6.070459512292413e-06, + "loss": 0.4869, + "step": 4204 + }, + { + "avg_step_time": 5.730595974007038, + "epoch": 0.44842666666666664, + "eta_time": 8.231364383775109, + "step": 4204 + }, + { + "epoch": 0.44853333333333334, + "grad_norm": 1.835333502003247, + "learning_rate": 6.068772023942659e-06, + "loss": 0.5138, + "step": 4205 + }, + { + "avg_step_time": 5.735103067725595, + "epoch": 0.44853333333333334, + "eta_time": 8.236245238928147, + "step": 4205 + }, + { + "epoch": 0.44864, + "grad_norm": 1.7089136804083558, + "learning_rate": 6.067084408016475e-06, + "loss": 0.4615, + "step": 4206 + }, + { + "avg_step_time": 5.73445246677206, + "epoch": 0.44864, + "eta_time": 8.233718000206883, + "step": 4206 + }, + { + "epoch": 0.4487466666666667, + "grad_norm": 1.923988366123861, + "learning_rate": 6.065396664715311e-06, + "loss": 0.5956, + "step": 4207 + }, + { + "avg_step_time": 5.775000095367432, + "epoch": 0.4487466666666667, + "eta_time": 8.29033347023858, + "step": 4207 + }, + { + "epoch": 0.4488533333333333, + "grad_norm": 1.782405935574922, + "learning_rate": 6.063708794240627e-06, + "loss": 0.4863, + "step": 4208 + }, + { + "avg_step_time": 5.776212523681949, + "epoch": 0.4488533333333333, + "eta_time": 8.290469474962396, + "step": 4208 + }, + { + "epoch": 0.44896, + "grad_norm": 1.6721754003313118, + "learning_rate": 6.0620207967939e-06, + "loss": 0.5168, + "step": 4209 + }, + { + "avg_step_time": 5.742692985919991, + "epoch": 0.44896, + "eta_time": 8.240764434795187, + "step": 4209 + }, + { + "epoch": 0.44906666666666667, + "grad_norm": 1.8527913857380496, + "learning_rate": 6.0603326725766195e-06, + "loss": 0.5245, + "step": 4210 + }, + { + "avg_step_time": 5.706261107415864, + "epoch": 0.44906666666666667, + "eta_time": 8.186899616611928, + "step": 4210 + }, + { + "epoch": 0.4491733333333333, + "grad_norm": 1.8068618537026568, + "learning_rate": 6.058644421790296e-06, + "loss": 0.5115, + "step": 4211 + }, + { + "avg_step_time": 5.706027091151536, + "epoch": 0.4491733333333333, + "eta_time": 8.184978860751814, + "step": 4211 + }, + { + "epoch": 0.44928, + "grad_norm": 0.6381575139996132, + "learning_rate": 6.0569560446364495e-06, + "loss": 0.4321, + "step": 4212 + }, + { + "avg_step_time": 5.703511835348727, + "epoch": 0.44928, + "eta_time": 8.179786557195966, + "step": 4212 + }, + { + "epoch": 0.44938666666666666, + "grad_norm": 0.6574440394876996, + "learning_rate": 6.0552675413166185e-06, + "loss": 0.4457, + "step": 4213 + }, + { + "avg_step_time": 5.666695594787598, + "epoch": 0.44938666666666666, + "eta_time": 8.12541185008155, + "step": 4213 + }, + { + "epoch": 0.44949333333333336, + "grad_norm": 1.4887069050173118, + "learning_rate": 6.05357891203235e-06, + "loss": 0.4542, + "step": 4214 + }, + { + "avg_step_time": 5.668725743438259, + "epoch": 0.44949333333333336, + "eta_time": 8.126748211634682, + "step": 4214 + }, + { + "epoch": 0.4496, + "grad_norm": 1.5622101550363927, + "learning_rate": 6.051890156985217e-06, + "loss": 0.506, + "step": 4215 + }, + { + "avg_step_time": 5.667753549537274, + "epoch": 0.4496, + "eta_time": 8.123780087670092, + "step": 4215 + }, + { + "epoch": 0.44970666666666664, + "grad_norm": 1.3800914967782116, + "learning_rate": 6.0502012763768e-06, + "loss": 0.5026, + "step": 4216 + }, + { + "avg_step_time": 5.664207371798429, + "epoch": 0.44970666666666664, + "eta_time": 8.11712384197447, + "step": 4216 + }, + { + "epoch": 0.44981333333333334, + "grad_norm": 1.7186839687560596, + "learning_rate": 6.0485122704086955e-06, + "loss": 0.478, + "step": 4217 + }, + { + "avg_step_time": 5.669009170146904, + "epoch": 0.44981333333333334, + "eta_time": 8.122430361004925, + "step": 4217 + }, + { + "epoch": 0.44992, + "grad_norm": 1.473397755438025, + "learning_rate": 6.046823139282515e-06, + "loss": 0.4463, + "step": 4218 + }, + { + "avg_step_time": 5.670882557377671, + "epoch": 0.44992, + "eta_time": 8.123539263443513, + "step": 4218 + }, + { + "epoch": 0.4500266666666667, + "grad_norm": 1.7467056762488833, + "learning_rate": 6.0451338831998855e-06, + "loss": 0.4902, + "step": 4219 + }, + { + "avg_step_time": 5.6696781172896875, + "epoch": 0.4500266666666667, + "eta_time": 8.120238992429341, + "step": 4219 + }, + { + "epoch": 0.45013333333333333, + "grad_norm": 2.0776426208858263, + "learning_rate": 6.04344450236245e-06, + "loss": 0.5755, + "step": 4220 + }, + { + "avg_step_time": 5.669520924789737, + "epoch": 0.45013333333333333, + "eta_time": 8.118438990914193, + "step": 4220 + }, + { + "epoch": 0.45024, + "grad_norm": 1.8688784021973983, + "learning_rate": 6.041754996971866e-06, + "loss": 0.55, + "step": 4221 + }, + { + "avg_step_time": 5.668613089455499, + "epoch": 0.45024, + "eta_time": 8.115564406403788, + "step": 4221 + }, + { + "epoch": 0.4503466666666667, + "grad_norm": 1.7344572095618649, + "learning_rate": 6.040065367229803e-06, + "loss": 0.5074, + "step": 4222 + }, + { + "avg_step_time": 5.671036156741056, + "epoch": 0.4503466666666667, + "eta_time": 8.117458143246294, + "step": 4222 + }, + { + "epoch": 0.4504533333333333, + "grad_norm": 1.7601409727370936, + "learning_rate": 6.038375613337949e-06, + "loss": 0.5848, + "step": 4223 + }, + { + "avg_step_time": 5.672415186660459, + "epoch": 0.4504533333333333, + "eta_time": 8.11785640046519, + "step": 4223 + }, + { + "epoch": 0.45056, + "grad_norm": 1.698720401634091, + "learning_rate": 6.036685735498004e-06, + "loss": 0.4851, + "step": 4224 + }, + { + "avg_step_time": 5.669211204605873, + "epoch": 0.45056, + "eta_time": 8.111696365256904, + "step": 4224 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 1.847746411848198, + "learning_rate": 6.034995733911687e-06, + "loss": 0.4005, + "step": 4225 + }, + { + "avg_step_time": 5.672171592712402, + "epoch": 0.45066666666666666, + "eta_time": 8.11435658401913, + "step": 4225 + }, + { + "epoch": 0.45077333333333336, + "grad_norm": 1.8805295988415276, + "learning_rate": 6.033305608780725e-06, + "loss": 0.5277, + "step": 4226 + }, + { + "avg_step_time": 5.67723030995841, + "epoch": 0.45077333333333336, + "eta_time": 8.120016351659958, + "step": 4226 + }, + { + "epoch": 0.45088, + "grad_norm": 1.848448617949171, + "learning_rate": 6.031615360306867e-06, + "loss": 0.5275, + "step": 4227 + }, + { + "avg_step_time": 5.711892250812415, + "epoch": 0.45088, + "eta_time": 8.168005918661754, + "step": 4227 + }, + { + "epoch": 0.45098666666666665, + "grad_norm": 1.5513828122771867, + "learning_rate": 6.029924988691872e-06, + "loss": 0.4883, + "step": 4228 + }, + { + "avg_step_time": 5.714955040902803, + "epoch": 0.45098666666666665, + "eta_time": 8.170798220979647, + "step": 4228 + }, + { + "epoch": 0.45109333333333335, + "grad_norm": 1.6576446288853512, + "learning_rate": 6.028234494137515e-06, + "loss": 0.5035, + "step": 4229 + }, + { + "avg_step_time": 5.715959091379185, + "epoch": 0.45109333333333335, + "eta_time": 8.17064596784369, + "step": 4229 + }, + { + "epoch": 0.4512, + "grad_norm": 1.8504581688910524, + "learning_rate": 6.026543876845586e-06, + "loss": 0.5377, + "step": 4230 + }, + { + "avg_step_time": 5.697521611897632, + "epoch": 0.4512, + "eta_time": 8.142707970337034, + "step": 4230 + }, + { + "epoch": 0.4513066666666667, + "grad_norm": 1.814894908403822, + "learning_rate": 6.024853137017889e-06, + "loss": 0.4917, + "step": 4231 + }, + { + "avg_step_time": 5.698890616195371, + "epoch": 0.4513066666666667, + "eta_time": 8.143081480474718, + "step": 4231 + }, + { + "epoch": 0.45141333333333333, + "grad_norm": 1.7476165620507127, + "learning_rate": 6.023162274856243e-06, + "loss": 0.5656, + "step": 4232 + }, + { + "avg_step_time": 5.693585884691489, + "epoch": 0.45141333333333333, + "eta_time": 8.133920056935645, + "step": 4232 + }, + { + "epoch": 0.45152, + "grad_norm": 2.1064510675619004, + "learning_rate": 6.021471290562484e-06, + "loss": 0.4484, + "step": 4233 + }, + { + "avg_step_time": 5.690254794226752, + "epoch": 0.45152, + "eta_time": 8.127580597753878, + "step": 4233 + }, + { + "epoch": 0.4516266666666667, + "grad_norm": 1.7109955525959122, + "learning_rate": 6.019780184338457e-06, + "loss": 0.514, + "step": 4234 + }, + { + "avg_step_time": 5.687589893437395, + "epoch": 0.4516266666666667, + "eta_time": 8.122194345044903, + "step": 4234 + }, + { + "epoch": 0.4517333333333333, + "grad_norm": 1.9183302166204834, + "learning_rate": 6.018088956386025e-06, + "loss": 0.4712, + "step": 4235 + }, + { + "avg_step_time": 5.68320657267715, + "epoch": 0.4517333333333333, + "eta_time": 8.114356050989043, + "step": 4235 + }, + { + "epoch": 0.45184, + "grad_norm": 1.848282119478927, + "learning_rate": 6.016397606907069e-06, + "loss": 0.5396, + "step": 4236 + }, + { + "avg_step_time": 5.688769135812317, + "epoch": 0.45184, + "eta_time": 8.120717941372082, + "step": 4236 + }, + { + "epoch": 0.45194666666666666, + "grad_norm": 2.085346063667428, + "learning_rate": 6.0147061361034765e-06, + "loss": 0.5719, + "step": 4237 + }, + { + "avg_step_time": 5.690991413713705, + "epoch": 0.45194666666666666, + "eta_time": 8.122309412128061, + "step": 4237 + }, + { + "epoch": 0.4520533333333333, + "grad_norm": 0.6373692119991701, + "learning_rate": 6.013014544177156e-06, + "loss": 0.431, + "step": 4238 + }, + { + "avg_step_time": 5.629403740468652, + "epoch": 0.4520533333333333, + "eta_time": 8.032846392996518, + "step": 4238 + }, + { + "epoch": 0.45216, + "grad_norm": 0.6647394221967058, + "learning_rate": 6.011322831330028e-06, + "loss": 0.4472, + "step": 4239 + }, + { + "avg_step_time": 5.596669156141956, + "epoch": 0.45216, + "eta_time": 7.98458132942919, + "step": 4239 + }, + { + "epoch": 0.45226666666666665, + "grad_norm": 0.6389093815840666, + "learning_rate": 6.009630997764027e-06, + "loss": 0.4402, + "step": 4240 + }, + { + "avg_step_time": 5.576076334173029, + "epoch": 0.45226666666666665, + "eta_time": 7.953653326660696, + "step": 4240 + }, + { + "epoch": 0.45237333333333335, + "grad_norm": 0.6210865959490255, + "learning_rate": 6.0079390436811025e-06, + "loss": 0.4303, + "step": 4241 + }, + { + "avg_step_time": 5.573389200249103, + "epoch": 0.45237333333333335, + "eta_time": 7.948272265021916, + "step": 4241 + }, + { + "epoch": 0.45248, + "grad_norm": 1.511282403886333, + "learning_rate": 6.0062469692832205e-06, + "loss": 0.4652, + "step": 4242 + }, + { + "avg_step_time": 5.59491374516728, + "epoch": 0.45248, + "eta_time": 7.977414514984347, + "step": 4242 + }, + { + "epoch": 0.4525866666666667, + "grad_norm": 0.66609911048039, + "learning_rate": 6.004554774772356e-06, + "loss": 0.4479, + "step": 4243 + }, + { + "avg_step_time": 5.583236506490996, + "epoch": 0.4525866666666667, + "eta_time": 7.959213819808831, + "step": 4243 + }, + { + "epoch": 0.45269333333333334, + "grad_norm": 1.7471505710682977, + "learning_rate": 6.002862460350505e-06, + "loss": 0.4775, + "step": 4244 + }, + { + "avg_step_time": 5.5841842492421465, + "epoch": 0.45269333333333334, + "eta_time": 7.959013717461515, + "step": 4244 + }, + { + "epoch": 0.4528, + "grad_norm": 1.6404405219479252, + "learning_rate": 6.001170026219673e-06, + "loss": 0.4792, + "step": 4245 + }, + { + "avg_step_time": 5.5904408271866615, + "epoch": 0.4528, + "eta_time": 7.966378178740993, + "step": 4245 + }, + { + "epoch": 0.4529066666666667, + "grad_norm": 1.7363648050984968, + "learning_rate": 5.99947747258188e-06, + "loss": 0.4761, + "step": 4246 + }, + { + "avg_step_time": 5.653340980260059, + "epoch": 0.4529066666666667, + "eta_time": 8.054440524376068, + "step": 4246 + }, + { + "epoch": 0.4530133333333333, + "grad_norm": 1.781604854838678, + "learning_rate": 5.9977847996391634e-06, + "loss": 0.4363, + "step": 4247 + }, + { + "avg_step_time": 5.6523516298544525, + "epoch": 0.4530133333333333, + "eta_time": 8.051460877192676, + "step": 4247 + }, + { + "epoch": 0.45312, + "grad_norm": 0.6502714128866438, + "learning_rate": 5.996092007593572e-06, + "loss": 0.4495, + "step": 4248 + }, + { + "avg_step_time": 5.618113175787107, + "epoch": 0.45312, + "eta_time": 8.001129514516805, + "step": 4248 + }, + { + "epoch": 0.45322666666666667, + "grad_norm": 1.9301097071317699, + "learning_rate": 5.994399096647172e-06, + "loss": 0.499, + "step": 4249 + }, + { + "avg_step_time": 5.619676982513582, + "epoch": 0.45322666666666667, + "eta_time": 8.001795614545728, + "step": 4249 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 1.5328437596134628, + "learning_rate": 5.99270606700204e-06, + "loss": 0.4673, + "step": 4250 + }, + { + "avg_step_time": 5.615201911540947, + "epoch": 0.4533333333333333, + "eta_time": 7.993863832402043, + "step": 4250 + }, + { + "epoch": 0.45344, + "grad_norm": 1.955753049105272, + "learning_rate": 5.9910129188602665e-06, + "loss": 0.48, + "step": 4251 + }, + { + "avg_step_time": 5.619044855387524, + "epoch": 0.45344, + "eta_time": 7.997773844168242, + "step": 4251 + }, + { + "epoch": 0.45354666666666665, + "grad_norm": 0.6436072618375605, + "learning_rate": 5.9893196524239604e-06, + "loss": 0.4414, + "step": 4252 + }, + { + "avg_step_time": 5.585798904149219, + "epoch": 0.45354666666666665, + "eta_time": 7.94890216276568, + "step": 4252 + }, + { + "epoch": 0.45365333333333335, + "grad_norm": 2.032959109770843, + "learning_rate": 5.987626267895242e-06, + "loss": 0.5126, + "step": 4253 + }, + { + "avg_step_time": 5.5994057799830586, + "epoch": 0.45365333333333335, + "eta_time": 7.966710112520341, + "step": 4253 + }, + { + "epoch": 0.45376, + "grad_norm": 1.90021937960962, + "learning_rate": 5.985932765476246e-06, + "loss": 0.5262, + "step": 4254 + }, + { + "avg_step_time": 5.601205346560238, + "epoch": 0.45376, + "eta_time": 7.967714605481938, + "step": 4254 + }, + { + "epoch": 0.45386666666666664, + "grad_norm": 2.051067930948515, + "learning_rate": 5.98423914536912e-06, + "loss": 0.5219, + "step": 4255 + }, + { + "avg_step_time": 5.603910992843936, + "epoch": 0.45386666666666664, + "eta_time": 7.9700067453780425, + "step": 4255 + }, + { + "epoch": 0.45397333333333334, + "grad_norm": 0.6570415271175549, + "learning_rate": 5.9825454077760295e-06, + "loss": 0.4458, + "step": 4256 + }, + { + "avg_step_time": 5.601313518755363, + "epoch": 0.45397333333333334, + "eta_time": 7.964756639585752, + "step": 4256 + }, + { + "epoch": 0.45408, + "grad_norm": 2.0111211160719447, + "learning_rate": 5.9808515528991486e-06, + "loss": 0.4261, + "step": 4257 + }, + { + "avg_step_time": 5.6021698797592006, + "epoch": 0.45408, + "eta_time": 7.964418179057664, + "step": 4257 + }, + { + "epoch": 0.4541866666666667, + "grad_norm": 1.8762968222290368, + "learning_rate": 5.979157580940669e-06, + "loss": 0.5476, + "step": 4258 + }, + { + "avg_step_time": 5.599833861745969, + "epoch": 0.4541866666666667, + "eta_time": 7.959541630709479, + "step": 4258 + }, + { + "epoch": 0.4542933333333333, + "grad_norm": 1.9565324108766067, + "learning_rate": 5.977463492102796e-06, + "loss": 0.5964, + "step": 4259 + }, + { + "avg_step_time": 5.600626661319925, + "epoch": 0.4542933333333333, + "eta_time": 7.959112777586871, + "step": 4259 + }, + { + "epoch": 0.4544, + "grad_norm": 1.8684130586380574, + "learning_rate": 5.975769286587747e-06, + "loss": 0.4568, + "step": 4260 + }, + { + "avg_step_time": 5.595651183465515, + "epoch": 0.4544, + "eta_time": 7.950487723173919, + "step": 4260 + }, + { + "epoch": 0.45450666666666667, + "grad_norm": 1.982384528095474, + "learning_rate": 5.974074964597759e-06, + "loss": 0.5603, + "step": 4261 + }, + { + "avg_step_time": 5.59473924925833, + "epoch": 0.45450666666666667, + "eta_time": 7.947637922418639, + "step": 4261 + }, + { + "epoch": 0.4546133333333333, + "grad_norm": 1.850492433751846, + "learning_rate": 5.972380526335074e-06, + "loss": 0.5308, + "step": 4262 + }, + { + "avg_step_time": 5.5962331150517315, + "epoch": 0.4546133333333333, + "eta_time": 7.948205532572084, + "step": 4262 + }, + { + "epoch": 0.45472, + "grad_norm": 2.1272191624904653, + "learning_rate": 5.970685972001953e-06, + "loss": 0.5101, + "step": 4263 + }, + { + "avg_step_time": 5.584845887290107, + "epoch": 0.45472, + "eta_time": 7.930481159951952, + "step": 4263 + }, + { + "epoch": 0.45482666666666666, + "grad_norm": 1.7928492939057905, + "learning_rate": 5.968991301800674e-06, + "loss": 0.4721, + "step": 4264 + }, + { + "avg_step_time": 5.580201445203839, + "epoch": 0.45482666666666666, + "eta_time": 7.922335996232451, + "step": 4264 + }, + { + "epoch": 0.45493333333333336, + "grad_norm": 0.6306302527101313, + "learning_rate": 5.967296515933519e-06, + "loss": 0.4251, + "step": 4265 + }, + { + "avg_step_time": 5.54272885996886, + "epoch": 0.45493333333333336, + "eta_time": 7.8675956873446875, + "step": 4265 + }, + { + "epoch": 0.45504, + "grad_norm": 1.9534870201545365, + "learning_rate": 5.965601614602798e-06, + "loss": 0.4425, + "step": 4266 + }, + { + "avg_step_time": 5.540569644985777, + "epoch": 0.45504, + "eta_time": 7.8629917545089825, + "step": 4266 + }, + { + "epoch": 0.45514666666666664, + "grad_norm": 0.6411688579098039, + "learning_rate": 5.96390659801082e-06, + "loss": 0.4515, + "step": 4267 + }, + { + "avg_step_time": 5.505887925022781, + "epoch": 0.45514666666666664, + "eta_time": 7.812243200282323, + "step": 4267 + }, + { + "epoch": 0.45525333333333334, + "grad_norm": 0.684637572992643, + "learning_rate": 5.962211466359917e-06, + "loss": 0.464, + "step": 4268 + }, + { + "avg_step_time": 5.503686863966663, + "epoch": 0.45525333333333334, + "eta_time": 7.807591337299374, + "step": 4268 + }, + { + "epoch": 0.45536, + "grad_norm": 1.9889725442333388, + "learning_rate": 5.960516219852433e-06, + "loss": 0.5533, + "step": 4269 + }, + { + "avg_step_time": 5.552248723579176, + "epoch": 0.45536, + "eta_time": 7.874939439609798, + "step": 4269 + }, + { + "epoch": 0.4554666666666667, + "grad_norm": 1.8898931886053814, + "learning_rate": 5.958820858690724e-06, + "loss": 0.5045, + "step": 4270 + }, + { + "avg_step_time": 5.601460387008359, + "epoch": 0.4554666666666667, + "eta_time": 7.943182021021576, + "step": 4270 + }, + { + "epoch": 0.45557333333333333, + "grad_norm": 1.8304573095991137, + "learning_rate": 5.95712538307716e-06, + "loss": 0.5341, + "step": 4271 + }, + { + "avg_step_time": 5.597578157078136, + "epoch": 0.45557333333333333, + "eta_time": 7.9361219204796685, + "step": 4271 + }, + { + "epoch": 0.45568, + "grad_norm": 1.8915561317289635, + "learning_rate": 5.955429793214129e-06, + "loss": 0.4992, + "step": 4272 + }, + { + "avg_step_time": 5.59648730778935, + "epoch": 0.45568, + "eta_time": 7.933020758791404, + "step": 4272 + }, + { + "epoch": 0.4557866666666667, + "grad_norm": 2.0430506987282273, + "learning_rate": 5.9537340893040244e-06, + "loss": 0.5275, + "step": 4273 + }, + { + "avg_step_time": 5.588082445992364, + "epoch": 0.4557866666666667, + "eta_time": 7.919554622070289, + "step": 4273 + }, + { + "epoch": 0.4558933333333333, + "grad_norm": 1.6647369672856855, + "learning_rate": 5.95203827154926e-06, + "loss": 0.496, + "step": 4274 + }, + { + "avg_step_time": 5.589352961742517, + "epoch": 0.4558933333333333, + "eta_time": 7.91980262718016, + "step": 4274 + }, + { + "epoch": 0.456, + "grad_norm": 1.8062228040664847, + "learning_rate": 5.950342340152261e-06, + "loss": 0.5138, + "step": 4275 + }, + { + "avg_step_time": 5.589820310322925, + "epoch": 0.456, + "eta_time": 7.9189121062908105, + "step": 4275 + }, + { + "epoch": 0.45610666666666666, + "grad_norm": 1.8318302596621963, + "learning_rate": 5.9486462953154656e-06, + "loss": 0.4488, + "step": 4276 + }, + { + "avg_step_time": 5.591324854378748, + "epoch": 0.45610666666666666, + "eta_time": 7.919490397910344, + "step": 4276 + }, + { + "epoch": 0.45621333333333336, + "grad_norm": 1.9694178876310129, + "learning_rate": 5.9469501372413255e-06, + "loss": 0.4859, + "step": 4277 + }, + { + "avg_step_time": 5.591770747695306, + "epoch": 0.45621333333333336, + "eta_time": 7.918568686597409, + "step": 4277 + }, + { + "epoch": 0.45632, + "grad_norm": 1.7568515637808026, + "learning_rate": 5.945253866132308e-06, + "loss": 0.4981, + "step": 4278 + }, + { + "avg_step_time": 5.591236179525202, + "epoch": 0.45632, + "eta_time": 7.916258557511099, + "step": 4278 + }, + { + "epoch": 0.45642666666666665, + "grad_norm": 1.6808522969240216, + "learning_rate": 5.9435574821908914e-06, + "loss": 0.5538, + "step": 4279 + }, + { + "avg_step_time": 5.592173140458386, + "epoch": 0.45642666666666665, + "eta_time": 7.916031756604426, + "step": 4279 + }, + { + "epoch": 0.45653333333333335, + "grad_norm": 1.8289779639129828, + "learning_rate": 5.94186098561957e-06, + "loss": 0.4417, + "step": 4280 + }, + { + "avg_step_time": 5.588910897572835, + "epoch": 0.45653333333333335, + "eta_time": 7.909861395314888, + "step": 4280 + }, + { + "epoch": 0.45664, + "grad_norm": 1.8756162299782393, + "learning_rate": 5.940164376620847e-06, + "loss": 0.4837, + "step": 4281 + }, + { + "avg_step_time": 5.562644322713216, + "epoch": 0.45664, + "eta_time": 7.871141716639201, + "step": 4281 + }, + { + "epoch": 0.4567466666666667, + "grad_norm": 1.8296778962488907, + "learning_rate": 5.938467655397244e-06, + "loss": 0.5306, + "step": 4282 + }, + { + "avg_step_time": 5.544632726245457, + "epoch": 0.4567466666666667, + "eta_time": 7.844115131880031, + "step": 4282 + }, + { + "epoch": 0.45685333333333333, + "grad_norm": 1.7749544653687916, + "learning_rate": 5.936770822151297e-06, + "loss": 0.5049, + "step": 4283 + }, + { + "avg_step_time": 5.542672665432246, + "epoch": 0.45685333333333333, + "eta_time": 7.8398025589947204, + "step": 4283 + }, + { + "epoch": 0.45696, + "grad_norm": 1.7900873380250688, + "learning_rate": 5.935073877085546e-06, + "loss": 0.4726, + "step": 4284 + }, + { + "avg_step_time": 5.565625130528152, + "epoch": 0.45696, + "eta_time": 7.8707215387552285, + "step": 4284 + }, + { + "epoch": 0.4570666666666667, + "grad_norm": 1.7818106123984818, + "learning_rate": 5.933376820402554e-06, + "loss": 0.4145, + "step": 4285 + }, + { + "avg_step_time": 5.563785485546998, + "epoch": 0.4570666666666667, + "eta_time": 7.866574478176172, + "step": 4285 + }, + { + "epoch": 0.4571733333333333, + "grad_norm": 0.6708631655656375, + "learning_rate": 5.931679652304896e-06, + "loss": 0.4557, + "step": 4286 + }, + { + "avg_step_time": 5.530654738647769, + "epoch": 0.4571733333333333, + "eta_time": 7.818194990271804, + "step": 4286 + }, + { + "epoch": 0.45728, + "grad_norm": 1.7280666478256734, + "learning_rate": 5.9299823729951544e-06, + "loss": 0.4459, + "step": 4287 + }, + { + "avg_step_time": 5.529414123959011, + "epoch": 0.45728, + "eta_time": 7.814905295195403, + "step": 4287 + }, + { + "epoch": 0.45738666666666666, + "grad_norm": 1.9900222542654922, + "learning_rate": 5.928284982675931e-06, + "loss": 0.4839, + "step": 4288 + }, + { + "avg_step_time": 5.530078507433034, + "epoch": 0.45738666666666666, + "eta_time": 7.814308157586623, + "step": 4288 + }, + { + "epoch": 0.4574933333333333, + "grad_norm": 1.8453419711930956, + "learning_rate": 5.926587481549841e-06, + "loss": 0.5135, + "step": 4289 + }, + { + "avg_step_time": 5.52505538198683, + "epoch": 0.4574933333333333, + "eta_time": 7.805675464662505, + "step": 4289 + }, + { + "epoch": 0.4576, + "grad_norm": 1.8493720201383133, + "learning_rate": 5.9248898698195054e-06, + "loss": 0.5092, + "step": 4290 + }, + { + "avg_step_time": 5.536343483009723, + "epoch": 0.4576, + "eta_time": 7.820085169751234, + "step": 4290 + }, + { + "epoch": 0.45770666666666665, + "grad_norm": 1.5526185101159522, + "learning_rate": 5.923192147687568e-06, + "loss": 0.5043, + "step": 4291 + }, + { + "avg_step_time": 5.526361499169861, + "epoch": 0.45770666666666665, + "eta_time": 7.804450517160992, + "step": 4291 + }, + { + "epoch": 0.45781333333333335, + "grad_norm": 1.5761287462398237, + "learning_rate": 5.921494315356679e-06, + "loss": 0.5482, + "step": 4292 + }, + { + "avg_step_time": 5.526325514822295, + "epoch": 0.45781333333333335, + "eta_time": 7.802864608844923, + "step": 4292 + }, + { + "epoch": 0.45792, + "grad_norm": 1.749220506075858, + "learning_rate": 5.919796373029504e-06, + "loss": 0.5143, + "step": 4293 + }, + { + "avg_step_time": 5.520985957347985, + "epoch": 0.45792, + "eta_time": 7.793791843122906, + "step": 4293 + }, + { + "epoch": 0.4580266666666667, + "grad_norm": 2.038869224572852, + "learning_rate": 5.918098320908723e-06, + "loss": 0.5653, + "step": 4294 + }, + { + "avg_step_time": 5.517791461462926, + "epoch": 0.4580266666666667, + "eta_time": 7.787749559914758, + "step": 4294 + }, + { + "epoch": 0.45813333333333334, + "grad_norm": 1.6775737355666698, + "learning_rate": 5.916400159197027e-06, + "loss": 0.5133, + "step": 4295 + }, + { + "avg_step_time": 5.50120965880577, + "epoch": 0.45813333333333334, + "eta_time": 7.7628180740925865, + "step": 4295 + }, + { + "epoch": 0.45824, + "grad_norm": 1.8317676273905656, + "learning_rate": 5.914701888097121e-06, + "loss": 0.5721, + "step": 4296 + }, + { + "avg_step_time": 5.500701634570806, + "epoch": 0.45824, + "eta_time": 7.760573222773645, + "step": 4296 + }, + { + "epoch": 0.4583466666666667, + "grad_norm": 1.6790812823617773, + "learning_rate": 5.913003507811723e-06, + "loss": 0.4844, + "step": 4297 + }, + { + "avg_step_time": 5.495692378342754, + "epoch": 0.4583466666666667, + "eta_time": 7.751979415895695, + "step": 4297 + }, + { + "epoch": 0.4584533333333333, + "grad_norm": 1.8262757245803434, + "learning_rate": 5.911305018543565e-06, + "loss": 0.4796, + "step": 4298 + }, + { + "avg_step_time": 5.496260864566071, + "epoch": 0.4584533333333333, + "eta_time": 7.751254558167206, + "step": 4298 + }, + { + "epoch": 0.45856, + "grad_norm": 1.7142939463130227, + "learning_rate": 5.90960642049539e-06, + "loss": 0.4683, + "step": 4299 + }, + { + "avg_step_time": 5.5280527875881, + "epoch": 0.45856, + "eta_time": 7.794554430499221, + "step": 4299 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 1.6749046416276763, + "learning_rate": 5.9079077138699555e-06, + "loss": 0.5566, + "step": 4300 + }, + { + "avg_step_time": 5.528454621632894, + "epoch": 0.45866666666666667, + "eta_time": 7.793585334663037, + "step": 4300 + }, + { + "epoch": 0.4587733333333333, + "grad_norm": 1.894384478544445, + "learning_rate": 5.906208898870032e-06, + "loss": 0.5263, + "step": 4301 + }, + { + "avg_step_time": 5.528940138190683, + "epoch": 0.4587733333333333, + "eta_time": 7.792733961438758, + "step": 4301 + }, + { + "epoch": 0.45888, + "grad_norm": 1.8995504777731558, + "learning_rate": 5.904509975698399e-06, + "loss": 0.5177, + "step": 4302 + }, + { + "avg_step_time": 5.530787761765297, + "epoch": 0.45888, + "eta_time": 7.793801754287598, + "step": 4302 + }, + { + "epoch": 0.45898666666666665, + "grad_norm": 1.6215844135962862, + "learning_rate": 5.90281094455786e-06, + "loss": 0.4775, + "step": 4303 + }, + { + "avg_step_time": 5.529707853240196, + "epoch": 0.45898666666666665, + "eta_time": 7.790743953231742, + "step": 4303 + }, + { + "epoch": 0.45909333333333335, + "grad_norm": 1.848048401588097, + "learning_rate": 5.9011118056512155e-06, + "loss": 0.461, + "step": 4304 + }, + { + "avg_step_time": 5.520654049786654, + "epoch": 0.45909333333333335, + "eta_time": 7.776454635130035, + "step": 4304 + }, + { + "epoch": 0.4592, + "grad_norm": 1.8039336661179177, + "learning_rate": 5.8994125591812914e-06, + "loss": 0.5364, + "step": 4305 + }, + { + "avg_step_time": 5.520450295823993, + "epoch": 0.4592, + "eta_time": 7.77463416661879, + "step": 4305 + }, + { + "epoch": 0.45930666666666664, + "grad_norm": 2.181912756981136, + "learning_rate": 5.897713205350923e-06, + "loss": 0.5732, + "step": 4306 + }, + { + "avg_step_time": 5.518195217305964, + "epoch": 0.45930666666666664, + "eta_time": 7.769925432367758, + "step": 4306 + }, + { + "epoch": 0.45941333333333334, + "grad_norm": 1.7789974808853293, + "learning_rate": 5.896013744362954e-06, + "loss": 0.5304, + "step": 4307 + }, + { + "avg_step_time": 5.51704972681373, + "epoch": 0.45941333333333334, + "eta_time": 7.766780004303328, + "step": 4307 + }, + { + "epoch": 0.45952, + "grad_norm": 1.6861708625519591, + "learning_rate": 5.894314176420247e-06, + "loss": 0.4999, + "step": 4308 + }, + { + "avg_step_time": 5.5194419682627975, + "epoch": 0.45952, + "eta_time": 7.768614570329888, + "step": 4308 + }, + { + "epoch": 0.4596266666666667, + "grad_norm": 0.6569886203061709, + "learning_rate": 5.892614501725674e-06, + "loss": 0.4564, + "step": 4309 + }, + { + "avg_step_time": 5.481217781702678, + "epoch": 0.4596266666666667, + "eta_time": 7.713291467251602, + "step": 4309 + }, + { + "epoch": 0.4597333333333333, + "grad_norm": 1.7816589070181847, + "learning_rate": 5.890914720482122e-06, + "loss": 0.493, + "step": 4310 + }, + { + "avg_step_time": 5.48445249807955, + "epoch": 0.4597333333333333, + "eta_time": 7.716319972992478, + "step": 4310 + }, + { + "epoch": 0.45984, + "grad_norm": 1.963137279365929, + "learning_rate": 5.889214832892489e-06, + "loss": 0.5275, + "step": 4311 + }, + { + "avg_step_time": 5.51454716017752, + "epoch": 0.45984, + "eta_time": 7.757129671983044, + "step": 4311 + }, + { + "epoch": 0.45994666666666667, + "grad_norm": 1.6714237179408296, + "learning_rate": 5.887514839159683e-06, + "loss": 0.453, + "step": 4312 + }, + { + "avg_step_time": 5.547004805670844, + "epoch": 0.45994666666666667, + "eta_time": 7.801245925308745, + "step": 4312 + }, + { + "epoch": 0.4600533333333333, + "grad_norm": 1.656670421312796, + "learning_rate": 5.8858147394866296e-06, + "loss": 0.4844, + "step": 4313 + }, + { + "avg_step_time": 5.541220681835907, + "epoch": 0.4600533333333333, + "eta_time": 7.791571969848155, + "step": 4313 + }, + { + "epoch": 0.46016, + "grad_norm": 1.8157835243180955, + "learning_rate": 5.8841145340762665e-06, + "loss": 0.5093, + "step": 4314 + }, + { + "avg_step_time": 5.535451999818436, + "epoch": 0.46016, + "eta_time": 7.7819229364114175, + "step": 4314 + }, + { + "epoch": 0.46026666666666666, + "grad_norm": 1.8019608690536526, + "learning_rate": 5.88241422313154e-06, + "loss": 0.5215, + "step": 4315 + }, + { + "avg_step_time": 5.550106937235052, + "epoch": 0.46026666666666666, + "eta_time": 7.800983639558156, + "step": 4315 + }, + { + "epoch": 0.46037333333333336, + "grad_norm": 1.8347100467245407, + "learning_rate": 5.880713806855415e-06, + "loss": 0.4945, + "step": 4316 + }, + { + "avg_step_time": 5.544341489522144, + "epoch": 0.46037333333333336, + "eta_time": 7.791339887636813, + "step": 4316 + }, + { + "epoch": 0.46048, + "grad_norm": 1.6516392624188352, + "learning_rate": 5.879013285450863e-06, + "loss": 0.5424, + "step": 4317 + }, + { + "avg_step_time": 5.542033913159611, + "epoch": 0.46048, + "eta_time": 7.786557647989254, + "step": 4317 + }, + { + "epoch": 0.46058666666666664, + "grad_norm": 0.653556490468547, + "learning_rate": 5.877312659120871e-06, + "loss": 0.4423, + "step": 4318 + }, + { + "avg_step_time": 5.516176055176089, + "epoch": 0.46058666666666664, + "eta_time": 7.748695086395967, + "step": 4318 + }, + { + "epoch": 0.46069333333333334, + "grad_norm": 1.9107138622518367, + "learning_rate": 5.875611928068439e-06, + "loss": 0.5701, + "step": 4319 + }, + { + "avg_step_time": 5.517908496086044, + "epoch": 0.46069333333333334, + "eta_time": 7.749595932280844, + "step": 4319 + }, + { + "epoch": 0.4608, + "grad_norm": 1.7506348722080085, + "learning_rate": 5.873911092496577e-06, + "loss": 0.5349, + "step": 4320 + }, + { + "avg_step_time": 5.5185436793047975, + "epoch": 0.4608, + "eta_time": 7.748955083023819, + "step": 4320 + }, + { + "epoch": 0.4609066666666667, + "grad_norm": 1.9305110282643658, + "learning_rate": 5.872210152608311e-06, + "loss": 0.5376, + "step": 4321 + }, + { + "avg_step_time": 5.51595534459509, + "epoch": 0.4609066666666667, + "eta_time": 7.743788419884329, + "step": 4321 + }, + { + "epoch": 0.46101333333333333, + "grad_norm": 1.7500369542966852, + "learning_rate": 5.870509108606677e-06, + "loss": 0.5016, + "step": 4322 + }, + { + "avg_step_time": 5.516114509466923, + "epoch": 0.46101333333333333, + "eta_time": 7.742479615648989, + "step": 4322 + }, + { + "epoch": 0.46112, + "grad_norm": 1.8237566319270642, + "learning_rate": 5.8688079606947226e-06, + "loss": 0.4925, + "step": 4323 + }, + { + "avg_step_time": 5.519138892491658, + "epoch": 0.46112, + "eta_time": 7.745191579129961, + "step": 4323 + }, + { + "epoch": 0.4612266666666667, + "grad_norm": 1.6472613038165727, + "learning_rate": 5.867106709075511e-06, + "loss": 0.398, + "step": 4324 + }, + { + "avg_step_time": 5.51499360257929, + "epoch": 0.4612266666666667, + "eta_time": 7.7378424129522205, + "step": 4324 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 2.023813992466219, + "learning_rate": 5.865405353952116e-06, + "loss": 0.4743, + "step": 4325 + }, + { + "avg_step_time": 5.51415364670031, + "epoch": 0.4613333333333333, + "eta_time": 7.735132198843489, + "step": 4325 + }, + { + "epoch": 0.46144, + "grad_norm": 1.784290789566817, + "learning_rate": 5.8637038955276225e-06, + "loss": 0.5094, + "step": 4326 + }, + { + "avg_step_time": 5.477162594747061, + "epoch": 0.46144, + "eta_time": 7.681720539132753, + "step": 4326 + }, + { + "epoch": 0.46154666666666666, + "grad_norm": 0.6700256740278108, + "learning_rate": 5.86200233400513e-06, + "loss": 0.4459, + "step": 4327 + }, + { + "avg_step_time": 5.463886186330005, + "epoch": 0.46154666666666666, + "eta_time": 7.661582630164963, + "step": 4327 + }, + { + "epoch": 0.46165333333333336, + "grad_norm": 0.6572041038996997, + "learning_rate": 5.8603006695877505e-06, + "loss": 0.4673, + "step": 4328 + }, + { + "avg_step_time": 5.433601771942293, + "epoch": 0.46165333333333336, + "eta_time": 7.617607817497986, + "step": 4328 + }, + { + "epoch": 0.46176, + "grad_norm": 1.9005031212287724, + "learning_rate": 5.858598902478604e-06, + "loss": 0.5968, + "step": 4329 + }, + { + "avg_step_time": 5.430392508554941, + "epoch": 0.46176, + "eta_time": 7.611600166157842, + "step": 4329 + }, + { + "epoch": 0.46186666666666665, + "grad_norm": 1.7596011859701661, + "learning_rate": 5.856897032880829e-06, + "loss": 0.5021, + "step": 4330 + }, + { + "avg_step_time": 5.429838125151817, + "epoch": 0.46186666666666665, + "eta_time": 7.609314817053033, + "step": 4330 + }, + { + "epoch": 0.46197333333333335, + "grad_norm": 1.7530948449225248, + "learning_rate": 5.855195060997571e-06, + "loss": 0.6131, + "step": 4331 + }, + { + "avg_step_time": 5.431113729573259, + "epoch": 0.46197333333333335, + "eta_time": 7.6095937922132, + "step": 4331 + }, + { + "epoch": 0.46208, + "grad_norm": 1.9807550855488036, + "learning_rate": 5.853492987031989e-06, + "loss": 0.5126, + "step": 4332 + }, + { + "avg_step_time": 5.424328428326231, + "epoch": 0.46208, + "eta_time": 7.598580073346996, + "step": 4332 + }, + { + "epoch": 0.4621866666666667, + "grad_norm": 2.2373469814325815, + "learning_rate": 5.851790811187258e-06, + "loss": 0.6673, + "step": 4333 + }, + { + "avg_step_time": 5.424540873729821, + "epoch": 0.4621866666666667, + "eta_time": 7.597370857040489, + "step": 4333 + }, + { + "epoch": 0.46229333333333333, + "grad_norm": 1.7882564682997897, + "learning_rate": 5.850088533666559e-06, + "loss": 0.41, + "step": 4334 + }, + { + "avg_step_time": 5.425495395756731, + "epoch": 0.46229333333333333, + "eta_time": 7.597200636113801, + "step": 4334 + }, + { + "epoch": 0.4624, + "grad_norm": 1.758433711660775, + "learning_rate": 5.8483861546730915e-06, + "loss": 0.5829, + "step": 4335 + }, + { + "avg_step_time": 5.424243804180261, + "epoch": 0.4624, + "eta_time": 7.593941325852366, + "step": 4335 + }, + { + "epoch": 0.4625066666666667, + "grad_norm": 2.140287566696435, + "learning_rate": 5.846683674410061e-06, + "loss": 0.4682, + "step": 4336 + }, + { + "avg_step_time": 5.434883717334632, + "epoch": 0.4625066666666667, + "eta_time": 7.607327514347002, + "step": 4336 + }, + { + "epoch": 0.4626133333333333, + "grad_norm": 1.783707922376667, + "learning_rate": 5.844981093080688e-06, + "loss": 0.4894, + "step": 4337 + }, + { + "avg_step_time": 5.469008163972334, + "epoch": 0.4626133333333333, + "eta_time": 7.653573091692394, + "step": 4337 + }, + { + "epoch": 0.46272, + "grad_norm": 1.7760193339352648, + "learning_rate": 5.843278410888208e-06, + "loss": 0.5198, + "step": 4338 + }, + { + "avg_step_time": 5.503354609614671, + "epoch": 0.46272, + "eta_time": 7.700110324619193, + "step": 4338 + }, + { + "epoch": 0.46282666666666666, + "grad_norm": 1.6908033949187107, + "learning_rate": 5.841575628035863e-06, + "loss": 0.4639, + "step": 4339 + }, + { + "avg_step_time": 5.525448490874936, + "epoch": 0.46282666666666666, + "eta_time": 7.7294885000128275, + "step": 4339 + }, + { + "epoch": 0.4629333333333333, + "grad_norm": 1.778399876714048, + "learning_rate": 5.8398727447269084e-06, + "loss": 0.5491, + "step": 4340 + }, + { + "avg_step_time": 5.561819883308026, + "epoch": 0.4629333333333333, + "eta_time": 7.778823086793308, + "step": 4340 + }, + { + "epoch": 0.46304, + "grad_norm": 1.6690051578546732, + "learning_rate": 5.838169761164616e-06, + "loss": 0.4898, + "step": 4341 + }, + { + "avg_step_time": 5.550496489110619, + "epoch": 0.46304, + "eta_time": 7.761444257273016, + "step": 4341 + }, + { + "epoch": 0.46314666666666665, + "grad_norm": 1.6289468067077957, + "learning_rate": 5.836466677552266e-06, + "loss": 0.433, + "step": 4342 + }, + { + "avg_step_time": 5.562164429462317, + "epoch": 0.46314666666666665, + "eta_time": 7.77621488152329, + "step": 4342 + }, + { + "epoch": 0.46325333333333335, + "grad_norm": 1.7405511201067752, + "learning_rate": 5.8347634940931494e-06, + "loss": 0.5032, + "step": 4343 + }, + { + "avg_step_time": 5.585168265333079, + "epoch": 0.46325333333333335, + "eta_time": 7.806824086432237, + "step": 4343 + }, + { + "epoch": 0.46336, + "grad_norm": 1.8194421533292888, + "learning_rate": 5.83306021099057e-06, + "loss": 0.4927, + "step": 4344 + }, + { + "avg_step_time": 5.580955760647552, + "epoch": 0.46336, + "eta_time": 7.799385675504954, + "step": 4344 + }, + { + "epoch": 0.4634666666666667, + "grad_norm": 1.8484768285494817, + "learning_rate": 5.831356828447847e-06, + "loss": 0.5962, + "step": 4345 + }, + { + "avg_step_time": 5.552909369420523, + "epoch": 0.4634666666666667, + "eta_time": 7.758648368940342, + "step": 4345 + }, + { + "epoch": 0.46357333333333334, + "grad_norm": 0.6912620688001327, + "learning_rate": 5.829653346668305e-06, + "loss": 0.452, + "step": 4346 + }, + { + "avg_step_time": 5.518596928529065, + "epoch": 0.46357333333333334, + "eta_time": 7.709173320436852, + "step": 4346 + }, + { + "epoch": 0.46368, + "grad_norm": 1.7043728230215716, + "learning_rate": 5.827949765855285e-06, + "loss": 0.4603, + "step": 4347 + }, + { + "avg_step_time": 5.561664906415072, + "epoch": 0.46368, + "eta_time": 7.767791985959717, + "step": 4347 + }, + { + "epoch": 0.4637866666666667, + "grad_norm": 1.6007885759654787, + "learning_rate": 5.826246086212142e-06, + "loss": 0.4137, + "step": 4348 + }, + { + "avg_step_time": 5.560609111882219, + "epoch": 0.4637866666666667, + "eta_time": 7.764772779286644, + "step": 4348 + }, + { + "epoch": 0.4638933333333333, + "grad_norm": 2.096435568196926, + "learning_rate": 5.824542307942236e-06, + "loss": 0.522, + "step": 4349 + }, + { + "avg_step_time": 5.560754260631523, + "epoch": 0.4638933333333333, + "eta_time": 7.76343080942612, + "step": 4349 + }, + { + "epoch": 0.464, + "grad_norm": 1.884372341340619, + "learning_rate": 5.822838431248943e-06, + "loss": 0.4727, + "step": 4350 + }, + { + "avg_step_time": 5.559352766383778, + "epoch": 0.464, + "eta_time": 7.759929903077357, + "step": 4350 + }, + { + "epoch": 0.46410666666666667, + "grad_norm": 1.822272676987211, + "learning_rate": 5.821134456335652e-06, + "loss": 0.4686, + "step": 4351 + }, + { + "avg_step_time": 5.592535763075857, + "epoch": 0.46410666666666667, + "eta_time": 7.804694353803641, + "step": 4351 + }, + { + "epoch": 0.4642133333333333, + "grad_norm": 1.6189558355025861, + "learning_rate": 5.81943038340576e-06, + "loss": 0.4938, + "step": 4352 + }, + { + "avg_step_time": 5.592964266285752, + "epoch": 0.4642133333333333, + "eta_time": 7.803738752653704, + "step": 4352 + }, + { + "epoch": 0.46432, + "grad_norm": 0.671347945267479, + "learning_rate": 5.817726212662678e-06, + "loss": 0.4547, + "step": 4353 + }, + { + "avg_step_time": 5.55769016766789, + "epoch": 0.46432, + "eta_time": 7.752977783896707, + "step": 4353 + }, + { + "epoch": 0.46442666666666665, + "grad_norm": 2.8243739542032733, + "learning_rate": 5.816021944309828e-06, + "loss": 0.5575, + "step": 4354 + }, + { + "avg_step_time": 5.558451789798158, + "epoch": 0.46442666666666665, + "eta_time": 7.752496232382376, + "step": 4354 + }, + { + "epoch": 0.46453333333333335, + "grad_norm": 2.0699200418277557, + "learning_rate": 5.8143175785506455e-06, + "loss": 0.4922, + "step": 4355 + }, + { + "avg_step_time": 5.594414080032195, + "epoch": 0.46453333333333335, + "eta_time": 7.8010996338226715, + "step": 4355 + }, + { + "epoch": 0.46464, + "grad_norm": 1.673491007756006, + "learning_rate": 5.812613115588575e-06, + "loss": 0.4529, + "step": 4356 + }, + { + "avg_step_time": 5.596783914951363, + "epoch": 0.46464, + "eta_time": 7.802849574761359, + "step": 4356 + }, + { + "epoch": 0.46474666666666664, + "grad_norm": 1.6949168723448809, + "learning_rate": 5.810908555627072e-06, + "loss": 0.5714, + "step": 4357 + }, + { + "avg_step_time": 5.5979722726224646, + "epoch": 0.46474666666666664, + "eta_time": 7.802951351116535, + "step": 4357 + }, + { + "epoch": 0.46485333333333334, + "grad_norm": 1.710444424613421, + "learning_rate": 5.809203898869608e-06, + "loss": 0.5097, + "step": 4358 + }, + { + "avg_step_time": 5.591364345165214, + "epoch": 0.46485333333333334, + "eta_time": 7.792187477692744, + "step": 4358 + }, + { + "epoch": 0.46496, + "grad_norm": 2.1023709251387728, + "learning_rate": 5.807499145519663e-06, + "loss": 0.4985, + "step": 4359 + }, + { + "avg_step_time": 5.592912582435993, + "epoch": 0.46496, + "eta_time": 7.792791531527484, + "step": 4359 + }, + { + "epoch": 0.4650666666666667, + "grad_norm": 0.6444346704486781, + "learning_rate": 5.805794295780727e-06, + "loss": 0.4563, + "step": 4360 + }, + { + "avg_step_time": 5.558640978553078, + "epoch": 0.4650666666666667, + "eta_time": 7.743495696512135, + "step": 4360 + }, + { + "epoch": 0.4651733333333333, + "grad_norm": 1.7576067143182104, + "learning_rate": 5.804089349856302e-06, + "loss": 0.4652, + "step": 4361 + }, + { + "avg_step_time": 5.554901953899499, + "epoch": 0.4651733333333333, + "eta_time": 7.73674399912558, + "step": 4361 + }, + { + "epoch": 0.46528, + "grad_norm": 1.8525008581958593, + "learning_rate": 5.802384307949909e-06, + "loss": 0.4154, + "step": 4362 + }, + { + "avg_step_time": 5.5492793550395, + "epoch": 0.46528, + "eta_time": 7.727371501892504, + "step": 4362 + }, + { + "epoch": 0.46538666666666667, + "grad_norm": 1.961090955676538, + "learning_rate": 5.800679170265067e-06, + "loss": 0.4441, + "step": 4363 + }, + { + "avg_step_time": 5.546867122553816, + "epoch": 0.46538666666666667, + "eta_time": 7.722471671733257, + "step": 4363 + }, + { + "epoch": 0.4654933333333333, + "grad_norm": 1.6977278943464194, + "learning_rate": 5.798973937005319e-06, + "loss": 0.4763, + "step": 4364 + }, + { + "avg_step_time": 5.584514709434124, + "epoch": 0.4654933333333333, + "eta_time": 7.773334224715111, + "step": 4364 + }, + { + "epoch": 0.4656, + "grad_norm": 2.125581881360294, + "learning_rate": 5.79726860837421e-06, + "loss": 0.5147, + "step": 4365 + }, + { + "avg_step_time": 5.585981790465538, + "epoch": 0.4656, + "eta_time": 7.773824658397873, + "step": 4365 + }, + { + "epoch": 0.46570666666666666, + "grad_norm": 1.869233092324975, + "learning_rate": 5.7955631845753026e-06, + "loss": 0.5419, + "step": 4366 + }, + { + "avg_step_time": 5.622814176058529, + "epoch": 0.46570666666666666, + "eta_time": 7.82352116885477, + "step": 4366 + }, + { + "epoch": 0.46581333333333336, + "grad_norm": 1.8079722504667894, + "learning_rate": 5.7938576658121705e-06, + "loss": 0.5023, + "step": 4367 + }, + { + "avg_step_time": 5.658574708784469, + "epoch": 0.46581333333333336, + "eta_time": 7.871706150442394, + "step": 4367 + }, + { + "epoch": 0.46592, + "grad_norm": 1.8267831328203838, + "learning_rate": 5.792152052288391e-06, + "loss": 0.4545, + "step": 4368 + }, + { + "avg_step_time": 5.622775181375369, + "epoch": 0.46592, + "eta_time": 7.820343148096242, + "step": 4368 + }, + { + "epoch": 0.46602666666666664, + "grad_norm": 1.7347935268680883, + "learning_rate": 5.7904463442075655e-06, + "loss": 0.5135, + "step": 4369 + }, + { + "avg_step_time": 5.575940197164362, + "epoch": 0.46602666666666664, + "eta_time": 7.753654618612444, + "step": 4369 + }, + { + "epoch": 0.46613333333333334, + "grad_norm": 1.7916383456451435, + "learning_rate": 5.788740541773296e-06, + "loss": 0.5198, + "step": 4370 + }, + { + "avg_step_time": 5.576858009954895, + "epoch": 0.46613333333333334, + "eta_time": 7.7533817610622915, + "step": 4370 + }, + { + "epoch": 0.46624, + "grad_norm": 0.6652713259876845, + "learning_rate": 5.787034645189199e-06, + "loss": 0.4448, + "step": 4371 + }, + { + "avg_step_time": 5.541285565405181, + "epoch": 0.46624, + "eta_time": 7.702386935913202, + "step": 4371 + }, + { + "epoch": 0.4663466666666667, + "grad_norm": 1.7046352306589452, + "learning_rate": 5.785328654658905e-06, + "loss": 0.5996, + "step": 4372 + }, + { + "avg_step_time": 5.54685284874656, + "epoch": 0.4663466666666667, + "eta_time": 7.708584667299733, + "step": 4372 + }, + { + "epoch": 0.46645333333333333, + "grad_norm": 1.7907299786764186, + "learning_rate": 5.7836225703860525e-06, + "loss": 0.4976, + "step": 4373 + }, + { + "avg_step_time": 5.546190355763291, + "epoch": 0.46645333333333333, + "eta_time": 7.706123377646661, + "step": 4373 + }, + { + "epoch": 0.46656, + "grad_norm": 1.702260558579878, + "learning_rate": 5.7819163925742915e-06, + "loss": 0.4673, + "step": 4374 + }, + { + "avg_step_time": 5.5287007033222855, + "epoch": 0.46656, + "eta_time": 7.680286727031875, + "step": 4374 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 1.6808849381528768, + "learning_rate": 5.780210121427286e-06, + "loss": 0.5137, + "step": 4375 + }, + { + "avg_step_time": 5.529670106040107, + "epoch": 0.4666666666666667, + "eta_time": 7.680097369500148, + "step": 4375 + }, + { + "epoch": 0.4667733333333333, + "grad_norm": 1.8339404754852877, + "learning_rate": 5.778503757148706e-06, + "loss": 0.504, + "step": 4376 + }, + { + "avg_step_time": 5.528190766922151, + "epoch": 0.4667733333333333, + "eta_time": 7.676507123289953, + "step": 4376 + }, + { + "epoch": 0.46688, + "grad_norm": 1.7335765362178395, + "learning_rate": 5.776797299942236e-06, + "loss": 0.5784, + "step": 4377 + }, + { + "avg_step_time": 5.590585850706004, + "epoch": 0.46688, + "eta_time": 7.761596689396836, + "step": 4377 + }, + { + "epoch": 0.46698666666666666, + "grad_norm": 1.9698785613793142, + "learning_rate": 5.7750907500115735e-06, + "loss": 0.5086, + "step": 4378 + }, + { + "avg_step_time": 5.591308661181517, + "epoch": 0.46698666666666666, + "eta_time": 7.7610470499789, + "step": 4378 + }, + { + "epoch": 0.46709333333333336, + "grad_norm": 1.747103084943045, + "learning_rate": 5.773384107560424e-06, + "loss": 0.4792, + "step": 4379 + }, + { + "avg_step_time": 5.599109603901102, + "epoch": 0.46709333333333336, + "eta_time": 7.770319883636084, + "step": 4379 + }, + { + "epoch": 0.4672, + "grad_norm": 0.6259363900305185, + "learning_rate": 5.771677372792502e-06, + "loss": 0.4337, + "step": 4380 + }, + { + "avg_step_time": 5.563424218784679, + "epoch": 0.4672, + "eta_time": 7.719251103563742, + "step": 4380 + }, + { + "epoch": 0.46730666666666665, + "grad_norm": 1.60136873729528, + "learning_rate": 5.76997054591154e-06, + "loss": 0.4652, + "step": 4381 + }, + { + "avg_step_time": 5.563947571648492, + "epoch": 0.46730666666666665, + "eta_time": 7.7184317146701575, + "step": 4381 + }, + { + "epoch": 0.46741333333333335, + "grad_norm": 0.658717658967955, + "learning_rate": 5.7682636271212746e-06, + "loss": 0.4765, + "step": 4382 + }, + { + "avg_step_time": 5.533008688628072, + "epoch": 0.46741333333333335, + "eta_time": 7.673975661755544, + "step": 4382 + }, + { + "epoch": 0.46752, + "grad_norm": 1.6180358126033865, + "learning_rate": 5.766556616625456e-06, + "loss": 0.4339, + "step": 4383 + }, + { + "avg_step_time": 5.53572253506593, + "epoch": 0.46752, + "eta_time": 7.676201915291423, + "step": 4383 + }, + { + "epoch": 0.4676266666666667, + "grad_norm": 2.0568099448883492, + "learning_rate": 5.764849514627848e-06, + "loss": 0.4836, + "step": 4384 + }, + { + "avg_step_time": 5.537422461943193, + "epoch": 0.4676266666666667, + "eta_time": 7.6770209743218, + "step": 4384 + }, + { + "epoch": 0.46773333333333333, + "grad_norm": 1.8427422425118154, + "learning_rate": 5.7631423213322195e-06, + "loss": 0.5543, + "step": 4385 + }, + { + "avg_step_time": 5.573005522140349, + "epoch": 0.46773333333333333, + "eta_time": 7.724804876522317, + "step": 4385 + }, + { + "epoch": 0.46784, + "grad_norm": 1.7200346808908549, + "learning_rate": 5.7614350369423555e-06, + "loss": 0.4482, + "step": 4386 + }, + { + "avg_step_time": 5.5708427164289684, + "epoch": 0.46784, + "eta_time": 7.720259531184478, + "step": 4386 + }, + { + "epoch": 0.4679466666666667, + "grad_norm": 2.1351924155608524, + "learning_rate": 5.75972766166205e-06, + "loss": 0.571, + "step": 4387 + }, + { + "avg_step_time": 5.57077441071019, + "epoch": 0.4679466666666667, + "eta_time": 7.71861743350623, + "step": 4387 + }, + { + "epoch": 0.4680533333333333, + "grad_norm": 1.7708869407737529, + "learning_rate": 5.758020195695107e-06, + "loss": 0.5315, + "step": 4388 + }, + { + "avg_step_time": 5.576660649945038, + "epoch": 0.4680533333333333, + "eta_time": 7.72522407257664, + "step": 4388 + }, + { + "epoch": 0.46816, + "grad_norm": 1.7413550529738138, + "learning_rate": 5.7563126392453415e-06, + "loss": 0.5015, + "step": 4389 + }, + { + "avg_step_time": 5.568278565551296, + "epoch": 0.46816, + "eta_time": 7.712065813288545, + "step": 4389 + }, + { + "epoch": 0.46826666666666666, + "grad_norm": 2.1105826426497902, + "learning_rate": 5.754604992516581e-06, + "loss": 0.5101, + "step": 4390 + }, + { + "avg_step_time": 5.570931950000801, + "epoch": 0.46826666666666666, + "eta_time": 7.7141932696538875, + "step": 4390 + }, + { + "epoch": 0.4683733333333333, + "grad_norm": 2.080107541441642, + "learning_rate": 5.7528972557126625e-06, + "loss": 0.4926, + "step": 4391 + }, + { + "avg_step_time": 5.5707160631815595, + "epoch": 0.4683733333333333, + "eta_time": 7.712346905249137, + "step": 4391 + }, + { + "epoch": 0.46848, + "grad_norm": 0.6329295875933777, + "learning_rate": 5.751189429037435e-06, + "loss": 0.4244, + "step": 4392 + }, + { + "avg_step_time": 5.53805023010331, + "epoch": 0.46848, + "eta_time": 7.665584526834665, + "step": 4392 + }, + { + "epoch": 0.46858666666666665, + "grad_norm": 1.9911783137676122, + "learning_rate": 5.749481512694755e-06, + "loss": 0.5636, + "step": 4393 + }, + { + "avg_step_time": 5.538630743219395, + "epoch": 0.46858666666666665, + "eta_time": 7.664849545199729, + "step": 4393 + }, + { + "epoch": 0.46869333333333335, + "grad_norm": 1.6709511968090445, + "learning_rate": 5.747773506888492e-06, + "loss": 0.4734, + "step": 4394 + }, + { + "avg_step_time": 5.535316633455681, + "epoch": 0.46869333333333335, + "eta_time": 7.658725597567429, + "step": 4394 + }, + { + "epoch": 0.4688, + "grad_norm": 2.0358543901256048, + "learning_rate": 5.746065411822528e-06, + "loss": 0.6004, + "step": 4395 + }, + { + "avg_step_time": 5.539819310409854, + "epoch": 0.4688, + "eta_time": 7.663416712733631, + "step": 4395 + }, + { + "epoch": 0.4689066666666667, + "grad_norm": 1.7633327920627242, + "learning_rate": 5.744357227700752e-06, + "loss": 0.4739, + "step": 4396 + }, + { + "avg_step_time": 5.541328856439302, + "epoch": 0.4689066666666667, + "eta_time": 7.6639656600586905, + "step": 4396 + }, + { + "epoch": 0.46901333333333334, + "grad_norm": 1.8318660804517972, + "learning_rate": 5.742648954727066e-06, + "loss": 0.5003, + "step": 4397 + }, + { + "avg_step_time": 5.543155060874091, + "epoch": 0.46901333333333334, + "eta_time": 7.664951636953118, + "step": 4397 + }, + { + "epoch": 0.46912, + "grad_norm": 0.6360893852485433, + "learning_rate": 5.740940593105383e-06, + "loss": 0.4475, + "step": 4398 + }, + { + "avg_step_time": 5.50849045888342, + "epoch": 0.46912, + "eta_time": 7.615488059406328, + "step": 4398 + }, + { + "epoch": 0.4692266666666667, + "grad_norm": 0.6517664022671975, + "learning_rate": 5.739232143039623e-06, + "loss": 0.444, + "step": 4399 + }, + { + "avg_step_time": 5.474139143722226, + "epoch": 0.4692266666666667, + "eta_time": 7.566476771989389, + "step": 4399 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 0.6477121862422007, + "learning_rate": 5.737523604733719e-06, + "loss": 0.4443, + "step": 4400 + }, + { + "avg_step_time": 5.443537141337539, + "epoch": 0.4693333333333333, + "eta_time": 7.5226659105984055, + "step": 4400 + }, + { + "epoch": 0.46944, + "grad_norm": 1.534897492290511, + "learning_rate": 5.73581497839162e-06, + "loss": 0.4806, + "step": 4401 + }, + { + "avg_step_time": 5.441779984368218, + "epoch": 0.46944, + "eta_time": 7.5187260117354215, + "step": 4401 + }, + { + "epoch": 0.46954666666666667, + "grad_norm": 1.6034049238490928, + "learning_rate": 5.734106264217272e-06, + "loss": 0.472, + "step": 4402 + }, + { + "avg_step_time": 5.440771365406538, + "epoch": 0.46954666666666667, + "eta_time": 7.51582111115742, + "step": 4402 + }, + { + "epoch": 0.4696533333333333, + "grad_norm": 1.7028388563264005, + "learning_rate": 5.732397462414645e-06, + "loss": 0.4624, + "step": 4403 + }, + { + "avg_step_time": 5.441845884226789, + "epoch": 0.4696533333333333, + "eta_time": 7.5157938156598885, + "step": 4403 + }, + { + "epoch": 0.46976, + "grad_norm": 0.6473363663680338, + "learning_rate": 5.730688573187715e-06, + "loss": 0.4835, + "step": 4404 + }, + { + "avg_step_time": 5.411230571342237, + "epoch": 0.46976, + "eta_time": 7.4720075472617395, + "step": 4404 + }, + { + "epoch": 0.46986666666666665, + "grad_norm": 1.6333863634859136, + "learning_rate": 5.7289795967404624e-06, + "loss": 0.4382, + "step": 4405 + }, + { + "avg_step_time": 5.406766161774144, + "epoch": 0.46986666666666665, + "eta_time": 7.464341062227081, + "step": 4405 + }, + { + "epoch": 0.46997333333333335, + "grad_norm": 1.6249506673349845, + "learning_rate": 5.7272705332768865e-06, + "loss": 0.4824, + "step": 4406 + }, + { + "avg_step_time": 5.410198221302996, + "epoch": 0.46997333333333335, + "eta_time": 7.467576378237385, + "step": 4406 + }, + { + "epoch": 0.47008, + "grad_norm": 1.5638867151844353, + "learning_rate": 5.725561383000994e-06, + "loss": 0.5266, + "step": 4407 + }, + { + "avg_step_time": 5.407633634528729, + "epoch": 0.47008, + "eta_time": 7.462534415649646, + "step": 4407 + }, + { + "epoch": 0.47018666666666664, + "grad_norm": 1.655354113798948, + "learning_rate": 5.723852146116799e-06, + "loss": 0.527, + "step": 4408 + }, + { + "avg_step_time": 5.441794096821487, + "epoch": 0.47018666666666664, + "eta_time": 7.508164244142312, + "step": 4408 + }, + { + "epoch": 0.47029333333333334, + "grad_norm": 1.6029943531532387, + "learning_rate": 5.7221428228283325e-06, + "loss": 0.3962, + "step": 4409 + }, + { + "avg_step_time": 5.4333810493199515, + "epoch": 0.47029333333333334, + "eta_time": 7.495047303034133, + "step": 4409 + }, + { + "epoch": 0.4704, + "grad_norm": 1.7737298392439904, + "learning_rate": 5.720433413339627e-06, + "loss": 0.4215, + "step": 4410 + }, + { + "avg_step_time": 5.438494631738374, + "epoch": 0.4704, + "eta_time": 7.500590512939175, + "step": 4410 + }, + { + "epoch": 0.4705066666666667, + "grad_norm": 1.9781013586680267, + "learning_rate": 5.718723917854733e-06, + "loss": 0.5002, + "step": 4411 + }, + { + "avg_step_time": 5.468580125558256, + "epoch": 0.4705066666666667, + "eta_time": 7.540564373130884, + "step": 4411 + }, + { + "epoch": 0.47061333333333333, + "grad_norm": 1.5954136267545893, + "learning_rate": 5.717014336577709e-06, + "loss": 0.4339, + "step": 4412 + }, + { + "avg_step_time": 5.476702280718871, + "epoch": 0.47061333333333333, + "eta_time": 7.550242616446599, + "step": 4412 + }, + { + "epoch": 0.47072, + "grad_norm": 1.772319189166143, + "learning_rate": 5.71530466971262e-06, + "loss": 0.4682, + "step": 4413 + }, + { + "avg_step_time": 5.477035182895082, + "epoch": 0.47072, + "eta_time": 7.549180160423722, + "step": 4413 + }, + { + "epoch": 0.47082666666666667, + "grad_norm": 1.5751073970493024, + "learning_rate": 5.713594917463546e-06, + "loss": 0.5207, + "step": 4414 + }, + { + "avg_step_time": 5.45750344642485, + "epoch": 0.47082666666666667, + "eta_time": 7.520742943809356, + "step": 4414 + }, + { + "epoch": 0.4709333333333333, + "grad_norm": 1.637725534207823, + "learning_rate": 5.711885080034578e-06, + "loss": 0.4168, + "step": 4415 + }, + { + "avg_step_time": 5.458531726490367, + "epoch": 0.4709333333333333, + "eta_time": 7.520643712053395, + "step": 4415 + }, + { + "epoch": 0.47104, + "grad_norm": 0.6644697671110159, + "learning_rate": 5.710175157629812e-06, + "loss": 0.4411, + "step": 4416 + }, + { + "avg_step_time": 5.424460290658353, + "epoch": 0.47104, + "eta_time": 7.472194050381882, + "step": 4416 + }, + { + "epoch": 0.47114666666666666, + "grad_norm": 1.477803299759128, + "learning_rate": 5.708465150453356e-06, + "loss": 0.4017, + "step": 4417 + }, + { + "avg_step_time": 5.450976511444709, + "epoch": 0.47114666666666666, + "eta_time": 7.507205984373018, + "step": 4417 + }, + { + "epoch": 0.47125333333333336, + "grad_norm": 0.6592372568675252, + "learning_rate": 5.70675505870933e-06, + "loss": 0.4427, + "step": 4418 + }, + { + "avg_step_time": 5.417566015262796, + "epoch": 0.47125333333333336, + "eta_time": 7.459687427127133, + "step": 4418 + }, + { + "epoch": 0.47136, + "grad_norm": 1.866126104492125, + "learning_rate": 5.705044882601862e-06, + "loss": 0.4936, + "step": 4419 + }, + { + "avg_step_time": 5.421448779828621, + "epoch": 0.47136, + "eta_time": 7.463527820230735, + "step": 4419 + }, + { + "epoch": 0.47146666666666665, + "grad_norm": 1.6256963904534083, + "learning_rate": 5.703334622335096e-06, + "loss": 0.4489, + "step": 4420 + }, + { + "avg_step_time": 5.4229001974818685, + "epoch": 0.47146666666666665, + "eta_time": 7.464019577367405, + "step": 4420 + }, + { + "epoch": 0.47157333333333334, + "grad_norm": 1.7550373848931737, + "learning_rate": 5.7016242781131746e-06, + "loss": 0.4293, + "step": 4421 + }, + { + "avg_step_time": 5.4500062826908, + "epoch": 0.47157333333333334, + "eta_time": 7.499814201236172, + "step": 4421 + }, + { + "epoch": 0.47168, + "grad_norm": 1.9598456565666031, + "learning_rate": 5.69991385014026e-06, + "loss": 0.5403, + "step": 4422 + }, + { + "avg_step_time": 5.4513241016503535, + "epoch": 0.47168, + "eta_time": 7.500113409853944, + "step": 4422 + }, + { + "epoch": 0.4717866666666667, + "grad_norm": 1.629426367349828, + "learning_rate": 5.698203338620523e-06, + "loss": 0.497, + "step": 4423 + }, + { + "avg_step_time": 5.456030236350165, + "epoch": 0.4717866666666667, + "eta_time": 7.505072702890561, + "step": 4423 + }, + { + "epoch": 0.47189333333333333, + "grad_norm": 2.128931684708137, + "learning_rate": 5.696492743758138e-06, + "loss": 0.5618, + "step": 4424 + }, + { + "avg_step_time": 5.45587339786568, + "epoch": 0.47189333333333333, + "eta_time": 7.503341442453606, + "step": 4424 + }, + { + "epoch": 0.472, + "grad_norm": 1.541102578737953, + "learning_rate": 5.694782065757298e-06, + "loss": 0.5413, + "step": 4425 + }, + { + "avg_step_time": 5.454142782423231, + "epoch": 0.472, + "eta_time": 7.4994463258319435, + "step": 4425 + }, + { + "epoch": 0.4721066666666667, + "grad_norm": 1.8402780737356237, + "learning_rate": 5.693071304822203e-06, + "loss": 0.4683, + "step": 4426 + }, + { + "avg_step_time": 5.464054208813292, + "epoch": 0.4721066666666667, + "eta_time": 7.511556744282495, + "step": 4426 + }, + { + "epoch": 0.4722133333333333, + "grad_norm": 2.0565286925244406, + "learning_rate": 5.691360461157056e-06, + "loss": 0.605, + "step": 4427 + }, + { + "avg_step_time": 5.49666529713255, + "epoch": 0.4722133333333333, + "eta_time": 7.554861080614405, + "step": 4427 + }, + { + "epoch": 0.47232, + "grad_norm": 1.6707035809597484, + "learning_rate": 5.689649534966083e-06, + "loss": 0.51, + "step": 4428 + }, + { + "avg_step_time": 5.50146149384855, + "epoch": 0.47232, + "eta_time": 7.559925002796883, + "step": 4428 + }, + { + "epoch": 0.47242666666666666, + "grad_norm": 0.6571848467612043, + "learning_rate": 5.687938526453507e-06, + "loss": 0.4303, + "step": 4429 + }, + { + "avg_step_time": 5.488688266638554, + "epoch": 0.47242666666666666, + "eta_time": 7.540847824109523, + "step": 4429 + }, + { + "epoch": 0.47253333333333336, + "grad_norm": 1.8374572561810871, + "learning_rate": 5.6862274358235705e-06, + "loss": 0.556, + "step": 4430 + }, + { + "avg_step_time": 5.493108527828949, + "epoch": 0.47253333333333336, + "eta_time": 7.545394908365043, + "step": 4430 + }, + { + "epoch": 0.47264, + "grad_norm": 1.7397732254504938, + "learning_rate": 5.684516263280519e-06, + "loss": 0.55, + "step": 4431 + }, + { + "avg_step_time": 5.49426004140064, + "epoch": 0.47264, + "eta_time": 7.545450456856879, + "step": 4431 + }, + { + "epoch": 0.47274666666666665, + "grad_norm": 1.5544190434121, + "learning_rate": 5.682805009028613e-06, + "loss": 0.5336, + "step": 4432 + }, + { + "avg_step_time": 5.496161256173645, + "epoch": 0.47274666666666665, + "eta_time": 7.546534747018424, + "step": 4432 + }, + { + "epoch": 0.47285333333333335, + "grad_norm": 0.646024765727844, + "learning_rate": 5.681093673272117e-06, + "loss": 0.4397, + "step": 4433 + }, + { + "avg_step_time": 5.462330900057398, + "epoch": 0.47285333333333335, + "eta_time": 7.498566474467684, + "step": 4433 + }, + { + "epoch": 0.47296, + "grad_norm": 1.6810486054596347, + "learning_rate": 5.679382256215311e-06, + "loss": 0.4795, + "step": 4434 + }, + { + "avg_step_time": 5.460299901287965, + "epoch": 0.47296, + "eta_time": 7.4942616145177325, + "step": 4434 + }, + { + "epoch": 0.4730666666666667, + "grad_norm": 1.7845939685457275, + "learning_rate": 5.677670758062481e-06, + "loss": 0.4106, + "step": 4435 + }, + { + "avg_step_time": 5.4486568720653805, + "epoch": 0.4730666666666667, + "eta_time": 7.476768041111939, + "step": 4435 + }, + { + "epoch": 0.47317333333333333, + "grad_norm": 2.2901738592414476, + "learning_rate": 5.675959179017925e-06, + "loss": 0.4321, + "step": 4436 + }, + { + "avg_step_time": 5.459863279805039, + "epoch": 0.47317333333333333, + "eta_time": 7.490629094154746, + "step": 4436 + }, + { + "epoch": 0.47328, + "grad_norm": 1.7691713717246484, + "learning_rate": 5.674247519285951e-06, + "loss": 0.5388, + "step": 4437 + }, + { + "avg_step_time": 5.4568138459716184, + "epoch": 0.47328, + "eta_time": 7.484929658724403, + "step": 4437 + }, + { + "epoch": 0.4733866666666667, + "grad_norm": 1.8517561859182075, + "learning_rate": 5.67253577907087e-06, + "loss": 0.4953, + "step": 4438 + }, + { + "avg_step_time": 5.4572227001190186, + "epoch": 0.4733866666666667, + "eta_time": 7.483974575135443, + "step": 4438 + }, + { + "epoch": 0.4734933333333333, + "grad_norm": 1.662418460400235, + "learning_rate": 5.670823958577012e-06, + "loss": 0.436, + "step": 4439 + }, + { + "avg_step_time": 5.464762088024255, + "epoch": 0.4734933333333333, + "eta_time": 7.492796018468812, + "step": 4439 + }, + { + "epoch": 0.4736, + "grad_norm": 1.9153812716993952, + "learning_rate": 5.6691120580087126e-06, + "loss": 0.4973, + "step": 4440 + }, + { + "avg_step_time": 5.4549034725536, + "epoch": 0.4736, + "eta_time": 7.477763510292226, + "step": 4440 + }, + { + "epoch": 0.47370666666666666, + "grad_norm": 1.9667145381339655, + "learning_rate": 5.667400077570314e-06, + "loss": 0.4965, + "step": 4441 + }, + { + "avg_step_time": 5.465748558140764, + "epoch": 0.47370666666666666, + "eta_time": 7.4911120516295915, + "step": 4441 + }, + { + "epoch": 0.4738133333333333, + "grad_norm": 2.0597192071562396, + "learning_rate": 5.665688017466173e-06, + "loss": 0.4759, + "step": 4442 + }, + { + "avg_step_time": 5.442075264574301, + "epoch": 0.4738133333333333, + "eta_time": 7.457154800040285, + "step": 4442 + }, + { + "epoch": 0.47392, + "grad_norm": 1.7480402897716028, + "learning_rate": 5.6639758779006535e-06, + "loss": 0.5478, + "step": 4443 + }, + { + "avg_step_time": 5.446575434520991, + "epoch": 0.47392, + "eta_time": 7.461808345293758, + "step": 4443 + }, + { + "epoch": 0.47402666666666665, + "grad_norm": 2.001327997796522, + "learning_rate": 5.662263659078127e-06, + "loss": 0.4929, + "step": 4444 + }, + { + "avg_step_time": 5.443475333127108, + "epoch": 0.47402666666666665, + "eta_time": 7.4560491299027145, + "step": 4444 + }, + { + "epoch": 0.47413333333333335, + "grad_norm": 0.6227077172398546, + "learning_rate": 5.660551361202979e-06, + "loss": 0.4218, + "step": 4445 + }, + { + "avg_step_time": 5.442286758711844, + "epoch": 0.47413333333333335, + "eta_time": 7.452909366791498, + "step": 4445 + }, + { + "epoch": 0.47424, + "grad_norm": 1.8772072213986948, + "learning_rate": 5.6588389844796e-06, + "loss": 0.5403, + "step": 4446 + }, + { + "avg_step_time": 5.512814904704238, + "epoch": 0.47424, + "eta_time": 7.54796240702422, + "step": 4446 + }, + { + "epoch": 0.4743466666666667, + "grad_norm": 1.48510328037613, + "learning_rate": 5.657126529112393e-06, + "loss": 0.4469, + "step": 4447 + }, + { + "avg_step_time": 5.512213234949594, + "epoch": 0.4743466666666667, + "eta_time": 7.545607450508777, + "step": 4447 + }, + { + "epoch": 0.47445333333333334, + "grad_norm": 1.723554344437202, + "learning_rate": 5.655413995305769e-06, + "loss": 0.5179, + "step": 4448 + }, + { + "avg_step_time": 5.512095422455759, + "epoch": 0.47445333333333334, + "eta_time": 7.543915040677645, + "step": 4448 + }, + { + "epoch": 0.47456, + "grad_norm": 1.6649040149676921, + "learning_rate": 5.653701383264147e-06, + "loss": 0.4545, + "step": 4449 + }, + { + "avg_step_time": 5.514928232539784, + "epoch": 0.47456, + "eta_time": 7.546260131525272, + "step": 4449 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 1.7655940785405941, + "learning_rate": 5.651988693191958e-06, + "loss": 0.5198, + "step": 4450 + }, + { + "avg_step_time": 5.519254824127814, + "epoch": 0.4746666666666667, + "eta_time": 7.550647224674857, + "step": 4450 + }, + { + "epoch": 0.4747733333333333, + "grad_norm": 1.6111977182563637, + "learning_rate": 5.6502759252936415e-06, + "loss": 0.4386, + "step": 4451 + }, + { + "avg_step_time": 5.516220348049896, + "epoch": 0.4747733333333333, + "eta_time": 7.544963609388247, + "step": 4451 + }, + { + "epoch": 0.47488, + "grad_norm": 1.7930288339163025, + "learning_rate": 5.648563079773646e-06, + "loss": 0.4395, + "step": 4452 + }, + { + "avg_step_time": 5.551733741856585, + "epoch": 0.47488, + "eta_time": 7.591995891988879, + "step": 4452 + }, + { + "epoch": 0.47498666666666667, + "grad_norm": 1.707882785899101, + "learning_rate": 5.646850156836427e-06, + "loss": 0.4662, + "step": 4453 + }, + { + "avg_step_time": 5.552350362141927, + "epoch": 0.47498666666666667, + "eta_time": 7.591296800684045, + "step": 4453 + }, + { + "epoch": 0.4750933333333333, + "grad_norm": 1.6706011711802586, + "learning_rate": 5.645137156686455e-06, + "loss": 0.4593, + "step": 4454 + }, + { + "avg_step_time": 5.551736605287802, + "epoch": 0.4750933333333333, + "eta_time": 7.588915509617021, + "step": 4454 + }, + { + "epoch": 0.4752, + "grad_norm": 1.536721287272396, + "learning_rate": 5.6434240795282045e-06, + "loss": 0.4312, + "step": 4455 + }, + { + "avg_step_time": 5.5873752194221575, + "epoch": 0.4752, + "eta_time": 7.636079466543615, + "step": 4455 + }, + { + "epoch": 0.47530666666666666, + "grad_norm": 1.6906701485599167, + "learning_rate": 5.64171092556616e-06, + "loss": 0.4123, + "step": 4456 + }, + { + "avg_step_time": 5.58965222281639, + "epoch": 0.47530666666666666, + "eta_time": 7.637638690009395, + "step": 4456 + }, + { + "epoch": 0.47541333333333335, + "grad_norm": 1.7879157689006773, + "learning_rate": 5.639997695004819e-06, + "loss": 0.4321, + "step": 4457 + }, + { + "avg_step_time": 5.590246800220374, + "epoch": 0.47541333333333335, + "eta_time": 7.636898267634389, + "step": 4457 + }, + { + "epoch": 0.47552, + "grad_norm": 0.6663121413942151, + "learning_rate": 5.63828438804868e-06, + "loss": 0.4257, + "step": 4458 + }, + { + "avg_step_time": 5.552604480223223, + "epoch": 0.47552, + "eta_time": 7.583932285904885, + "step": 4458 + }, + { + "epoch": 0.47562666666666664, + "grad_norm": 1.8003534020612415, + "learning_rate": 5.636571004902262e-06, + "loss": 0.4668, + "step": 4459 + }, + { + "avg_step_time": 5.588663809227221, + "epoch": 0.47562666666666664, + "eta_time": 7.631630912822505, + "step": 4459 + }, + { + "epoch": 0.47573333333333334, + "grad_norm": 2.287261535848039, + "learning_rate": 5.634857545770083e-06, + "loss": 0.4918, + "step": 4460 + }, + { + "avg_step_time": 5.5896459348274, + "epoch": 0.47573333333333334, + "eta_time": 7.631419380465743, + "step": 4460 + }, + { + "epoch": 0.47584, + "grad_norm": 1.8285660778442208, + "learning_rate": 5.6331440108566735e-06, + "loss": 0.5075, + "step": 4461 + }, + { + "avg_step_time": 5.610983581253977, + "epoch": 0.47584, + "eta_time": 7.658992588411678, + "step": 4461 + }, + { + "epoch": 0.4759466666666667, + "grad_norm": 0.6675052878724035, + "learning_rate": 5.631430400366577e-06, + "loss": 0.4551, + "step": 4462 + }, + { + "avg_step_time": 5.598371368466002, + "epoch": 0.4759466666666667, + "eta_time": 7.640221814798186, + "step": 4462 + }, + { + "epoch": 0.47605333333333333, + "grad_norm": 1.7269291039213905, + "learning_rate": 5.6297167145043394e-06, + "loss": 0.5176, + "step": 4463 + }, + { + "avg_step_time": 5.594117819660842, + "epoch": 0.47605333333333333, + "eta_time": 7.632862980603904, + "step": 4463 + }, + { + "epoch": 0.47616, + "grad_norm": 1.753290407591565, + "learning_rate": 5.628002953474521e-06, + "loss": 0.4951, + "step": 4464 + }, + { + "avg_step_time": 5.593466703337852, + "epoch": 0.47616, + "eta_time": 7.630420827803387, + "step": 4464 + }, + { + "epoch": 0.47626666666666667, + "grad_norm": 1.6886538513439182, + "learning_rate": 5.626289117481687e-06, + "loss": 0.4151, + "step": 4465 + }, + { + "avg_step_time": 5.597543420213642, + "epoch": 0.47626666666666667, + "eta_time": 7.634427275902495, + "step": 4465 + }, + { + "epoch": 0.4763733333333333, + "grad_norm": 1.75590436511362, + "learning_rate": 5.624575206730413e-06, + "loss": 0.5742, + "step": 4466 + }, + { + "avg_step_time": 5.599155055152045, + "epoch": 0.4763733333333333, + "eta_time": 7.635070046039274, + "step": 4466 + }, + { + "epoch": 0.47648, + "grad_norm": 0.6800181538214504, + "learning_rate": 5.622861221425286e-06, + "loss": 0.4454, + "step": 4467 + }, + { + "avg_step_time": 5.551965019919655, + "epoch": 0.47648, + "eta_time": 7.569178977157129, + "step": 4467 + }, + { + "epoch": 0.47658666666666666, + "grad_norm": 0.665343515284078, + "learning_rate": 5.621147161770898e-06, + "loss": 0.4409, + "step": 4468 + }, + { + "avg_step_time": 5.513979574646613, + "epoch": 0.47658666666666666, + "eta_time": 7.5158604924419254, + "step": 4468 + }, + { + "epoch": 0.47669333333333336, + "grad_norm": 1.8235084347177286, + "learning_rate": 5.619433027971854e-06, + "loss": 0.5244, + "step": 4469 + }, + { + "avg_step_time": 5.516987396009041, + "epoch": 0.47669333333333336, + "eta_time": 7.518427823561209, + "step": 4469 + }, + { + "epoch": 0.4768, + "grad_norm": 1.8741987043439667, + "learning_rate": 5.617718820232762e-06, + "loss": 0.4398, + "step": 4470 + }, + { + "avg_step_time": 5.555029743849629, + "epoch": 0.4768, + "eta_time": 7.56872802599512, + "step": 4470 + }, + { + "epoch": 0.47690666666666665, + "grad_norm": 1.6681538232449398, + "learning_rate": 5.6160045387582455e-06, + "loss": 0.4598, + "step": 4471 + }, + { + "avg_step_time": 5.552072127660115, + "epoch": 0.47690666666666665, + "eta_time": 7.563156031679223, + "step": 4471 + }, + { + "epoch": 0.47701333333333334, + "grad_norm": 1.9432199483045849, + "learning_rate": 5.61429018375293e-06, + "loss": 0.4651, + "step": 4472 + }, + { + "avg_step_time": 5.552370406160451, + "epoch": 0.47701333333333334, + "eta_time": 7.56202002816797, + "step": 4472 + }, + { + "epoch": 0.47712, + "grad_norm": 1.5636515576860552, + "learning_rate": 5.612575755421459e-06, + "loss": 0.4609, + "step": 4473 + }, + { + "avg_step_time": 5.570711737931377, + "epoch": 0.47712, + "eta_time": 7.585452483149891, + "step": 4473 + }, + { + "epoch": 0.4772266666666667, + "grad_norm": 1.7561432238635106, + "learning_rate": 5.6108612539684745e-06, + "loss": 0.4933, + "step": 4474 + }, + { + "avg_step_time": 5.61104682238415, + "epoch": 0.4772266666666667, + "eta_time": 7.638816799029089, + "step": 4474 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 1.6793666911677156, + "learning_rate": 5.609146679598634e-06, + "loss": 0.5293, + "step": 4475 + }, + { + "avg_step_time": 5.615758623739685, + "epoch": 0.47733333333333333, + "eta_time": 7.643671460090127, + "step": 4475 + }, + { + "epoch": 0.47744, + "grad_norm": 0.6267467042886826, + "learning_rate": 5.607432032516601e-06, + "loss": 0.4633, + "step": 4476 + }, + { + "avg_step_time": 5.5194151184775615, + "epoch": 0.47744, + "eta_time": 7.511004073728215, + "step": 4476 + }, + { + "epoch": 0.4775466666666667, + "grad_norm": 1.911078278597136, + "learning_rate": 5.605717312927047e-06, + "loss": 0.4893, + "step": 4477 + }, + { + "avg_step_time": 5.520231307154954, + "epoch": 0.4775466666666667, + "eta_time": 7.510581372901379, + "step": 4477 + }, + { + "epoch": 0.4776533333333333, + "grad_norm": 1.617588722938518, + "learning_rate": 5.604002521034655e-06, + "loss": 0.4855, + "step": 4478 + }, + { + "avg_step_time": 5.5269286560289785, + "epoch": 0.4776533333333333, + "eta_time": 7.518158230159418, + "step": 4478 + }, + { + "epoch": 0.47776, + "grad_norm": 0.6544949311200089, + "learning_rate": 5.602287657044116e-06, + "loss": 0.4534, + "step": 4479 + }, + { + "avg_step_time": 5.526572521286782, + "epoch": 0.47776, + "eta_time": 7.5161386289500225, + "step": 4479 + }, + { + "epoch": 0.47786666666666666, + "grad_norm": 1.8247642787845841, + "learning_rate": 5.600572721160127e-06, + "loss": 0.5638, + "step": 4480 + }, + { + "avg_step_time": 5.538163717346962, + "epoch": 0.47786666666666666, + "eta_time": 7.530364276781495, + "step": 4480 + }, + { + "epoch": 0.4779733333333333, + "grad_norm": 0.6116419558813418, + "learning_rate": 5.5988577135873954e-06, + "loss": 0.4382, + "step": 4481 + }, + { + "avg_step_time": 5.537203723734075, + "epoch": 0.4779733333333333, + "eta_time": 7.527520839987378, + "step": 4481 + }, + { + "epoch": 0.47808, + "grad_norm": 1.9642896305598903, + "learning_rate": 5.597142634530639e-06, + "loss": 0.5283, + "step": 4482 + }, + { + "avg_step_time": 5.514089196619361, + "epoch": 0.47808, + "eta_time": 7.494566233071815, + "step": 4482 + }, + { + "epoch": 0.47818666666666665, + "grad_norm": 1.8341624997676123, + "learning_rate": 5.595427484194578e-06, + "loss": 0.5244, + "step": 4483 + }, + { + "avg_step_time": 5.512227344994593, + "epoch": 0.47818666666666665, + "eta_time": 7.4905044921426525, + "step": 4483 + }, + { + "epoch": 0.47829333333333335, + "grad_norm": 1.5039487972994139, + "learning_rate": 5.5937122627839495e-06, + "loss": 0.5004, + "step": 4484 + }, + { + "avg_step_time": 5.53461404280229, + "epoch": 0.47829333333333335, + "eta_time": 7.519388134262778, + "step": 4484 + }, + { + "epoch": 0.4784, + "grad_norm": 1.620721835247221, + "learning_rate": 5.5919969705034914e-06, + "loss": 0.457, + "step": 4485 + }, + { + "avg_step_time": 5.541209266643332, + "epoch": 0.4784, + "eta_time": 7.526809253857192, + "step": 4485 + }, + { + "epoch": 0.4785066666666667, + "grad_norm": 2.0209854606751123, + "learning_rate": 5.590281607557957e-06, + "loss": 0.4803, + "step": 4486 + }, + { + "avg_step_time": 5.543033973135129, + "epoch": 0.4785066666666667, + "eta_time": 7.527748081849347, + "step": 4486 + }, + { + "epoch": 0.47861333333333334, + "grad_norm": 1.8379440837522636, + "learning_rate": 5.588566174152101e-06, + "loss": 0.4429, + "step": 4487 + }, + { + "avg_step_time": 5.5382139995844675, + "epoch": 0.47861333333333334, + "eta_time": 7.519663897213577, + "step": 4487 + }, + { + "epoch": 0.47872, + "grad_norm": 1.9697564536996244, + "learning_rate": 5.586850670490694e-06, + "loss": 0.4678, + "step": 4488 + }, + { + "avg_step_time": 5.539355644071945, + "epoch": 0.47872, + "eta_time": 7.519675286827665, + "step": 4488 + }, + { + "epoch": 0.4788266666666667, + "grad_norm": 0.6379069690203579, + "learning_rate": 5.5851350967785075e-06, + "loss": 0.4454, + "step": 4489 + }, + { + "avg_step_time": 5.509712101233126, + "epoch": 0.4788266666666667, + "eta_time": 7.477903701840293, + "step": 4489 + }, + { + "epoch": 0.4789333333333333, + "grad_norm": 2.0039819780550485, + "learning_rate": 5.583419453220327e-06, + "loss": 0.5317, + "step": 4490 + }, + { + "avg_step_time": 5.5102106970970075, + "epoch": 0.4789333333333333, + "eta_time": 7.477049793144134, + "step": 4490 + }, + { + "epoch": 0.47904, + "grad_norm": 1.8189894568576557, + "learning_rate": 5.581703740020943e-06, + "loss": 0.5173, + "step": 4491 + }, + { + "avg_step_time": 5.545671836294309, + "epoch": 0.47904, + "eta_time": 7.523628124572612, + "step": 4491 + }, + { + "epoch": 0.47914666666666667, + "grad_norm": 1.977377263297309, + "learning_rate": 5.579987957385155e-06, + "loss": 0.476, + "step": 4492 + }, + { + "avg_step_time": 5.544650077819824, + "epoch": 0.47914666666666667, + "eta_time": 7.520701758331723, + "step": 4492 + }, + { + "epoch": 0.4792533333333333, + "grad_norm": 0.6446056248262219, + "learning_rate": 5.578272105517775e-06, + "loss": 0.4341, + "step": 4493 + }, + { + "avg_step_time": 5.550739579730564, + "epoch": 0.4792533333333333, + "eta_time": 7.527419618956838, + "step": 4493 + }, + { + "epoch": 0.47936, + "grad_norm": 1.8966952484842377, + "learning_rate": 5.576556184623615e-06, + "loss": 0.5757, + "step": 4494 + }, + { + "avg_step_time": 5.548223471400713, + "epoch": 0.47936, + "eta_time": 7.522466323307467, + "step": 4494 + }, + { + "epoch": 0.47946666666666665, + "grad_norm": 1.6942855219051498, + "learning_rate": 5.5748401949075e-06, + "loss": 0.4611, + "step": 4495 + }, + { + "avg_step_time": 5.5471548528382275, + "epoch": 0.47946666666666665, + "eta_time": 7.51947657829182, + "step": 4495 + }, + { + "epoch": 0.47957333333333335, + "grad_norm": 1.7912867949373958, + "learning_rate": 5.573124136574268e-06, + "loss": 0.4396, + "step": 4496 + }, + { + "avg_step_time": 5.54580054138646, + "epoch": 0.47957333333333335, + "eta_time": 7.516100233729039, + "step": 4496 + }, + { + "epoch": 0.47968, + "grad_norm": 1.8119138804701824, + "learning_rate": 5.571408009828757e-06, + "loss": 0.5124, + "step": 4497 + }, + { + "avg_step_time": 5.578050586912367, + "epoch": 0.47968, + "eta_time": 7.558258545266257, + "step": 4497 + }, + { + "epoch": 0.47978666666666664, + "grad_norm": 1.8561536265294107, + "learning_rate": 5.569691814875814e-06, + "loss": 0.496, + "step": 4498 + }, + { + "avg_step_time": 5.612999280293782, + "epoch": 0.47978666666666664, + "eta_time": 7.6040548583313265, + "step": 4498 + }, + { + "epoch": 0.47989333333333334, + "grad_norm": 1.6601831326516692, + "learning_rate": 5.567975551920302e-06, + "loss": 0.3979, + "step": 4499 + }, + { + "avg_step_time": 5.64376231395837, + "epoch": 0.47989333333333334, + "eta_time": 7.6441625119058365, + "step": 4499 + }, + { + "epoch": 0.48, + "grad_norm": 0.643132468104971, + "learning_rate": 5.56625922116708e-06, + "loss": 0.4644, + "step": 4500 + }, + { + "avg_step_time": 5.611699694334859, + "epoch": 0.48, + "eta_time": 7.599176669411787, + "step": 4500 + }, + { + "epoch": 0.4801066666666667, + "grad_norm": 1.784457156925599, + "learning_rate": 5.5645428228210286e-06, + "loss": 0.5062, + "step": 4501 + }, + { + "avg_step_time": 5.612626290080523, + "epoch": 0.4801066666666667, + "eta_time": 7.598872371625686, + "step": 4501 + }, + { + "epoch": 0.4802133333333333, + "grad_norm": 0.6691137755488723, + "learning_rate": 5.562826357087028e-06, + "loss": 0.4262, + "step": 4502 + }, + { + "avg_step_time": 5.582793190021707, + "epoch": 0.4802133333333333, + "eta_time": 7.556930893048827, + "step": 4502 + }, + { + "epoch": 0.48032, + "grad_norm": 1.8221434769151958, + "learning_rate": 5.561109824169962e-06, + "loss": 0.5005, + "step": 4503 + }, + { + "avg_step_time": 5.614796997320773, + "epoch": 0.48032, + "eta_time": 7.598691936374112, + "step": 4503 + }, + { + "epoch": 0.48042666666666667, + "grad_norm": 1.7881929471206777, + "learning_rate": 5.5593932242747365e-06, + "loss": 0.466, + "step": 4504 + }, + { + "avg_step_time": 5.616554970693106, + "epoch": 0.48042666666666667, + "eta_time": 7.599510906179478, + "step": 4504 + }, + { + "epoch": 0.4805333333333333, + "grad_norm": 1.7272436544840897, + "learning_rate": 5.557676557606252e-06, + "loss": 0.4776, + "step": 4505 + }, + { + "avg_step_time": 5.62161367830604, + "epoch": 0.4805333333333333, + "eta_time": 7.6047940592640035, + "step": 4505 + }, + { + "epoch": 0.48064, + "grad_norm": 1.5940494234913671, + "learning_rate": 5.555959824369426e-06, + "loss": 0.4274, + "step": 4506 + }, + { + "avg_step_time": 5.624287730515605, + "epoch": 0.48064, + "eta_time": 7.606849155522356, + "step": 4506 + }, + { + "epoch": 0.48074666666666666, + "grad_norm": 1.5697934189160554, + "learning_rate": 5.554243024769177e-06, + "loss": 0.4484, + "step": 4507 + }, + { + "avg_step_time": 5.623781753308846, + "epoch": 0.48074666666666666, + "eta_time": 7.604602659752072, + "step": 4507 + }, + { + "epoch": 0.48085333333333335, + "grad_norm": 1.655064122928055, + "learning_rate": 5.5525261590104375e-06, + "loss": 0.4367, + "step": 4508 + }, + { + "avg_step_time": 5.620677278499411, + "epoch": 0.48085333333333335, + "eta_time": 7.598843420682398, + "step": 4508 + }, + { + "epoch": 0.48096, + "grad_norm": 1.7457629036142892, + "learning_rate": 5.550809227298144e-06, + "loss": 0.4905, + "step": 4509 + }, + { + "avg_step_time": 5.6147456674864795, + "epoch": 0.48096, + "eta_time": 7.589264560552558, + "step": 4509 + }, + { + "epoch": 0.48106666666666664, + "grad_norm": 0.6186555433878831, + "learning_rate": 5.549092229837242e-06, + "loss": 0.4407, + "step": 4510 + }, + { + "avg_step_time": 5.554541279571225, + "epoch": 0.48106666666666664, + "eta_time": 7.506345368087225, + "step": 4510 + }, + { + "epoch": 0.48117333333333334, + "grad_norm": 0.659833267104589, + "learning_rate": 5.5473751668326846e-06, + "loss": 0.466, + "step": 4511 + }, + { + "avg_step_time": 5.510909164794768, + "epoch": 0.48117333333333334, + "eta_time": 7.445850604878264, + "step": 4511 + }, + { + "epoch": 0.48128, + "grad_norm": 1.8401278376640755, + "learning_rate": 5.545658038489433e-06, + "loss": 0.5106, + "step": 4512 + }, + { + "avg_step_time": 5.513248202776668, + "epoch": 0.48128, + "eta_time": 7.447479447250816, + "step": 4512 + }, + { + "epoch": 0.4813866666666667, + "grad_norm": 0.6380114555159433, + "learning_rate": 5.543940845012457e-06, + "loss": 0.4452, + "step": 4513 + }, + { + "avg_step_time": 5.498888661163022, + "epoch": 0.4813866666666667, + "eta_time": 7.42655463071517, + "step": 4513 + }, + { + "epoch": 0.48149333333333333, + "grad_norm": 2.073246593816451, + "learning_rate": 5.542223586606732e-06, + "loss": 0.5463, + "step": 4514 + }, + { + "avg_step_time": 5.498799138598972, + "epoch": 0.48149333333333333, + "eta_time": 7.4249062813137785, + "step": 4514 + }, + { + "epoch": 0.4816, + "grad_norm": 0.6409524134470018, + "learning_rate": 5.540506263477243e-06, + "loss": 0.4682, + "step": 4515 + }, + { + "avg_step_time": 5.510787636342675, + "epoch": 0.4816, + "eta_time": 7.439563309062612, + "step": 4515 + }, + { + "epoch": 0.48170666666666667, + "grad_norm": 1.7888377288605404, + "learning_rate": 5.538788875828983e-06, + "loss": 0.5042, + "step": 4516 + }, + { + "avg_step_time": 5.51204367599102, + "epoch": 0.48170666666666667, + "eta_time": 7.439727839344546, + "step": 4516 + }, + { + "epoch": 0.4818133333333333, + "grad_norm": 1.8857375111511843, + "learning_rate": 5.53707142386695e-06, + "loss": 0.4972, + "step": 4517 + }, + { + "avg_step_time": 5.545038897581775, + "epoch": 0.4818133333333333, + "eta_time": 7.4827219345700735, + "step": 4517 + }, + { + "epoch": 0.48192, + "grad_norm": 2.299449300849076, + "learning_rate": 5.535353907796155e-06, + "loss": 0.5551, + "step": 4518 + }, + { + "avg_step_time": 5.541294880587645, + "epoch": 0.48192, + "eta_time": 7.4761303430594985, + "step": 4518 + }, + { + "epoch": 0.48202666666666666, + "grad_norm": 1.8746270447520388, + "learning_rate": 5.533636327821611e-06, + "loss": 0.4901, + "step": 4519 + }, + { + "avg_step_time": 5.54157742346176, + "epoch": 0.48202666666666666, + "eta_time": 7.474972213425086, + "step": 4519 + }, + { + "epoch": 0.48213333333333336, + "grad_norm": 1.5028428517724481, + "learning_rate": 5.531918684148338e-06, + "loss": 0.4747, + "step": 4520 + }, + { + "avg_step_time": 5.513227496484314, + "epoch": 0.48213333333333336, + "eta_time": 7.435199859842039, + "step": 4520 + }, + { + "epoch": 0.48224, + "grad_norm": 1.7320013823059413, + "learning_rate": 5.530200976981375e-06, + "loss": 0.3879, + "step": 4521 + }, + { + "avg_step_time": 5.507851530807187, + "epoch": 0.48224, + "eta_time": 7.426419814038357, + "step": 4521 + }, + { + "epoch": 0.48234666666666665, + "grad_norm": 1.7937918835821887, + "learning_rate": 5.52848320652575e-06, + "loss": 0.4896, + "step": 4522 + }, + { + "avg_step_time": 5.506188134954433, + "epoch": 0.48234666666666665, + "eta_time": 7.422647505259406, + "step": 4522 + }, + { + "epoch": 0.48245333333333335, + "grad_norm": 2.034490741946443, + "learning_rate": 5.526765372986514e-06, + "loss": 0.496, + "step": 4523 + }, + { + "avg_step_time": 5.502516811544245, + "epoch": 0.48245333333333335, + "eta_time": 7.416169880447966, + "step": 4523 + }, + { + "epoch": 0.48256, + "grad_norm": 1.9093829449726414, + "learning_rate": 5.525047476568722e-06, + "loss": 0.5209, + "step": 4524 + }, + { + "avg_step_time": 5.517815483940972, + "epoch": 0.48256, + "eta_time": 7.43525636461046, + "step": 4524 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 1.5090127668595577, + "learning_rate": 5.52332951747743e-06, + "loss": 0.4495, + "step": 4525 + }, + { + "avg_step_time": 5.522302880431667, + "epoch": 0.4826666666666667, + "eta_time": 7.439769158359329, + "step": 4525 + }, + { + "epoch": 0.48277333333333333, + "grad_norm": 1.5985376937548237, + "learning_rate": 5.521611495917707e-06, + "loss": 0.4669, + "step": 4526 + }, + { + "avg_step_time": 5.519930690225928, + "epoch": 0.48277333333333333, + "eta_time": 7.435039976918202, + "step": 4526 + }, + { + "epoch": 0.48288, + "grad_norm": 1.8027775363034801, + "learning_rate": 5.519893412094631e-06, + "loss": 0.516, + "step": 4527 + }, + { + "avg_step_time": 5.516399674945408, + "epoch": 0.48288, + "eta_time": 7.428751562259816, + "step": 4527 + }, + { + "epoch": 0.4829866666666667, + "grad_norm": 1.7882208012065783, + "learning_rate": 5.518175266213284e-06, + "loss": 0.5087, + "step": 4528 + }, + { + "avg_step_time": 5.5302585881165784, + "epoch": 0.4829866666666667, + "eta_time": 7.4458787157225155, + "step": 4528 + }, + { + "epoch": 0.4830933333333333, + "grad_norm": 1.6055013200627342, + "learning_rate": 5.516457058478757e-06, + "loss": 0.4335, + "step": 4529 + }, + { + "avg_step_time": 5.52607432037893, + "epoch": 0.4830933333333333, + "eta_time": 7.43871004348786, + "step": 4529 + }, + { + "epoch": 0.4832, + "grad_norm": 1.6436724547563308, + "learning_rate": 5.514738789096146e-06, + "loss": 0.4582, + "step": 4530 + }, + { + "avg_step_time": 5.527236849370629, + "epoch": 0.4832, + "eta_time": 7.438739593111305, + "step": 4530 + }, + { + "epoch": 0.48330666666666666, + "grad_norm": 0.6569648303737375, + "learning_rate": 5.5130204582705574e-06, + "loss": 0.4487, + "step": 4531 + }, + { + "avg_step_time": 5.489491874521429, + "epoch": 0.48330666666666666, + "eta_time": 7.386416288939389, + "step": 4531 + }, + { + "epoch": 0.4834133333333333, + "grad_norm": 0.5990681657861155, + "learning_rate": 5.5113020662071035e-06, + "loss": 0.4253, + "step": 4532 + }, + { + "avg_step_time": 5.513453895395452, + "epoch": 0.4834133333333333, + "eta_time": 7.417127004277826, + "step": 4532 + }, + { + "epoch": 0.48352, + "grad_norm": 0.6289650604916053, + "learning_rate": 5.509583613110904e-06, + "loss": 0.4404, + "step": 4533 + }, + { + "avg_step_time": 5.476665333063916, + "epoch": 0.48352, + "eta_time": 7.366114872970967, + "step": 4533 + }, + { + "epoch": 0.48362666666666665, + "grad_norm": 1.7050450521004326, + "learning_rate": 5.507865099187085e-06, + "loss": 0.3986, + "step": 4534 + }, + { + "avg_step_time": 5.474386870258987, + "epoch": 0.48362666666666665, + "eta_time": 7.361529677478821, + "step": 4534 + }, + { + "epoch": 0.48373333333333335, + "grad_norm": 1.6124253865813336, + "learning_rate": 5.506146524640784e-06, + "loss": 0.5084, + "step": 4535 + }, + { + "avg_step_time": 5.4661024507850104, + "epoch": 0.48373333333333335, + "eta_time": 7.34887107272207, + "step": 4535 + }, + { + "epoch": 0.48384, + "grad_norm": 1.8259865881374486, + "learning_rate": 5.504427889677141e-06, + "loss": 0.4809, + "step": 4536 + }, + { + "avg_step_time": 5.4623865021599665, + "epoch": 0.48384, + "eta_time": 7.342357856653354, + "step": 4536 + }, + { + "epoch": 0.4839466666666667, + "grad_norm": 1.6118394737835908, + "learning_rate": 5.502709194501301e-06, + "loss": 0.4925, + "step": 4537 + }, + { + "avg_step_time": 5.462535747373947, + "epoch": 0.4839466666666667, + "eta_time": 7.341041096054209, + "step": 4537 + }, + { + "epoch": 0.48405333333333334, + "grad_norm": 1.5275163483067473, + "learning_rate": 5.500990439318427e-06, + "loss": 0.4815, + "step": 4538 + }, + { + "avg_step_time": 5.453181729172215, + "epoch": 0.48405333333333334, + "eta_time": 7.32695556222389, + "step": 4538 + }, + { + "epoch": 0.48416, + "grad_norm": 0.6561999783315373, + "learning_rate": 5.499271624333676e-06, + "loss": 0.4432, + "step": 4539 + }, + { + "avg_step_time": 5.417882998784383, + "epoch": 0.48416, + "eta_time": 7.278022828367021, + "step": 4539 + }, + { + "epoch": 0.4842666666666667, + "grad_norm": 1.8469914502661007, + "learning_rate": 5.497552749752222e-06, + "loss": 0.5277, + "step": 4540 + }, + { + "avg_step_time": 5.405496881465719, + "epoch": 0.4842666666666667, + "eta_time": 7.259882617190764, + "step": 4540 + }, + { + "epoch": 0.4843733333333333, + "grad_norm": 1.6827762297648723, + "learning_rate": 5.495833815779243e-06, + "loss": 0.5334, + "step": 4541 + }, + { + "avg_step_time": 5.406405176779236, + "epoch": 0.4843733333333333, + "eta_time": 7.259600729041897, + "step": 4541 + }, + { + "epoch": 0.48448, + "grad_norm": 0.6451730141941233, + "learning_rate": 5.494114822619918e-06, + "loss": 0.4666, + "step": 4542 + }, + { + "avg_step_time": 5.369245704978403, + "epoch": 0.48448, + "eta_time": 7.208212358933506, + "step": 4542 + }, + { + "epoch": 0.48458666666666667, + "grad_norm": 0.64291768752901, + "learning_rate": 5.492395770479444e-06, + "loss": 0.4168, + "step": 4543 + }, + { + "avg_step_time": 5.332455861448038, + "epoch": 0.48458666666666667, + "eta_time": 7.157340756254699, + "step": 4543 + }, + { + "epoch": 0.4846933333333333, + "grad_norm": 1.9204304851841068, + "learning_rate": 5.490676659563018e-06, + "loss": 0.5178, + "step": 4544 + }, + { + "avg_step_time": 5.370091423843846, + "epoch": 0.4846933333333333, + "eta_time": 7.2063643523860055, + "step": 4544 + }, + { + "epoch": 0.4848, + "grad_norm": 0.6450829844006145, + "learning_rate": 5.488957490075846e-06, + "loss": 0.4427, + "step": 4545 + }, + { + "avg_step_time": 5.257274849246246, + "epoch": 0.4848, + "eta_time": 7.053510422738714, + "step": 4545 + }, + { + "epoch": 0.48490666666666665, + "grad_norm": 1.6536060702520141, + "learning_rate": 5.4872382622231405e-06, + "loss": 0.5438, + "step": 4546 + }, + { + "avg_step_time": 5.257311871557524, + "epoch": 0.48490666666666665, + "eta_time": 7.052099729930912, + "step": 4546 + }, + { + "epoch": 0.48501333333333335, + "grad_norm": 1.5180595923770355, + "learning_rate": 5.485518976210119e-06, + "loss": 0.5019, + "step": 4547 + }, + { + "avg_step_time": 5.258674566191856, + "epoch": 0.48501333333333335, + "eta_time": 7.052466890437301, + "step": 4547 + }, + { + "epoch": 0.48512, + "grad_norm": 1.7340518175150808, + "learning_rate": 5.483799632242012e-06, + "loss": 0.5357, + "step": 4548 + }, + { + "avg_step_time": 5.254371358890726, + "epoch": 0.48512, + "eta_time": 7.045236263712649, + "step": 4548 + }, + { + "epoch": 0.48522666666666664, + "grad_norm": 1.8833461247599064, + "learning_rate": 5.482080230524048e-06, + "loss": 0.5167, + "step": 4549 + }, + { + "avg_step_time": 5.249230045260805, + "epoch": 0.48522666666666664, + "eta_time": 7.036884499563512, + "step": 4549 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 1.914520262847097, + "learning_rate": 5.4803607712614725e-06, + "loss": 0.5494, + "step": 4550 + }, + { + "avg_step_time": 5.25127006299568, + "epoch": 0.48533333333333334, + "eta_time": 7.0381605705428205, + "step": 4550 + }, + { + "epoch": 0.48544, + "grad_norm": 1.8655383917961468, + "learning_rate": 5.478641254659528e-06, + "loss": 0.5608, + "step": 4551 + }, + { + "avg_step_time": 5.284978433088823, + "epoch": 0.48544, + "eta_time": 7.081871100339023, + "step": 4551 + }, + { + "epoch": 0.4855466666666667, + "grad_norm": 0.685886700690898, + "learning_rate": 5.476921680923474e-06, + "loss": 0.4624, + "step": 4552 + }, + { + "avg_step_time": 5.251965732285471, + "epoch": 0.4855466666666667, + "eta_time": 7.036175201892451, + "step": 4552 + }, + { + "epoch": 0.4856533333333333, + "grad_norm": 1.4827813477405911, + "learning_rate": 5.475202050258565e-06, + "loss": 0.4135, + "step": 4553 + }, + { + "avg_step_time": 5.255630153598207, + "epoch": 0.4856533333333333, + "eta_time": 7.039624611291821, + "step": 4553 + }, + { + "epoch": 0.48576, + "grad_norm": 1.8074030923388484, + "learning_rate": 5.473482362870073e-06, + "loss": 0.4572, + "step": 4554 + }, + { + "avg_step_time": 5.213795859404285, + "epoch": 0.48576, + "eta_time": 6.982141621718904, + "step": 4554 + }, + { + "epoch": 0.48586666666666667, + "grad_norm": 1.77040009655569, + "learning_rate": 5.4717626189632725e-06, + "loss": 0.5292, + "step": 4555 + }, + { + "avg_step_time": 5.2134939058862555, + "epoch": 0.48586666666666667, + "eta_time": 6.980289062881043, + "step": 4555 + }, + { + "epoch": 0.4859733333333333, + "grad_norm": 1.72835134824999, + "learning_rate": 5.470042818743441e-06, + "loss": 0.4493, + "step": 4556 + }, + { + "avg_step_time": 5.2375228573577575, + "epoch": 0.4859733333333333, + "eta_time": 7.01100629155751, + "step": 4556 + }, + { + "epoch": 0.48608, + "grad_norm": 1.6146258111800496, + "learning_rate": 5.468322962415871e-06, + "loss": 0.5499, + "step": 4557 + }, + { + "avg_step_time": 5.3145458915016865, + "epoch": 0.48608, + "eta_time": 7.112633918126424, + "step": 4557 + }, + { + "epoch": 0.48618666666666666, + "grad_norm": 1.9002585671777854, + "learning_rate": 5.4666030501858544e-06, + "loss": 0.4442, + "step": 4558 + }, + { + "avg_step_time": 5.31180562395038, + "epoch": 0.48618666666666666, + "eta_time": 7.10749102515805, + "step": 4558 + }, + { + "epoch": 0.48629333333333336, + "grad_norm": 1.5910926632728881, + "learning_rate": 5.464883082258692e-06, + "loss": 0.4403, + "step": 4559 + }, + { + "avg_step_time": 5.310271528032091, + "epoch": 0.48629333333333336, + "eta_time": 7.1039632441673755, + "step": 4559 + }, + { + "epoch": 0.4864, + "grad_norm": 1.623718252781963, + "learning_rate": 5.463163058839694e-06, + "loss": 0.5194, + "step": 4560 + }, + { + "avg_step_time": 5.322312379124189, + "epoch": 0.4864, + "eta_time": 7.118592807078603, + "step": 4560 + }, + { + "epoch": 0.48650666666666664, + "grad_norm": 2.2201170030292467, + "learning_rate": 5.461442980134173e-06, + "loss": 0.6243, + "step": 4561 + }, + { + "avg_step_time": 5.334775821127073, + "epoch": 0.48650666666666664, + "eta_time": 7.133780778584924, + "step": 4561 + }, + { + "epoch": 0.48661333333333334, + "grad_norm": 1.7454845037938773, + "learning_rate": 5.459722846347451e-06, + "loss": 0.4698, + "step": 4562 + }, + { + "avg_step_time": 5.337882533217922, + "epoch": 0.48661333333333334, + "eta_time": 7.136452397882738, + "step": 4562 + }, + { + "epoch": 0.48672, + "grad_norm": 1.633465228324499, + "learning_rate": 5.4580026576848565e-06, + "loss": 0.4592, + "step": 4563 + }, + { + "avg_step_time": 5.344459059262516, + "epoch": 0.48672, + "eta_time": 7.143760275880896, + "step": 4563 + }, + { + "epoch": 0.4868266666666667, + "grad_norm": 1.7958960059942697, + "learning_rate": 5.456282414351722e-06, + "loss": 0.5256, + "step": 4564 + }, + { + "avg_step_time": 5.338113158640235, + "epoch": 0.4868266666666667, + "eta_time": 7.1337951128383805, + "step": 4564 + }, + { + "epoch": 0.48693333333333333, + "grad_norm": 1.689804335491112, + "learning_rate": 5.454562116553388e-06, + "loss": 0.5004, + "step": 4565 + }, + { + "avg_step_time": 5.334284926905776, + "epoch": 0.48693333333333333, + "eta_time": 7.12719736067133, + "step": 4565 + }, + { + "epoch": 0.48704, + "grad_norm": 1.6110759665551675, + "learning_rate": 5.452841764495203e-06, + "loss": 0.4993, + "step": 4566 + }, + { + "avg_step_time": 5.3714865578545465, + "epoch": 0.48704, + "eta_time": 7.175410793534032, + "step": 4566 + }, + { + "epoch": 0.4871466666666667, + "grad_norm": 1.8634265701932415, + "learning_rate": 5.451121358382523e-06, + "loss": 0.4187, + "step": 4567 + }, + { + "avg_step_time": 5.408368505612768, + "epoch": 0.4871466666666667, + "eta_time": 7.2231766041628305, + "step": 4567 + }, + { + "epoch": 0.4872533333333333, + "grad_norm": 0.6571610904689101, + "learning_rate": 5.449400898420705e-06, + "loss": 0.45, + "step": 4568 + }, + { + "avg_step_time": 5.369134214189318, + "epoch": 0.4872533333333333, + "eta_time": 7.169285602113347, + "step": 4568 + }, + { + "epoch": 0.48736, + "grad_norm": 1.7262578638147161, + "learning_rate": 5.4476803848151146e-06, + "loss": 0.5153, + "step": 4569 + }, + { + "avg_step_time": 5.365964106839113, + "epoch": 0.48736, + "eta_time": 7.163562082630215, + "step": 4569 + }, + { + "epoch": 0.48746666666666666, + "grad_norm": 1.963208898043947, + "learning_rate": 5.445959817771129e-06, + "loss": 0.4843, + "step": 4570 + }, + { + "avg_step_time": 5.365206737710972, + "epoch": 0.48746666666666666, + "eta_time": 7.161060659639228, + "step": 4570 + }, + { + "epoch": 0.48757333333333336, + "grad_norm": 1.798849733787309, + "learning_rate": 5.444239197494125e-06, + "loss": 0.53, + "step": 4571 + }, + { + "avg_step_time": 5.373503461028591, + "epoch": 0.48757333333333336, + "eta_time": 7.170641840772597, + "step": 4571 + }, + { + "epoch": 0.48768, + "grad_norm": 2.133106466839484, + "learning_rate": 5.442518524189489e-06, + "loss": 0.4783, + "step": 4572 + }, + { + "avg_step_time": 5.354546809437299, + "epoch": 0.48768, + "eta_time": 7.143857868257597, + "step": 4572 + }, + { + "epoch": 0.48778666666666665, + "grad_norm": 0.6293730701047484, + "learning_rate": 5.440797798062611e-06, + "loss": 0.4376, + "step": 4573 + }, + { + "avg_step_time": 5.277858356032708, + "epoch": 0.48778666666666665, + "eta_time": 7.0400766182414065, + "step": 4573 + }, + { + "epoch": 0.48789333333333335, + "grad_norm": 1.788116892908199, + "learning_rate": 5.439077019318894e-06, + "loss": 0.5724, + "step": 4574 + }, + { + "avg_step_time": 5.28611895532319, + "epoch": 0.48789333333333335, + "eta_time": 7.049626973474066, + "step": 4574 + }, + { + "epoch": 0.488, + "grad_norm": 0.6254864919868223, + "learning_rate": 5.4373561881637405e-06, + "loss": 0.43, + "step": 4575 + }, + { + "avg_step_time": 5.28804533168523, + "epoch": 0.488, + "eta_time": 7.05072710891364, + "step": 4575 + }, + { + "epoch": 0.4881066666666667, + "grad_norm": 1.7028028322739568, + "learning_rate": 5.435635304802558e-06, + "loss": 0.5018, + "step": 4576 + }, + { + "avg_step_time": 5.286991393927372, + "epoch": 0.4881066666666667, + "eta_time": 7.047853249849294, + "step": 4576 + }, + { + "epoch": 0.48821333333333333, + "grad_norm": 1.957663909341027, + "learning_rate": 5.43391436944077e-06, + "loss": 0.4897, + "step": 4577 + }, + { + "avg_step_time": 5.272152260096386, + "epoch": 0.48821333333333333, + "eta_time": 7.02660737331735, + "step": 4577 + }, + { + "epoch": 0.48832, + "grad_norm": 1.865160661221178, + "learning_rate": 5.432193382283794e-06, + "loss": 0.5103, + "step": 4578 + }, + { + "avg_step_time": 5.366129578966083, + "epoch": 0.48832, + "eta_time": 7.150367663972306, + "step": 4578 + }, + { + "epoch": 0.4884266666666667, + "grad_norm": 1.543766346326547, + "learning_rate": 5.430472343537065e-06, + "loss": 0.4754, + "step": 4579 + }, + { + "avg_step_time": 5.37523608255868, + "epoch": 0.4884266666666667, + "eta_time": 7.161008958875397, + "step": 4579 + }, + { + "epoch": 0.4885333333333333, + "grad_norm": 1.8813249993832546, + "learning_rate": 5.428751253406015e-06, + "loss": 0.57, + "step": 4580 + }, + { + "avg_step_time": 5.414869994828195, + "epoch": 0.4885333333333333, + "eta_time": 7.212306007000332, + "step": 4580 + }, + { + "epoch": 0.48864, + "grad_norm": 0.6738290259975355, + "learning_rate": 5.4270301120960856e-06, + "loss": 0.4441, + "step": 4581 + }, + { + "avg_step_time": 5.383362929026286, + "epoch": 0.48864, + "eta_time": 7.168844967153337, + "step": 4581 + }, + { + "epoch": 0.48874666666666666, + "grad_norm": 1.8651894194531236, + "learning_rate": 5.425308919812726e-06, + "loss": 0.5535, + "step": 4582 + }, + { + "avg_step_time": 5.382598048508769, + "epoch": 0.48874666666666666, + "eta_time": 7.166331235139592, + "step": 4582 + }, + { + "epoch": 0.4888533333333333, + "grad_norm": 1.7344611062657573, + "learning_rate": 5.423587676761392e-06, + "loss": 0.4581, + "step": 4583 + }, + { + "avg_step_time": 5.35697047156517, + "epoch": 0.4888533333333333, + "eta_time": 7.130722916594526, + "step": 4583 + }, + { + "epoch": 0.48896, + "grad_norm": 1.759462978600276, + "learning_rate": 5.421866383147541e-06, + "loss": 0.4157, + "step": 4584 + }, + { + "avg_step_time": 5.353134461123534, + "epoch": 0.48896, + "eta_time": 7.12412977867857, + "step": 4584 + }, + { + "epoch": 0.48906666666666665, + "grad_norm": 2.03158245895236, + "learning_rate": 5.420145039176641e-06, + "loss": 0.5261, + "step": 4585 + }, + { + "avg_step_time": 5.354150569800175, + "epoch": 0.48906666666666665, + "eta_time": 7.123994785928566, + "step": 4585 + }, + { + "epoch": 0.48917333333333335, + "grad_norm": 1.719664974765697, + "learning_rate": 5.4184236450541624e-06, + "loss": 0.4863, + "step": 4586 + }, + { + "avg_step_time": 5.356184545189444, + "epoch": 0.48917333333333335, + "eta_time": 7.125213274142291, + "step": 4586 + }, + { + "epoch": 0.48928, + "grad_norm": 1.643772116434378, + "learning_rate": 5.416702200985585e-06, + "loss": 0.4105, + "step": 4587 + }, + { + "avg_step_time": 5.357650412453546, + "epoch": 0.48928, + "eta_time": 7.125675048563216, + "step": 4587 + }, + { + "epoch": 0.4893866666666667, + "grad_norm": 1.8225604366697359, + "learning_rate": 5.414980707176392e-06, + "loss": 0.5099, + "step": 4588 + }, + { + "avg_step_time": 5.387556998416631, + "epoch": 0.4893866666666667, + "eta_time": 7.163954264283449, + "step": 4588 + }, + { + "epoch": 0.48949333333333334, + "grad_norm": 1.8615139163039711, + "learning_rate": 5.413259163832074e-06, + "loss": 0.5079, + "step": 4589 + }, + { + "avg_step_time": 5.387740828774192, + "epoch": 0.48949333333333334, + "eta_time": 7.162702112920357, + "step": 4589 + }, + { + "epoch": 0.4896, + "grad_norm": 1.7565809676747008, + "learning_rate": 5.411537571158127e-06, + "loss": 0.4362, + "step": 4590 + }, + { + "avg_step_time": 5.3879562002239805, + "epoch": 0.4896, + "eta_time": 7.161491782797707, + "step": 4590 + }, + { + "epoch": 0.4897066666666667, + "grad_norm": 2.122890543264463, + "learning_rate": 5.4098159293600525e-06, + "loss": 0.4877, + "step": 4591 + }, + { + "avg_step_time": 5.3920597139031, + "epoch": 0.4897066666666667, + "eta_time": 7.16544824203123, + "step": 4591 + }, + { + "epoch": 0.4898133333333333, + "grad_norm": 1.7279955024972244, + "learning_rate": 5.408094238643359e-06, + "loss": 0.4605, + "step": 4592 + }, + { + "avg_step_time": 5.388954119248823, + "epoch": 0.4898133333333333, + "eta_time": 7.159824320101978, + "step": 4592 + }, + { + "epoch": 0.48992, + "grad_norm": 1.9213001992236978, + "learning_rate": 5.406372499213557e-06, + "loss": 0.5356, + "step": 4593 + }, + { + "avg_step_time": 5.404819688411674, + "epoch": 0.48992, + "eta_time": 7.179402152773507, + "step": 4593 + }, + { + "epoch": 0.49002666666666667, + "grad_norm": 2.0083226902419256, + "learning_rate": 5.4046507112761714e-06, + "loss": 0.5302, + "step": 4594 + }, + { + "avg_step_time": 5.402959139660151, + "epoch": 0.49002666666666667, + "eta_time": 7.1754299018653285, + "step": 4594 + }, + { + "epoch": 0.4901333333333333, + "grad_norm": 1.6899275322948497, + "learning_rate": 5.402928875036722e-06, + "loss": 0.5227, + "step": 4595 + }, + { + "avg_step_time": 5.404304186503093, + "epoch": 0.4901333333333333, + "eta_time": 7.175715003190217, + "step": 4595 + }, + { + "epoch": 0.49024, + "grad_norm": 1.9543248602733017, + "learning_rate": 5.401206990700741e-06, + "loss": 0.5766, + "step": 4596 + }, + { + "avg_step_time": 5.404314050770769, + "epoch": 0.49024, + "eta_time": 7.174226902398196, + "step": 4596 + }, + { + "epoch": 0.49034666666666665, + "grad_norm": 1.6204531415870862, + "learning_rate": 5.3994850584737705e-06, + "loss": 0.5326, + "step": 4597 + }, + { + "avg_step_time": 5.428578357503872, + "epoch": 0.49034666666666665, + "eta_time": 7.204929831153749, + "step": 4597 + }, + { + "epoch": 0.49045333333333335, + "grad_norm": 1.8814232767766794, + "learning_rate": 5.397763078561344e-06, + "loss": 0.5016, + "step": 4598 + }, + { + "avg_step_time": 5.4270922270688144, + "epoch": 0.49045333333333335, + "eta_time": 7.2014498801965905, + "step": 4598 + }, + { + "epoch": 0.49056, + "grad_norm": 1.548648437538893, + "learning_rate": 5.396041051169016e-06, + "loss": 0.4603, + "step": 4599 + }, + { + "avg_step_time": 5.488515639545942, + "epoch": 0.49056, + "eta_time": 7.281430748464284, + "step": 4599 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 1.7121322136810337, + "learning_rate": 5.3943189765023375e-06, + "loss": 0.5695, + "step": 4600 + }, + { + "avg_step_time": 5.49135098794494, + "epoch": 0.49066666666666664, + "eta_time": 7.283666935399191, + "step": 4600 + }, + { + "epoch": 0.49077333333333334, + "grad_norm": 1.7671760061852286, + "learning_rate": 5.392596854766869e-06, + "loss": 0.4766, + "step": 4601 + }, + { + "avg_step_time": 5.520382245381673, + "epoch": 0.49077333333333334, + "eta_time": 7.320640233181141, + "step": 4601 + }, + { + "epoch": 0.49088, + "grad_norm": 1.7114286838542605, + "learning_rate": 5.390874686168176e-06, + "loss": 0.4856, + "step": 4602 + }, + { + "avg_step_time": 5.519996296275746, + "epoch": 0.49088, + "eta_time": 7.318595089478928, + "step": 4602 + }, + { + "epoch": 0.4909866666666667, + "grad_norm": 1.4326899880313138, + "learning_rate": 5.389152470911828e-06, + "loss": 0.5373, + "step": 4603 + }, + { + "avg_step_time": 5.529459067065306, + "epoch": 0.4909866666666667, + "eta_time": 7.329605185565456, + "step": 4603 + }, + { + "epoch": 0.4910933333333333, + "grad_norm": 1.944020532330247, + "learning_rate": 5.3874302092034015e-06, + "loss": 0.5619, + "step": 4604 + }, + { + "avg_step_time": 5.521878873459016, + "epoch": 0.4910933333333333, + "eta_time": 7.318023362575824, + "step": 4604 + }, + { + "epoch": 0.4912, + "grad_norm": 1.6556536604690504, + "learning_rate": 5.385707901248478e-06, + "loss": 0.4115, + "step": 4605 + }, + { + "avg_step_time": 5.523168082189078, + "epoch": 0.4912, + "eta_time": 7.318197708900528, + "step": 4605 + }, + { + "epoch": 0.49130666666666667, + "grad_norm": 1.7019119214276808, + "learning_rate": 5.383985547252645e-06, + "loss": 0.5612, + "step": 4606 + }, + { + "avg_step_time": 5.526350775150338, + "epoch": 0.49130666666666667, + "eta_time": 7.320879679636655, + "step": 4606 + }, + { + "epoch": 0.4914133333333333, + "grad_norm": 1.7943749279553445, + "learning_rate": 5.382263147421495e-06, + "loss": 0.524, + "step": 4607 + }, + { + "avg_step_time": 5.529885600311587, + "epoch": 0.4914133333333333, + "eta_time": 7.324026261746013, + "step": 4607 + }, + { + "epoch": 0.49152, + "grad_norm": 1.5684706054879678, + "learning_rate": 5.380540701960627e-06, + "loss": 0.4686, + "step": 4608 + }, + { + "avg_step_time": 5.539673318766584, + "epoch": 0.49152, + "eta_time": 7.3354507529334185, + "step": 4608 + }, + { + "epoch": 0.49162666666666666, + "grad_norm": 1.5706015478078654, + "learning_rate": 5.378818211075644e-06, + "loss": 0.5023, + "step": 4609 + }, + { + "avg_step_time": 5.573807068545409, + "epoch": 0.49162666666666666, + "eta_time": 7.3791012468576165, + "step": 4609 + }, + { + "epoch": 0.49173333333333336, + "grad_norm": 1.7793474222357293, + "learning_rate": 5.377095674972155e-06, + "loss": 0.4554, + "step": 4610 + }, + { + "avg_step_time": 5.6150974842033, + "epoch": 0.49173333333333336, + "eta_time": 7.432205420063535, + "step": 4610 + }, + { + "epoch": 0.49184, + "grad_norm": 1.6220711935047194, + "learning_rate": 5.375373093855774e-06, + "loss": 0.3803, + "step": 4611 + }, + { + "avg_step_time": 5.613627896164402, + "epoch": 0.49184, + "eta_time": 7.428700915924226, + "step": 4611 + }, + { + "epoch": 0.49194666666666664, + "grad_norm": 1.5777980582027713, + "learning_rate": 5.373650467932122e-06, + "loss": 0.4652, + "step": 4612 + }, + { + "avg_step_time": 5.627514843988901, + "epoch": 0.49194666666666664, + "eta_time": 7.44551477831087, + "step": 4612 + }, + { + "epoch": 0.49205333333333334, + "grad_norm": 1.6986265933977227, + "learning_rate": 5.371927797406824e-06, + "loss": 0.4675, + "step": 4613 + }, + { + "avg_step_time": 5.6391339904130104, + "epoch": 0.49205333333333334, + "eta_time": 7.459321128429655, + "step": 4613 + }, + { + "epoch": 0.49216, + "grad_norm": 1.7668491022017918, + "learning_rate": 5.37020508248551e-06, + "loss": 0.4744, + "step": 4614 + }, + { + "avg_step_time": 5.664458934706871, + "epoch": 0.49216, + "eta_time": 7.491246941149837, + "step": 4614 + }, + { + "epoch": 0.4922666666666667, + "grad_norm": 1.5614899886463882, + "learning_rate": 5.368482323373815e-06, + "loss": 0.4286, + "step": 4615 + }, + { + "avg_step_time": 5.664493587281969, + "epoch": 0.4922666666666667, + "eta_time": 7.489719298739492, + "step": 4615 + }, + { + "epoch": 0.49237333333333333, + "grad_norm": 1.7015253449936254, + "learning_rate": 5.3667595202773835e-06, + "loss": 0.4991, + "step": 4616 + }, + { + "avg_step_time": 5.6646353379644525, + "epoch": 0.49237333333333333, + "eta_time": 7.4883332148257855, + "step": 4616 + }, + { + "epoch": 0.49248, + "grad_norm": 1.9514352929665675, + "learning_rate": 5.365036673401857e-06, + "loss": 0.4801, + "step": 4617 + }, + { + "avg_step_time": 5.6637656038457695, + "epoch": 0.49248, + "eta_time": 7.485610206416158, + "step": 4617 + }, + { + "epoch": 0.4925866666666667, + "grad_norm": 1.5999868980068153, + "learning_rate": 5.36331378295289e-06, + "loss": 0.4847, + "step": 4618 + }, + { + "avg_step_time": 5.6609216868275345, + "epoch": 0.4925866666666667, + "eta_time": 7.48027901784405, + "step": 4618 + }, + { + "epoch": 0.4926933333333333, + "grad_norm": 2.1033945137377374, + "learning_rate": 5.361590849136141e-06, + "loss": 0.505, + "step": 4619 + }, + { + "avg_step_time": 5.6681700908776484, + "epoch": 0.4926933333333333, + "eta_time": 7.4882824867261375, + "step": 4619 + }, + { + "epoch": 0.4928, + "grad_norm": 1.835387488152026, + "learning_rate": 5.359867872157267e-06, + "loss": 0.5272, + "step": 4620 + }, + { + "avg_step_time": 5.680927857004031, + "epoch": 0.4928, + "eta_time": 7.503558877792825, + "step": 4620 + }, + { + "epoch": 0.49290666666666666, + "grad_norm": 0.6510788024714267, + "learning_rate": 5.3581448522219405e-06, + "loss": 0.4754, + "step": 4621 + }, + { + "avg_step_time": 5.646137935946686, + "epoch": 0.49290666666666666, + "eta_time": 7.456038818747373, + "step": 4621 + }, + { + "epoch": 0.49301333333333336, + "grad_norm": 1.9249911820835033, + "learning_rate": 5.35642178953583e-06, + "loss": 0.4936, + "step": 4622 + }, + { + "avg_step_time": 5.686668475468953, + "epoch": 0.49301333333333336, + "eta_time": 7.507982017751093, + "step": 4622 + }, + { + "epoch": 0.49312, + "grad_norm": 1.5849464888695053, + "learning_rate": 5.354698684304613e-06, + "loss": 0.5124, + "step": 4623 + }, + { + "avg_step_time": 5.670661251954358, + "epoch": 0.49312, + "eta_time": 7.485272852579753, + "step": 4623 + }, + { + "epoch": 0.49322666666666665, + "grad_norm": 1.8554753981046528, + "learning_rate": 5.352975536733974e-06, + "loss": 0.5371, + "step": 4624 + }, + { + "avg_step_time": 5.668728202280372, + "epoch": 0.49322666666666665, + "eta_time": 7.481146580287235, + "step": 4624 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 0.6657254890353583, + "learning_rate": 5.3512523470295995e-06, + "loss": 0.4357, + "step": 4625 + }, + { + "avg_step_time": 5.632281532191267, + "epoch": 0.49333333333333335, + "eta_time": 7.43148257719681, + "step": 4625 + }, + { + "epoch": 0.49344, + "grad_norm": 1.8934179644199132, + "learning_rate": 5.3495291153971806e-06, + "loss": 0.6457, + "step": 4626 + }, + { + "avg_step_time": 5.634325311641501, + "epoch": 0.49344, + "eta_time": 7.432614140273746, + "step": 4626 + }, + { + "epoch": 0.4935466666666667, + "grad_norm": 1.9829840434155304, + "learning_rate": 5.347805842042417e-06, + "loss": 0.4841, + "step": 4627 + }, + { + "avg_step_time": 5.631349151784724, + "epoch": 0.4935466666666667, + "eta_time": 7.427123825742741, + "step": 4627 + }, + { + "epoch": 0.49365333333333333, + "grad_norm": 1.7931600603609774, + "learning_rate": 5.34608252717101e-06, + "loss": 0.501, + "step": 4628 + }, + { + "avg_step_time": 5.631411899219859, + "epoch": 0.49365333333333333, + "eta_time": 7.425642301554631, + "step": 4628 + }, + { + "epoch": 0.49376, + "grad_norm": 1.6048483101105067, + "learning_rate": 5.344359170988668e-06, + "loss": 0.5161, + "step": 4629 + }, + { + "avg_step_time": 5.631468845136238, + "epoch": 0.49376, + "eta_time": 7.424153094171274, + "step": 4629 + }, + { + "epoch": 0.4938666666666667, + "grad_norm": 1.6283159519463646, + "learning_rate": 5.342635773701102e-06, + "loss": 0.5428, + "step": 4630 + }, + { + "avg_step_time": 5.67657816771305, + "epoch": 0.4938666666666667, + "eta_time": 7.482045390499561, + "step": 4630 + }, + { + "epoch": 0.4939733333333333, + "grad_norm": 1.6821322654228206, + "learning_rate": 5.34091233551403e-06, + "loss": 0.5287, + "step": 4631 + }, + { + "avg_step_time": 5.688849781498765, + "epoch": 0.4939733333333333, + "eta_time": 7.496639823175038, + "step": 4631 + }, + { + "epoch": 0.49408, + "grad_norm": 0.6280701996623479, + "learning_rate": 5.339188856633173e-06, + "loss": 0.4288, + "step": 4632 + }, + { + "avg_step_time": 5.692545286332718, + "epoch": 0.49408, + "eta_time": 7.499928414743357, + "step": 4632 + }, + { + "epoch": 0.49418666666666666, + "grad_norm": 1.3981567212026624, + "learning_rate": 5.337465337264262e-06, + "loss": 0.437, + "step": 4633 + }, + { + "avg_step_time": 5.698751502566868, + "epoch": 0.49418666666666666, + "eta_time": 7.506522118103358, + "step": 4633 + }, + { + "epoch": 0.4942933333333333, + "grad_norm": 1.7765497110224933, + "learning_rate": 5.335741777613023e-06, + "loss": 0.3827, + "step": 4634 + }, + { + "avg_step_time": 5.6965316329339535, + "epoch": 0.4942933333333333, + "eta_time": 7.50201568659441, + "step": 4634 + }, + { + "epoch": 0.4944, + "grad_norm": 1.8546328383033674, + "learning_rate": 5.3340181778851954e-06, + "loss": 0.5481, + "step": 4635 + }, + { + "avg_step_time": 5.699040056479098, + "epoch": 0.4944, + "eta_time": 7.503736074364146, + "step": 4635 + }, + { + "epoch": 0.49450666666666665, + "grad_norm": 1.8171971771007913, + "learning_rate": 5.332294538286523e-06, + "loss": 0.5106, + "step": 4636 + }, + { + "avg_step_time": 5.6948110310718265, + "epoch": 0.49450666666666665, + "eta_time": 7.4965859656248295, + "step": 4636 + }, + { + "epoch": 0.49461333333333335, + "grad_norm": 1.8087147074500634, + "learning_rate": 5.330570859022748e-06, + "loss": 0.5324, + "step": 4637 + }, + { + "avg_step_time": 5.695111539628771, + "epoch": 0.49461333333333335, + "eta_time": 7.495399576322532, + "step": 4637 + }, + { + "epoch": 0.49472, + "grad_norm": 1.5641416814649665, + "learning_rate": 5.328847140299624e-06, + "loss": 0.4725, + "step": 4638 + }, + { + "avg_step_time": 5.729607957782167, + "epoch": 0.49472, + "eta_time": 7.539209137781701, + "step": 4638 + }, + { + "epoch": 0.4948266666666667, + "grad_norm": 1.7184642453992645, + "learning_rate": 5.3271233823229064e-06, + "loss": 0.5615, + "step": 4639 + }, + { + "avg_step_time": 5.736329690374509, + "epoch": 0.4948266666666667, + "eta_time": 7.546460392670466, + "step": 4639 + }, + { + "epoch": 0.49493333333333334, + "grad_norm": 0.674861904421432, + "learning_rate": 5.325399585298354e-06, + "loss": 0.4615, + "step": 4640 + }, + { + "avg_step_time": 5.701432820522424, + "epoch": 0.49493333333333334, + "eta_time": 7.498967890326021, + "step": 4640 + }, + { + "epoch": 0.49504, + "grad_norm": 1.5098104677707527, + "learning_rate": 5.323675749431732e-06, + "loss": 0.4806, + "step": 4641 + }, + { + "avg_step_time": 5.741730225206625, + "epoch": 0.49504, + "eta_time": 7.550375246146713, + "step": 4641 + }, + { + "epoch": 0.4951466666666667, + "grad_norm": 1.7385504555826417, + "learning_rate": 5.321951874928812e-06, + "loss": 0.4502, + "step": 4642 + }, + { + "avg_step_time": 5.77886323013691, + "epoch": 0.4951466666666667, + "eta_time": 7.597599907843887, + "step": 4642 + }, + { + "epoch": 0.4952533333333333, + "grad_norm": 1.8981319369915817, + "learning_rate": 5.3202279619953675e-06, + "loss": 0.49, + "step": 4643 + }, + { + "avg_step_time": 5.779434632773351, + "epoch": 0.4952533333333333, + "eta_time": 7.596745745078749, + "step": 4643 + }, + { + "epoch": 0.49536, + "grad_norm": 1.6378055141931493, + "learning_rate": 5.318504010837175e-06, + "loss": 0.5061, + "step": 4644 + }, + { + "avg_step_time": 5.81481584394821, + "epoch": 0.49536, + "eta_time": 7.6416371549219395, + "step": 4644 + }, + { + "epoch": 0.49546666666666667, + "grad_norm": 1.9315043338658942, + "learning_rate": 5.3167800216600215e-06, + "loss": 0.5602, + "step": 4645 + }, + { + "avg_step_time": 5.817868550618489, + "epoch": 0.49546666666666667, + "eta_time": 7.644032845673737, + "step": 4645 + }, + { + "epoch": 0.4955733333333333, + "grad_norm": 2.0089511312219748, + "learning_rate": 5.3150559946696934e-06, + "loss": 0.5108, + "step": 4646 + }, + { + "avg_step_time": 5.817499057211057, + "epoch": 0.4955733333333333, + "eta_time": 7.641931400430858, + "step": 4646 + }, + { + "epoch": 0.49568, + "grad_norm": 1.7186993377158093, + "learning_rate": 5.313331930071981e-06, + "loss": 0.5344, + "step": 4647 + }, + { + "avg_step_time": 5.820052363655784, + "epoch": 0.49568, + "eta_time": 7.643668770934597, + "step": 4647 + }, + { + "epoch": 0.49578666666666665, + "grad_norm": 1.9750502540664616, + "learning_rate": 5.311607828072685e-06, + "loss": 0.5738, + "step": 4648 + }, + { + "avg_step_time": 5.823683538822213, + "epoch": 0.49578666666666665, + "eta_time": 7.646820024447944, + "step": 4648 + }, + { + "epoch": 0.49589333333333335, + "grad_norm": 0.6183183586073081, + "learning_rate": 5.309883688877601e-06, + "loss": 0.4219, + "step": 4649 + }, + { + "avg_step_time": 5.7874090864200785, + "epoch": 0.49589333333333335, + "eta_time": 7.59758203956147, + "step": 4649 + }, + { + "epoch": 0.496, + "grad_norm": 1.8715805018505043, + "learning_rate": 5.308159512692544e-06, + "loss": 0.532, + "step": 4650 + }, + { + "avg_step_time": 5.751442873116695, + "epoch": 0.496, + "eta_time": 7.548768770965663, + "step": 4650 + }, + { + "epoch": 0.49610666666666664, + "grad_norm": 1.603218083704767, + "learning_rate": 5.306435299723317e-06, + "loss": 0.4313, + "step": 4651 + }, + { + "avg_step_time": 5.783125306620742, + "epoch": 0.49610666666666664, + "eta_time": 7.588745541243441, + "step": 4651 + }, + { + "epoch": 0.49621333333333334, + "grad_norm": 1.5614257343732247, + "learning_rate": 5.304711050175735e-06, + "loss": 0.5165, + "step": 4652 + }, + { + "avg_step_time": 5.780928590080955, + "epoch": 0.49621333333333334, + "eta_time": 7.584257147486764, + "step": 4652 + }, + { + "epoch": 0.49632, + "grad_norm": 1.6485803592129895, + "learning_rate": 5.302986764255621e-06, + "loss": 0.5255, + "step": 4653 + }, + { + "avg_step_time": 5.786315710857661, + "epoch": 0.49632, + "eta_time": 7.589717440741632, + "step": 4653 + }, + { + "epoch": 0.4964266666666667, + "grad_norm": 1.7608515034060566, + "learning_rate": 5.3012624421687945e-06, + "loss": 0.459, + "step": 4654 + }, + { + "avg_step_time": 5.78660559413409, + "epoch": 0.4964266666666667, + "eta_time": 7.588490280529734, + "step": 4654 + }, + { + "epoch": 0.4965333333333333, + "grad_norm": 1.7089291894993293, + "learning_rate": 5.2995380841210845e-06, + "loss": 0.4844, + "step": 4655 + }, + { + "avg_step_time": 5.767664625187113, + "epoch": 0.4965333333333333, + "eta_time": 7.562049175245325, + "step": 4655 + }, + { + "epoch": 0.49664, + "grad_norm": 1.7156480948456574, + "learning_rate": 5.297813690318325e-06, + "loss": 0.4828, + "step": 4656 + }, + { + "avg_step_time": 5.728714979056156, + "epoch": 0.49664, + "eta_time": 7.5093905517127775, + "step": 4656 + }, + { + "epoch": 0.49674666666666667, + "grad_norm": 2.149918388817693, + "learning_rate": 5.296089260966347e-06, + "loss": 0.6159, + "step": 4657 + }, + { + "avg_step_time": 5.745624149688567, + "epoch": 0.49674666666666667, + "eta_time": 7.529959649508516, + "step": 4657 + }, + { + "epoch": 0.4968533333333333, + "grad_norm": 1.834858526523664, + "learning_rate": 5.2943647962709975e-06, + "loss": 0.4643, + "step": 4658 + }, + { + "avg_step_time": 5.744509694552181, + "epoch": 0.4968533333333333, + "eta_time": 7.5269033970007335, + "step": 4658 + }, + { + "epoch": 0.49696, + "grad_norm": 1.721271088665187, + "learning_rate": 5.292640296438116e-06, + "loss": 0.4904, + "step": 4659 + }, + { + "avg_step_time": 5.715332556252528, + "epoch": 0.49696, + "eta_time": 7.487085648690811, + "step": 4659 + }, + { + "epoch": 0.49706666666666666, + "grad_norm": 2.1260445460033552, + "learning_rate": 5.290915761673554e-06, + "loss": 0.4503, + "step": 4660 + }, + { + "avg_step_time": 5.713047860848783, + "epoch": 0.49706666666666666, + "eta_time": 7.482505739972781, + "step": 4660 + }, + { + "epoch": 0.49717333333333336, + "grad_norm": 1.8391973561720003, + "learning_rate": 5.289191192183165e-06, + "loss": 0.4907, + "step": 4661 + }, + { + "avg_step_time": 5.711861128758902, + "epoch": 0.49717333333333336, + "eta_time": 7.479364822491518, + "step": 4661 + }, + { + "epoch": 0.49728, + "grad_norm": 1.7142362192021225, + "learning_rate": 5.287466588172804e-06, + "loss": 0.5506, + "step": 4662 + }, + { + "avg_step_time": 5.704245615487147, + "epoch": 0.49728, + "eta_time": 7.467808218275256, + "step": 4662 + }, + { + "epoch": 0.49738666666666664, + "grad_norm": 1.8578701940734965, + "learning_rate": 5.2857419498483345e-06, + "loss": 0.4833, + "step": 4663 + }, + { + "avg_step_time": 5.702837977746521, + "epoch": 0.49738666666666664, + "eta_time": 7.4643812642060015, + "step": 4663 + }, + { + "epoch": 0.49749333333333334, + "grad_norm": 1.6877784333117274, + "learning_rate": 5.284017277415619e-06, + "loss": 0.5092, + "step": 4664 + }, + { + "avg_step_time": 5.702860861113577, + "epoch": 0.49749333333333334, + "eta_time": 7.462827087973906, + "step": 4664 + }, + { + "epoch": 0.4976, + "grad_norm": 1.7181288317862589, + "learning_rate": 5.2822925710805305e-06, + "loss": 0.4704, + "step": 4665 + }, + { + "avg_step_time": 5.701116340328949, + "epoch": 0.4976, + "eta_time": 7.458960545263708, + "step": 4665 + }, + { + "epoch": 0.4977066666666667, + "grad_norm": 1.8614429251346278, + "learning_rate": 5.2805678310489405e-06, + "loss": 0.5179, + "step": 4666 + }, + { + "avg_step_time": 5.7021354761990635, + "epoch": 0.4977066666666667, + "eta_time": 7.458709988172608, + "step": 4666 + }, + { + "epoch": 0.49781333333333333, + "grad_norm": 1.6098506517424451, + "learning_rate": 5.2788430575267266e-06, + "loss": 0.495, + "step": 4667 + }, + { + "avg_step_time": 5.744101326875012, + "epoch": 0.49781333333333333, + "eta_time": 7.512008068590988, + "step": 4667 + }, + { + "epoch": 0.49792, + "grad_norm": 0.6485695577356442, + "learning_rate": 5.27711825071977e-06, + "loss": 0.4717, + "step": 4668 + }, + { + "avg_step_time": 5.733291445356427, + "epoch": 0.49792, + "eta_time": 7.496278564803529, + "step": 4668 + }, + { + "epoch": 0.4980266666666667, + "grad_norm": 1.8387725886248554, + "learning_rate": 5.275393410833959e-06, + "loss": 0.4472, + "step": 4669 + }, + { + "avg_step_time": 5.732199548470853, + "epoch": 0.4980266666666667, + "eta_time": 7.493258631973288, + "step": 4669 + }, + { + "epoch": 0.4981333333333333, + "grad_norm": 1.7080805523776568, + "learning_rate": 5.273668538075179e-06, + "loss": 0.4808, + "step": 4670 + }, + { + "avg_step_time": 5.727627188268334, + "epoch": 0.4981333333333333, + "eta_time": 7.485690533556253, + "step": 4670 + }, + { + "epoch": 0.49824, + "grad_norm": 1.6409222772870795, + "learning_rate": 5.2719436326493255e-06, + "loss": 0.4742, + "step": 4671 + }, + { + "avg_step_time": 5.747017826696839, + "epoch": 0.49824, + "eta_time": 7.509436626883869, + "step": 4671 + }, + { + "epoch": 0.49834666666666666, + "grad_norm": 1.7284302962224642, + "learning_rate": 5.270218694762297e-06, + "loss": 0.6127, + "step": 4672 + }, + { + "avg_step_time": 5.78498317737772, + "epoch": 0.49834666666666666, + "eta_time": 7.557437745335394, + "step": 4672 + }, + { + "epoch": 0.49845333333333336, + "grad_norm": 0.6222752308707609, + "learning_rate": 5.268493724619993e-06, + "loss": 0.4048, + "step": 4673 + }, + { + "avg_step_time": 5.739382271814828, + "epoch": 0.49845333333333336, + "eta_time": 7.496270956131479, + "step": 4673 + }, + { + "epoch": 0.49856, + "grad_norm": 1.9838082914523458, + "learning_rate": 5.266768722428318e-06, + "loss": 0.5014, + "step": 4674 + }, + { + "avg_step_time": 5.769916929379858, + "epoch": 0.49856, + "eta_time": 7.53454985694853, + "step": 4674 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 1.724954605451491, + "learning_rate": 5.265043688393183e-06, + "loss": 0.5548, + "step": 4675 + }, + { + "avg_step_time": 5.772089023782749, + "epoch": 0.49866666666666665, + "eta_time": 7.535782892160811, + "step": 4675 + }, + { + "epoch": 0.49877333333333335, + "grad_norm": 1.9649160403608, + "learning_rate": 5.263318622720498e-06, + "loss": 0.5248, + "step": 4676 + }, + { + "avg_step_time": 5.771527962251143, + "epoch": 0.49877333333333335, + "eta_time": 7.5334471929494775, + "step": 4676 + }, + { + "epoch": 0.49888, + "grad_norm": 1.988393682368824, + "learning_rate": 5.261593525616181e-06, + "loss": 0.4699, + "step": 4677 + }, + { + "avg_step_time": 5.715465232579395, + "epoch": 0.49888, + "eta_time": 7.45868212851611, + "step": 4677 + }, + { + "epoch": 0.4989866666666667, + "grad_norm": 1.844076224363625, + "learning_rate": 5.259868397286154e-06, + "loss": 0.5117, + "step": 4678 + }, + { + "avg_step_time": 5.697474099168874, + "epoch": 0.4989866666666667, + "eta_time": 7.433621067721166, + "step": 4678 + }, + { + "epoch": 0.49909333333333333, + "grad_norm": 1.7300468089412953, + "learning_rate": 5.258143237936336e-06, + "loss": 0.4141, + "step": 4679 + }, + { + "avg_step_time": 5.695649200015598, + "epoch": 0.49909333333333333, + "eta_time": 7.4296579564647915, + "step": 4679 + }, + { + "epoch": 0.4992, + "grad_norm": 1.507988834637886, + "learning_rate": 5.256418047772659e-06, + "loss": 0.4426, + "step": 4680 + }, + { + "avg_step_time": 5.725498970108803, + "epoch": 0.4992, + "eta_time": 7.467004906850231, + "step": 4680 + }, + { + "epoch": 0.4993066666666667, + "grad_norm": 1.6719390476669265, + "learning_rate": 5.254692827001053e-06, + "loss": 0.4152, + "step": 4681 + }, + { + "avg_step_time": 5.727847918115481, + "epoch": 0.4993066666666667, + "eta_time": 7.46847725767613, + "step": 4681 + }, + { + "epoch": 0.4994133333333333, + "grad_norm": 1.679118307302695, + "learning_rate": 5.252967575827452e-06, + "loss": 0.4897, + "step": 4682 + }, + { + "avg_step_time": 5.736082127600005, + "epoch": 0.4994133333333333, + "eta_time": 7.4776203957852285, + "step": 4682 + }, + { + "epoch": 0.49952, + "grad_norm": 1.8149194324748046, + "learning_rate": 5.251242294457796e-06, + "loss": 0.616, + "step": 4683 + }, + { + "avg_step_time": 5.7351066945779205, + "epoch": 0.49952, + "eta_time": 7.474755725266556, + "step": 4683 + }, + { + "epoch": 0.49962666666666666, + "grad_norm": 0.6536637299416349, + "learning_rate": 5.249516983098026e-06, + "loss": 0.4167, + "step": 4684 + }, + { + "avg_step_time": 5.699082945332383, + "epoch": 0.49962666666666666, + "eta_time": 7.42622169348728, + "step": 4684 + }, + { + "epoch": 0.4997333333333333, + "grad_norm": 1.6222267134874833, + "learning_rate": 5.247791641954089e-06, + "loss": 0.4017, + "step": 4685 + }, + { + "avg_step_time": 5.697331650088532, + "epoch": 0.4997333333333333, + "eta_time": 7.422357066365337, + "step": 4685 + }, + { + "epoch": 0.49984, + "grad_norm": 0.649542059310105, + "learning_rate": 5.2460662712319335e-06, + "loss": 0.4378, + "step": 4686 + }, + { + "avg_step_time": 5.664482839179762, + "epoch": 0.49984, + "eta_time": 7.3779888980316395, + "step": 4686 + }, + { + "epoch": 0.49994666666666665, + "grad_norm": 0.6317257306809266, + "learning_rate": 5.244340871137511e-06, + "loss": 0.4458, + "step": 4687 + }, + { + "avg_step_time": 5.6367957664258554, + "epoch": 0.49994666666666665, + "eta_time": 7.340360709167892, + "step": 4687 + }, + { + "epoch": 0.5000533333333333, + "grad_norm": 1.7663263529623894, + "learning_rate": 5.242615441876779e-06, + "loss": 0.3886, + "step": 4688 + }, + { + "avg_step_time": 5.637525096084133, + "epoch": 0.5000533333333333, + "eta_time": 7.339744479262869, + "step": 4688 + }, + { + "epoch": 0.50016, + "grad_norm": 1.7333706257774162, + "learning_rate": 5.240889983655701e-06, + "loss": 0.5056, + "step": 4689 + }, + { + "avg_step_time": 5.643296456096148, + "epoch": 0.50016, + "eta_time": 7.345690887018486, + "step": 4689 + }, + { + "epoch": 0.5002666666666666, + "grad_norm": 1.8027979781662273, + "learning_rate": 5.239164496680233e-06, + "loss": 0.5679, + "step": 4690 + }, + { + "avg_step_time": 5.641737306960906, + "epoch": 0.5002666666666666, + "eta_time": 7.342094245308846, + "step": 4690 + }, + { + "epoch": 0.5003733333333333, + "grad_norm": 0.6922151118138893, + "learning_rate": 5.237438981156346e-06, + "loss": 0.4641, + "step": 4691 + }, + { + "avg_step_time": 5.607448905405372, + "epoch": 0.5003733333333333, + "eta_time": 7.295914075810766, + "step": 4691 + }, + { + "epoch": 0.50048, + "grad_norm": 1.688936225791596, + "learning_rate": 5.235713437290012e-06, + "loss": 0.5175, + "step": 4692 + }, + { + "avg_step_time": 5.589959619021175, + "epoch": 0.50048, + "eta_time": 7.271605804410045, + "step": 4692 + }, + { + "epoch": 0.5005866666666666, + "grad_norm": 1.8810915523103449, + "learning_rate": 5.2339878652872e-06, + "loss": 0.4906, + "step": 4693 + }, + { + "avg_step_time": 5.591277743830825, + "epoch": 0.5005866666666666, + "eta_time": 7.2717673323933125, + "step": 4693 + }, + { + "epoch": 0.5006933333333333, + "grad_norm": 1.7579691131501833, + "learning_rate": 5.232262265353889e-06, + "loss": 0.4552, + "step": 4694 + }, + { + "avg_step_time": 5.591030778306903, + "epoch": 0.5006933333333333, + "eta_time": 7.26989307590406, + "step": 4694 + }, + { + "epoch": 0.5008, + "grad_norm": 1.6183988955283661, + "learning_rate": 5.230536637696062e-06, + "loss": 0.5067, + "step": 4695 + }, + { + "avg_step_time": 5.60585091812442, + "epoch": 0.5008, + "eta_time": 7.287606193561746, + "step": 4695 + }, + { + "epoch": 0.5009066666666666, + "grad_norm": 1.8616128723775367, + "learning_rate": 5.228810982519696e-06, + "loss": 0.5409, + "step": 4696 + }, + { + "avg_step_time": 5.583858429783523, + "epoch": 0.5009066666666666, + "eta_time": 7.257464886932528, + "step": 4696 + }, + { + "epoch": 0.5010133333333333, + "grad_norm": 1.6673703180276371, + "learning_rate": 5.2270853000307845e-06, + "loss": 0.4439, + "step": 4697 + }, + { + "avg_step_time": 5.584804732390125, + "epoch": 0.5010133333333333, + "eta_time": 7.25714348281139, + "step": 4697 + }, + { + "epoch": 0.50112, + "grad_norm": 1.5151760369226934, + "learning_rate": 5.225359590435312e-06, + "loss": 0.4497, + "step": 4698 + }, + { + "avg_step_time": 5.562001057345458, + "epoch": 0.50112, + "eta_time": 7.225966373667974, + "step": 4698 + }, + { + "epoch": 0.5012266666666667, + "grad_norm": 1.95400639548823, + "learning_rate": 5.223633853939276e-06, + "loss": 0.5074, + "step": 4699 + }, + { + "avg_step_time": 5.56306181531964, + "epoch": 0.5012266666666667, + "eta_time": 7.225799180120732, + "step": 4699 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 2.053270162504566, + "learning_rate": 5.2219080907486715e-06, + "loss": 0.5264, + "step": 4700 + }, + { + "avg_step_time": 5.573207652930058, + "epoch": 0.5013333333333333, + "eta_time": 7.23742938262445, + "step": 4700 + }, + { + "epoch": 0.50144, + "grad_norm": 1.8577234223669021, + "learning_rate": 5.220182301069499e-06, + "loss": 0.5152, + "step": 4701 + }, + { + "avg_step_time": 5.574208110269874, + "epoch": 0.50144, + "eta_time": 7.237180196500386, + "step": 4701 + }, + { + "epoch": 0.5015466666666667, + "grad_norm": 1.7122948945600076, + "learning_rate": 5.2184564851077575e-06, + "loss": 0.5058, + "step": 4702 + }, + { + "avg_step_time": 5.562813298870819, + "epoch": 0.5015466666666667, + "eta_time": 7.220840707117593, + "step": 4702 + }, + { + "epoch": 0.5016533333333333, + "grad_norm": 1.6699053574659113, + "learning_rate": 5.216730643069458e-06, + "loss": 0.4225, + "step": 4703 + }, + { + "avg_step_time": 5.571050268231017, + "epoch": 0.5016533333333333, + "eta_time": 7.229985236993141, + "step": 4703 + }, + { + "epoch": 0.50176, + "grad_norm": 1.8840636055831055, + "learning_rate": 5.215004775160608e-06, + "loss": 0.4663, + "step": 4704 + }, + { + "avg_step_time": 5.568137530124549, + "epoch": 0.50176, + "eta_time": 7.224658445336602, + "step": 4704 + }, + { + "epoch": 0.5018666666666667, + "grad_norm": 1.919274727584166, + "learning_rate": 5.213278881587217e-06, + "loss": 0.5401, + "step": 4705 + }, + { + "avg_step_time": 5.574134395580099, + "epoch": 0.5018666666666667, + "eta_time": 7.23089100759974, + "step": 4705 + }, + { + "epoch": 0.5019733333333334, + "grad_norm": 1.9110460529608682, + "learning_rate": 5.211552962555305e-06, + "loss": 0.5364, + "step": 4706 + }, + { + "avg_step_time": 5.572273223087041, + "epoch": 0.5019733333333334, + "eta_time": 7.2269287996092775, + "step": 4706 + }, + { + "epoch": 0.50208, + "grad_norm": 1.697775847603666, + "learning_rate": 5.209827018270886e-06, + "loss": 0.5028, + "step": 4707 + }, + { + "avg_step_time": 5.584951860736115, + "epoch": 0.50208, + "eta_time": 7.241820912754496, + "step": 4707 + }, + { + "epoch": 0.5021866666666667, + "grad_norm": 0.6528636088484502, + "learning_rate": 5.208101048939984e-06, + "loss": 0.4468, + "step": 4708 + }, + { + "avg_step_time": 5.548156483004791, + "epoch": 0.5021866666666667, + "eta_time": 7.192568418384267, + "step": 4708 + }, + { + "epoch": 0.5022933333333334, + "grad_norm": 1.8402525337016657, + "learning_rate": 5.2063750547686224e-06, + "loss": 0.49, + "step": 4709 + }, + { + "avg_step_time": 5.544361726202146, + "epoch": 0.5022933333333334, + "eta_time": 7.1861088373497815, + "step": 4709 + }, + { + "epoch": 0.5024, + "grad_norm": 1.814079376440607, + "learning_rate": 5.204649035962825e-06, + "loss": 0.5046, + "step": 4710 + }, + { + "avg_step_time": 5.547580849040639, + "epoch": 0.5024, + "eta_time": 7.188740183548494, + "step": 4710 + }, + { + "epoch": 0.5025066666666667, + "grad_norm": 1.6866798861426506, + "learning_rate": 5.202922992728631e-06, + "loss": 0.4814, + "step": 4711 + }, + { + "avg_step_time": 5.551995067885428, + "epoch": 0.5025066666666667, + "eta_time": 7.192918054616009, + "step": 4711 + }, + { + "epoch": 0.5026133333333334, + "grad_norm": 0.639947220530362, + "learning_rate": 5.201196925272064e-06, + "loss": 0.4571, + "step": 4712 + }, + { + "avg_step_time": 5.505960459661002, + "epoch": 0.5026133333333334, + "eta_time": 7.131748228722015, + "step": 4712 + }, + { + "epoch": 0.50272, + "grad_norm": 1.7134885612949622, + "learning_rate": 5.199470833799164e-06, + "loss": 0.5004, + "step": 4713 + }, + { + "avg_step_time": 5.541587343119612, + "epoch": 0.50272, + "eta_time": 7.176355609339898, + "step": 4713 + }, + { + "epoch": 0.5028266666666666, + "grad_norm": 2.0545130525543653, + "learning_rate": 5.197744718515973e-06, + "loss": 0.5524, + "step": 4714 + }, + { + "avg_step_time": 5.539359490076701, + "epoch": 0.5028266666666666, + "eta_time": 7.171931828679862, + "step": 4714 + }, + { + "epoch": 0.5029333333333333, + "grad_norm": 1.8723148845230877, + "learning_rate": 5.196018579628526e-06, + "loss": 0.5397, + "step": 4715 + }, + { + "avg_step_time": 5.537375043136905, + "epoch": 0.5029333333333333, + "eta_time": 7.167824361393882, + "step": 4715 + }, + { + "epoch": 0.50304, + "grad_norm": 1.614900110700274, + "learning_rate": 5.1942924173428725e-06, + "loss": 0.4609, + "step": 4716 + }, + { + "avg_step_time": 5.547999644520307, + "epoch": 0.50304, + "eta_time": 7.180036206616697, + "step": 4716 + }, + { + "epoch": 0.5031466666666666, + "grad_norm": 0.6456094051414482, + "learning_rate": 5.192566231865058e-06, + "loss": 0.4596, + "step": 4717 + }, + { + "avg_step_time": 5.518657238796504, + "epoch": 0.5031466666666666, + "eta_time": 7.140529282865031, + "step": 4717 + }, + { + "epoch": 0.5032533333333333, + "grad_norm": 1.87437391532884, + "learning_rate": 5.190840023401132e-06, + "loss": 0.4829, + "step": 4718 + }, + { + "avg_step_time": 5.512808289190735, + "epoch": 0.5032533333333333, + "eta_time": 7.1314300563225705, + "step": 4718 + }, + { + "epoch": 0.50336, + "grad_norm": 1.8255931827895293, + "learning_rate": 5.18911379215715e-06, + "loss": 0.5813, + "step": 4719 + }, + { + "avg_step_time": 5.505325837568804, + "epoch": 0.50336, + "eta_time": 7.120221416588985, + "step": 4719 + }, + { + "epoch": 0.5034666666666666, + "grad_norm": 1.7549294219300322, + "learning_rate": 5.1873875383391655e-06, + "loss": 0.498, + "step": 4720 + }, + { + "avg_step_time": 5.5368581516574125, + "epoch": 0.5034666666666666, + "eta_time": 7.1594651933236815, + "step": 4720 + }, + { + "epoch": 0.5035733333333333, + "grad_norm": 1.7990900708581548, + "learning_rate": 5.185661262153236e-06, + "loss": 0.5174, + "step": 4721 + }, + { + "avg_step_time": 5.511864683844826, + "epoch": 0.5035733333333333, + "eta_time": 7.125616177392729, + "step": 4721 + }, + { + "epoch": 0.50368, + "grad_norm": 1.6653930070541796, + "learning_rate": 5.1839349638054245e-06, + "loss": 0.5253, + "step": 4722 + }, + { + "avg_step_time": 5.51499078972171, + "epoch": 0.50368, + "eta_time": 7.128125595715311, + "step": 4722 + }, + { + "epoch": 0.5037866666666667, + "grad_norm": 1.6472912686475731, + "learning_rate": 5.1822086435017936e-06, + "loss": 0.5344, + "step": 4723 + }, + { + "avg_step_time": 5.514819540158666, + "epoch": 0.5037866666666667, + "eta_time": 7.126372361338365, + "step": 4723 + }, + { + "epoch": 0.5038933333333333, + "grad_norm": 1.7183777373602724, + "learning_rate": 5.18048230144841e-06, + "loss": 0.4722, + "step": 4724 + }, + { + "avg_step_time": 5.553252097332116, + "epoch": 0.5038933333333333, + "eta_time": 7.174493195747687, + "step": 4724 + }, + { + "epoch": 0.504, + "grad_norm": 1.765790366608751, + "learning_rate": 5.178755937851341e-06, + "loss": 0.4387, + "step": 4725 + }, + { + "avg_step_time": 5.5489968025323115, + "epoch": 0.504, + "eta_time": 7.1674542032709025, + "step": 4725 + }, + { + "epoch": 0.5041066666666667, + "grad_norm": 0.6824486735896325, + "learning_rate": 5.177029552916659e-06, + "loss": 0.4775, + "step": 4726 + }, + { + "avg_step_time": 5.515688652944083, + "epoch": 0.5041066666666667, + "eta_time": 7.122899040982511, + "step": 4726 + }, + { + "epoch": 0.5042133333333333, + "grad_norm": 1.4954164242490546, + "learning_rate": 5.175303146850439e-06, + "loss": 0.4875, + "step": 4727 + }, + { + "avg_step_time": 5.513785716259118, + "epoch": 0.5042133333333333, + "eta_time": 7.118910002547884, + "step": 4727 + }, + { + "epoch": 0.50432, + "grad_norm": 1.86129803683697, + "learning_rate": 5.173576719858755e-06, + "loss": 0.4959, + "step": 4728 + }, + { + "avg_step_time": 5.516510828576907, + "epoch": 0.50432, + "eta_time": 7.120896061221357, + "step": 4728 + }, + { + "epoch": 0.5044266666666667, + "grad_norm": 1.6236666946103342, + "learning_rate": 5.171850272147687e-06, + "loss": 0.4541, + "step": 4729 + }, + { + "avg_step_time": 5.505595286687215, + "epoch": 0.5044266666666667, + "eta_time": 7.105276583874667, + "step": 4729 + }, + { + "epoch": 0.5045333333333333, + "grad_norm": 1.5895236414200082, + "learning_rate": 5.170123803923316e-06, + "loss": 0.4594, + "step": 4730 + }, + { + "avg_step_time": 5.5266469102917295, + "epoch": 0.5045333333333333, + "eta_time": 7.130909693973635, + "step": 4730 + }, + { + "epoch": 0.50464, + "grad_norm": 1.7525236073613533, + "learning_rate": 5.168397315391729e-06, + "loss": 0.4586, + "step": 4731 + }, + { + "avg_step_time": 5.562067503880972, + "epoch": 0.50464, + "eta_time": 7.175067080006454, + "step": 4731 + }, + { + "epoch": 0.5047466666666667, + "grad_norm": 1.7756836108942349, + "learning_rate": 5.166670806759007e-06, + "loss": 0.5344, + "step": 4732 + }, + { + "avg_step_time": 5.560063903981989, + "epoch": 0.5047466666666667, + "eta_time": 7.170937973941216, + "step": 4732 + }, + { + "epoch": 0.5048533333333334, + "grad_norm": 1.5272757509355115, + "learning_rate": 5.164944278231242e-06, + "loss": 0.4714, + "step": 4733 + }, + { + "avg_step_time": 5.559315445447209, + "epoch": 0.5048533333333334, + "eta_time": 7.168428416046095, + "step": 4733 + }, + { + "epoch": 0.50496, + "grad_norm": 1.85759599032923, + "learning_rate": 5.1632177300145255e-06, + "loss": 0.4552, + "step": 4734 + }, + { + "avg_step_time": 5.568401690685388, + "epoch": 0.50496, + "eta_time": 7.178597846241912, + "step": 4734 + }, + { + "epoch": 0.5050666666666667, + "grad_norm": 2.114201803641418, + "learning_rate": 5.161491162314949e-06, + "loss": 0.4052, + "step": 4735 + }, + { + "avg_step_time": 5.570127243947501, + "epoch": 0.5050666666666667, + "eta_time": 7.179275114421223, + "step": 4735 + }, + { + "epoch": 0.5051733333333334, + "grad_norm": 0.6505550975844728, + "learning_rate": 5.159764575338608e-06, + "loss": 0.4688, + "step": 4736 + }, + { + "avg_step_time": 5.546461760395705, + "epoch": 0.5051733333333334, + "eta_time": 7.1472322517987985, + "step": 4736 + }, + { + "epoch": 0.50528, + "grad_norm": 1.7989756843300522, + "learning_rate": 5.1580379692916025e-06, + "loss": 0.4275, + "step": 4737 + }, + { + "avg_step_time": 5.548090419383964, + "epoch": 0.50528, + "eta_time": 7.147789823639673, + "step": 4737 + }, + { + "epoch": 0.5053866666666667, + "grad_norm": 2.0896301038570444, + "learning_rate": 5.156311344380033e-06, + "loss": 0.5519, + "step": 4738 + }, + { + "avg_step_time": 5.543447234413841, + "epoch": 0.5053866666666667, + "eta_time": 7.140268007215827, + "step": 4738 + }, + { + "epoch": 0.5054933333333334, + "grad_norm": 2.0073802587928133, + "learning_rate": 5.1545847008099995e-06, + "loss": 0.5205, + "step": 4739 + }, + { + "avg_step_time": 5.586934260647706, + "epoch": 0.5054933333333334, + "eta_time": 7.194729786767435, + "step": 4739 + }, + { + "epoch": 0.5056, + "grad_norm": 1.5741842216117028, + "learning_rate": 5.152858038787608e-06, + "loss": 0.4226, + "step": 4740 + }, + { + "avg_step_time": 5.583566899251456, + "epoch": 0.5056, + "eta_time": 7.18884238278625, + "step": 4740 + }, + { + "epoch": 0.5057066666666666, + "grad_norm": 1.9304575062669596, + "learning_rate": 5.151131358518966e-06, + "loss": 0.504, + "step": 4741 + }, + { + "avg_step_time": 5.583291227167303, + "epoch": 0.5057066666666666, + "eta_time": 7.186936540748134, + "step": 4741 + }, + { + "epoch": 0.5058133333333333, + "grad_norm": 2.1764594168081492, + "learning_rate": 5.1494046602101825e-06, + "loss": 0.5477, + "step": 4742 + }, + { + "avg_step_time": 5.5818486358180195, + "epoch": 0.5058133333333333, + "eta_time": 7.183529091595801, + "step": 4742 + }, + { + "epoch": 0.50592, + "grad_norm": 1.7619401075182815, + "learning_rate": 5.147677944067368e-06, + "loss": 0.5057, + "step": 4743 + }, + { + "avg_step_time": 5.583774593141344, + "epoch": 0.50592, + "eta_time": 7.184456643175196, + "step": 4743 + }, + { + "epoch": 0.5060266666666666, + "grad_norm": 1.5985326087738527, + "learning_rate": 5.145951210296637e-06, + "loss": 0.4426, + "step": 4744 + }, + { + "avg_step_time": 5.5830492515756625, + "epoch": 0.5060266666666666, + "eta_time": 7.181972523346359, + "step": 4744 + }, + { + "epoch": 0.5061333333333333, + "grad_norm": 1.8088113076636303, + "learning_rate": 5.144224459104104e-06, + "loss": 0.5691, + "step": 4745 + }, + { + "avg_step_time": 5.593099957764751, + "epoch": 0.5061333333333333, + "eta_time": 7.193348001236332, + "step": 4745 + }, + { + "epoch": 0.50624, + "grad_norm": 2.046678424629239, + "learning_rate": 5.142497690695888e-06, + "loss": 0.6212, + "step": 4746 + }, + { + "avg_step_time": 5.594263312792537, + "epoch": 0.50624, + "eta_time": 7.193290243032404, + "step": 4746 + }, + { + "epoch": 0.5063466666666666, + "grad_norm": 1.9203167488067672, + "learning_rate": 5.140770905278106e-06, + "loss": 0.5068, + "step": 4747 + }, + { + "avg_step_time": 5.594394421336626, + "epoch": 0.5063466666666666, + "eta_time": 7.191904828318307, + "step": 4747 + }, + { + "epoch": 0.5064533333333333, + "grad_norm": 1.9277212010699576, + "learning_rate": 5.139044103056885e-06, + "loss": 0.4991, + "step": 4748 + }, + { + "avg_step_time": 5.6286298169030085, + "epoch": 0.5064533333333333, + "eta_time": 7.234352823002839, + "step": 4748 + }, + { + "epoch": 0.50656, + "grad_norm": 1.6502660375962237, + "learning_rate": 5.137317284238344e-06, + "loss": 0.419, + "step": 4749 + }, + { + "avg_step_time": 5.62711387451249, + "epoch": 0.50656, + "eta_time": 7.230841328748549, + "step": 4749 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 2.0302390428763153, + "learning_rate": 5.135590449028608e-06, + "loss": 0.5042, + "step": 4750 + }, + { + "avg_step_time": 5.626802259021336, + "epoch": 0.5066666666666667, + "eta_time": 7.2288779022149106, + "step": 4750 + }, + { + "epoch": 0.5067733333333333, + "grad_norm": 1.6314077903969821, + "learning_rate": 5.133863597633809e-06, + "loss": 0.4904, + "step": 4751 + }, + { + "avg_step_time": 5.643970788127244, + "epoch": 0.5067733333333333, + "eta_time": 7.249366923416771, + "step": 4751 + }, + { + "epoch": 0.50688, + "grad_norm": 1.8225148741001493, + "learning_rate": 5.1321367302600726e-06, + "loss": 0.5183, + "step": 4752 + }, + { + "avg_step_time": 5.645334501459141, + "epoch": 0.50688, + "eta_time": 7.249550388957114, + "step": 4752 + }, + { + "epoch": 0.5069866666666667, + "grad_norm": 2.022142209269023, + "learning_rate": 5.130409847113532e-06, + "loss": 0.5187, + "step": 4753 + }, + { + "avg_step_time": 5.644001688620056, + "epoch": 0.5069866666666667, + "eta_time": 7.246271056889417, + "step": 4753 + }, + { + "epoch": 0.5070933333333333, + "grad_norm": 1.9649123090586669, + "learning_rate": 5.128682948400321e-06, + "loss": 0.5464, + "step": 4754 + }, + { + "avg_step_time": 5.639142990112305, + "epoch": 0.5070933333333333, + "eta_time": 7.238466599252489, + "step": 4754 + }, + { + "epoch": 0.5072, + "grad_norm": 2.091741035194643, + "learning_rate": 5.126956034326573e-06, + "loss": 0.4869, + "step": 4755 + }, + { + "avg_step_time": 5.646124456868027, + "epoch": 0.5072, + "eta_time": 7.245859719647301, + "step": 4755 + }, + { + "epoch": 0.5073066666666667, + "grad_norm": 1.7990944799847453, + "learning_rate": 5.125229105098429e-06, + "loss": 0.5578, + "step": 4756 + }, + { + "avg_step_time": 5.6398472545122855, + "epoch": 0.5073066666666667, + "eta_time": 7.236237352386736, + "step": 4756 + }, + { + "epoch": 0.5074133333333334, + "grad_norm": 1.7507227119589392, + "learning_rate": 5.123502160922024e-06, + "loss": 0.4937, + "step": 4757 + }, + { + "avg_step_time": 5.640515483991064, + "epoch": 0.5074133333333334, + "eta_time": 7.235527918075203, + "step": 4757 + }, + { + "epoch": 0.50752, + "grad_norm": 1.7357572878588279, + "learning_rate": 5.121775202003499e-06, + "loss": 0.4896, + "step": 4758 + }, + { + "avg_step_time": 5.6473243308789804, + "epoch": 0.50752, + "eta_time": 7.242693454352292, + "step": 4758 + }, + { + "epoch": 0.5076266666666667, + "grad_norm": 1.5974342332999663, + "learning_rate": 5.120048228548999e-06, + "loss": 0.4848, + "step": 4759 + }, + { + "avg_step_time": 5.648542596836283, + "epoch": 0.5076266666666667, + "eta_time": 7.242686840832301, + "step": 4759 + }, + { + "epoch": 0.5077333333333334, + "grad_norm": 1.9301914593707916, + "learning_rate": 5.1183212407646655e-06, + "loss": 0.4988, + "step": 4760 + }, + { + "avg_step_time": 5.648835372443151, + "epoch": 0.5077333333333334, + "eta_time": 7.241493123284762, + "step": 4760 + }, + { + "epoch": 0.50784, + "grad_norm": 1.7995695333874266, + "learning_rate": 5.116594238856645e-06, + "loss": 0.4997, + "step": 4761 + }, + { + "avg_step_time": 5.648030803661154, + "epoch": 0.50784, + "eta_time": 7.238892813359046, + "step": 4761 + }, + { + "epoch": 0.5079466666666667, + "grad_norm": 0.6905794258681859, + "learning_rate": 5.114867223031086e-06, + "loss": 0.4625, + "step": 4762 + }, + { + "avg_step_time": 5.6160453883084385, + "epoch": 0.5079466666666667, + "eta_time": 7.196338160074118, + "step": 4762 + }, + { + "epoch": 0.5080533333333334, + "grad_norm": 1.9769666136997965, + "learning_rate": 5.113140193494136e-06, + "loss": 0.4728, + "step": 4763 + }, + { + "avg_step_time": 5.6173644186270355, + "epoch": 0.5080533333333334, + "eta_time": 7.196467971863302, + "step": 4763 + }, + { + "epoch": 0.50816, + "grad_norm": 1.8698092202402727, + "learning_rate": 5.111413150451948e-06, + "loss": 0.5112, + "step": 4764 + }, + { + "avg_step_time": 5.6223282886273935, + "epoch": 0.50816, + "eta_time": 7.20126548301692, + "step": 4764 + }, + { + "epoch": 0.5082666666666666, + "grad_norm": 1.827315450565231, + "learning_rate": 5.109686094110674e-06, + "loss": 0.4652, + "step": 4765 + }, + { + "avg_step_time": 5.621119894162573, + "epoch": 0.5082666666666666, + "eta_time": 7.198156308913739, + "step": 4765 + }, + { + "epoch": 0.5083733333333333, + "grad_norm": 2.0845486284293098, + "learning_rate": 5.107959024676466e-06, + "loss": 0.5318, + "step": 4766 + }, + { + "avg_step_time": 5.61171062546547, + "epoch": 0.5083733333333333, + "eta_time": 7.184548409102875, + "step": 4766 + }, + { + "epoch": 0.50848, + "grad_norm": 0.618703654572184, + "learning_rate": 5.1062319423554815e-06, + "loss": 0.4137, + "step": 4767 + }, + { + "avg_step_time": 5.6125141201597275, + "epoch": 0.50848, + "eta_time": 7.1840180738044515, + "step": 4767 + }, + { + "epoch": 0.5085866666666666, + "grad_norm": 1.935523648256344, + "learning_rate": 5.104504847353878e-06, + "loss": 0.4287, + "step": 4768 + }, + { + "avg_step_time": 5.615518112375279, + "epoch": 0.5085866666666666, + "eta_time": 7.18630331769803, + "step": 4768 + }, + { + "epoch": 0.5086933333333333, + "grad_norm": 1.651273623511976, + "learning_rate": 5.102777739877812e-06, + "loss": 0.4712, + "step": 4769 + }, + { + "avg_step_time": 5.613758380966957, + "epoch": 0.5086933333333333, + "eta_time": 7.182491972981612, + "step": 4769 + }, + { + "epoch": 0.5088, + "grad_norm": 1.8454776278293499, + "learning_rate": 5.101050620133447e-06, + "loss": 0.4536, + "step": 4770 + }, + { + "avg_step_time": 5.6226851675245495, + "epoch": 0.5088, + "eta_time": 7.192351443458486, + "step": 4770 + }, + { + "epoch": 0.5089066666666666, + "grad_norm": 1.9514457157264662, + "learning_rate": 5.099323488326941e-06, + "loss": 0.434, + "step": 4771 + }, + { + "avg_step_time": 5.619861398080383, + "epoch": 0.5089066666666666, + "eta_time": 7.187178299100578, + "step": 4771 + }, + { + "epoch": 0.5090133333333333, + "grad_norm": 1.4693001229876406, + "learning_rate": 5.097596344664458e-06, + "loss": 0.4711, + "step": 4772 + }, + { + "avg_step_time": 5.65556033211525, + "epoch": 0.5090133333333333, + "eta_time": 7.231262280201805, + "step": 4772 + }, + { + "epoch": 0.50912, + "grad_norm": 1.9101310213477989, + "learning_rate": 5.095869189352166e-06, + "loss": 0.4691, + "step": 4773 + }, + { + "avg_step_time": 5.656323006658843, + "epoch": 0.50912, + "eta_time": 7.23066624351222, + "step": 4773 + }, + { + "epoch": 0.5092266666666667, + "grad_norm": 1.8813736947415292, + "learning_rate": 5.094142022596224e-06, + "loss": 0.5698, + "step": 4774 + }, + { + "avg_step_time": 5.653902720923376, + "epoch": 0.5092266666666667, + "eta_time": 7.226001783046792, + "step": 4774 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 0.6585607004348174, + "learning_rate": 5.092414844602807e-06, + "loss": 0.4453, + "step": 4775 + }, + { + "avg_step_time": 5.622215762282863, + "epoch": 0.5093333333333333, + "eta_time": 7.183942362916992, + "step": 4775 + }, + { + "epoch": 0.50944, + "grad_norm": 0.6304039732126936, + "learning_rate": 5.090687655578078e-06, + "loss": 0.428, + "step": 4776 + }, + { + "avg_step_time": 5.5871777004665795, + "epoch": 0.50944, + "eta_time": 7.137619512346056, + "step": 4776 + }, + { + "epoch": 0.5095466666666667, + "grad_norm": 1.7879961429602702, + "learning_rate": 5.088960455728209e-06, + "loss": 0.4934, + "step": 4777 + }, + { + "avg_step_time": 5.5847658846113415, + "epoch": 0.5095466666666667, + "eta_time": 7.132987093734153, + "step": 4777 + }, + { + "epoch": 0.5096533333333333, + "grad_norm": 1.6024895113320943, + "learning_rate": 5.087233245259371e-06, + "loss": 0.4568, + "step": 4778 + }, + { + "avg_step_time": 5.582016232037785, + "epoch": 0.5096533333333333, + "eta_time": 7.12792461629936, + "step": 4778 + }, + { + "epoch": 0.50976, + "grad_norm": 1.5487060751499926, + "learning_rate": 5.0855060243777366e-06, + "loss": 0.4721, + "step": 4779 + }, + { + "avg_step_time": 5.594062347604771, + "epoch": 0.50976, + "eta_time": 7.141752930442091, + "step": 4779 + }, + { + "epoch": 0.5098666666666667, + "grad_norm": 1.7056784364883544, + "learning_rate": 5.0837787932894786e-06, + "loss": 0.4736, + "step": 4780 + }, + { + "avg_step_time": 5.5941165071545225, + "epoch": 0.5098666666666667, + "eta_time": 7.140268152881953, + "step": 4780 + }, + { + "epoch": 0.5099733333333333, + "grad_norm": 1.9147988933509066, + "learning_rate": 5.082051552200773e-06, + "loss": 0.4702, + "step": 4781 + }, + { + "avg_step_time": 5.589451599602747, + "epoch": 0.5099733333333333, + "eta_time": 7.13276129127084, + "step": 4781 + }, + { + "epoch": 0.51008, + "grad_norm": 1.698348248868519, + "learning_rate": 5.080324301317795e-06, + "loss": 0.4931, + "step": 4782 + }, + { + "avg_step_time": 5.6076021820607815, + "epoch": 0.51008, + "eta_time": 7.15436578394588, + "step": 4782 + }, + { + "epoch": 0.5101866666666667, + "grad_norm": 1.7115236886780125, + "learning_rate": 5.078597040846723e-06, + "loss": 0.4515, + "step": 4783 + }, + { + "avg_step_time": 5.639232897999311, + "epoch": 0.5101866666666667, + "eta_time": 7.193154852114677, + "step": 4783 + }, + { + "epoch": 0.5102933333333334, + "grad_norm": 1.8504599013951408, + "learning_rate": 5.076869770993734e-06, + "loss": 0.411, + "step": 4784 + }, + { + "avg_step_time": 5.639271731328482, + "epoch": 0.5102933333333334, + "eta_time": 7.191637921813628, + "step": 4784 + }, + { + "epoch": 0.5104, + "grad_norm": 1.8485462064574636, + "learning_rate": 5.0751424919650085e-06, + "loss": 0.5123, + "step": 4785 + }, + { + "avg_step_time": 5.6694195101959535, + "epoch": 0.5104, + "eta_time": 7.2285098754998405, + "step": 4785 + }, + { + "epoch": 0.5105066666666667, + "grad_norm": 1.7592536410455017, + "learning_rate": 5.073415203966726e-06, + "loss": 0.5434, + "step": 4786 + }, + { + "avg_step_time": 5.695169174309933, + "epoch": 0.5105066666666667, + "eta_time": 7.259758705807855, + "step": 4786 + }, + { + "epoch": 0.5106133333333334, + "grad_norm": 1.6888531610371111, + "learning_rate": 5.0716879072050704e-06, + "loss": 0.4753, + "step": 4787 + }, + { + "avg_step_time": 5.69551074143612, + "epoch": 0.5106133333333334, + "eta_time": 7.258612022696922, + "step": 4787 + }, + { + "epoch": 0.51072, + "grad_norm": 1.6368682335305451, + "learning_rate": 5.069960601886224e-06, + "loss": 0.4999, + "step": 4788 + }, + { + "avg_step_time": 5.691827959484524, + "epoch": 0.51072, + "eta_time": 7.25233745837653, + "step": 4788 + }, + { + "epoch": 0.5108266666666667, + "grad_norm": 2.095496584908539, + "learning_rate": 5.068233288216367e-06, + "loss": 0.4795, + "step": 4789 + }, + { + "avg_step_time": 5.702818564694337, + "epoch": 0.5108266666666667, + "eta_time": 7.264757204913397, + "step": 4789 + }, + { + "epoch": 0.5109333333333334, + "grad_norm": 1.6342587206288626, + "learning_rate": 5.066505966401689e-06, + "loss": 0.5548, + "step": 4790 + }, + { + "avg_step_time": 5.734868088153878, + "epoch": 0.5109333333333334, + "eta_time": 7.303991717829313, + "step": 4790 + }, + { + "epoch": 0.51104, + "grad_norm": 0.7229862503670487, + "learning_rate": 5.064778636648371e-06, + "loss": 0.4417, + "step": 4791 + }, + { + "avg_step_time": 5.700847582383589, + "epoch": 0.51104, + "eta_time": 7.25907925490177, + "step": 4791 + }, + { + "epoch": 0.5111466666666666, + "grad_norm": 1.9962209379107665, + "learning_rate": 5.063051299162604e-06, + "loss": 0.4702, + "step": 4792 + }, + { + "avg_step_time": 5.701416533402722, + "epoch": 0.5111466666666666, + "eta_time": 7.258219992384633, + "step": 4792 + }, + { + "epoch": 0.5112533333333333, + "grad_norm": 0.6537271293931538, + "learning_rate": 5.061323954150576e-06, + "loss": 0.4488, + "step": 4793 + }, + { + "avg_step_time": 5.689123387288565, + "epoch": 0.5112533333333333, + "eta_time": 7.240989822376724, + "step": 4793 + }, + { + "epoch": 0.51136, + "grad_norm": 0.6435939313055613, + "learning_rate": 5.05959660181847e-06, + "loss": 0.4613, + "step": 4794 + }, + { + "avg_step_time": 5.646939051271689, + "epoch": 0.51136, + "eta_time": 7.185729942743224, + "step": 4794 + }, + { + "epoch": 0.5114666666666666, + "grad_norm": 1.6192386973881163, + "learning_rate": 5.057869242372479e-06, + "loss": 0.465, + "step": 4795 + }, + { + "avg_step_time": 5.646980605944239, + "epoch": 0.5114666666666666, + "eta_time": 7.184214215340171, + "step": 4795 + }, + { + "epoch": 0.5115733333333333, + "grad_norm": 1.8441181051262596, + "learning_rate": 5.0561418760187944e-06, + "loss": 0.5089, + "step": 4796 + }, + { + "avg_step_time": 5.646291080147329, + "epoch": 0.5115733333333333, + "eta_time": 7.181768571109616, + "step": 4796 + }, + { + "epoch": 0.51168, + "grad_norm": 1.6144875672400936, + "learning_rate": 5.054414502963605e-06, + "loss": 0.4288, + "step": 4797 + }, + { + "avg_step_time": 5.640576755157625, + "epoch": 0.51168, + "eta_time": 7.172933440308779, + "step": 4797 + }, + { + "epoch": 0.5117866666666666, + "grad_norm": 2.0742018554574617, + "learning_rate": 5.052687123413104e-06, + "loss": 0.5592, + "step": 4798 + }, + { + "avg_step_time": 5.635112242265181, + "epoch": 0.5117866666666666, + "eta_time": 7.164419092457703, + "step": 4798 + }, + { + "epoch": 0.5118933333333333, + "grad_norm": 1.8578313339612544, + "learning_rate": 5.050959737573483e-06, + "loss": 0.5608, + "step": 4799 + }, + { + "avg_step_time": 5.62595188256466, + "epoch": 0.5118933333333333, + "eta_time": 7.151209948504413, + "step": 4799 + }, + { + "epoch": 0.512, + "grad_norm": 2.166187672464196, + "learning_rate": 5.049232345650936e-06, + "loss": 0.5557, + "step": 4800 + }, + { + "avg_step_time": 5.625425649411751, + "epoch": 0.512, + "eta_time": 7.148978429460767, + "step": 4800 + }, + { + "epoch": 0.5121066666666667, + "grad_norm": 2.1162003533456235, + "learning_rate": 5.047504947851657e-06, + "loss": 0.5242, + "step": 4801 + }, + { + "avg_step_time": 5.630229032400883, + "epoch": 0.5121066666666667, + "eta_time": 7.153518776167122, + "step": 4801 + }, + { + "epoch": 0.5122133333333333, + "grad_norm": 1.7003579259497805, + "learning_rate": 5.0457775443818415e-06, + "loss": 0.4884, + "step": 4802 + }, + { + "avg_step_time": 5.624202078038996, + "epoch": 0.5122133333333333, + "eta_time": 7.144298917464536, + "step": 4802 + }, + { + "epoch": 0.51232, + "grad_norm": 1.7609225268592164, + "learning_rate": 5.044050135447682e-06, + "loss": 0.4733, + "step": 4803 + }, + { + "avg_step_time": 5.6245284875233965, + "epoch": 0.51232, + "eta_time": 7.143151179154714, + "step": 4803 + }, + { + "epoch": 0.5124266666666667, + "grad_norm": 1.6728470571301972, + "learning_rate": 5.042322721255379e-06, + "loss": 0.5373, + "step": 4804 + }, + { + "avg_step_time": 5.615382052431203, + "epoch": 0.5124266666666667, + "eta_time": 7.12997537823973, + "step": 4804 + }, + { + "epoch": 0.5125333333333333, + "grad_norm": 1.6527650201511614, + "learning_rate": 5.040595302011127e-06, + "loss": 0.5093, + "step": 4805 + }, + { + "avg_step_time": 5.618800189759996, + "epoch": 0.5125333333333333, + "eta_time": 7.132754685334218, + "step": 4805 + }, + { + "epoch": 0.51264, + "grad_norm": 1.9871220696085525, + "learning_rate": 5.038867877921124e-06, + "loss": 0.5911, + "step": 4806 + }, + { + "avg_step_time": 5.596966365371087, + "epoch": 0.51264, + "eta_time": 7.103483145383471, + "step": 4806 + }, + { + "epoch": 0.5127466666666667, + "grad_norm": 1.7842472825216071, + "learning_rate": 5.037140449191567e-06, + "loss": 0.4472, + "step": 4807 + }, + { + "avg_step_time": 5.6323952048715915, + "epoch": 0.5127466666666667, + "eta_time": 7.14688369329262, + "step": 4807 + }, + { + "epoch": 0.5128533333333334, + "grad_norm": 2.1906764104999126, + "learning_rate": 5.035413016028653e-06, + "loss": 0.5624, + "step": 4808 + }, + { + "avg_step_time": 5.629803041015008, + "epoch": 0.5128533333333334, + "eta_time": 7.142030691198762, + "step": 4808 + }, + { + "epoch": 0.51296, + "grad_norm": 1.5965888216762938, + "learning_rate": 5.033685578638586e-06, + "loss": 0.3957, + "step": 4809 + }, + { + "avg_step_time": 5.6274875920228284, + "epoch": 0.51296, + "eta_time": 7.137530095882288, + "step": 4809 + }, + { + "epoch": 0.5130666666666667, + "grad_norm": 1.5937262458793044, + "learning_rate": 5.031958137227562e-06, + "loss": 0.465, + "step": 4810 + }, + { + "avg_step_time": 5.625683119802764, + "epoch": 0.5130666666666667, + "eta_time": 7.133678733861005, + "step": 4810 + }, + { + "epoch": 0.5131733333333334, + "grad_norm": 0.6492985730371159, + "learning_rate": 5.030230692001779e-06, + "loss": 0.4027, + "step": 4811 + }, + { + "avg_step_time": 5.62747447659271, + "epoch": 0.5131733333333334, + "eta_time": 7.1343870864358685, + "step": 4811 + }, + { + "epoch": 0.51328, + "grad_norm": 2.0785305132752785, + "learning_rate": 5.028503243167443e-06, + "loss": 0.4299, + "step": 4812 + }, + { + "avg_step_time": 5.58941416547756, + "epoch": 0.51328, + "eta_time": 7.084582454742808, + "step": 4812 + }, + { + "epoch": 0.5133866666666667, + "grad_norm": 1.7638789216937354, + "learning_rate": 5.02677579093075e-06, + "loss": 0.4705, + "step": 4813 + }, + { + "avg_step_time": 5.5894925064510765, + "epoch": 0.5133866666666667, + "eta_time": 7.083129115119392, + "step": 4813 + }, + { + "epoch": 0.5134933333333334, + "grad_norm": 1.6940272527824216, + "learning_rate": 5.0250483354979045e-06, + "loss": 0.5604, + "step": 4814 + }, + { + "avg_step_time": 5.589732109898269, + "epoch": 0.5134933333333334, + "eta_time": 7.081880042568335, + "step": 4814 + }, + { + "epoch": 0.5136, + "grad_norm": 2.2512164676261173, + "learning_rate": 5.023320877075107e-06, + "loss": 0.5968, + "step": 4815 + }, + { + "avg_step_time": 5.5817082048666595, + "epoch": 0.5136, + "eta_time": 7.070163726164435, + "step": 4815 + }, + { + "epoch": 0.5137066666666666, + "grad_norm": 1.7579563673687315, + "learning_rate": 5.021593415868558e-06, + "loss": 0.4808, + "step": 4816 + }, + { + "avg_step_time": 5.614547151507753, + "epoch": 0.5137066666666666, + "eta_time": 7.110200128812179, + "step": 4816 + }, + { + "epoch": 0.5138133333333333, + "grad_norm": 1.4692979302883131, + "learning_rate": 5.019865952084462e-06, + "loss": 0.4192, + "step": 4817 + }, + { + "avg_step_time": 5.612784756554498, + "epoch": 0.5138133333333333, + "eta_time": 7.1064091445487225, + "step": 4817 + }, + { + "epoch": 0.51392, + "grad_norm": 1.884055375529731, + "learning_rate": 5.0181384859290215e-06, + "loss": 0.5211, + "step": 4818 + }, + { + "avg_step_time": 5.609631940571949, + "epoch": 0.51392, + "eta_time": 7.100859098107326, + "step": 4818 + }, + { + "epoch": 0.5140266666666666, + "grad_norm": 1.8677902466544216, + "learning_rate": 5.016411017608438e-06, + "loss": 0.4842, + "step": 4819 + }, + { + "avg_step_time": 5.627176896490232, + "epoch": 0.5140266666666666, + "eta_time": 7.121504983447083, + "step": 4819 + }, + { + "epoch": 0.5141333333333333, + "grad_norm": 1.908006770385482, + "learning_rate": 5.014683547328917e-06, + "loss": 0.5699, + "step": 4820 + }, + { + "avg_step_time": 5.617207358581851, + "epoch": 0.5141333333333333, + "eta_time": 7.107327643983425, + "step": 4820 + }, + { + "epoch": 0.51424, + "grad_norm": 1.5412574693615397, + "learning_rate": 5.01295607529666e-06, + "loss": 0.459, + "step": 4821 + }, + { + "avg_step_time": 5.6114925736128685, + "epoch": 0.51424, + "eta_time": 7.098538105620278, + "step": 4821 + }, + { + "epoch": 0.5143466666666666, + "grad_norm": 1.499158612002257, + "learning_rate": 5.011228601717871e-06, + "loss": 0.4162, + "step": 4822 + }, + { + "avg_step_time": 5.609665685229832, + "epoch": 0.5143466666666666, + "eta_time": 7.094668851347618, + "step": 4822 + }, + { + "epoch": 0.5144533333333333, + "grad_norm": 2.069716814121638, + "learning_rate": 5.009501126798755e-06, + "loss": 0.5981, + "step": 4823 + }, + { + "avg_step_time": 5.611442647799097, + "epoch": 0.5144533333333333, + "eta_time": 7.095357481328192, + "step": 4823 + }, + { + "epoch": 0.51456, + "grad_norm": 0.6660092854511488, + "learning_rate": 5.007773650745514e-06, + "loss": 0.4371, + "step": 4824 + }, + { + "avg_step_time": 5.578466605658483, + "epoch": 0.51456, + "eta_time": 7.052111533986599, + "step": 4824 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 1.881050597791784, + "learning_rate": 5.006046173764353e-06, + "loss": 0.547, + "step": 4825 + }, + { + "avg_step_time": 5.61181045060206, + "epoch": 0.5146666666666667, + "eta_time": 7.0927048750664925, + "step": 4825 + }, + { + "epoch": 0.5147733333333333, + "grad_norm": 1.760388685699957, + "learning_rate": 5.004318696061479e-06, + "loss": 0.5012, + "step": 4826 + }, + { + "avg_step_time": 5.616456761504665, + "epoch": 0.5147733333333333, + "eta_time": 7.097017168912422, + "step": 4826 + }, + { + "epoch": 0.51488, + "grad_norm": 1.784428709196491, + "learning_rate": 5.0025912178430925e-06, + "loss": 0.4996, + "step": 4827 + }, + { + "avg_step_time": 5.613539777620875, + "epoch": 0.51488, + "eta_time": 7.091771919061038, + "step": 4827 + }, + { + "epoch": 0.5149866666666667, + "grad_norm": 1.7289420367258213, + "learning_rate": 5.000863739315398e-06, + "loss": 0.4414, + "step": 4828 + }, + { + "avg_step_time": 5.615710041739724, + "epoch": 0.5149866666666667, + "eta_time": 7.0929537666084785, + "step": 4828 + }, + { + "epoch": 0.5150933333333333, + "grad_norm": 1.866287318342104, + "learning_rate": 4.9991362606846025e-06, + "loss": 0.5132, + "step": 4829 + }, + { + "avg_step_time": 5.59566296230663, + "epoch": 0.5150933333333333, + "eta_time": 7.066078840734983, + "step": 4829 + }, + { + "epoch": 0.5152, + "grad_norm": 0.6523402921526807, + "learning_rate": 4.997408782156909e-06, + "loss": 0.4469, + "step": 4830 + }, + { + "avg_step_time": 5.562086271517204, + "epoch": 0.5152, + "eta_time": 7.0221339177904705, + "step": 4830 + }, + { + "epoch": 0.5153066666666667, + "grad_norm": 1.845230190907492, + "learning_rate": 4.995681303938523e-06, + "loss": 0.5019, + "step": 4831 + }, + { + "avg_step_time": 5.565507814137622, + "epoch": 0.5153066666666667, + "eta_time": 7.024907640955933, + "step": 4831 + }, + { + "epoch": 0.5154133333333333, + "grad_norm": 2.0255348108898428, + "learning_rate": 4.993953826235649e-06, + "loss": 0.5591, + "step": 4832 + }, + { + "avg_step_time": 5.569752303036776, + "epoch": 0.5154133333333333, + "eta_time": 7.0287179757489096, + "step": 4832 + }, + { + "epoch": 0.51552, + "grad_norm": 2.012672510651117, + "learning_rate": 4.9922263492544885e-06, + "loss": 0.446, + "step": 4833 + }, + { + "avg_step_time": 5.556820989859225, + "epoch": 0.51552, + "eta_time": 7.010855815539056, + "step": 4833 + }, + { + "epoch": 0.5156266666666667, + "grad_norm": 2.0088122871415997, + "learning_rate": 4.990498873201247e-06, + "loss": 0.4649, + "step": 4834 + }, + { + "avg_step_time": 5.557716882590092, + "epoch": 0.5156266666666667, + "eta_time": 7.010442323289335, + "step": 4834 + }, + { + "epoch": 0.5157333333333334, + "grad_norm": 1.97884198202895, + "learning_rate": 4.988771398282131e-06, + "loss": 0.5943, + "step": 4835 + }, + { + "avg_step_time": 5.5831069970371745, + "epoch": 0.5157333333333334, + "eta_time": 7.04091826848577, + "step": 4835 + }, + { + "epoch": 0.51584, + "grad_norm": 2.0523833875253827, + "learning_rate": 4.987043924703342e-06, + "loss": 0.5031, + "step": 4836 + }, + { + "avg_step_time": 5.582853789281363, + "epoch": 0.51584, + "eta_time": 7.039048152652252, + "step": 4836 + }, + { + "epoch": 0.5159466666666667, + "grad_norm": 1.7607914482972251, + "learning_rate": 4.985316452671084e-06, + "loss": 0.4404, + "step": 4837 + }, + { + "avg_step_time": 5.579213823934998, + "epoch": 0.5159466666666667, + "eta_time": 7.032908981393617, + "step": 4837 + }, + { + "epoch": 0.5160533333333334, + "grad_norm": 1.8392818946187433, + "learning_rate": 4.983588982391564e-06, + "loss": 0.503, + "step": 4838 + }, + { + "avg_step_time": 5.570828895376186, + "epoch": 0.5160533333333334, + "eta_time": 7.020791860644932, + "step": 4838 + }, + { + "epoch": 0.51616, + "grad_norm": 2.098151823884818, + "learning_rate": 4.981861514070979e-06, + "loss": 0.4883, + "step": 4839 + }, + { + "avg_step_time": 5.569054138780844, + "epoch": 0.51616, + "eta_time": 7.017008214863864, + "step": 4839 + }, + { + "epoch": 0.5162666666666667, + "grad_norm": 1.747183836063322, + "learning_rate": 4.980134047915539e-06, + "loss": 0.5241, + "step": 4840 + }, + { + "avg_step_time": 5.56656148457768, + "epoch": 0.5162666666666667, + "eta_time": 7.012321203488828, + "step": 4840 + }, + { + "epoch": 0.5163733333333334, + "grad_norm": 1.630858499982988, + "learning_rate": 4.978406584131443e-06, + "loss": 0.463, + "step": 4841 + }, + { + "avg_step_time": 5.571700233401674, + "epoch": 0.5163733333333334, + "eta_time": 7.0172469050675526, + "step": 4841 + }, + { + "epoch": 0.51648, + "grad_norm": 0.6429185330012793, + "learning_rate": 4.976679122924896e-06, + "loss": 0.4877, + "step": 4842 + }, + { + "avg_step_time": 5.53342718307418, + "epoch": 0.51648, + "eta_time": 6.9675070613542385, + "step": 4842 + }, + { + "epoch": 0.5165866666666666, + "grad_norm": 1.587662296737965, + "learning_rate": 4.974951664502097e-06, + "loss": 0.5182, + "step": 4843 + }, + { + "avg_step_time": 5.532577608570908, + "epoch": 0.5165866666666666, + "eta_time": 6.964900478345377, + "step": 4843 + }, + { + "epoch": 0.5166933333333333, + "grad_norm": 1.7963669578272756, + "learning_rate": 4.97322420906925e-06, + "loss": 0.4214, + "step": 4844 + }, + { + "avg_step_time": 5.521937647251168, + "epoch": 0.5166933333333333, + "eta_time": 6.949972077693066, + "step": 4844 + }, + { + "epoch": 0.5168, + "grad_norm": 1.4999367753786064, + "learning_rate": 4.971496756832557e-06, + "loss": 0.4364, + "step": 4845 + }, + { + "avg_step_time": 5.529959996541341, + "epoch": 0.5168, + "eta_time": 6.958532995647854, + "step": 4845 + }, + { + "epoch": 0.5169066666666666, + "grad_norm": 1.6561435287246555, + "learning_rate": 4.9697693079982215e-06, + "loss": 0.4664, + "step": 4846 + }, + { + "avg_step_time": 5.528374655078156, + "epoch": 0.5169066666666666, + "eta_time": 6.955002448013602, + "step": 4846 + }, + { + "epoch": 0.5170133333333333, + "grad_norm": 2.1936220353108604, + "learning_rate": 4.968041862772441e-06, + "loss": 0.4746, + "step": 4847 + }, + { + "avg_step_time": 5.530691515315663, + "epoch": 0.5170133333333333, + "eta_time": 6.956380883708145, + "step": 4847 + }, + { + "epoch": 0.51712, + "grad_norm": 1.7915106464172343, + "learning_rate": 4.966314421361416e-06, + "loss": 0.5107, + "step": 4848 + }, + { + "avg_step_time": 5.55507589349843, + "epoch": 0.51712, + "eta_time": 6.985507936074276, + "step": 4848 + }, + { + "epoch": 0.5172266666666666, + "grad_norm": 1.8573720937162348, + "learning_rate": 4.964586983971347e-06, + "loss": 0.4411, + "step": 4849 + }, + { + "avg_step_time": 5.55262365004029, + "epoch": 0.5172266666666666, + "eta_time": 6.980881844467319, + "step": 4849 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 1.6294195960151094, + "learning_rate": 4.962859550808435e-06, + "loss": 0.4247, + "step": 4850 + }, + { + "avg_step_time": 5.5350148003510755, + "epoch": 0.5173333333333333, + "eta_time": 6.95720610321906, + "step": 4850 + }, + { + "epoch": 0.51744, + "grad_norm": 1.4585862946013444, + "learning_rate": 4.9611321220788775e-06, + "loss": 0.4304, + "step": 4851 + }, + { + "avg_step_time": 5.530691532173542, + "epoch": 0.51744, + "eta_time": 6.950235692098085, + "step": 4851 + }, + { + "epoch": 0.5175466666666667, + "grad_norm": 1.7708587215126526, + "learning_rate": 4.959404697988875e-06, + "loss": 0.4511, + "step": 4852 + }, + { + "avg_step_time": 5.5297752799409805, + "epoch": 0.5175466666666667, + "eta_time": 6.947548219770293, + "step": 4852 + }, + { + "epoch": 0.5176533333333333, + "grad_norm": 1.6652759193491204, + "learning_rate": 4.957677278744621e-06, + "loss": 0.4914, + "step": 4853 + }, + { + "avg_step_time": 5.561194701628252, + "epoch": 0.5176533333333333, + "eta_time": 6.985478455767487, + "step": 4853 + }, + { + "epoch": 0.51776, + "grad_norm": 1.837624006956697, + "learning_rate": 4.955949864552318e-06, + "loss": 0.6048, + "step": 4854 + }, + { + "avg_step_time": 5.55466910805365, + "epoch": 0.51776, + "eta_time": 6.9757386215307084, + "step": 4854 + }, + { + "epoch": 0.5178666666666667, + "grad_norm": 1.7962871384113541, + "learning_rate": 4.954222455618161e-06, + "loss": 0.5227, + "step": 4855 + }, + { + "avg_step_time": 5.543848288179648, + "epoch": 0.5178666666666667, + "eta_time": 6.960609517381113, + "step": 4855 + }, + { + "epoch": 0.5179733333333333, + "grad_norm": 1.501778175494386, + "learning_rate": 4.952495052148344e-06, + "loss": 0.4465, + "step": 4856 + }, + { + "avg_step_time": 5.546528035944158, + "epoch": 0.5179733333333333, + "eta_time": 6.962433387342125, + "step": 4856 + }, + { + "epoch": 0.51808, + "grad_norm": 1.8345415720673128, + "learning_rate": 4.950767654349067e-06, + "loss": 0.4482, + "step": 4857 + }, + { + "avg_step_time": 5.536274067079178, + "epoch": 0.51808, + "eta_time": 6.948023954184369, + "step": 4857 + }, + { + "epoch": 0.5181866666666667, + "grad_norm": 1.8601672333616044, + "learning_rate": 4.949040262426518e-06, + "loss": 0.5052, + "step": 4858 + }, + { + "avg_step_time": 5.536305817690763, + "epoch": 0.5181866666666667, + "eta_time": 6.946525938474771, + "step": 4858 + }, + { + "epoch": 0.5182933333333334, + "grad_norm": 1.9137311683448333, + "learning_rate": 4.947312876586898e-06, + "loss": 0.5975, + "step": 4859 + }, + { + "avg_step_time": 5.539406978722774, + "epoch": 0.5182933333333334, + "eta_time": 6.948878309975569, + "step": 4859 + }, + { + "epoch": 0.5184, + "grad_norm": 1.965995870230507, + "learning_rate": 4.945585497036396e-06, + "loss": 0.4451, + "step": 4860 + }, + { + "avg_step_time": 5.542477051417033, + "epoch": 0.5184, + "eta_time": 6.951189968652195, + "step": 4860 + }, + { + "epoch": 0.5185066666666667, + "grad_norm": 1.6896775822228156, + "learning_rate": 4.943858123981208e-06, + "loss": 0.5235, + "step": 4861 + }, + { + "avg_step_time": 5.574906421430184, + "epoch": 0.5185066666666667, + "eta_time": 6.990313218426625, + "step": 4861 + }, + { + "epoch": 0.5186133333333334, + "grad_norm": 2.1330949368291, + "learning_rate": 4.942130757627522e-06, + "loss": 0.5073, + "step": 4862 + }, + { + "avg_step_time": 5.573783775772712, + "epoch": 0.5186133333333334, + "eta_time": 6.987357272239513, + "step": 4862 + }, + { + "epoch": 0.51872, + "grad_norm": 1.7759302595758202, + "learning_rate": 4.940403398181531e-06, + "loss": 0.5131, + "step": 4863 + }, + { + "avg_step_time": 5.571543587578668, + "epoch": 0.51872, + "eta_time": 6.98300129643193, + "step": 4863 + }, + { + "epoch": 0.5188266666666667, + "grad_norm": 1.795959472493246, + "learning_rate": 4.938676045849427e-06, + "loss": 0.5161, + "step": 4864 + }, + { + "avg_step_time": 5.573373919785625, + "epoch": 0.5188266666666667, + "eta_time": 6.983747153375821, + "step": 4864 + }, + { + "epoch": 0.5189333333333334, + "grad_norm": 1.78749938816453, + "learning_rate": 4.936948700837397e-06, + "loss": 0.5034, + "step": 4865 + }, + { + "avg_step_time": 5.582785936317059, + "epoch": 0.5189333333333334, + "eta_time": 6.993990159108315, + "step": 4865 + }, + { + "epoch": 0.51904, + "grad_norm": 1.9713733966624316, + "learning_rate": 4.935221363351631e-06, + "loss": 0.4847, + "step": 4866 + }, + { + "avg_step_time": 5.61964476951445, + "epoch": 0.51904, + "eta_time": 7.038605073816848, + "step": 4866 + }, + { + "epoch": 0.5191466666666666, + "grad_norm": 1.7816694154192747, + "learning_rate": 4.933494033598314e-06, + "loss": 0.4136, + "step": 4867 + }, + { + "avg_step_time": 5.6162512446894794, + "epoch": 0.5191466666666666, + "eta_time": 7.0327946141833815, + "step": 4867 + }, + { + "epoch": 0.5192533333333333, + "grad_norm": 1.9723499957855513, + "learning_rate": 4.931766711783633e-06, + "loss": 0.5574, + "step": 4868 + }, + { + "avg_step_time": 5.615573389361603, + "epoch": 0.5192533333333333, + "eta_time": 7.0303859071813175, + "step": 4868 + }, + { + "epoch": 0.51936, + "grad_norm": 1.5788221847401709, + "learning_rate": 4.930039398113779e-06, + "loss": 0.4847, + "step": 4869 + }, + { + "avg_step_time": 5.5878001126376065, + "epoch": 0.51936, + "eta_time": 6.994063140984737, + "step": 4869 + }, + { + "epoch": 0.5194666666666666, + "grad_norm": 1.964923494832596, + "learning_rate": 4.92831209279493e-06, + "loss": 0.4856, + "step": 4870 + }, + { + "avg_step_time": 5.624461354631366, + "epoch": 0.5194666666666666, + "eta_time": 7.03838844517064, + "step": 4870 + }, + { + "epoch": 0.5195733333333333, + "grad_norm": 0.7026016241255275, + "learning_rate": 4.9265847960332756e-06, + "loss": 0.4755, + "step": 4871 + }, + { + "avg_step_time": 5.587582277529167, + "epoch": 0.5195733333333333, + "eta_time": 6.990686271664269, + "step": 4871 + }, + { + "epoch": 0.51968, + "grad_norm": 1.867883845371157, + "learning_rate": 4.924857508034994e-06, + "loss": 0.522, + "step": 4872 + }, + { + "avg_step_time": 5.588508329006157, + "epoch": 0.51968, + "eta_time": 6.990292501531868, + "step": 4872 + }, + { + "epoch": 0.5197866666666666, + "grad_norm": 1.6764581933222604, + "learning_rate": 4.923130229006267e-06, + "loss": 0.4445, + "step": 4873 + }, + { + "avg_step_time": 5.589258083189376, + "epoch": 0.5197866666666666, + "eta_time": 6.98967774736627, + "step": 4873 + }, + { + "epoch": 0.5198933333333333, + "grad_norm": 1.537531999542684, + "learning_rate": 4.9214029591532785e-06, + "loss": 0.522, + "step": 4874 + }, + { + "avg_step_time": 5.635017900755911, + "epoch": 0.5198933333333333, + "eta_time": 7.045337658695099, + "step": 4874 + }, + { + "epoch": 0.52, + "grad_norm": 1.9076192482409229, + "learning_rate": 4.919675698682206e-06, + "loss": 0.4949, + "step": 4875 + }, + { + "avg_step_time": 5.670249488618639, + "epoch": 0.52, + "eta_time": 7.087811860773298, + "step": 4875 + }, + { + "epoch": 0.5201066666666667, + "grad_norm": 1.7461856957276585, + "learning_rate": 4.917948447799228e-06, + "loss": 0.5186, + "step": 4876 + }, + { + "avg_step_time": 5.67114229394932, + "epoch": 0.5201066666666667, + "eta_time": 7.087352550132775, + "step": 4876 + }, + { + "epoch": 0.5202133333333333, + "grad_norm": 1.8849094337863124, + "learning_rate": 4.916221206710524e-06, + "loss": 0.4903, + "step": 4877 + }, + { + "avg_step_time": 5.67554099632032, + "epoch": 0.5202133333333333, + "eta_time": 7.091273167069111, + "step": 4877 + }, + { + "epoch": 0.52032, + "grad_norm": 1.542513555529614, + "learning_rate": 4.914493975622263e-06, + "loss": 0.4485, + "step": 4878 + }, + { + "avg_step_time": 5.664829157819652, + "epoch": 0.52032, + "eta_time": 7.0763157563097145, + "step": 4878 + }, + { + "epoch": 0.5204266666666667, + "grad_norm": 2.1754062268040184, + "learning_rate": 4.91276675474063e-06, + "loss": 0.5252, + "step": 4879 + }, + { + "avg_step_time": 5.671189209427497, + "epoch": 0.5204266666666667, + "eta_time": 7.0826851904405626, + "step": 4879 + }, + { + "epoch": 0.5205333333333333, + "grad_norm": 1.551820316156456, + "learning_rate": 4.911039544271792e-06, + "loss": 0.4522, + "step": 4880 + }, + { + "avg_step_time": 5.669558498594496, + "epoch": 0.5205333333333333, + "eta_time": 7.079073736439517, + "step": 4880 + }, + { + "epoch": 0.52064, + "grad_norm": 1.7596871140942623, + "learning_rate": 4.909312344421923e-06, + "loss": 0.4877, + "step": 4881 + }, + { + "avg_step_time": 5.6534283979974616, + "epoch": 0.52064, + "eta_time": 7.057363116833498, + "step": 4881 + }, + { + "epoch": 0.5207466666666667, + "grad_norm": 2.0770270811299048, + "learning_rate": 4.907585155397195e-06, + "loss": 0.4883, + "step": 4882 + }, + { + "avg_step_time": 5.652621777370722, + "epoch": 0.5207466666666667, + "eta_time": 7.054786012701849, + "step": 4882 + }, + { + "epoch": 0.5208533333333333, + "grad_norm": 1.8980614092477062, + "learning_rate": 4.905857977403775e-06, + "loss": 0.5541, + "step": 4883 + }, + { + "avg_step_time": 5.655685347740096, + "epoch": 0.5208533333333333, + "eta_time": 7.057038495013476, + "step": 4883 + }, + { + "epoch": 0.52096, + "grad_norm": 1.8325358335983508, + "learning_rate": 4.904130810647836e-06, + "loss": 0.5546, + "step": 4884 + }, + { + "avg_step_time": 5.653599440449416, + "epoch": 0.52096, + "eta_time": 7.052865301960647, + "step": 4884 + }, + { + "epoch": 0.5210666666666667, + "grad_norm": 1.6868217724052252, + "learning_rate": 4.902403655335543e-06, + "loss": 0.461, + "step": 4885 + }, + { + "avg_step_time": 5.659866727963842, + "epoch": 0.5210666666666667, + "eta_time": 7.059111557932681, + "step": 4885 + }, + { + "epoch": 0.5211733333333334, + "grad_norm": 1.8568016851953533, + "learning_rate": 4.900676511673061e-06, + "loss": 0.4988, + "step": 4886 + }, + { + "avg_step_time": 5.657993102314497, + "epoch": 0.5211733333333334, + "eta_time": 7.055203065636049, + "step": 4886 + }, + { + "epoch": 0.52128, + "grad_norm": 1.8989366814564694, + "learning_rate": 4.898949379866556e-06, + "loss": 0.6138, + "step": 4887 + }, + { + "avg_step_time": 5.652565419071853, + "epoch": 0.52128, + "eta_time": 7.046864889109576, + "step": 4887 + }, + { + "epoch": 0.5213866666666667, + "grad_norm": 1.765754307329535, + "learning_rate": 4.897222260122189e-06, + "loss": 0.5022, + "step": 4888 + }, + { + "avg_step_time": 5.638956712953972, + "epoch": 0.5213866666666667, + "eta_time": 7.028332991951242, + "step": 4888 + }, + { + "epoch": 0.5214933333333334, + "grad_norm": 2.1631427312099842, + "learning_rate": 4.895495152646124e-06, + "loss": 0.5954, + "step": 4889 + }, + { + "avg_step_time": 5.636921718867138, + "epoch": 0.5214933333333334, + "eta_time": 7.024230786343884, + "step": 4889 + }, + { + "epoch": 0.5216, + "grad_norm": 1.9625468837690736, + "learning_rate": 4.893768057644519e-06, + "loss": 0.4454, + "step": 4890 + }, + { + "avg_step_time": 5.67948628916885, + "epoch": 0.5216, + "eta_time": 7.075693335256192, + "step": 4890 + }, + { + "epoch": 0.5217066666666667, + "grad_norm": 1.9488912052327556, + "learning_rate": 4.892040975323536e-06, + "loss": 0.6257, + "step": 4891 + }, + { + "avg_step_time": 5.677887757619222, + "epoch": 0.5217066666666667, + "eta_time": 7.072124640323497, + "step": 4891 + }, + { + "epoch": 0.5218133333333334, + "grad_norm": 1.751659765404671, + "learning_rate": 4.890313905889329e-06, + "loss": 0.4169, + "step": 4892 + }, + { + "avg_step_time": 5.6894950071970625, + "epoch": 0.5218133333333334, + "eta_time": 7.08500169924012, + "step": 4892 + }, + { + "epoch": 0.52192, + "grad_norm": 1.499679864044572, + "learning_rate": 4.888586849548053e-06, + "loss": 0.4142, + "step": 4893 + }, + { + "avg_step_time": 5.716236338470921, + "epoch": 0.52192, + "eta_time": 7.116714241396297, + "step": 4893 + }, + { + "epoch": 0.5220266666666666, + "grad_norm": 1.6146161305563536, + "learning_rate": 4.886859806505865e-06, + "loss": 0.4637, + "step": 4894 + }, + { + "avg_step_time": 5.719368356646913, + "epoch": 0.5220266666666666, + "eta_time": 7.119024890593005, + "step": 4894 + }, + { + "epoch": 0.5221333333333333, + "grad_norm": 1.6548017773940977, + "learning_rate": 4.885132776968915e-06, + "loss": 0.4276, + "step": 4895 + }, + { + "avg_step_time": 5.724240180217858, + "epoch": 0.5221333333333333, + "eta_time": 7.12349889093778, + "step": 4895 + }, + { + "epoch": 0.52224, + "grad_norm": 1.928248836126057, + "learning_rate": 4.883405761143357e-06, + "loss": 0.535, + "step": 4896 + }, + { + "avg_step_time": 5.72541668920806, + "epoch": 0.52224, + "eta_time": 7.123372597489694, + "step": 4896 + }, + { + "epoch": 0.5223466666666666, + "grad_norm": 1.7435764275521997, + "learning_rate": 4.881678759235335e-06, + "loss": 0.4757, + "step": 4897 + }, + { + "avg_step_time": 5.733827537960476, + "epoch": 0.5223466666666666, + "eta_time": 7.13224436527417, + "step": 4897 + }, + { + "epoch": 0.5224533333333333, + "grad_norm": 1.827364904806116, + "learning_rate": 4.879951771451002e-06, + "loss": 0.4556, + "step": 4898 + }, + { + "avg_step_time": 5.73469956234248, + "epoch": 0.5224533333333333, + "eta_time": 7.131736094613134, + "step": 4898 + }, + { + "epoch": 0.52256, + "grad_norm": 2.1171494102749944, + "learning_rate": 4.878224797996502e-06, + "loss": 0.5288, + "step": 4899 + }, + { + "avg_step_time": 5.732462150881989, + "epoch": 0.52256, + "eta_time": 7.127361274263273, + "step": 4899 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 1.852066380039131, + "learning_rate": 4.876497839077978e-06, + "loss": 0.5309, + "step": 4900 + }, + { + "avg_step_time": 5.732577400978165, + "epoch": 0.5226666666666666, + "eta_time": 7.1259121859381365, + "step": 4900 + }, + { + "epoch": 0.5227733333333333, + "grad_norm": 1.8511366622394985, + "learning_rate": 4.8747708949015725e-06, + "loss": 0.4954, + "step": 4901 + }, + { + "avg_step_time": 5.729696285845053, + "epoch": 0.5227733333333333, + "eta_time": 7.120739217464102, + "step": 4901 + }, + { + "epoch": 0.52288, + "grad_norm": 1.9807882168648387, + "learning_rate": 4.873043965673427e-06, + "loss": 0.4726, + "step": 4902 + }, + { + "avg_step_time": 5.744283770069932, + "epoch": 0.52288, + "eta_time": 7.13727258431189, + "step": 4902 + }, + { + "epoch": 0.5229866666666667, + "grad_norm": 0.6628073402730091, + "learning_rate": 4.87131705159968e-06, + "loss": 0.4568, + "step": 4903 + }, + { + "avg_step_time": 5.713357381146364, + "epoch": 0.5229866666666667, + "eta_time": 7.097259502357372, + "step": 4903 + }, + { + "epoch": 0.5230933333333333, + "grad_norm": 1.6266058872963216, + "learning_rate": 4.86959015288647e-06, + "loss": 0.5277, + "step": 4904 + }, + { + "avg_step_time": 5.721142301655779, + "epoch": 0.5230933333333333, + "eta_time": 7.105340897417497, + "step": 4904 + }, + { + "epoch": 0.5232, + "grad_norm": 1.6706795817609184, + "learning_rate": 4.86786326973993e-06, + "loss": 0.5138, + "step": 4905 + }, + { + "avg_step_time": 5.721928601313119, + "epoch": 0.5232, + "eta_time": 7.104728013297123, + "step": 4905 + }, + { + "epoch": 0.5233066666666667, + "grad_norm": 1.8670237147957318, + "learning_rate": 4.866136402366194e-06, + "loss": 0.4679, + "step": 4906 + }, + { + "avg_step_time": 5.731939479558155, + "epoch": 0.5233066666666667, + "eta_time": 7.1155659817070545, + "step": 4906 + }, + { + "epoch": 0.5234133333333333, + "grad_norm": 1.7518433348147089, + "learning_rate": 4.864409550971393e-06, + "loss": 0.5, + "step": 4907 + }, + { + "avg_step_time": 5.731357776757442, + "epoch": 0.5234133333333333, + "eta_time": 7.113251818486737, + "step": 4907 + }, + { + "epoch": 0.52352, + "grad_norm": 1.5493160871683223, + "learning_rate": 4.862682715761658e-06, + "loss": 0.499, + "step": 4908 + }, + { + "avg_step_time": 5.7318330822568955, + "epoch": 0.52352, + "eta_time": 7.112249549567098, + "step": 4908 + }, + { + "epoch": 0.5236266666666667, + "grad_norm": 1.6186162007126188, + "learning_rate": 4.860955896943117e-06, + "loss": 0.4342, + "step": 4909 + }, + { + "avg_step_time": 5.732314540882303, + "epoch": 0.5236266666666667, + "eta_time": 7.111254649883435, + "step": 4909 + }, + { + "epoch": 0.5237333333333334, + "grad_norm": 1.903953614412898, + "learning_rate": 4.859229094721895e-06, + "loss": 0.4998, + "step": 4910 + }, + { + "avg_step_time": 5.766987526055538, + "epoch": 0.5237333333333334, + "eta_time": 7.152666473288328, + "step": 4910 + }, + { + "epoch": 0.52384, + "grad_norm": 1.8491439760036021, + "learning_rate": 4.857502309304114e-06, + "loss": 0.4826, + "step": 4911 + }, + { + "avg_step_time": 5.770055180848247, + "epoch": 0.52384, + "eta_time": 7.154868424251825, + "step": 4911 + }, + { + "epoch": 0.5239466666666667, + "grad_norm": 2.1593855527913823, + "learning_rate": 4.8557755408958965e-06, + "loss": 0.5039, + "step": 4912 + }, + { + "avg_step_time": 5.787125589871647, + "epoch": 0.5239466666666667, + "eta_time": 7.174428196554768, + "step": 4912 + }, + { + "epoch": 0.5240533333333334, + "grad_norm": 1.7700427017203424, + "learning_rate": 4.854048789703364e-06, + "loss": 0.4642, + "step": 4913 + }, + { + "avg_step_time": 5.792117949688073, + "epoch": 0.5240533333333334, + "eta_time": 7.1790084143078285, + "step": 4913 + }, + { + "epoch": 0.52416, + "grad_norm": 1.6552415485303837, + "learning_rate": 4.852322055932633e-06, + "loss": 0.4964, + "step": 4914 + }, + { + "avg_step_time": 5.808364882613674, + "epoch": 0.52416, + "eta_time": 7.197532150372111, + "step": 4914 + }, + { + "epoch": 0.5242666666666667, + "grad_norm": 1.8095418644855858, + "learning_rate": 4.850595339789819e-06, + "loss": 0.5888, + "step": 4915 + }, + { + "avg_step_time": 5.805072661602136, + "epoch": 0.5242666666666667, + "eta_time": 7.191840019651535, + "step": 4915 + }, + { + "epoch": 0.5243733333333334, + "grad_norm": 1.9553784622486026, + "learning_rate": 4.848868641481036e-06, + "loss": 0.5069, + "step": 4916 + }, + { + "avg_step_time": 5.808355430159906, + "epoch": 0.5243733333333334, + "eta_time": 7.194293573078616, + "step": 4916 + }, + { + "epoch": 0.52448, + "grad_norm": 1.707440209080303, + "learning_rate": 4.8471419612123925e-06, + "loss": 0.5841, + "step": 4917 + }, + { + "avg_step_time": 5.807544616737751, + "epoch": 0.52448, + "eta_time": 7.1916760837269145, + "step": 4917 + }, + { + "epoch": 0.5245866666666666, + "grad_norm": 1.835261681049114, + "learning_rate": 4.845415299190002e-06, + "loss": 0.44, + "step": 4918 + }, + { + "avg_step_time": 5.82669273530594, + "epoch": 0.5245866666666666, + "eta_time": 7.213769311460715, + "step": 4918 + }, + { + "epoch": 0.5246933333333333, + "grad_norm": 1.968214203312404, + "learning_rate": 4.843688655619969e-06, + "loss": 0.5766, + "step": 4919 + }, + { + "avg_step_time": 5.820479501377452, + "epoch": 0.5246933333333333, + "eta_time": 7.204460182816091, + "step": 4919 + }, + { + "epoch": 0.5248, + "grad_norm": 1.710099197432326, + "learning_rate": 4.841962030708398e-06, + "loss": 0.4034, + "step": 4920 + }, + { + "avg_step_time": 5.823182329987034, + "epoch": 0.5248, + "eta_time": 7.206188133358954, + "step": 4920 + }, + { + "epoch": 0.5249066666666666, + "grad_norm": 1.6318975385653756, + "learning_rate": 4.840235424661393e-06, + "loss": 0.4878, + "step": 4921 + }, + { + "avg_step_time": 5.826006217436357, + "epoch": 0.5249066666666666, + "eta_time": 7.208064359017094, + "step": 4921 + }, + { + "epoch": 0.5250133333333333, + "grad_norm": 0.6508278329246324, + "learning_rate": 4.8385088376850516e-06, + "loss": 0.447, + "step": 4922 + }, + { + "avg_step_time": 5.788863627597539, + "epoch": 0.5250133333333333, + "eta_time": 7.16050270380329, + "step": 4922 + }, + { + "epoch": 0.52512, + "grad_norm": 1.9764524017563256, + "learning_rate": 4.836782269985475e-06, + "loss": 0.4766, + "step": 4923 + }, + { + "avg_step_time": 5.82378736409274, + "epoch": 0.52512, + "eta_time": 7.202083706928022, + "step": 4923 + }, + { + "epoch": 0.5252266666666666, + "grad_norm": 0.6659057182995493, + "learning_rate": 4.83505572176876e-06, + "loss": 0.4215, + "step": 4924 + }, + { + "avg_step_time": 5.813036497193154, + "epoch": 0.5252266666666666, + "eta_time": 7.187173735835202, + "step": 4924 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 1.7285859594889605, + "learning_rate": 4.833329193240995e-06, + "loss": 0.4864, + "step": 4925 + }, + { + "avg_step_time": 5.808948201362533, + "epoch": 0.5253333333333333, + "eta_time": 7.180505415573131, + "step": 4925 + }, + { + "epoch": 0.52544, + "grad_norm": 1.713627516965011, + "learning_rate": 4.831602684608274e-06, + "loss": 0.4602, + "step": 4926 + }, + { + "avg_step_time": 5.808995150556468, + "epoch": 0.52544, + "eta_time": 7.178949840229368, + "step": 4926 + }, + { + "epoch": 0.5255466666666667, + "grad_norm": 1.7143176079003748, + "learning_rate": 4.829876196076684e-06, + "loss": 0.4324, + "step": 4927 + }, + { + "avg_step_time": 5.809500128331811, + "epoch": 0.5255466666666667, + "eta_time": 7.177960158561081, + "step": 4927 + }, + { + "epoch": 0.5256533333333333, + "grad_norm": 1.9435306568642823, + "learning_rate": 4.828149727852314e-06, + "loss": 0.4792, + "step": 4928 + }, + { + "avg_step_time": 5.807482497860687, + "epoch": 0.5256533333333333, + "eta_time": 7.173854074440687, + "step": 4928 + }, + { + "epoch": 0.52576, + "grad_norm": 1.7718917979173932, + "learning_rate": 4.826423280141247e-06, + "loss": 0.4981, + "step": 4929 + }, + { + "avg_step_time": 5.8364102527348685, + "epoch": 0.52576, + "eta_time": 7.207966662127562, + "step": 4929 + }, + { + "epoch": 0.5258666666666667, + "grad_norm": 1.9559227887123654, + "learning_rate": 4.824696853149564e-06, + "loss": 0.5149, + "step": 4930 + }, + { + "avg_step_time": 5.827920747525765, + "epoch": 0.5258666666666667, + "eta_time": 7.195863256320007, + "step": 4930 + }, + { + "epoch": 0.5259733333333333, + "grad_norm": 1.9320618409605137, + "learning_rate": 4.822970447083343e-06, + "loss": 0.5731, + "step": 4931 + }, + { + "avg_step_time": 5.8262070911099215, + "epoch": 0.5259733333333333, + "eta_time": 7.19212897580347, + "step": 4931 + }, + { + "epoch": 0.52608, + "grad_norm": 1.779737990306079, + "learning_rate": 4.82124406214866e-06, + "loss": 0.5219, + "step": 4932 + }, + { + "avg_step_time": 5.829219688068736, + "epoch": 0.52608, + "eta_time": 7.194228631691499, + "step": 4932 + }, + { + "epoch": 0.5261866666666667, + "grad_norm": 1.6645968425318394, + "learning_rate": 4.819517698551592e-06, + "loss": 0.4281, + "step": 4933 + }, + { + "avg_step_time": 5.868219604395857, + "epoch": 0.5261866666666667, + "eta_time": 7.240730967423999, + "step": 4933 + }, + { + "epoch": 0.5262933333333333, + "grad_norm": 1.6721231146175781, + "learning_rate": 4.817791356498207e-06, + "loss": 0.423, + "step": 4934 + }, + { + "avg_step_time": 5.86610499776975, + "epoch": 0.5262933333333333, + "eta_time": 7.236492304193184, + "step": 4934 + }, + { + "epoch": 0.5264, + "grad_norm": 1.771098339576382, + "learning_rate": 4.816065036194576e-06, + "loss": 0.5371, + "step": 4935 + }, + { + "avg_step_time": 5.86632741340483, + "epoch": 0.5264, + "eta_time": 7.2351371431992915, + "step": 4935 + }, + { + "epoch": 0.5265066666666667, + "grad_norm": 1.4672415956457967, + "learning_rate": 4.814338737846766e-06, + "loss": 0.5258, + "step": 4936 + }, + { + "avg_step_time": 5.87104748716258, + "epoch": 0.5265066666666667, + "eta_time": 7.239327720976305, + "step": 4936 + }, + { + "epoch": 0.5266133333333334, + "grad_norm": 1.694006397796538, + "learning_rate": 4.812612461660835e-06, + "loss": 0.4431, + "step": 4937 + }, + { + "avg_step_time": 5.869049382932259, + "epoch": 0.5266133333333334, + "eta_time": 7.235233655959268, + "step": 4937 + }, + { + "epoch": 0.52672, + "grad_norm": 1.7849616243617514, + "learning_rate": 4.810886207842852e-06, + "loss": 0.4745, + "step": 4938 + }, + { + "avg_step_time": 5.867321780233672, + "epoch": 0.52672, + "eta_time": 7.231474094138, + "step": 4938 + }, + { + "epoch": 0.5268266666666667, + "grad_norm": 3.1600233926017047, + "learning_rate": 4.8091599765988685e-06, + "loss": 0.5236, + "step": 4939 + }, + { + "avg_step_time": 5.870458282605566, + "epoch": 0.5268266666666667, + "eta_time": 7.2337091504550814, + "step": 4939 + }, + { + "epoch": 0.5269333333333334, + "grad_norm": 0.6814935183451961, + "learning_rate": 4.807433768134944e-06, + "loss": 0.4678, + "step": 4940 + }, + { + "avg_step_time": 5.827951450540562, + "epoch": 0.5269333333333334, + "eta_time": 7.179712411985387, + "step": 4940 + }, + { + "epoch": 0.52704, + "grad_norm": 2.0198770882180646, + "learning_rate": 4.80570758265713e-06, + "loss": 0.513, + "step": 4941 + }, + { + "avg_step_time": 5.866030375162761, + "epoch": 0.52704, + "eta_time": 7.224994078742133, + "step": 4941 + }, + { + "epoch": 0.5271466666666667, + "grad_norm": 2.033533212072876, + "learning_rate": 4.803981420371475e-06, + "loss": 0.4622, + "step": 4942 + }, + { + "avg_step_time": 5.868523556776721, + "epoch": 0.5271466666666667, + "eta_time": 7.226434701997557, + "step": 4942 + }, + { + "epoch": 0.5272533333333334, + "grad_norm": 2.0047355804245837, + "learning_rate": 4.802255281484029e-06, + "loss": 0.4406, + "step": 4943 + }, + { + "avg_step_time": 5.866241101062659, + "epoch": 0.5272533333333334, + "eta_time": 7.221994599974918, + "step": 4943 + }, + { + "epoch": 0.52736, + "grad_norm": 1.6390272595156166, + "learning_rate": 4.800529166200837e-06, + "loss": 0.4308, + "step": 4944 + }, + { + "avg_step_time": 5.858977180538756, + "epoch": 0.52736, + "eta_time": 7.211424413046452, + "step": 4944 + }, + { + "epoch": 0.5274666666666666, + "grad_norm": 1.6356988603708658, + "learning_rate": 4.798803074727938e-06, + "loss": 0.4988, + "step": 4945 + }, + { + "avg_step_time": 5.858415081043436, + "epoch": 0.5274666666666666, + "eta_time": 7.20910522472845, + "step": 4945 + }, + { + "epoch": 0.5275733333333333, + "grad_norm": 1.676186667435413, + "learning_rate": 4.797077007271371e-06, + "loss": 0.5826, + "step": 4946 + }, + { + "avg_step_time": 5.8564504637862695, + "epoch": 0.5275733333333333, + "eta_time": 7.205060862252608, + "step": 4946 + }, + { + "epoch": 0.52768, + "grad_norm": 1.811652524036664, + "learning_rate": 4.795350964037174e-06, + "loss": 0.4771, + "step": 4947 + }, + { + "avg_step_time": 5.833169968441279, + "epoch": 0.52768, + "eta_time": 7.174799061182774, + "step": 4947 + }, + { + "epoch": 0.5277866666666666, + "grad_norm": 1.707182512974503, + "learning_rate": 4.79362494523138e-06, + "loss": 0.5354, + "step": 4948 + }, + { + "avg_step_time": 5.837968031565349, + "epoch": 0.5277866666666666, + "eta_time": 7.1790790210388336, + "step": 4948 + }, + { + "epoch": 0.5278933333333333, + "grad_norm": 0.6930783670146791, + "learning_rate": 4.791898951060018e-06, + "loss": 0.4826, + "step": 4949 + }, + { + "avg_step_time": 5.8035843853998665, + "epoch": 0.5278933333333333, + "eta_time": 7.135184580494392, + "step": 4949 + }, + { + "epoch": 0.528, + "grad_norm": 1.6135594720797042, + "learning_rate": 4.790172981729116e-06, + "loss": 0.4662, + "step": 4950 + }, + { + "avg_step_time": 5.809162710652207, + "epoch": 0.528, + "eta_time": 7.140429165176672, + "step": 4950 + }, + { + "epoch": 0.5281066666666666, + "grad_norm": 1.6905893729049244, + "learning_rate": 4.788447037444696e-06, + "loss": 0.5282, + "step": 4951 + }, + { + "avg_step_time": 5.8205226768146865, + "epoch": 0.5281066666666666, + "eta_time": 7.1527756450633815, + "step": 4951 + }, + { + "epoch": 0.5282133333333333, + "grad_norm": 0.6540402285604674, + "learning_rate": 4.786721118412784e-06, + "loss": 0.4638, + "step": 4952 + }, + { + "avg_step_time": 5.754367693506106, + "epoch": 0.5282133333333333, + "eta_time": 7.069880085660419, + "step": 4952 + }, + { + "epoch": 0.52832, + "grad_norm": 1.8051765093348218, + "learning_rate": 4.784995224839394e-06, + "loss": 0.5899, + "step": 4953 + }, + { + "avg_step_time": 5.754447094117753, + "epoch": 0.52832, + "eta_time": 7.068379180607972, + "step": 4953 + }, + { + "epoch": 0.5284266666666667, + "grad_norm": 1.6842487908790986, + "learning_rate": 4.783269356930543e-06, + "loss": 0.5059, + "step": 4954 + }, + { + "avg_step_time": 5.75529988365944, + "epoch": 0.5284266666666667, + "eta_time": 7.067827996016217, + "step": 4954 + }, + { + "epoch": 0.5285333333333333, + "grad_norm": 1.673354452088518, + "learning_rate": 4.781543514892244e-06, + "loss": 0.558, + "step": 4955 + }, + { + "avg_step_time": 5.752916728607332, + "epoch": 0.5285333333333333, + "eta_time": 7.063303316790113, + "step": 4955 + }, + { + "epoch": 0.52864, + "grad_norm": 1.7563902798789726, + "learning_rate": 4.779817698930502e-06, + "loss": 0.4514, + "step": 4956 + }, + { + "avg_step_time": 5.776606029934353, + "epoch": 0.52864, + "eta_time": 7.090783901744419, + "step": 4956 + }, + { + "epoch": 0.5287466666666667, + "grad_norm": 1.5152767035616763, + "learning_rate": 4.778091909251329e-06, + "loss": 0.471, + "step": 4957 + }, + { + "avg_step_time": 5.773441278573238, + "epoch": 0.5287466666666667, + "eta_time": 7.085295435760158, + "step": 4957 + }, + { + "epoch": 0.5288533333333333, + "grad_norm": 1.8021226424028447, + "learning_rate": 4.776366146060725e-06, + "loss": 0.4844, + "step": 4958 + }, + { + "avg_step_time": 5.770591165080215, + "epoch": 0.5288533333333333, + "eta_time": 7.080194771155364, + "step": 4958 + }, + { + "epoch": 0.52896, + "grad_norm": 1.73793368057997, + "learning_rate": 4.774640409564688e-06, + "loss": 0.4203, + "step": 4959 + }, + { + "avg_step_time": 5.767402974042025, + "epoch": 0.52896, + "eta_time": 7.074680981491551, + "step": 4959 + }, + { + "epoch": 0.5290666666666667, + "grad_norm": 1.7023334668122525, + "learning_rate": 4.772914699969218e-06, + "loss": 0.5292, + "step": 4960 + }, + { + "avg_step_time": 5.769908856863927, + "epoch": 0.5290666666666667, + "eta_time": 7.076152111959511, + "step": 4960 + }, + { + "epoch": 0.5291733333333334, + "grad_norm": 2.0011657356710386, + "learning_rate": 4.771189017480304e-06, + "loss": 0.4934, + "step": 4961 + }, + { + "avg_step_time": 5.769084020094438, + "epoch": 0.5291733333333334, + "eta_time": 7.073538017971347, + "step": 4961 + }, + { + "epoch": 0.52928, + "grad_norm": 0.656577941569708, + "learning_rate": 4.76946336230394e-06, + "loss": 0.439, + "step": 4962 + }, + { + "avg_step_time": 5.7332540642131455, + "epoch": 0.52928, + "eta_time": 7.028013940381281, + "step": 4962 + }, + { + "epoch": 0.5293866666666667, + "grad_norm": 1.726415889111696, + "learning_rate": 4.767737734646112e-06, + "loss": 0.3956, + "step": 4963 + }, + { + "avg_step_time": 5.73520168391141, + "epoch": 0.5293866666666667, + "eta_time": 7.028808285949206, + "step": 4963 + }, + { + "epoch": 0.5294933333333334, + "grad_norm": 0.6474966852712002, + "learning_rate": 4.766012134712802e-06, + "loss": 0.4268, + "step": 4964 + }, + { + "avg_step_time": 5.717590055080375, + "epoch": 0.5294933333333334, + "eta_time": 7.005636036933205, + "step": 4964 + }, + { + "epoch": 0.5296, + "grad_norm": 0.6462694583011357, + "learning_rate": 4.76428656270999e-06, + "loss": 0.4486, + "step": 4965 + }, + { + "avg_step_time": 5.659690339155872, + "epoch": 0.5296, + "eta_time": 6.933120665465943, + "step": 4965 + }, + { + "epoch": 0.5297066666666667, + "grad_norm": 1.744047609678646, + "learning_rate": 4.762561018843655e-06, + "loss": 0.479, + "step": 4966 + }, + { + "avg_step_time": 5.658647811774052, + "epoch": 0.5297066666666667, + "eta_time": 6.930271722808832, + "step": 4966 + }, + { + "epoch": 0.5298133333333334, + "grad_norm": 1.8609200097033394, + "learning_rate": 4.7608355033197684e-06, + "loss": 0.4985, + "step": 4967 + }, + { + "avg_step_time": 5.659998821489738, + "epoch": 0.5298133333333334, + "eta_time": 6.930354112535213, + "step": 4967 + }, + { + "epoch": 0.52992, + "grad_norm": 2.075597141649548, + "learning_rate": 4.759110016344302e-06, + "loss": 0.462, + "step": 4968 + }, + { + "avg_step_time": 5.660460953760629, + "epoch": 0.52992, + "eta_time": 6.9293476175619695, + "step": 4968 + }, + { + "epoch": 0.5300266666666666, + "grad_norm": 2.0031881140513828, + "learning_rate": 4.757384558123223e-06, + "loss": 0.5494, + "step": 4969 + }, + { + "avg_step_time": 5.688753824041347, + "epoch": 0.5300266666666666, + "eta_time": 6.962402596868382, + "step": 4969 + }, + { + "epoch": 0.5301333333333333, + "grad_norm": 1.7223342641527497, + "learning_rate": 4.755659128862491e-06, + "loss": 0.4787, + "step": 4970 + }, + { + "avg_step_time": 5.726622971621427, + "epoch": 0.5301333333333333, + "eta_time": 7.0071594972201074, + "step": 4970 + }, + { + "epoch": 0.53024, + "grad_norm": 1.6950824115225724, + "learning_rate": 4.753933728768069e-06, + "loss": 0.4478, + "step": 4971 + }, + { + "avg_step_time": 5.727006996520842, + "epoch": 0.53024, + "eta_time": 7.006038559077163, + "step": 4971 + }, + { + "epoch": 0.5303466666666666, + "grad_norm": 1.733992381696226, + "learning_rate": 4.752208358045913e-06, + "loss": 0.4808, + "step": 4972 + }, + { + "avg_step_time": 5.728965198150789, + "epoch": 0.5303466666666666, + "eta_time": 7.006842713182756, + "step": 4972 + }, + { + "epoch": 0.5304533333333333, + "grad_norm": 1.8653247487705673, + "learning_rate": 4.750483016901975e-06, + "loss": 0.4862, + "step": 4973 + }, + { + "avg_step_time": 5.716036324549203, + "epoch": 0.5304533333333333, + "eta_time": 6.989442194629332, + "step": 4973 + }, + { + "epoch": 0.53056, + "grad_norm": 0.6790998503946301, + "learning_rate": 4.748757705542205e-06, + "loss": 0.4597, + "step": 4974 + }, + { + "avg_step_time": 5.679516652617791, + "epoch": 0.53056, + "eta_time": 6.94320910782525, + "step": 4974 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 1.7277126345090599, + "learning_rate": 4.74703242417255e-06, + "loss": 0.5582, + "step": 4975 + }, + { + "avg_step_time": 5.6811220260581585, + "epoch": 0.5306666666666666, + "eta_time": 6.943593587404416, + "step": 4975 + }, + { + "epoch": 0.5307733333333333, + "grad_norm": 2.155755727243655, + "learning_rate": 4.745307172998948e-06, + "loss": 0.4941, + "step": 4976 + }, + { + "avg_step_time": 5.739774207876186, + "epoch": 0.5307733333333333, + "eta_time": 7.013685205679818, + "step": 4976 + }, + { + "epoch": 0.53088, + "grad_norm": 1.624963168240931, + "learning_rate": 4.743581952227342e-06, + "loss": 0.4517, + "step": 4977 + }, + { + "avg_step_time": 5.73824822782266, + "epoch": 0.53088, + "eta_time": 7.010226584990016, + "step": 4977 + }, + { + "epoch": 0.5309866666666667, + "grad_norm": 0.6613630316262339, + "learning_rate": 4.7418567620636655e-06, + "loss": 0.4335, + "step": 4978 + }, + { + "avg_step_time": 5.702472407408435, + "epoch": 0.5309866666666667, + "eta_time": 6.964936437604136, + "step": 4978 + }, + { + "epoch": 0.5310933333333333, + "grad_norm": 1.8737539472597937, + "learning_rate": 4.740131602713849e-06, + "loss": 0.5227, + "step": 4979 + }, + { + "avg_step_time": 5.70233830538663, + "epoch": 0.5310933333333333, + "eta_time": 6.963188664022118, + "step": 4979 + }, + { + "epoch": 0.5312, + "grad_norm": 1.6258571693260593, + "learning_rate": 4.73840647438382e-06, + "loss": 0.5189, + "step": 4980 + }, + { + "avg_step_time": 5.704661583659624, + "epoch": 0.5312, + "eta_time": 6.9644410167177915, + "step": 4980 + }, + { + "epoch": 0.5313066666666667, + "grad_norm": 1.854702398793258, + "learning_rate": 4.736681377279503e-06, + "loss": 0.5018, + "step": 4981 + }, + { + "avg_step_time": 5.730093811497544, + "epoch": 0.5313066666666667, + "eta_time": 6.993897835477835, + "step": 4981 + }, + { + "epoch": 0.5314133333333333, + "grad_norm": 1.836021539442618, + "learning_rate": 4.734956311606818e-06, + "loss": 0.5174, + "step": 4982 + }, + { + "avg_step_time": 5.725848684407244, + "epoch": 0.5314133333333333, + "eta_time": 6.987125908500284, + "step": 4982 + }, + { + "epoch": 0.53152, + "grad_norm": 1.8379598746454964, + "learning_rate": 4.733231277571683e-06, + "loss": 0.3992, + "step": 4983 + }, + { + "avg_step_time": 5.733011537128025, + "epoch": 0.53152, + "eta_time": 6.99427407529619, + "step": 4983 + }, + { + "epoch": 0.5316266666666667, + "grad_norm": 1.642801815968099, + "learning_rate": 4.73150627538001e-06, + "loss": 0.4902, + "step": 4984 + }, + { + "avg_step_time": 5.732296303065136, + "epoch": 0.5316266666666667, + "eta_time": 6.991809185210837, + "step": 4984 + }, + { + "epoch": 0.5317333333333333, + "grad_norm": 0.654638748977351, + "learning_rate": 4.729781305237705e-06, + "loss": 0.4506, + "step": 4985 + }, + { + "avg_step_time": 5.696768411482223, + "epoch": 0.5317333333333333, + "eta_time": 6.946892590668599, + "step": 4985 + }, + { + "epoch": 0.53184, + "grad_norm": 1.9857724496563638, + "learning_rate": 4.7280563673506745e-06, + "loss": 0.4939, + "step": 4986 + }, + { + "avg_step_time": 5.699459933271312, + "epoch": 0.53184, + "eta_time": 6.9485915686466075, + "step": 4986 + }, + { + "epoch": 0.5319466666666667, + "grad_norm": 0.6586917552724291, + "learning_rate": 4.7263314619248215e-06, + "loss": 0.4649, + "step": 4987 + }, + { + "avg_step_time": 5.665063944729892, + "epoch": 0.5319466666666667, + "eta_time": 6.9050834970763235, + "step": 4987 + }, + { + "epoch": 0.5320533333333334, + "grad_norm": 1.6475827319382694, + "learning_rate": 4.724606589166043e-06, + "loss": 0.4245, + "step": 4988 + }, + { + "avg_step_time": 5.667352832929052, + "epoch": 0.5320533333333334, + "eta_time": 6.906299132794375, + "step": 4988 + }, + { + "epoch": 0.53216, + "grad_norm": 1.821281042008075, + "learning_rate": 4.722881749280232e-06, + "loss": 0.5128, + "step": 4989 + }, + { + "avg_step_time": 5.6600188342007725, + "epoch": 0.53216, + "eta_time": 6.895789613001274, + "step": 4989 + }, + { + "epoch": 0.5322666666666667, + "grad_norm": 1.560464632522817, + "learning_rate": 4.721156942473274e-06, + "loss": 0.4473, + "step": 4990 + }, + { + "avg_step_time": 5.659913291834822, + "epoch": 0.5322666666666667, + "eta_time": 6.894088829082136, + "step": 4990 + }, + { + "epoch": 0.5323733333333334, + "grad_norm": 1.9373067599529543, + "learning_rate": 4.719432168951061e-06, + "loss": 0.6078, + "step": 4991 + }, + { + "avg_step_time": 5.662851752656879, + "epoch": 0.5323733333333334, + "eta_time": 6.896095023235488, + "step": 4991 + }, + { + "epoch": 0.53248, + "grad_norm": 2.042573957660739, + "learning_rate": 4.717707428919471e-06, + "loss": 0.5238, + "step": 4992 + }, + { + "avg_step_time": 5.667408976892029, + "epoch": 0.53248, + "eta_time": 6.900070429366045, + "step": 4992 + }, + { + "epoch": 0.5325866666666667, + "grad_norm": 1.8469293673992186, + "learning_rate": 4.715982722584382e-06, + "loss": 0.493, + "step": 4993 + }, + { + "avg_step_time": 5.6609630127145785, + "epoch": 0.5325866666666667, + "eta_time": 6.890649978254245, + "step": 4993 + }, + { + "epoch": 0.5326933333333334, + "grad_norm": 2.136271333062049, + "learning_rate": 4.714258050151668e-06, + "loss": 0.5329, + "step": 4994 + }, + { + "avg_step_time": 5.668722367045855, + "epoch": 0.5326933333333334, + "eta_time": 6.8985201916744145, + "step": 4994 + }, + { + "epoch": 0.5328, + "grad_norm": 1.9883319210575965, + "learning_rate": 4.712533411827197e-06, + "loss": 0.5279, + "step": 4995 + }, + { + "avg_step_time": 5.671739770908548, + "epoch": 0.5328, + "eta_time": 6.900616721272067, + "step": 4995 + }, + { + "epoch": 0.5329066666666666, + "grad_norm": 2.1046848355215055, + "learning_rate": 4.7108088078168355e-06, + "loss": 0.5157, + "step": 4996 + }, + { + "avg_step_time": 5.668920220750751, + "epoch": 0.5329066666666666, + "eta_time": 6.895611568518761, + "step": 4996 + }, + { + "epoch": 0.5330133333333333, + "grad_norm": 1.7582611186421158, + "learning_rate": 4.709084238326447e-06, + "loss": 0.5922, + "step": 4997 + }, + { + "avg_step_time": 5.685425755953548, + "epoch": 0.5330133333333333, + "eta_time": 6.914109433212398, + "step": 4997 + }, + { + "epoch": 0.53312, + "grad_norm": 2.0372131832394973, + "learning_rate": 4.707359703561885e-06, + "loss": 0.4593, + "step": 4998 + }, + { + "avg_step_time": 5.68953444740989, + "epoch": 0.53312, + "eta_time": 6.917525632309191, + "step": 4998 + }, + { + "epoch": 0.5332266666666666, + "grad_norm": 1.6547968240245854, + "learning_rate": 4.705635203729004e-06, + "loss": 0.4851, + "step": 4999 + }, + { + "avg_step_time": 5.68993734590935, + "epoch": 0.5332266666666666, + "eta_time": 6.916434951583143, + "step": 4999 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 1.7720578953238408, + "learning_rate": 4.703910739033653e-06, + "loss": 0.4564, + "step": 5000 + }, + { + "avg_step_time": 6.188889681690871, + "epoch": 0.5333333333333333, + "eta_time": 7.521220099277101, + "step": 5000 + }, + { + "epoch": 0.53344, + "grad_norm": 1.8514409437136412, + "learning_rate": 4.702186309681677e-06, + "loss": 0.5251, + "step": 5001 + }, + { + "avg_step_time": 6.175024627435087, + "epoch": 0.53344, + "eta_time": 7.5026549223336305, + "step": 5001 + }, + { + "epoch": 0.5335466666666666, + "grad_norm": 2.2205414806559673, + "learning_rate": 4.700461915878917e-06, + "loss": 0.5611, + "step": 5002 + }, + { + "avg_step_time": 6.216427367142956, + "epoch": 0.5335466666666666, + "eta_time": 7.551232465698931, + "step": 5002 + }, + { + "epoch": 0.5336533333333333, + "grad_norm": 1.9145144950244464, + "learning_rate": 4.698737557831208e-06, + "loss": 0.4965, + "step": 5003 + }, + { + "avg_step_time": 6.2058862917351, + "epoch": 0.5336533333333333, + "eta_time": 7.536704129851627, + "step": 5003 + }, + { + "epoch": 0.53376, + "grad_norm": 1.5832054284788455, + "learning_rate": 4.697013235744382e-06, + "loss": 0.5053, + "step": 5004 + }, + { + "avg_step_time": 6.205064462892937, + "epoch": 0.53376, + "eta_time": 7.533982435362508, + "step": 5004 + }, + { + "epoch": 0.5338666666666667, + "grad_norm": 1.8107490780603677, + "learning_rate": 4.695288949824266e-06, + "loss": 0.5075, + "step": 5005 + }, + { + "avg_step_time": 6.235148338356403, + "epoch": 0.5338666666666667, + "eta_time": 7.568777288504855, + "step": 5005 + }, + { + "epoch": 0.5339733333333333, + "grad_norm": 1.7783090299967488, + "learning_rate": 4.693564700276685e-06, + "loss": 0.4717, + "step": 5006 + }, + { + "avg_step_time": 6.238090883601796, + "epoch": 0.5339733333333333, + "eta_time": 7.570616408460068, + "step": 5006 + }, + { + "epoch": 0.53408, + "grad_norm": 2.1510299182990176, + "learning_rate": 4.6918404873074574e-06, + "loss": 0.5022, + "step": 5007 + }, + { + "avg_step_time": 6.236940899280587, + "epoch": 0.53408, + "eta_time": 7.567488291127112, + "step": 5007 + }, + { + "epoch": 0.5341866666666667, + "grad_norm": 1.6512146891971764, + "learning_rate": 4.690116311122399e-06, + "loss": 0.4576, + "step": 5008 + }, + { + "avg_step_time": 6.234547848653311, + "epoch": 0.5341866666666667, + "eta_time": 7.562852904185836, + "step": 5008 + }, + { + "epoch": 0.5342933333333333, + "grad_norm": 1.8663476778773038, + "learning_rate": 4.6883921719273185e-06, + "loss": 0.5825, + "step": 5009 + }, + { + "avg_step_time": 6.234815705906261, + "epoch": 0.5342933333333333, + "eta_time": 7.561445936662983, + "step": 5009 + }, + { + "epoch": 0.5344, + "grad_norm": 2.0901897759456767, + "learning_rate": 4.68666806992802e-06, + "loss": 0.633, + "step": 5010 + }, + { + "avg_step_time": 6.240104157515247, + "epoch": 0.5344, + "eta_time": 7.566126290987237, + "step": 5010 + }, + { + "epoch": 0.5345066666666667, + "grad_norm": 1.8158844443947664, + "learning_rate": 4.684944005330308e-06, + "loss": 0.5089, + "step": 5011 + }, + { + "avg_step_time": 6.224973293265911, + "epoch": 0.5345066666666667, + "eta_time": 7.546050958836788, + "step": 5011 + }, + { + "epoch": 0.5346133333333334, + "grad_norm": 1.7866351585300804, + "learning_rate": 4.683219978339979e-06, + "loss": 0.5232, + "step": 5012 + }, + { + "avg_step_time": 6.272107285682601, + "epoch": 0.5346133333333334, + "eta_time": 7.601445579842553, + "step": 5012 + }, + { + "epoch": 0.53472, + "grad_norm": 1.7512359890361369, + "learning_rate": 4.681495989162826e-06, + "loss": 0.5509, + "step": 5013 + }, + { + "avg_step_time": 6.256747570904818, + "epoch": 0.53472, + "eta_time": 7.581092473413006, + "step": 5013 + }, + { + "epoch": 0.5348266666666667, + "grad_norm": 1.6579635813615305, + "learning_rate": 4.679772038004635e-06, + "loss": 0.5653, + "step": 5014 + }, + { + "avg_step_time": 6.257614480124579, + "epoch": 0.5348266666666667, + "eta_time": 7.580404652173136, + "step": 5014 + }, + { + "epoch": 0.5349333333333334, + "grad_norm": 1.8203116638808376, + "learning_rate": 4.678048125071188e-06, + "loss": 0.4194, + "step": 5015 + }, + { + "avg_step_time": 6.2936158589642455, + "epoch": 0.5349333333333334, + "eta_time": 7.622268095856697, + "step": 5015 + }, + { + "epoch": 0.53504, + "grad_norm": 2.215888907259528, + "learning_rate": 4.676324250568269e-06, + "loss": 0.5719, + "step": 5016 + }, + { + "avg_step_time": 6.294297984152129, + "epoch": 0.53504, + "eta_time": 7.621345809144202, + "step": 5016 + }, + { + "epoch": 0.5351466666666667, + "grad_norm": 1.9333033345733386, + "learning_rate": 4.6746004147016475e-06, + "loss": 0.4523, + "step": 5017 + }, + { + "avg_step_time": 6.258311009166216, + "epoch": 0.5351466666666667, + "eta_time": 7.576033160540659, + "step": 5017 + }, + { + "epoch": 0.5352533333333334, + "grad_norm": 1.6624112095158068, + "learning_rate": 4.672876617677096e-06, + "loss": 0.5108, + "step": 5018 + }, + { + "avg_step_time": 6.2609457728838676, + "epoch": 0.5352533333333334, + "eta_time": 7.577483536793059, + "step": 5018 + }, + { + "epoch": 0.53536, + "grad_norm": 1.6455662195937735, + "learning_rate": 4.671152859700377e-06, + "loss": 0.4899, + "step": 5019 + }, + { + "avg_step_time": 6.262635707855225, + "epoch": 0.53536, + "eta_time": 7.577789206504821, + "step": 5019 + }, + { + "epoch": 0.5354666666666666, + "grad_norm": 1.7216493153207304, + "learning_rate": 4.669429140977252e-06, + "loss": 0.5305, + "step": 5020 + }, + { + "avg_step_time": 6.2620898208232845, + "epoch": 0.5354666666666666, + "eta_time": 7.5753892138015, + "step": 5020 + }, + { + "epoch": 0.5355733333333333, + "grad_norm": 1.9793006944608733, + "learning_rate": 4.667705461713478e-06, + "loss": 0.4299, + "step": 5021 + }, + { + "avg_step_time": 6.2961678360447735, + "epoch": 0.5355733333333333, + "eta_time": 7.614865210594151, + "step": 5021 + }, + { + "epoch": 0.53568, + "grad_norm": 1.6999152677235592, + "learning_rate": 4.665981822114805e-06, + "loss": 0.4748, + "step": 5022 + }, + { + "avg_step_time": 6.304716656906436, + "epoch": 0.53568, + "eta_time": 7.623453224309365, + "step": 5022 + }, + { + "epoch": 0.5357866666666666, + "grad_norm": 1.5759836033405878, + "learning_rate": 4.6642582223869795e-06, + "loss": 0.4805, + "step": 5023 + }, + { + "avg_step_time": 6.329696120637836, + "epoch": 0.5357866666666666, + "eta_time": 7.651899310282184, + "step": 5023 + }, + { + "epoch": 0.5358933333333333, + "grad_norm": 1.4681112823665334, + "learning_rate": 4.662534662735742e-06, + "loss": 0.4253, + "step": 5024 + }, + { + "avg_step_time": 6.330799738566081, + "epoch": 0.5358933333333333, + "eta_time": 7.651474906250283, + "step": 5024 + }, + { + "epoch": 0.536, + "grad_norm": 1.7491676366151223, + "learning_rate": 4.660811143366828e-06, + "loss": 0.473, + "step": 5025 + }, + { + "avg_step_time": 6.32788395640826, + "epoch": 0.536, + "eta_time": 7.646193113993314, + "step": 5025 + }, + { + "epoch": 0.5361066666666666, + "grad_norm": 1.7717513380938772, + "learning_rate": 4.659087664485972e-06, + "loss": 0.5207, + "step": 5026 + }, + { + "avg_step_time": 6.330853556141709, + "epoch": 0.5361066666666666, + "eta_time": 7.648022809905637, + "step": 5026 + }, + { + "epoch": 0.5362133333333333, + "grad_norm": 1.9942537639735054, + "learning_rate": 4.657364226298899e-06, + "loss": 0.5492, + "step": 5027 + }, + { + "avg_step_time": 6.333493914267029, + "epoch": 0.5362133333333333, + "eta_time": 7.649453205342511, + "step": 5027 + }, + { + "epoch": 0.53632, + "grad_norm": 1.7631329264963735, + "learning_rate": 4.655640829011335e-06, + "loss": 0.4783, + "step": 5028 + }, + { + "avg_step_time": 6.372447184842042, + "epoch": 0.53632, + "eta_time": 7.694729975696766, + "step": 5028 + }, + { + "epoch": 0.5364266666666667, + "grad_norm": 1.9386269357753725, + "learning_rate": 4.653917472828992e-06, + "loss": 0.5684, + "step": 5029 + }, + { + "avg_step_time": 6.373832777293042, + "epoch": 0.5364266666666667, + "eta_time": 7.694632569476544, + "step": 5029 + }, + { + "epoch": 0.5365333333333333, + "grad_norm": 1.861095855566054, + "learning_rate": 4.652194157957584e-06, + "loss": 0.4714, + "step": 5030 + }, + { + "avg_step_time": 6.393386628892687, + "epoch": 0.5365333333333333, + "eta_time": 7.716462472927423, + "step": 5030 + }, + { + "epoch": 0.53664, + "grad_norm": 0.6505205429503692, + "learning_rate": 4.65047088460282e-06, + "loss": 0.4547, + "step": 5031 + }, + { + "avg_step_time": 6.357707681077899, + "epoch": 0.53664, + "eta_time": 7.671633935167332, + "step": 5031 + }, + { + "epoch": 0.5367466666666667, + "grad_norm": 0.6553877018288761, + "learning_rate": 4.648747652970402e-06, + "loss": 0.4587, + "step": 5032 + }, + { + "avg_step_time": 6.287101779321228, + "epoch": 0.5367466666666667, + "eta_time": 7.584689729886692, + "step": 5032 + }, + { + "epoch": 0.5368533333333333, + "grad_norm": 1.996123504991444, + "learning_rate": 4.647024463266027e-06, + "loss": 0.458, + "step": 5033 + }, + { + "avg_step_time": 6.289033198597456, + "epoch": 0.5368533333333333, + "eta_time": 7.585272818975042, + "step": 5033 + }, + { + "epoch": 0.53696, + "grad_norm": 1.7470871573865676, + "learning_rate": 4.645301315695387e-06, + "loss": 0.462, + "step": 5034 + }, + { + "avg_step_time": 6.2912700079908275, + "epoch": 0.53696, + "eta_time": 7.5862230846356065, + "step": 5034 + }, + { + "epoch": 0.5370666666666667, + "grad_norm": 1.757505556021, + "learning_rate": 4.643578210464171e-06, + "loss": 0.4133, + "step": 5035 + }, + { + "avg_step_time": 6.290013017076435, + "epoch": 0.5370666666666667, + "eta_time": 7.582960137253257, + "step": 5035 + }, + { + "epoch": 0.5371733333333333, + "grad_norm": 1.8129812283446956, + "learning_rate": 4.641855147778061e-06, + "loss": 0.4418, + "step": 5036 + }, + { + "avg_step_time": 6.291657464672821, + "epoch": 0.5371733333333333, + "eta_time": 7.583194927559825, + "step": 5036 + }, + { + "epoch": 0.53728, + "grad_norm": 1.5761144270260488, + "learning_rate": 4.6401321278427334e-06, + "loss": 0.5141, + "step": 5037 + }, + { + "avg_step_time": 6.295092113090284, + "epoch": 0.53728, + "eta_time": 7.585585996273792, + "step": 5037 + }, + { + "epoch": 0.5373866666666667, + "grad_norm": 0.6266857444235445, + "learning_rate": 4.638409150863861e-06, + "loss": 0.4307, + "step": 5038 + }, + { + "avg_step_time": 6.262797425491641, + "epoch": 0.5373866666666667, + "eta_time": 7.5449312317659025, + "step": 5038 + }, + { + "epoch": 0.5374933333333334, + "grad_norm": 1.818721094943749, + "learning_rate": 4.63668621704711e-06, + "loss": 0.4378, + "step": 5039 + }, + { + "avg_step_time": 6.298207752632372, + "epoch": 0.5374933333333334, + "eta_time": 7.5858413376149905, + "step": 5039 + }, + { + "epoch": 0.5376, + "grad_norm": 1.9349562060349343, + "learning_rate": 4.634963326598143e-06, + "loss": 0.5358, + "step": 5040 + }, + { + "avg_step_time": 6.295820481849439, + "epoch": 0.5376, + "eta_time": 7.581217163560368, + "step": 5040 + }, + { + "epoch": 0.5377066666666667, + "grad_norm": 2.4158930498923508, + "learning_rate": 4.633240479722618e-06, + "loss": 0.649, + "step": 5041 + }, + { + "avg_step_time": 6.29372961111743, + "epoch": 0.5377066666666667, + "eta_time": 7.576951148495262, + "step": 5041 + }, + { + "epoch": 0.5378133333333334, + "grad_norm": 1.8443919083365163, + "learning_rate": 4.631517676626186e-06, + "loss": 0.5608, + "step": 5042 + }, + { + "avg_step_time": 6.295210077305033, + "epoch": 0.5378133333333334, + "eta_time": 7.576984795822974, + "step": 5042 + }, + { + "epoch": 0.53792, + "grad_norm": 1.8464845988118799, + "learning_rate": 4.629794917514492e-06, + "loss": 0.4956, + "step": 5043 + }, + { + "avg_step_time": 6.292545884546607, + "epoch": 0.53792, + "eta_time": 7.572030214404418, + "step": 5043 + }, + { + "epoch": 0.5380266666666667, + "grad_norm": 1.8290545499455868, + "learning_rate": 4.6280722025931776e-06, + "loss": 0.4682, + "step": 5044 + }, + { + "avg_step_time": 6.294287794768208, + "epoch": 0.5380266666666667, + "eta_time": 7.5723778997614195, + "step": 5044 + }, + { + "epoch": 0.5381333333333334, + "grad_norm": 2.184479444307398, + "learning_rate": 4.626349532067879e-06, + "loss": 0.5654, + "step": 5045 + }, + { + "avg_step_time": 6.293467692654542, + "epoch": 0.5381333333333334, + "eta_time": 7.569643085887269, + "step": 5045 + }, + { + "epoch": 0.53824, + "grad_norm": 1.5878604784525374, + "learning_rate": 4.624626906144227e-06, + "loss": 0.495, + "step": 5046 + }, + { + "avg_step_time": 6.295223871866862, + "epoch": 0.53824, + "eta_time": 7.570006705919901, + "step": 5046 + }, + { + "epoch": 0.5383466666666666, + "grad_norm": 1.9867643805587258, + "learning_rate": 4.622904325027847e-06, + "loss": 0.4882, + "step": 5047 + }, + { + "avg_step_time": 6.293723713267934, + "epoch": 0.5383466666666666, + "eta_time": 7.566454508617671, + "step": 5047 + }, + { + "epoch": 0.5384533333333333, + "grad_norm": 0.6569381658710022, + "learning_rate": 4.621181788924359e-06, + "loss": 0.4543, + "step": 5048 + }, + { + "avg_step_time": 6.2969517683742025, + "epoch": 0.5384533333333333, + "eta_time": 7.568586194931993, + "step": 5048 + }, + { + "epoch": 0.53856, + "grad_norm": 2.1798609619320484, + "learning_rate": 4.619459298039373e-06, + "loss": 0.5596, + "step": 5049 + }, + { + "avg_step_time": 6.292502957161027, + "epoch": 0.53856, + "eta_time": 7.561491053521833, + "step": 5049 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 1.8015771210886407, + "learning_rate": 4.617736852578506e-06, + "loss": 0.4424, + "step": 5050 + }, + { + "avg_step_time": 6.2851683154250635, + "epoch": 0.5386666666666666, + "eta_time": 7.5509313789481665, + "step": 5050 + }, + { + "epoch": 0.5387733333333333, + "grad_norm": 1.747771071514473, + "learning_rate": 4.6160144527473565e-06, + "loss": 0.4533, + "step": 5051 + }, + { + "avg_step_time": 6.322212703300245, + "epoch": 0.5387733333333333, + "eta_time": 7.593679924741739, + "step": 5051 + }, + { + "epoch": 0.53888, + "grad_norm": 1.9000734629696054, + "learning_rate": 4.614292098751524e-06, + "loss": 0.447, + "step": 5052 + }, + { + "avg_step_time": 6.3291991937040075, + "epoch": 0.53888, + "eta_time": 7.600313365106229, + "step": 5052 + }, + { + "epoch": 0.5389866666666666, + "grad_norm": 1.6456389244879794, + "learning_rate": 4.612569790796601e-06, + "loss": 0.4363, + "step": 5053 + }, + { + "avg_step_time": 6.327471415201823, + "epoch": 0.5389866666666666, + "eta_time": 7.596480960139522, + "step": 5053 + }, + { + "epoch": 0.5390933333333333, + "grad_norm": 1.6470116430352346, + "learning_rate": 4.610847529088172e-06, + "loss": 0.5157, + "step": 5054 + }, + { + "avg_step_time": 6.329096962707212, + "epoch": 0.5390933333333333, + "eta_time": 7.596674437738295, + "step": 5054 + }, + { + "epoch": 0.5392, + "grad_norm": 0.6738966711295207, + "learning_rate": 4.609125313831826e-06, + "loss": 0.4386, + "step": 5055 + }, + { + "avg_step_time": 6.270289406631932, + "epoch": 0.5392, + "eta_time": 7.524347287958318, + "step": 5055 + }, + { + "epoch": 0.5393066666666667, + "grad_norm": 1.69012351882694, + "learning_rate": 4.607403145233132e-06, + "loss": 0.4949, + "step": 5056 + }, + { + "avg_step_time": 6.274766731743861, + "epoch": 0.5393066666666667, + "eta_time": 7.527977087333815, + "step": 5056 + }, + { + "epoch": 0.5394133333333333, + "grad_norm": 1.8051005719684643, + "learning_rate": 4.605681023497663e-06, + "loss": 0.5001, + "step": 5057 + }, + { + "avg_step_time": 6.276374491778287, + "epoch": 0.5394133333333333, + "eta_time": 7.528162515416289, + "step": 5057 + }, + { + "epoch": 0.53952, + "grad_norm": 1.6525969971502936, + "learning_rate": 4.603958948830985e-06, + "loss": 0.4769, + "step": 5058 + }, + { + "avg_step_time": 6.282618414271962, + "epoch": 0.53952, + "eta_time": 7.533906581781127, + "step": 5058 + }, + { + "epoch": 0.5396266666666667, + "grad_norm": 1.76708994935811, + "learning_rate": 4.6022369214386565e-06, + "loss": 0.5138, + "step": 5059 + }, + { + "avg_step_time": 6.287207393935232, + "epoch": 0.5396266666666667, + "eta_time": 7.537663086729018, + "step": 5059 + }, + { + "epoch": 0.5397333333333333, + "grad_norm": 1.9795731547090851, + "learning_rate": 4.600514941526232e-06, + "loss": 0.5437, + "step": 5060 + }, + { + "avg_step_time": 6.290090014236142, + "epoch": 0.5397333333333333, + "eta_time": 7.539371780952487, + "step": 5060 + }, + { + "epoch": 0.53984, + "grad_norm": 1.7447191773197777, + "learning_rate": 4.5987930092992596e-06, + "loss": 0.5009, + "step": 5061 + }, + { + "avg_step_time": 6.358999758055716, + "epoch": 0.53984, + "eta_time": 7.620201376736766, + "step": 5061 + }, + { + "epoch": 0.5399466666666667, + "grad_norm": 1.6403148479676348, + "learning_rate": 4.59707112496328e-06, + "loss": 0.4501, + "step": 5062 + }, + { + "avg_step_time": 6.353969099545719, + "epoch": 0.5399466666666667, + "eta_time": 7.61240797953908, + "step": 5062 + }, + { + "epoch": 0.5400533333333334, + "grad_norm": 1.9031631078668756, + "learning_rate": 4.595349288723832e-06, + "loss": 0.4914, + "step": 5063 + }, + { + "avg_step_time": 6.38274045183201, + "epoch": 0.5400533333333334, + "eta_time": 7.6451046745276745, + "step": 5063 + }, + { + "epoch": 0.54016, + "grad_norm": 1.544434470838591, + "learning_rate": 4.593627500786444e-06, + "loss": 0.454, + "step": 5064 + }, + { + "avg_step_time": 6.443198524340235, + "epoch": 0.54016, + "eta_time": 7.715730232897431, + "step": 5064 + }, + { + "epoch": 0.5402666666666667, + "grad_norm": 1.937600557901737, + "learning_rate": 4.591905761356643e-06, + "loss": 0.5192, + "step": 5065 + }, + { + "avg_step_time": 6.442748488801898, + "epoch": 0.5402666666666667, + "eta_time": 7.713401662982273, + "step": 5065 + }, + { + "epoch": 0.5403733333333334, + "grad_norm": 1.7505628729122598, + "learning_rate": 4.590184070639948e-06, + "loss": 0.4355, + "step": 5066 + }, + { + "avg_step_time": 6.440637875084925, + "epoch": 0.5403733333333334, + "eta_time": 7.7090857232613725, + "step": 5066 + }, + { + "epoch": 0.54048, + "grad_norm": 1.8292990731751686, + "learning_rate": 4.588462428841875e-06, + "loss": 0.5415, + "step": 5067 + }, + { + "avg_step_time": 6.445192382793234, + "epoch": 0.54048, + "eta_time": 7.712746884742571, + "step": 5067 + }, + { + "epoch": 0.5405866666666667, + "grad_norm": 1.86428581481427, + "learning_rate": 4.586740836167928e-06, + "loss": 0.471, + "step": 5068 + }, + { + "avg_step_time": 6.382961217803184, + "epoch": 0.5405866666666667, + "eta_time": 7.636503879188421, + "step": 5068 + }, + { + "epoch": 0.5406933333333334, + "grad_norm": 0.6749553054181822, + "learning_rate": 4.585019292823609e-06, + "loss": 0.4409, + "step": 5069 + }, + { + "avg_step_time": 6.347066180874603, + "epoch": 0.5406933333333334, + "eta_time": 7.591796381901678, + "step": 5069 + }, + { + "epoch": 0.5408, + "grad_norm": 1.8842069330040419, + "learning_rate": 4.5832977990144165e-06, + "loss": 0.5218, + "step": 5070 + }, + { + "avg_step_time": 6.347471863332421, + "epoch": 0.5408, + "eta_time": 7.590518436568353, + "step": 5070 + }, + { + "epoch": 0.5409066666666666, + "grad_norm": 2.0729235572381794, + "learning_rate": 4.581576354945838e-06, + "loss": 0.5353, + "step": 5071 + }, + { + "avg_step_time": 6.349421070079611, + "epoch": 0.5409066666666666, + "eta_time": 7.59108563489518, + "step": 5071 + }, + { + "epoch": 0.5410133333333333, + "grad_norm": 1.7251850965615285, + "learning_rate": 4.579854960823361e-06, + "loss": 0.452, + "step": 5072 + }, + { + "avg_step_time": 6.400635403816146, + "epoch": 0.5410133333333333, + "eta_time": 7.6505372618391325, + "step": 5072 + }, + { + "epoch": 0.54112, + "grad_norm": 1.6180026393484164, + "learning_rate": 4.578133616852462e-06, + "loss": 0.4651, + "step": 5073 + }, + { + "avg_step_time": 6.458742348834722, + "epoch": 0.54112, + "eta_time": 7.718197106857493, + "step": 5073 + }, + { + "epoch": 0.5412266666666666, + "grad_norm": 2.031661138025121, + "learning_rate": 4.576412323238609e-06, + "loss": 0.6111, + "step": 5074 + }, + { + "avg_step_time": 6.465667377818715, + "epoch": 0.5412266666666666, + "eta_time": 7.7246764977773035, + "step": 5074 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 1.8606510725624374, + "learning_rate": 4.574691080187275e-06, + "loss": 0.4757, + "step": 5075 + }, + { + "avg_step_time": 6.404338133455527, + "epoch": 0.5413333333333333, + "eta_time": 7.6496261038496565, + "step": 5075 + }, + { + "epoch": 0.54144, + "grad_norm": 2.2388966435690154, + "learning_rate": 4.572969887903916e-06, + "loss": 0.5354, + "step": 5076 + }, + { + "avg_step_time": 6.4045813661633115, + "epoch": 0.54144, + "eta_time": 7.648137581426688, + "step": 5076 + }, + { + "epoch": 0.5415466666666666, + "grad_norm": 1.687365389269295, + "learning_rate": 4.571248746593988e-06, + "loss": 0.4722, + "step": 5077 + }, + { + "avg_step_time": 6.433802684148152, + "epoch": 0.5415466666666666, + "eta_time": 7.681245537907988, + "step": 5077 + }, + { + "epoch": 0.5416533333333333, + "grad_norm": 1.4510115647706998, + "learning_rate": 4.569527656462936e-06, + "loss": 0.4581, + "step": 5078 + }, + { + "avg_step_time": 6.434597554832998, + "epoch": 0.5416533333333333, + "eta_time": 7.6804071369770535, + "step": 5078 + }, + { + "epoch": 0.54176, + "grad_norm": 1.9722804023715383, + "learning_rate": 4.5678066177162065e-06, + "loss": 0.4719, + "step": 5079 + }, + { + "avg_step_time": 6.433179722891913, + "epoch": 0.54176, + "eta_time": 7.676927802651017, + "step": 5079 + }, + { + "epoch": 0.5418666666666667, + "grad_norm": 0.6329887362987291, + "learning_rate": 4.5660856305592314e-06, + "loss": 0.431, + "step": 5080 + }, + { + "avg_step_time": 6.374653825856218, + "epoch": 0.5418666666666667, + "eta_time": 7.605316161681238, + "step": 5080 + }, + { + "epoch": 0.5419733333333333, + "grad_norm": 1.8817214255177233, + "learning_rate": 4.564364695197443e-06, + "loss": 0.4342, + "step": 5081 + }, + { + "avg_step_time": 6.37544254100684, + "epoch": 0.5419733333333333, + "eta_time": 7.604486186412047, + "step": 5081 + }, + { + "epoch": 0.54208, + "grad_norm": 2.0987202089709602, + "learning_rate": 4.562643811836263e-06, + "loss": 0.4543, + "step": 5082 + }, + { + "avg_step_time": 6.372442500759857, + "epoch": 0.54208, + "eta_time": 7.59913768215613, + "step": 5082 + }, + { + "epoch": 0.5421866666666667, + "grad_norm": 1.9912833934831113, + "learning_rate": 4.5609229806811066e-06, + "loss": 0.4918, + "step": 5083 + }, + { + "avg_step_time": 6.36897791756524, + "epoch": 0.5421866666666667, + "eta_time": 7.593237006163891, + "step": 5083 + }, + { + "epoch": 0.5422933333333333, + "grad_norm": 1.8684332383259568, + "learning_rate": 4.559202201937389e-06, + "loss": 0.4908, + "step": 5084 + }, + { + "avg_step_time": 6.414804848757657, + "epoch": 0.5422933333333333, + "eta_time": 7.646091001671975, + "step": 5084 + }, + { + "epoch": 0.5424, + "grad_norm": 0.6416318354008702, + "learning_rate": 4.557481475810512e-06, + "loss": 0.4596, + "step": 5085 + }, + { + "avg_step_time": 6.379168597134677, + "epoch": 0.5424, + "eta_time": 7.601842578252157, + "step": 5085 + }, + { + "epoch": 0.5425066666666667, + "grad_norm": 1.916498128868851, + "learning_rate": 4.555760802505876e-06, + "loss": 0.5423, + "step": 5086 + }, + { + "avg_step_time": 6.416202918447629, + "epoch": 0.5425066666666667, + "eta_time": 7.644192865894968, + "step": 5086 + }, + { + "epoch": 0.5426133333333333, + "grad_norm": 1.6286695278907743, + "learning_rate": 4.554040182228874e-06, + "loss": 0.514, + "step": 5087 + }, + { + "avg_step_time": 6.5147852704982565, + "epoch": 0.5426133333333333, + "eta_time": 7.759833122193479, + "step": 5087 + }, + { + "epoch": 0.54272, + "grad_norm": 1.7799768529716462, + "learning_rate": 4.5523196151848846e-06, + "loss": 0.5051, + "step": 5088 + }, + { + "avg_step_time": 6.513198450358227, + "epoch": 0.54272, + "eta_time": 7.756133821301589, + "step": 5088 + }, + { + "epoch": 0.5428266666666667, + "grad_norm": 1.688525943735827, + "learning_rate": 4.550599101579297e-06, + "loss": 0.5272, + "step": 5089 + }, + { + "avg_step_time": 6.513969243174851, + "epoch": 0.5428266666666667, + "eta_time": 7.755242271179837, + "step": 5089 + }, + { + "epoch": 0.5429333333333334, + "grad_norm": 1.800524825879229, + "learning_rate": 4.548878641617479e-06, + "loss": 0.5726, + "step": 5090 + }, + { + "avg_step_time": 6.512210012686373, + "epoch": 0.5429333333333334, + "eta_time": 7.75133886232253, + "step": 5090 + }, + { + "epoch": 0.54304, + "grad_norm": 0.6456677824852243, + "learning_rate": 4.547158235504797e-06, + "loss": 0.4589, + "step": 5091 + }, + { + "avg_step_time": 6.4743316438463, + "epoch": 0.54304, + "eta_time": 7.704454656177097, + "step": 5091 + }, + { + "epoch": 0.5431466666666667, + "grad_norm": 1.7882751853633914, + "learning_rate": 4.545437883446613e-06, + "loss": 0.536, + "step": 5092 + }, + { + "avg_step_time": 6.474605548261392, + "epoch": 0.5431466666666667, + "eta_time": 7.702982100889873, + "step": 5092 + }, + { + "epoch": 0.5432533333333334, + "grad_norm": 1.9726520906606206, + "learning_rate": 4.543717585648279e-06, + "loss": 0.5349, + "step": 5093 + }, + { + "avg_step_time": 6.467660667920353, + "epoch": 0.5432533333333334, + "eta_time": 7.692923050009709, + "step": 5093 + }, + { + "epoch": 0.54336, + "grad_norm": 1.645314450635027, + "learning_rate": 4.541997342315145e-06, + "loss": 0.4762, + "step": 5094 + }, + { + "avg_step_time": 6.463208420108063, + "epoch": 0.54336, + "eta_time": 7.685832012911838, + "step": 5094 + }, + { + "epoch": 0.5434666666666667, + "grad_norm": 1.7382084212685136, + "learning_rate": 4.540277153652551e-06, + "loss": 0.496, + "step": 5095 + }, + { + "avg_step_time": 6.458158045104056, + "epoch": 0.5434666666666667, + "eta_time": 7.678032342512599, + "step": 5095 + }, + { + "epoch": 0.5435733333333334, + "grad_norm": 1.7091827928885193, + "learning_rate": 4.538557019865829e-06, + "loss": 0.5281, + "step": 5096 + }, + { + "avg_step_time": 6.440181891123454, + "epoch": 0.5435733333333334, + "eta_time": 7.654871753365906, + "step": 5096 + }, + { + "epoch": 0.54368, + "grad_norm": 1.894686448965077, + "learning_rate": 4.536836941160308e-06, + "loss": 0.5269, + "step": 5097 + }, + { + "avg_step_time": 6.452561024463538, + "epoch": 0.54368, + "eta_time": 7.667793350737504, + "step": 5097 + }, + { + "epoch": 0.5437866666666666, + "grad_norm": 1.5561350131799287, + "learning_rate": 4.535116917741308e-06, + "loss": 0.4605, + "step": 5098 + }, + { + "avg_step_time": 6.449520698701493, + "epoch": 0.5437866666666666, + "eta_time": 7.662388896762857, + "step": 5098 + }, + { + "epoch": 0.5438933333333333, + "grad_norm": 1.8750405275687574, + "learning_rate": 4.533396949814146e-06, + "loss": 0.5158, + "step": 5099 + }, + { + "avg_step_time": 5.951945820240059, + "epoch": 0.5438933333333333, + "eta_time": 7.06958897981847, + "step": 5099 + }, + { + "epoch": 0.544, + "grad_norm": 1.8606340053456372, + "learning_rate": 4.5316770375841315e-06, + "loss": 0.4335, + "step": 5100 + }, + { + "avg_step_time": 5.953750208170727, + "epoch": 0.544, + "eta_time": 7.0700783722027385, + "step": 5100 + }, + { + "epoch": 0.5441066666666666, + "grad_norm": 1.6001386881006183, + "learning_rate": 4.52995718125656e-06, + "loss": 0.4559, + "step": 5101 + }, + { + "avg_step_time": 5.942642739324858, + "epoch": 0.5441066666666666, + "eta_time": 7.055237518854012, + "step": 5101 + }, + { + "epoch": 0.5442133333333333, + "grad_norm": 2.1495360622895343, + "learning_rate": 4.52823738103673e-06, + "loss": 0.5066, + "step": 5102 + }, + { + "avg_step_time": 5.944437496589892, + "epoch": 0.5442133333333333, + "eta_time": 7.0557170619246135, + "step": 5102 + }, + { + "epoch": 0.54432, + "grad_norm": 1.7827675909780558, + "learning_rate": 4.526517637129927e-06, + "loss": 0.5234, + "step": 5103 + }, + { + "avg_step_time": 5.977061647357362, + "epoch": 0.54432, + "eta_time": 7.092779821530736, + "step": 5103 + }, + { + "epoch": 0.5444266666666666, + "grad_norm": 2.0679845145548548, + "learning_rate": 4.524797949741435e-06, + "loss": 0.5551, + "step": 5104 + }, + { + "avg_step_time": 5.940160573130906, + "epoch": 0.5444266666666666, + "eta_time": 7.047340502178361, + "step": 5104 + }, + { + "epoch": 0.5445333333333333, + "grad_norm": 1.8077780234177325, + "learning_rate": 4.523078319076528e-06, + "loss": 0.4943, + "step": 5105 + }, + { + "avg_step_time": 5.940740226495145, + "epoch": 0.5445333333333333, + "eta_time": 7.0463779908706305, + "step": 5105 + }, + { + "epoch": 0.54464, + "grad_norm": 2.014377402088984, + "learning_rate": 4.5213587453404736e-06, + "loss": 0.4687, + "step": 5106 + }, + { + "avg_step_time": 5.940983377321802, + "epoch": 0.54464, + "eta_time": 7.045016121607437, + "step": 5106 + }, + { + "epoch": 0.5447466666666667, + "grad_norm": 1.7992597954948235, + "learning_rate": 4.51963922873853e-06, + "loss": 0.4594, + "step": 5107 + }, + { + "avg_step_time": 5.94235451534541, + "epoch": 0.5447466666666667, + "eta_time": 7.044991408748391, + "step": 5107 + }, + { + "epoch": 0.5448533333333333, + "grad_norm": 2.009915297619701, + "learning_rate": 4.5179197694759525e-06, + "loss": 0.5502, + "step": 5108 + }, + { + "avg_step_time": 5.942495052260582, + "epoch": 0.5448533333333333, + "eta_time": 7.043507329998861, + "step": 5108 + }, + { + "epoch": 0.54496, + "grad_norm": 1.9006507920012206, + "learning_rate": 4.5162003677579905e-06, + "loss": 0.5104, + "step": 5109 + }, + { + "avg_step_time": 5.9469739066229925, + "epoch": 0.54496, + "eta_time": 7.047164079348247, + "step": 5109 + }, + { + "epoch": 0.5450666666666667, + "grad_norm": 1.9416201724223303, + "learning_rate": 4.514481023789882e-06, + "loss": 0.4525, + "step": 5110 + }, + { + "avg_step_time": 5.946131985596936, + "epoch": 0.5450666666666667, + "eta_time": 7.044514699603036, + "step": 5110 + }, + { + "epoch": 0.5451733333333333, + "grad_norm": 0.6637808611195434, + "learning_rate": 4.512761737776862e-06, + "loss": 0.4314, + "step": 5111 + }, + { + "avg_step_time": 5.864881496236782, + "epoch": 0.5451733333333333, + "eta_time": 6.946626305542677, + "step": 5111 + }, + { + "epoch": 0.54528, + "grad_norm": 1.8707705473629601, + "learning_rate": 4.511042509924157e-06, + "loss": 0.4875, + "step": 5112 + }, + { + "avg_step_time": 5.858427252432312, + "epoch": 0.54528, + "eta_time": 6.937354271421929, + "step": 5112 + }, + { + "epoch": 0.5453866666666667, + "grad_norm": 1.6965880436579963, + "learning_rate": 4.5093233404369815e-06, + "loss": 0.4583, + "step": 5113 + }, + { + "avg_step_time": 5.858679313852329, + "epoch": 0.5453866666666667, + "eta_time": 6.936025343232952, + "step": 5113 + }, + { + "epoch": 0.5454933333333334, + "grad_norm": 1.7949445694876196, + "learning_rate": 4.5076042295205575e-06, + "loss": 0.45, + "step": 5114 + }, + { + "avg_step_time": 5.819501294030084, + "epoch": 0.5454933333333334, + "eta_time": 6.888026392739497, + "step": 5114 + }, + { + "epoch": 0.5456, + "grad_norm": 1.8295056488003834, + "learning_rate": 4.505885177380083e-06, + "loss": 0.4874, + "step": 5115 + }, + { + "avg_step_time": 5.855896415132465, + "epoch": 0.5456, + "eta_time": 6.929477424573418, + "step": 5115 + }, + { + "epoch": 0.5457066666666667, + "grad_norm": 1.6513709586115022, + "learning_rate": 4.504166184220761e-06, + "loss": 0.4636, + "step": 5116 + }, + { + "avg_step_time": 5.85813337865502, + "epoch": 0.5457066666666667, + "eta_time": 6.930497238803258, + "step": 5116 + }, + { + "epoch": 0.5458133333333334, + "grad_norm": 0.6490218076252026, + "learning_rate": 4.5024472502477795e-06, + "loss": 0.4331, + "step": 5117 + }, + { + "avg_step_time": 5.822261241951374, + "epoch": 0.5458133333333334, + "eta_time": 6.88644121339693, + "step": 5117 + }, + { + "epoch": 0.54592, + "grad_norm": 1.8569027223203325, + "learning_rate": 4.5007283756663245e-06, + "loss": 0.5377, + "step": 5118 + }, + { + "avg_step_time": 5.824445999029911, + "epoch": 0.54592, + "eta_time": 6.88740739385287, + "step": 5118 + }, + { + "epoch": 0.5460266666666667, + "grad_norm": 1.7822573162573356, + "learning_rate": 4.499009560681574e-06, + "loss": 0.4467, + "step": 5119 + }, + { + "avg_step_time": 5.8236193849582865, + "epoch": 0.5460266666666667, + "eta_time": 6.884812250661796, + "step": 5119 + }, + { + "epoch": 0.5461333333333334, + "grad_norm": 1.5200248502380573, + "learning_rate": 4.4972908054987005e-06, + "loss": 0.4625, + "step": 5120 + }, + { + "avg_step_time": 5.822765468346952, + "epoch": 0.5461333333333334, + "eta_time": 6.882185296615634, + "step": 5120 + }, + { + "epoch": 0.54624, + "grad_norm": 1.6915858628843947, + "learning_rate": 4.495572110322862e-06, + "loss": 0.4614, + "step": 5121 + }, + { + "avg_step_time": 5.8371341734221485, + "epoch": 0.54624, + "eta_time": 6.897546881593839, + "step": 5121 + }, + { + "epoch": 0.5463466666666666, + "grad_norm": 1.8658448562697414, + "learning_rate": 4.493853475359217e-06, + "loss": 0.4768, + "step": 5122 + }, + { + "avg_step_time": 5.823385269954951, + "epoch": 0.5463466666666666, + "eta_time": 6.879682653644002, + "step": 5122 + }, + { + "epoch": 0.5464533333333333, + "grad_norm": 1.853585714825418, + "learning_rate": 4.492134900812915e-06, + "loss": 0.5095, + "step": 5123 + }, + { + "avg_step_time": 5.823458445192587, + "epoch": 0.5464533333333333, + "eta_time": 6.8781514747108, + "step": 5123 + }, + { + "epoch": 0.54656, + "grad_norm": 1.8008389268067437, + "learning_rate": 4.490416386889097e-06, + "loss": 0.5104, + "step": 5124 + }, + { + "avg_step_time": 5.860739110696195, + "epoch": 0.54656, + "eta_time": 6.920556099880424, + "step": 5124 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 1.8841230129807736, + "learning_rate": 4.488697933792897e-06, + "loss": 0.4442, + "step": 5125 + }, + { + "avg_step_time": 5.8596161254728685, + "epoch": 0.5466666666666666, + "eta_time": 6.917602370349914, + "step": 5125 + }, + { + "epoch": 0.5467733333333333, + "grad_norm": 0.6922544135684177, + "learning_rate": 4.486979541729445e-06, + "loss": 0.4596, + "step": 5126 + }, + { + "avg_step_time": 5.822403724747475, + "epoch": 0.5467733333333333, + "eta_time": 6.8720537295700055, + "step": 5126 + }, + { + "epoch": 0.54688, + "grad_norm": 1.943803774119915, + "learning_rate": 4.485261210903854e-06, + "loss": 0.5493, + "step": 5127 + }, + { + "avg_step_time": 5.784025442720663, + "epoch": 0.54688, + "eta_time": 6.825150022410384, + "step": 5127 + }, + { + "epoch": 0.5469866666666666, + "grad_norm": 1.9924581062254207, + "learning_rate": 4.483542941521245e-06, + "loss": 0.5681, + "step": 5128 + }, + { + "avg_step_time": 5.785769262699166, + "epoch": 0.5469866666666666, + "eta_time": 6.825600571856488, + "step": 5128 + }, + { + "epoch": 0.5470933333333333, + "grad_norm": 1.6906386837523133, + "learning_rate": 4.481824733786716e-06, + "loss": 0.4763, + "step": 5129 + }, + { + "avg_step_time": 5.767895414371683, + "epoch": 0.5470933333333333, + "eta_time": 6.802912202617269, + "step": 5129 + }, + { + "epoch": 0.5472, + "grad_norm": 1.7736069378233628, + "learning_rate": 4.48010658790537e-06, + "loss": 0.4911, + "step": 5130 + }, + { + "avg_step_time": 5.816427454803929, + "epoch": 0.5472, + "eta_time": 6.858537373789632, + "step": 5130 + }, + { + "epoch": 0.5473066666666667, + "grad_norm": 1.544582887603353, + "learning_rate": 4.4783885040822935e-06, + "loss": 0.4354, + "step": 5131 + }, + { + "avg_step_time": 5.849870874424173, + "epoch": 0.5473066666666667, + "eta_time": 6.896347775293386, + "step": 5131 + }, + { + "epoch": 0.5474133333333333, + "grad_norm": 1.979037698301372, + "learning_rate": 4.476670482522571e-06, + "loss": 0.5265, + "step": 5132 + }, + { + "avg_step_time": 5.849116351869371, + "epoch": 0.5474133333333333, + "eta_time": 6.893833522494928, + "step": 5132 + }, + { + "epoch": 0.54752, + "grad_norm": 1.6683248995197255, + "learning_rate": 4.47495252343128e-06, + "loss": 0.395, + "step": 5133 + }, + { + "avg_step_time": 5.845179964797666, + "epoch": 0.54752, + "eta_time": 6.88757039185325, + "step": 5133 + }, + { + "epoch": 0.5476266666666667, + "grad_norm": 1.7837853132987826, + "learning_rate": 4.473234627013487e-06, + "loss": 0.5043, + "step": 5134 + }, + { + "avg_step_time": 5.846594333648682, + "epoch": 0.5476266666666667, + "eta_time": 6.88761293583446, + "step": 5134 + }, + { + "epoch": 0.5477333333333333, + "grad_norm": 2.0928273241357673, + "learning_rate": 4.471516793474252e-06, + "loss": 0.4772, + "step": 5135 + }, + { + "avg_step_time": 5.8501463345807005, + "epoch": 0.5477333333333333, + "eta_time": 6.89017234961727, + "step": 5135 + }, + { + "epoch": 0.54784, + "grad_norm": 0.6587608055203571, + "learning_rate": 4.469799023018628e-06, + "loss": 0.454, + "step": 5136 + }, + { + "avg_step_time": 5.812814772731126, + "epoch": 0.54784, + "eta_time": 6.8445893948909005, + "step": 5136 + }, + { + "epoch": 0.5479466666666667, + "grad_norm": 1.781345095365432, + "learning_rate": 4.468081315851661e-06, + "loss": 0.498, + "step": 5137 + }, + { + "avg_step_time": 5.843012034290969, + "epoch": 0.5479466666666667, + "eta_time": 6.878523611479202, + "step": 5137 + }, + { + "epoch": 0.5480533333333333, + "grad_norm": 2.2646203934522307, + "learning_rate": 4.466363672178391e-06, + "loss": 0.5735, + "step": 5138 + }, + { + "avg_step_time": 5.845110411595816, + "epoch": 0.5480533333333333, + "eta_time": 6.879370226092076, + "step": 5138 + }, + { + "epoch": 0.54816, + "grad_norm": 2.0874536184776225, + "learning_rate": 4.464646092203846e-06, + "loss": 0.6514, + "step": 5139 + }, + { + "avg_step_time": 5.847243154891814, + "epoch": 0.54816, + "eta_time": 6.880256112256034, + "step": 5139 + }, + { + "epoch": 0.5482666666666667, + "grad_norm": 1.7885184110513273, + "learning_rate": 4.4629285761330515e-06, + "loss": 0.4436, + "step": 5140 + }, + { + "avg_step_time": 5.844397376282046, + "epoch": 0.5482666666666667, + "eta_time": 6.875284135709574, + "step": 5140 + }, + { + "epoch": 0.5483733333333334, + "grad_norm": 1.9618286419077107, + "learning_rate": 4.46121112417102e-06, + "loss": 0.4782, + "step": 5141 + }, + { + "avg_step_time": 5.8534270223945075, + "epoch": 0.5483733333333334, + "eta_time": 6.884280559116207, + "step": 5141 + }, + { + "epoch": 0.54848, + "grad_norm": 1.5649552272046692, + "learning_rate": 4.459493736522759e-06, + "loss": 0.4626, + "step": 5142 + }, + { + "avg_step_time": 5.8574647494036745, + "epoch": 0.54848, + "eta_time": 6.887402301173821, + "step": 5142 + }, + { + "epoch": 0.5485866666666667, + "grad_norm": 1.7808508195795356, + "learning_rate": 4.4577764133932696e-06, + "loss": 0.4737, + "step": 5143 + }, + { + "avg_step_time": 5.855914323016851, + "epoch": 0.5485866666666667, + "eta_time": 6.883952615279809, + "step": 5143 + }, + { + "epoch": 0.5486933333333334, + "grad_norm": 0.6592650720985561, + "learning_rate": 4.456059154987545e-06, + "loss": 0.4573, + "step": 5144 + }, + { + "avg_step_time": 5.826381127039592, + "epoch": 0.5486933333333334, + "eta_time": 6.847616263473475, + "step": 5144 + }, + { + "epoch": 0.5488, + "grad_norm": 1.7026385944277802, + "learning_rate": 4.4543419615105685e-06, + "loss": 0.4555, + "step": 5145 + }, + { + "avg_step_time": 5.823020790562485, + "epoch": 0.5488, + "eta_time": 6.8420494289109195, + "step": 5145 + }, + { + "epoch": 0.5489066666666667, + "grad_norm": 1.6857585535069042, + "learning_rate": 4.452624833167318e-06, + "loss": 0.5692, + "step": 5146 + }, + { + "avg_step_time": 5.822693641739662, + "epoch": 0.5489066666666667, + "eta_time": 6.84004761414362, + "step": 5146 + }, + { + "epoch": 0.5490133333333334, + "grad_norm": 1.756687091348436, + "learning_rate": 4.450907770162758e-06, + "loss": 0.4785, + "step": 5147 + }, + { + "avg_step_time": 5.857112634061563, + "epoch": 0.5490133333333334, + "eta_time": 6.878853393558969, + "step": 5147 + }, + { + "epoch": 0.54912, + "grad_norm": 1.7684315423465546, + "learning_rate": 4.449190772701857e-06, + "loss": 0.397, + "step": 5148 + }, + { + "avg_step_time": 5.856281396114465, + "epoch": 0.54912, + "eta_time": 6.876250405937734, + "step": 5148 + }, + { + "epoch": 0.5492266666666666, + "grad_norm": 1.6990566583179594, + "learning_rate": 4.447473840989563e-06, + "loss": 0.4269, + "step": 5149 + }, + { + "avg_step_time": 5.85074700249566, + "epoch": 0.5492266666666666, + "eta_time": 6.868126897929628, + "step": 5149 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 1.8295733967390073, + "learning_rate": 4.445756975230823e-06, + "loss": 0.5168, + "step": 5150 + }, + { + "avg_step_time": 5.848547367134479, + "epoch": 0.5493333333333333, + "eta_time": 6.863920173928659, + "step": 5150 + }, + { + "epoch": 0.54944, + "grad_norm": 1.6594337788924307, + "learning_rate": 4.444040175630577e-06, + "loss": 0.4248, + "step": 5151 + }, + { + "avg_step_time": 5.851897586475719, + "epoch": 0.54944, + "eta_time": 6.866226501464844, + "step": 5151 + }, + { + "epoch": 0.5495466666666666, + "grad_norm": 0.6902284523794351, + "learning_rate": 4.4423234423937474e-06, + "loss": 0.4833, + "step": 5152 + }, + { + "avg_step_time": 5.818175226751, + "epoch": 0.5495466666666666, + "eta_time": 6.825042772935965, + "step": 5152 + }, + { + "epoch": 0.5496533333333333, + "grad_norm": 1.617161313020566, + "learning_rate": 4.440606775725265e-06, + "loss": 0.394, + "step": 5153 + }, + { + "avg_step_time": 5.817634442839959, + "epoch": 0.5496533333333333, + "eta_time": 6.822792393797308, + "step": 5153 + }, + { + "epoch": 0.54976, + "grad_norm": 1.7541366766475939, + "learning_rate": 4.438890175830039e-06, + "loss": 0.3937, + "step": 5154 + }, + { + "avg_step_time": 5.852434921746302, + "epoch": 0.54976, + "eta_time": 6.861979945747539, + "step": 5154 + }, + { + "epoch": 0.5498666666666666, + "grad_norm": 1.7199841711379502, + "learning_rate": 4.437173642912976e-06, + "loss": 0.458, + "step": 5155 + }, + { + "avg_step_time": 5.854633822585598, + "epoch": 0.5498666666666666, + "eta_time": 6.862931869808673, + "step": 5155 + }, + { + "epoch": 0.5499733333333333, + "grad_norm": 2.0824774721540527, + "learning_rate": 4.435457177178972e-06, + "loss": 0.5643, + "step": 5156 + }, + { + "avg_step_time": 5.851651902150626, + "epoch": 0.5499733333333333, + "eta_time": 6.857810937548192, + "step": 5156 + }, + { + "epoch": 0.55008, + "grad_norm": 1.9137335241283884, + "learning_rate": 4.433740778832919e-06, + "loss": 0.5732, + "step": 5157 + }, + { + "avg_step_time": 5.848219777598525, + "epoch": 0.55008, + "eta_time": 6.852164172752939, + "step": 5157 + }, + { + "epoch": 0.5501866666666667, + "grad_norm": 1.722468190356908, + "learning_rate": 4.432024448079699e-06, + "loss": 0.569, + "step": 5158 + }, + { + "avg_step_time": 5.840362440456044, + "epoch": 0.5501866666666667, + "eta_time": 6.841335669834205, + "step": 5158 + }, + { + "epoch": 0.5502933333333333, + "grad_norm": 1.9964842386435118, + "learning_rate": 4.430308185124187e-06, + "loss": 0.5428, + "step": 5159 + }, + { + "avg_step_time": 5.839652574423588, + "epoch": 0.5502933333333333, + "eta_time": 6.838882014936069, + "step": 5159 + }, + { + "epoch": 0.5504, + "grad_norm": 1.8398546310578106, + "learning_rate": 4.428591990171246e-06, + "loss": 0.5109, + "step": 5160 + }, + { + "avg_step_time": 5.802322907881304, + "epoch": 0.5504, + "eta_time": 6.793553071311027, + "step": 5160 + }, + { + "epoch": 0.5505066666666667, + "grad_norm": 1.6766681607443272, + "learning_rate": 4.426875863425733e-06, + "loss": 0.478, + "step": 5161 + }, + { + "avg_step_time": 5.803351012143222, + "epoch": 0.5505066666666667, + "eta_time": 6.793144768103204, + "step": 5161 + }, + { + "epoch": 0.5506133333333333, + "grad_norm": 2.0109704724250257, + "learning_rate": 4.4251598050925e-06, + "loss": 0.5424, + "step": 5162 + }, + { + "avg_step_time": 5.7841841259388005, + "epoch": 0.5506133333333333, + "eta_time": 6.769102145161158, + "step": 5162 + }, + { + "epoch": 0.55072, + "grad_norm": 1.9324457728849873, + "learning_rate": 4.423443815376387e-06, + "loss": 0.5695, + "step": 5163 + }, + { + "avg_step_time": 5.758653643155339, + "epoch": 0.55072, + "eta_time": 6.7376247624917465, + "step": 5163 + }, + { + "epoch": 0.5508266666666667, + "grad_norm": 1.6032354200173344, + "learning_rate": 4.421727894482227e-06, + "loss": 0.4833, + "step": 5164 + }, + { + "avg_step_time": 5.759210338496199, + "epoch": 0.5508266666666667, + "eta_time": 6.7366763153909694, + "step": 5164 + }, + { + "epoch": 0.5509333333333334, + "grad_norm": 1.6122867984401577, + "learning_rate": 4.420012042614847e-06, + "loss": 0.4108, + "step": 5165 + }, + { + "avg_step_time": 5.785126994354556, + "epoch": 0.5509333333333334, + "eta_time": 6.765384623953523, + "step": 5165 + }, + { + "epoch": 0.55104, + "grad_norm": 0.6736254610630776, + "learning_rate": 4.41829625997906e-06, + "loss": 0.4569, + "step": 5166 + }, + { + "avg_step_time": 5.751755509713684, + "epoch": 0.55104, + "eta_time": 6.724760816773582, + "step": 5166 + }, + { + "epoch": 0.5511466666666667, + "grad_norm": 1.765805088293832, + "learning_rate": 4.416580546779675e-06, + "loss": 0.533, + "step": 5167 + }, + { + "avg_step_time": 5.749240429714472, + "epoch": 0.5511466666666667, + "eta_time": 6.720223257844028, + "step": 5167 + }, + { + "epoch": 0.5512533333333334, + "grad_norm": 1.6903151631246314, + "learning_rate": 4.414864903221493e-06, + "loss": 0.4541, + "step": 5168 + }, + { + "avg_step_time": 5.786569966210259, + "epoch": 0.5512533333333334, + "eta_time": 6.762249957735157, + "step": 5168 + }, + { + "epoch": 0.55136, + "grad_norm": 1.8832272579330598, + "learning_rate": 4.413149329509307e-06, + "loss": 0.5269, + "step": 5169 + }, + { + "avg_step_time": 5.809045346096308, + "epoch": 0.55136, + "eta_time": 6.786901312689187, + "step": 5169 + }, + { + "epoch": 0.5514666666666667, + "grad_norm": 1.9597285511874227, + "learning_rate": 4.4114338258478995e-06, + "loss": 0.5141, + "step": 5170 + }, + { + "avg_step_time": 5.806342938933709, + "epoch": 0.5514666666666667, + "eta_time": 6.782131127282291, + "step": 5170 + }, + { + "epoch": 0.5515733333333334, + "grad_norm": 1.8213049655583444, + "learning_rate": 4.409718392442044e-06, + "loss": 0.5021, + "step": 5171 + }, + { + "avg_step_time": 5.762492996273619, + "epoch": 0.5515733333333334, + "eta_time": 6.729311265648414, + "step": 5171 + }, + { + "epoch": 0.55168, + "grad_norm": 1.597659158222635, + "learning_rate": 4.4080030294965085e-06, + "loss": 0.4667, + "step": 5172 + }, + { + "avg_step_time": 5.738121627557157, + "epoch": 0.55168, + "eta_time": 6.699257000172981, + "step": 5172 + }, + { + "epoch": 0.5517866666666666, + "grad_norm": 1.9057665971889293, + "learning_rate": 4.406287737216053e-06, + "loss": 0.5564, + "step": 5173 + }, + { + "avg_step_time": 5.727009705822877, + "epoch": 0.5517866666666666, + "eta_time": 6.684692995518814, + "step": 5173 + }, + { + "epoch": 0.5518933333333333, + "grad_norm": 1.610465170846607, + "learning_rate": 4.404572515805424e-06, + "loss": 0.475, + "step": 5174 + }, + { + "avg_step_time": 5.729815923806393, + "epoch": 0.5518933333333333, + "eta_time": 6.686376859975182, + "step": 5174 + }, + { + "epoch": 0.552, + "grad_norm": 0.6548910568960563, + "learning_rate": 4.402857365469364e-06, + "loss": 0.4434, + "step": 5175 + }, + { + "avg_step_time": 5.699866530871151, + "epoch": 0.552, + "eta_time": 6.649844286016342, + "step": 5175 + }, + { + "epoch": 0.5521066666666666, + "grad_norm": 1.5075767430450397, + "learning_rate": 4.401142286412605e-06, + "loss": 0.4822, + "step": 5176 + }, + { + "avg_step_time": 5.700658502000751, + "epoch": 0.5521066666666666, + "eta_time": 6.649184736083654, + "step": 5176 + }, + { + "epoch": 0.5522133333333333, + "grad_norm": 1.8040113050451587, + "learning_rate": 4.399427278839874e-06, + "loss": 0.4691, + "step": 5177 + }, + { + "avg_step_time": 5.699561355089901, + "epoch": 0.5522133333333333, + "eta_time": 6.646321824629834, + "step": 5177 + }, + { + "epoch": 0.55232, + "grad_norm": 1.788452517080467, + "learning_rate": 4.397712342955885e-06, + "loss": 0.4455, + "step": 5178 + }, + { + "avg_step_time": 5.699192271088108, + "epoch": 0.55232, + "eta_time": 6.644308322710219, + "step": 5178 + }, + { + "epoch": 0.5524266666666666, + "grad_norm": 1.5593628066987981, + "learning_rate": 4.395997478965347e-06, + "loss": 0.533, + "step": 5179 + }, + { + "avg_step_time": 5.739429943489306, + "epoch": 0.5524266666666666, + "eta_time": 6.689624456355869, + "step": 5179 + }, + { + "epoch": 0.5525333333333333, + "grad_norm": 1.8981279618359288, + "learning_rate": 4.394282687072955e-06, + "loss": 0.4659, + "step": 5180 + }, + { + "avg_step_time": 5.740660395285095, + "epoch": 0.5525333333333333, + "eta_time": 6.689463988394715, + "step": 5180 + }, + { + "epoch": 0.55264, + "grad_norm": 1.7648495110989582, + "learning_rate": 4.392567967483401e-06, + "loss": 0.5419, + "step": 5181 + }, + { + "avg_step_time": 5.7380943635497434, + "epoch": 0.55264, + "eta_time": 6.684879933535451, + "step": 5181 + }, + { + "epoch": 0.5527466666666667, + "grad_norm": 1.7506193641837031, + "learning_rate": 4.390853320401367e-06, + "loss": 0.4202, + "step": 5182 + }, + { + "avg_step_time": 5.739628428160542, + "epoch": 0.5527466666666667, + "eta_time": 6.685072777576988, + "step": 5182 + }, + { + "epoch": 0.5528533333333333, + "grad_norm": 1.8873103362241617, + "learning_rate": 4.389138746031526e-06, + "loss": 0.4929, + "step": 5183 + }, + { + "avg_step_time": 5.765066036070236, + "epoch": 0.5528533333333333, + "eta_time": 6.713099117557341, + "step": 5183 + }, + { + "epoch": 0.55296, + "grad_norm": 1.8656244209648825, + "learning_rate": 4.387424244578543e-06, + "loss": 0.5395, + "step": 5184 + }, + { + "avg_step_time": 5.808560703739976, + "epoch": 0.55296, + "eta_time": 6.7621327526039545, + "step": 5184 + }, + { + "epoch": 0.5530666666666667, + "grad_norm": 1.7212369642392633, + "learning_rate": 4.385709816247071e-06, + "loss": 0.4423, + "step": 5185 + }, + { + "avg_step_time": 5.807227262342819, + "epoch": 0.5530666666666667, + "eta_time": 6.758967285893447, + "step": 5185 + }, + { + "epoch": 0.5531733333333333, + "grad_norm": 1.6976396649666328, + "learning_rate": 4.383995461241755e-06, + "loss": 0.4588, + "step": 5186 + }, + { + "avg_step_time": 5.708463367789682, + "epoch": 0.5531733333333333, + "eta_time": 6.6424314021308275, + "step": 5186 + }, + { + "epoch": 0.55328, + "grad_norm": 1.7897095271723051, + "learning_rate": 4.38228117976724e-06, + "loss": 0.4692, + "step": 5187 + }, + { + "avg_step_time": 5.709827338806306, + "epoch": 0.55328, + "eta_time": 6.642432470811336, + "step": 5187 + }, + { + "epoch": 0.5533866666666667, + "grad_norm": 1.646186754050416, + "learning_rate": 4.380566972028149e-06, + "loss": 0.4599, + "step": 5188 + }, + { + "avg_step_time": 5.708114479527329, + "epoch": 0.5533866666666667, + "eta_time": 6.638854257161368, + "step": 5188 + }, + { + "epoch": 0.5534933333333333, + "grad_norm": 1.9204493202066582, + "learning_rate": 4.378852838229104e-06, + "loss": 0.4947, + "step": 5189 + }, + { + "avg_step_time": 5.706188779888731, + "epoch": 0.5534933333333333, + "eta_time": 6.635029509059509, + "step": 5189 + }, + { + "epoch": 0.5536, + "grad_norm": 1.716025516004005, + "learning_rate": 4.377138778574716e-06, + "loss": 0.5143, + "step": 5190 + }, + { + "avg_step_time": 5.7430826341262975, + "epoch": 0.5536, + "eta_time": 6.676333562171821, + "step": 5190 + }, + { + "epoch": 0.5537066666666667, + "grad_norm": 1.7837957476952078, + "learning_rate": 4.375424793269588e-06, + "loss": 0.4709, + "step": 5191 + }, + { + "avg_step_time": 5.750337730754506, + "epoch": 0.5537066666666667, + "eta_time": 6.683170295965792, + "step": 5191 + }, + { + "epoch": 0.5538133333333334, + "grad_norm": 1.9196376777493982, + "learning_rate": 4.373710882518314e-06, + "loss": 0.5222, + "step": 5192 + }, + { + "avg_step_time": 5.7485093901855775, + "epoch": 0.5538133333333334, + "eta_time": 6.679448549762853, + "step": 5192 + }, + { + "epoch": 0.55392, + "grad_norm": 1.825925259779766, + "learning_rate": 4.371997046525481e-06, + "loss": 0.5196, + "step": 5193 + }, + { + "avg_step_time": 5.750386389819059, + "epoch": 0.55392, + "eta_time": 6.680032189506473, + "step": 5193 + }, + { + "epoch": 0.5540266666666667, + "grad_norm": 2.145598258190166, + "learning_rate": 4.370283285495662e-06, + "loss": 0.4696, + "step": 5194 + }, + { + "avg_step_time": 5.752950637027471, + "epoch": 0.5540266666666667, + "eta_time": 6.681412948169959, + "step": 5194 + }, + { + "epoch": 0.5541333333333334, + "grad_norm": 1.8212224672155972, + "learning_rate": 4.368569599633425e-06, + "loss": 0.4335, + "step": 5195 + }, + { + "avg_step_time": 5.7570000080147175, + "epoch": 0.5541333333333334, + "eta_time": 6.684516675972644, + "step": 5195 + }, + { + "epoch": 0.55424, + "grad_norm": 0.6490275999918675, + "learning_rate": 4.366855989143326e-06, + "loss": 0.4481, + "step": 5196 + }, + { + "avg_step_time": 5.713278755997166, + "epoch": 0.55424, + "eta_time": 6.63216442258671, + "step": 5196 + }, + { + "epoch": 0.5543466666666667, + "grad_norm": 1.807819626087995, + "learning_rate": 4.365142454229918e-06, + "loss": 0.4973, + "step": 5197 + }, + { + "avg_step_time": 5.7128152582380505, + "epoch": 0.5543466666666667, + "eta_time": 6.630039485810715, + "step": 5197 + }, + { + "epoch": 0.5544533333333334, + "grad_norm": 1.866089737007458, + "learning_rate": 4.363428995097741e-06, + "loss": 0.4531, + "step": 5198 + }, + { + "avg_step_time": 5.817165615582707, + "epoch": 0.5544533333333334, + "eta_time": 6.749527993413602, + "step": 5198 + }, + { + "epoch": 0.55456, + "grad_norm": 1.707908441872813, + "learning_rate": 4.3617156119513206e-06, + "loss": 0.4962, + "step": 5199 + }, + { + "avg_step_time": 5.819264305962457, + "epoch": 0.55456, + "eta_time": 6.75034659491645, + "step": 5199 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 1.5062742378055054, + "learning_rate": 4.360002304995184e-06, + "loss": 0.4306, + "step": 5200 + }, + { + "avg_step_time": 5.817303525076972, + "epoch": 0.5546666666666666, + "eta_time": 6.746456171443433, + "step": 5200 + }, + { + "epoch": 0.5547733333333333, + "grad_norm": 0.6239940860249541, + "learning_rate": 4.35828907443384e-06, + "loss": 0.4227, + "step": 5201 + }, + { + "avg_step_time": 5.786725684849903, + "epoch": 0.5547733333333333, + "eta_time": 6.709386946823193, + "step": 5201 + }, + { + "epoch": 0.55488, + "grad_norm": 1.7923406465894227, + "learning_rate": 4.356575920471796e-06, + "loss": 0.4876, + "step": 5202 + }, + { + "avg_step_time": 5.758351162226513, + "epoch": 0.55488, + "eta_time": 6.6748887222142335, + "step": 5202 + }, + { + "epoch": 0.5549866666666666, + "grad_norm": 1.767688558333168, + "learning_rate": 4.354862843313547e-06, + "loss": 0.4656, + "step": 5203 + }, + { + "avg_step_time": 5.757349096163355, + "epoch": 0.5549866666666666, + "eta_time": 6.6721278969982, + "step": 5203 + }, + { + "epoch": 0.5550933333333333, + "grad_norm": 2.0739496737282757, + "learning_rate": 4.353149843163575e-06, + "loss": 0.5164, + "step": 5204 + }, + { + "avg_step_time": 5.753812765834307, + "epoch": 0.5550933333333333, + "eta_time": 6.666431401748581, + "step": 5204 + }, + { + "epoch": 0.5552, + "grad_norm": 1.8200457638347416, + "learning_rate": 4.351436920226357e-06, + "loss": 0.5183, + "step": 5205 + }, + { + "avg_step_time": 5.756199099800804, + "epoch": 0.5552, + "eta_time": 6.667597290602597, + "step": 5205 + }, + { + "epoch": 0.5553066666666666, + "grad_norm": 1.9109614385976528, + "learning_rate": 4.34972407470636e-06, + "loss": 0.5218, + "step": 5206 + }, + { + "avg_step_time": 5.754284870744955, + "epoch": 0.5553066666666666, + "eta_time": 6.663781562815478, + "step": 5206 + }, + { + "epoch": 0.5554133333333333, + "grad_norm": 0.6581243117505408, + "learning_rate": 4.348011306808044e-06, + "loss": 0.4332, + "step": 5207 + }, + { + "avg_step_time": 5.717227856318156, + "epoch": 0.5554133333333333, + "eta_time": 6.6192793625372435, + "step": 5207 + }, + { + "epoch": 0.55552, + "grad_norm": 0.6247558810001704, + "learning_rate": 4.346298616735855e-06, + "loss": 0.4311, + "step": 5208 + }, + { + "avg_step_time": 5.673381005874788, + "epoch": 0.55552, + "eta_time": 6.566938514300067, + "step": 5208 + }, + { + "epoch": 0.5556266666666667, + "grad_norm": 1.9753232568764159, + "learning_rate": 4.344586004694234e-06, + "loss": 0.4101, + "step": 5209 + }, + { + "avg_step_time": 5.671174480457498, + "epoch": 0.5556266666666667, + "eta_time": 6.562809134884983, + "step": 5209 + }, + { + "epoch": 0.5557333333333333, + "grad_norm": 1.948203768705028, + "learning_rate": 4.342873470887609e-06, + "loss": 0.5415, + "step": 5210 + }, + { + "avg_step_time": 5.704458624425561, + "epoch": 0.5557333333333333, + "eta_time": 6.59974171409235, + "step": 5210 + }, + { + "epoch": 0.55584, + "grad_norm": 1.7980664991456612, + "learning_rate": 4.3411610155204e-06, + "loss": 0.4709, + "step": 5211 + }, + { + "avg_step_time": 5.709294287845342, + "epoch": 0.55584, + "eta_time": 6.603750392941112, + "step": 5211 + }, + { + "epoch": 0.5559466666666667, + "grad_norm": 2.006726801577701, + "learning_rate": 4.339448638797022e-06, + "loss": 0.5169, + "step": 5212 + }, + { + "avg_step_time": 5.708141134242819, + "epoch": 0.5559466666666667, + "eta_time": 6.600830983848015, + "step": 5212 + }, + { + "epoch": 0.5560533333333333, + "grad_norm": 1.8516181611159706, + "learning_rate": 4.337736340921874e-06, + "loss": 0.4773, + "step": 5213 + }, + { + "avg_step_time": 5.707572537239152, + "epoch": 0.5560533333333333, + "eta_time": 6.598588027774819, + "step": 5213 + }, + { + "epoch": 0.55616, + "grad_norm": 1.8242485453035104, + "learning_rate": 4.336024122099348e-06, + "loss": 0.4571, + "step": 5214 + }, + { + "avg_step_time": 5.671780150346081, + "epoch": 0.55616, + "eta_time": 6.555632557108346, + "step": 5214 + }, + { + "epoch": 0.5562666666666667, + "grad_norm": 1.9020722187626333, + "learning_rate": 4.334311982533827e-06, + "loss": 0.4917, + "step": 5215 + }, + { + "avg_step_time": 5.674962997436523, + "epoch": 0.5562666666666667, + "eta_time": 6.557735019259983, + "step": 5215 + }, + { + "epoch": 0.5563733333333334, + "grad_norm": 0.6352710099834397, + "learning_rate": 4.3325999224296864e-06, + "loss": 0.4462, + "step": 5216 + }, + { + "avg_step_time": 5.676074935932352, + "epoch": 0.5563733333333334, + "eta_time": 6.55744323848407, + "step": 5216 + }, + { + "epoch": 0.55648, + "grad_norm": 1.957661033971559, + "learning_rate": 4.330887941991288e-06, + "loss": 0.575, + "step": 5217 + }, + { + "avg_step_time": 5.671081750079839, + "epoch": 0.55648, + "eta_time": 6.550099421342214, + "step": 5217 + }, + { + "epoch": 0.5565866666666667, + "grad_norm": 1.61061041687358, + "learning_rate": 4.32917604142299e-06, + "loss": 0.4936, + "step": 5218 + }, + { + "avg_step_time": 5.672940535978838, + "epoch": 0.5565866666666667, + "eta_time": 6.550670502240008, + "step": 5218 + }, + { + "epoch": 0.5566933333333334, + "grad_norm": 1.6084304565316299, + "learning_rate": 4.327464220929132e-06, + "loss": 0.4852, + "step": 5219 + }, + { + "avg_step_time": 5.673615282232111, + "epoch": 0.5566933333333334, + "eta_time": 6.54987364248796, + "step": 5219 + }, + { + "epoch": 0.5568, + "grad_norm": 2.058184617433424, + "learning_rate": 4.325752480714052e-06, + "loss": 0.6062, + "step": 5220 + }, + { + "avg_step_time": 5.653316278650303, + "epoch": 0.5568, + "eta_time": 6.524869204942224, + "step": 5220 + }, + { + "epoch": 0.5569066666666667, + "grad_norm": 0.6712905761438994, + "learning_rate": 4.324040820982076e-06, + "loss": 0.4524, + "step": 5221 + }, + { + "avg_step_time": 5.629034104973379, + "epoch": 0.5569066666666667, + "eta_time": 6.4952799089053945, + "step": 5221 + }, + { + "epoch": 0.5570133333333334, + "grad_norm": 1.8224308174371737, + "learning_rate": 4.3223292419375196e-06, + "loss": 0.4927, + "step": 5222 + }, + { + "avg_step_time": 5.626738406190968, + "epoch": 0.5570133333333334, + "eta_time": 6.491067944697526, + "step": 5222 + }, + { + "epoch": 0.55712, + "grad_norm": 1.9522115301198597, + "learning_rate": 4.320617743784691e-06, + "loss": 0.5026, + "step": 5223 + }, + { + "avg_step_time": 5.595004792165274, + "epoch": 0.55712, + "eta_time": 6.452905526963949, + "step": 5223 + }, + { + "epoch": 0.5572266666666666, + "grad_norm": 1.971553309195286, + "learning_rate": 4.318906326727886e-06, + "loss": 0.4288, + "step": 5224 + }, + { + "avg_step_time": 5.590734433646154, + "epoch": 0.5572266666666666, + "eta_time": 6.44642739835144, + "step": 5224 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 1.823001284450471, + "learning_rate": 4.317194990971388e-06, + "loss": 0.5002, + "step": 5225 + }, + { + "avg_step_time": 5.627588854895698, + "epoch": 0.5573333333333333, + "eta_time": 6.487359374393652, + "step": 5225 + }, + { + "epoch": 0.55744, + "grad_norm": 1.6780108385745274, + "learning_rate": 4.315483736719482e-06, + "loss": 0.5067, + "step": 5226 + }, + { + "avg_step_time": 5.629591188045463, + "epoch": 0.55744, + "eta_time": 6.488103844222397, + "step": 5226 + }, + { + "epoch": 0.5575466666666666, + "grad_norm": 1.8827137133964185, + "learning_rate": 4.313772564176431e-06, + "loss": 0.4896, + "step": 5227 + }, + { + "avg_step_time": 5.748302286321467, + "epoch": 0.5575466666666666, + "eta_time": 6.623321634350401, + "step": 5227 + }, + { + "epoch": 0.5576533333333333, + "grad_norm": 1.701979308052241, + "learning_rate": 4.312061473546494e-06, + "loss": 0.4741, + "step": 5228 + }, + { + "avg_step_time": 5.745643331546976, + "epoch": 0.5576533333333333, + "eta_time": 6.618661915534808, + "step": 5228 + }, + { + "epoch": 0.55776, + "grad_norm": 1.7397329346141606, + "learning_rate": 4.310350465033919e-06, + "loss": 0.5011, + "step": 5229 + }, + { + "avg_step_time": 5.730214140631936, + "epoch": 0.55776, + "eta_time": 6.599296618627779, + "step": 5229 + }, + { + "epoch": 0.5578666666666666, + "grad_norm": 1.7586437825520556, + "learning_rate": 4.308639538842943e-06, + "loss": 0.461, + "step": 5230 + }, + { + "avg_step_time": 5.735715302554044, + "epoch": 0.5578666666666666, + "eta_time": 6.604038869190698, + "step": 5230 + }, + { + "epoch": 0.5579733333333333, + "grad_norm": 1.8568524404748155, + "learning_rate": 4.306928695177799e-06, + "loss": 0.4474, + "step": 5231 + }, + { + "avg_step_time": 5.735667479158652, + "epoch": 0.5579733333333333, + "eta_time": 6.602390564898181, + "step": 5231 + }, + { + "epoch": 0.55808, + "grad_norm": 1.8238740384789105, + "learning_rate": 4.305217934242703e-06, + "loss": 0.4886, + "step": 5232 + }, + { + "avg_step_time": 5.737271754428594, + "epoch": 0.55808, + "eta_time": 6.60264357738824, + "step": 5232 + }, + { + "epoch": 0.5581866666666667, + "grad_norm": 1.692563014292949, + "learning_rate": 4.303507256241863e-06, + "loss": 0.4629, + "step": 5233 + }, + { + "avg_step_time": 5.731518921225962, + "epoch": 0.5581866666666667, + "eta_time": 6.5944309365883145, + "step": 5233 + }, + { + "epoch": 0.5582933333333333, + "grad_norm": 2.649170505712972, + "learning_rate": 4.30179666137948e-06, + "loss": 0.5514, + "step": 5234 + }, + { + "avg_step_time": 5.729170440423368, + "epoch": 0.5582933333333333, + "eta_time": 6.590137442720324, + "step": 5234 + }, + { + "epoch": 0.5584, + "grad_norm": 1.4796948615058527, + "learning_rate": 4.30008614985974e-06, + "loss": 0.448, + "step": 5235 + }, + { + "avg_step_time": 5.761718983602042, + "epoch": 0.5584, + "eta_time": 6.625976831142348, + "step": 5235 + }, + { + "epoch": 0.5585066666666667, + "grad_norm": 1.8168397310347821, + "learning_rate": 4.298375721886826e-06, + "loss": 0.486, + "step": 5236 + }, + { + "avg_step_time": 5.7618238901851155, + "epoch": 0.5585066666666667, + "eta_time": 6.624496967076721, + "step": 5236 + }, + { + "epoch": 0.5586133333333333, + "grad_norm": 1.7743571266388283, + "learning_rate": 4.2966653776649056e-06, + "loss": 0.5142, + "step": 5237 + }, + { + "avg_step_time": 5.759672270880805, + "epoch": 0.5586133333333333, + "eta_time": 6.620423293584659, + "step": 5237 + }, + { + "epoch": 0.55872, + "grad_norm": 1.7520780351941379, + "learning_rate": 4.294955117398139e-06, + "loss": 0.4653, + "step": 5238 + }, + { + "avg_step_time": 5.756351256611372, + "epoch": 0.55872, + "eta_time": 6.615006985722569, + "step": 5238 + }, + { + "epoch": 0.5588266666666667, + "grad_norm": 1.6167751867417848, + "learning_rate": 4.293244941290672e-06, + "loss": 0.4197, + "step": 5239 + }, + { + "avg_step_time": 5.758955808600994, + "epoch": 0.5588266666666667, + "eta_time": 6.616400340103809, + "step": 5239 + }, + { + "epoch": 0.5589333333333333, + "grad_norm": 1.8937987850681874, + "learning_rate": 4.2915348495466454e-06, + "loss": 0.525, + "step": 5240 + }, + { + "avg_step_time": 5.7519054942660865, + "epoch": 0.5589333333333333, + "eta_time": 6.606702560775075, + "step": 5240 + }, + { + "epoch": 0.55904, + "grad_norm": 2.215444295357681, + "learning_rate": 4.28982484237019e-06, + "loss": 0.5442, + "step": 5241 + }, + { + "avg_step_time": 5.749509190068101, + "epoch": 0.55904, + "eta_time": 6.6023530532615355, + "step": 5241 + }, + { + "epoch": 0.5591466666666667, + "grad_norm": 1.8310826629865764, + "learning_rate": 4.288114919965423e-06, + "loss": 0.5379, + "step": 5242 + }, + { + "avg_step_time": 5.74912675221761, + "epoch": 0.5591466666666667, + "eta_time": 6.600316907476495, + "step": 5242 + }, + { + "epoch": 0.5592533333333334, + "grad_norm": 0.6249715672786337, + "learning_rate": 4.286405082536455e-06, + "loss": 0.4532, + "step": 5243 + }, + { + "avg_step_time": 5.768671553544324, + "epoch": 0.5592533333333334, + "eta_time": 6.621153016456985, + "step": 5243 + }, + { + "epoch": 0.55936, + "grad_norm": 1.740225937722015, + "learning_rate": 4.284695330287383e-06, + "loss": 0.5227, + "step": 5244 + }, + { + "avg_step_time": 5.78121356530623, + "epoch": 0.55936, + "eta_time": 6.6339425661888995, + "step": 5244 + }, + { + "epoch": 0.5594666666666667, + "grad_norm": 1.8094449835820654, + "learning_rate": 4.282985663422292e-06, + "loss": 0.5237, + "step": 5245 + }, + { + "avg_step_time": 5.785037493464922, + "epoch": 0.5594666666666667, + "eta_time": 6.636723568891703, + "step": 5245 + }, + { + "epoch": 0.5595733333333334, + "grad_norm": 1.842422155002838, + "learning_rate": 4.281276082145268e-06, + "loss": 0.4583, + "step": 5246 + }, + { + "avg_step_time": 5.780107912391123, + "epoch": 0.5595733333333334, + "eta_time": 6.629462658406373, + "step": 5246 + }, + { + "epoch": 0.55968, + "grad_norm": 1.7567143542863422, + "learning_rate": 4.279566586660375e-06, + "loss": 0.4834, + "step": 5247 + }, + { + "avg_step_time": 5.778761861300228, + "epoch": 0.55968, + "eta_time": 6.626313600957595, + "step": 5247 + }, + { + "epoch": 0.5597866666666667, + "grad_norm": 1.8021684878838053, + "learning_rate": 4.27785717717167e-06, + "loss": 0.4968, + "step": 5248 + }, + { + "avg_step_time": 5.779961802742698, + "epoch": 0.5597866666666667, + "eta_time": 6.626083988866421, + "step": 5248 + }, + { + "epoch": 0.5598933333333334, + "grad_norm": 1.798834690622014, + "learning_rate": 4.276147853883203e-06, + "loss": 0.4649, + "step": 5249 + }, + { + "avg_step_time": 5.779645686197763, + "epoch": 0.5598933333333334, + "eta_time": 6.6241161392366585, + "step": 5249 + }, + { + "epoch": 0.56, + "grad_norm": 1.6748225572741107, + "learning_rate": 4.274438616999007e-06, + "loss": 0.5132, + "step": 5250 + }, + { + "avg_step_time": 5.770587810362228, + "epoch": 0.56, + "eta_time": 6.612131866040053, + "step": 5250 + }, + { + "epoch": 0.5601066666666666, + "grad_norm": 1.9533540420029478, + "learning_rate": 4.272729466723114e-06, + "loss": 0.4651, + "step": 5251 + }, + { + "avg_step_time": 5.805208338631524, + "epoch": 0.5601066666666666, + "eta_time": 6.650188663476779, + "step": 5251 + }, + { + "epoch": 0.5602133333333333, + "grad_norm": 1.7655109515518534, + "learning_rate": 4.271020403259539e-06, + "loss": 0.4667, + "step": 5252 + }, + { + "avg_step_time": 5.811522792084048, + "epoch": 0.5602133333333333, + "eta_time": 6.655807908822925, + "step": 5252 + }, + { + "epoch": 0.56032, + "grad_norm": 1.7895325867375895, + "learning_rate": 4.269311426812287e-06, + "loss": 0.4612, + "step": 5253 + }, + { + "avg_step_time": 5.811622333044958, + "epoch": 0.56032, + "eta_time": 6.654307571336477, + "step": 5253 + }, + { + "epoch": 0.5604266666666666, + "grad_norm": 0.6143380739838168, + "learning_rate": 4.2676025375853555e-06, + "loss": 0.4281, + "step": 5254 + }, + { + "avg_step_time": 5.778471816669811, + "epoch": 0.5604266666666666, + "eta_time": 6.614745099026747, + "step": 5254 + }, + { + "epoch": 0.5605333333333333, + "grad_norm": 1.9769815333190186, + "learning_rate": 4.265893735782729e-06, + "loss": 0.4713, + "step": 5255 + }, + { + "avg_step_time": 5.782024566573326, + "epoch": 0.5605333333333333, + "eta_time": 6.6172058928561395, + "step": 5255 + }, + { + "epoch": 0.56064, + "grad_norm": 1.7797087746264248, + "learning_rate": 4.264185021608382e-06, + "loss": 0.4933, + "step": 5256 + }, + { + "avg_step_time": 5.781677308708731, + "epoch": 0.56064, + "eta_time": 6.615202454047573, + "step": 5256 + }, + { + "epoch": 0.5607466666666666, + "grad_norm": 0.6884899323585392, + "learning_rate": 4.262476395266282e-06, + "loss": 0.4543, + "step": 5257 + }, + { + "avg_step_time": 5.7479577979656185, + "epoch": 0.5607466666666666, + "eta_time": 6.575025058895116, + "step": 5257 + }, + { + "epoch": 0.5608533333333333, + "grad_norm": 2.0207764085993993, + "learning_rate": 4.26076785696038e-06, + "loss": 0.468, + "step": 5258 + }, + { + "avg_step_time": 5.746394256148675, + "epoch": 0.5608533333333333, + "eta_time": 6.5716403201566935, + "step": 5258 + }, + { + "epoch": 0.56096, + "grad_norm": 2.1039331799421883, + "learning_rate": 4.259059406894619e-06, + "loss": 0.5494, + "step": 5259 + }, + { + "avg_step_time": 5.746815493612578, + "epoch": 0.56096, + "eta_time": 6.570525714363715, + "step": 5259 + }, + { + "epoch": 0.5610666666666667, + "grad_norm": 1.8396332819862802, + "learning_rate": 4.257351045272935e-06, + "loss": 0.5151, + "step": 5260 + }, + { + "avg_step_time": 5.745792798321657, + "epoch": 0.5610666666666667, + "eta_time": 6.567760379192672, + "step": 5260 + }, + { + "epoch": 0.5611733333333333, + "grad_norm": 1.7451378946044194, + "learning_rate": 4.255642772299249e-06, + "loss": 0.4553, + "step": 5261 + }, + { + "avg_step_time": 5.743881307467066, + "epoch": 0.5611733333333333, + "eta_time": 6.563979916366531, + "step": 5261 + }, + { + "epoch": 0.56128, + "grad_norm": 1.7315340059333049, + "learning_rate": 4.253934588177473e-06, + "loss": 0.5047, + "step": 5262 + }, + { + "avg_step_time": 5.743549980298437, + "epoch": 0.56128, + "eta_time": 6.562005852490964, + "step": 5262 + }, + { + "epoch": 0.5613866666666667, + "grad_norm": 0.6470386846762857, + "learning_rate": 4.25222649311151e-06, + "loss": 0.4231, + "step": 5263 + }, + { + "avg_step_time": 5.709867043928667, + "epoch": 0.5613866666666667, + "eta_time": 6.521937023509633, + "step": 5263 + }, + { + "epoch": 0.5614933333333333, + "grad_norm": 0.6408517602199661, + "learning_rate": 4.250518487305246e-06, + "loss": 0.4614, + "step": 5264 + }, + { + "avg_step_time": 5.6472714404867155, + "epoch": 0.5614933333333333, + "eta_time": 6.44887024773358, + "step": 5264 + }, + { + "epoch": 0.5616, + "grad_norm": 1.9282788870979883, + "learning_rate": 4.248810570962567e-06, + "loss": 0.4696, + "step": 5265 + }, + { + "avg_step_time": 5.750695129837653, + "epoch": 0.5616, + "eta_time": 6.5653769398979875, + "step": 5265 + }, + { + "epoch": 0.5617066666666667, + "grad_norm": 0.6628825952023969, + "learning_rate": 4.247102744287338e-06, + "loss": 0.45, + "step": 5266 + }, + { + "avg_step_time": 5.717747596779255, + "epoch": 0.5617066666666667, + "eta_time": 6.526173576434988, + "step": 5266 + }, + { + "epoch": 0.5618133333333334, + "grad_norm": 1.8009329194739385, + "learning_rate": 4.245395007483421e-06, + "loss": 0.4746, + "step": 5267 + }, + { + "avg_step_time": 5.7144149457565465, + "epoch": 0.5618133333333334, + "eta_time": 6.520782388102193, + "step": 5267 + }, + { + "epoch": 0.56192, + "grad_norm": 1.6305746497779066, + "learning_rate": 4.24368736075466e-06, + "loss": 0.4328, + "step": 5268 + }, + { + "avg_step_time": 5.690118589786568, + "epoch": 0.56192, + "eta_time": 6.491476957848176, + "step": 5268 + }, + { + "epoch": 0.5620266666666667, + "grad_norm": 2.1439791384747555, + "learning_rate": 4.241979804304894e-06, + "loss": 0.4741, + "step": 5269 + }, + { + "avg_step_time": 5.684600189478711, + "epoch": 0.5620266666666667, + "eta_time": 6.4836023272221075, + "step": 5269 + }, + { + "epoch": 0.5621333333333334, + "grad_norm": 2.244558564629208, + "learning_rate": 4.240272338337951e-06, + "loss": 0.49, + "step": 5270 + }, + { + "avg_step_time": 5.67901810491928, + "epoch": 0.5621333333333334, + "eta_time": 6.475658144637124, + "step": 5270 + }, + { + "epoch": 0.56224, + "grad_norm": 1.640979209183881, + "learning_rate": 4.238564963057646e-06, + "loss": 0.4707, + "step": 5271 + }, + { + "avg_step_time": 5.67891875421158, + "epoch": 0.56224, + "eta_time": 6.473967379801201, + "step": 5271 + }, + { + "epoch": 0.5623466666666667, + "grad_norm": 0.6398644192531612, + "learning_rate": 4.236857678667782e-06, + "loss": 0.4479, + "step": 5272 + }, + { + "avg_step_time": 5.644441732252487, + "epoch": 0.5623466666666667, + "eta_time": 6.433095674286654, + "step": 5272 + }, + { + "epoch": 0.5624533333333334, + "grad_norm": 1.401885490578745, + "learning_rate": 4.2351504853721545e-06, + "loss": 0.454, + "step": 5273 + }, + { + "avg_step_time": 5.640784600768426, + "epoch": 0.5624533333333334, + "eta_time": 6.427360675653357, + "step": 5273 + }, + { + "epoch": 0.56256, + "grad_norm": 1.762460983058254, + "learning_rate": 4.233443383374545e-06, + "loss": 0.4423, + "step": 5274 + }, + { + "avg_step_time": 5.673603110843235, + "epoch": 0.56256, + "eta_time": 6.463179543768919, + "step": 5274 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 2.0445456939872924, + "learning_rate": 4.231736372878726e-06, + "loss": 0.4607, + "step": 5275 + }, + { + "avg_step_time": 5.672107366600422, + "epoch": 0.5626666666666666, + "eta_time": 6.459900056406036, + "step": 5275 + }, + { + "epoch": 0.5627733333333333, + "grad_norm": 1.6336011793663034, + "learning_rate": 4.230029454088461e-06, + "loss": 0.4422, + "step": 5276 + }, + { + "avg_step_time": 5.67068719141411, + "epoch": 0.5627733333333333, + "eta_time": 6.456707443779566, + "step": 5276 + }, + { + "epoch": 0.56288, + "grad_norm": 1.8296066138531752, + "learning_rate": 4.228322627207499e-06, + "loss": 0.4602, + "step": 5277 + }, + { + "avg_step_time": 5.668745500872833, + "epoch": 0.56288, + "eta_time": 6.452921961826909, + "step": 5277 + }, + { + "epoch": 0.5629866666666666, + "grad_norm": 1.942307357796919, + "learning_rate": 4.2266158924395796e-06, + "loss": 0.452, + "step": 5278 + }, + { + "avg_step_time": 5.664170036412249, + "epoch": 0.5629866666666666, + "eta_time": 6.446140177550273, + "step": 5278 + }, + { + "epoch": 0.5630933333333333, + "grad_norm": 1.8318320159151649, + "learning_rate": 4.224909249988427e-06, + "loss": 0.4127, + "step": 5279 + }, + { + "avg_step_time": 5.663888750654278, + "epoch": 0.5630933333333333, + "eta_time": 6.444246756299979, + "step": 5279 + }, + { + "epoch": 0.5632, + "grad_norm": 2.0259258512198213, + "learning_rate": 4.223202700057765e-06, + "loss": 0.529, + "step": 5280 + }, + { + "avg_step_time": 5.664837093064279, + "epoch": 0.5632, + "eta_time": 6.443752193360618, + "step": 5280 + }, + { + "epoch": 0.5633066666666666, + "grad_norm": 0.6541788620468065, + "learning_rate": 4.221496242851296e-06, + "loss": 0.43, + "step": 5281 + }, + { + "avg_step_time": 5.628474312599259, + "epoch": 0.5633066666666666, + "eta_time": 6.400826065494824, + "step": 5281 + }, + { + "epoch": 0.5634133333333333, + "grad_norm": 1.3101917021073175, + "learning_rate": 4.219789878572717e-06, + "loss": 0.4188, + "step": 5282 + }, + { + "avg_step_time": 5.59379559815532, + "epoch": 0.5634133333333333, + "eta_time": 6.35983482868048, + "step": 5282 + }, + { + "epoch": 0.56352, + "grad_norm": 1.9633817844667711, + "learning_rate": 4.21808360742571e-06, + "loss": 0.4806, + "step": 5283 + }, + { + "avg_step_time": 5.65438309582797, + "epoch": 0.56352, + "eta_time": 6.427148785591125, + "step": 5283 + }, + { + "epoch": 0.5636266666666667, + "grad_norm": 1.6708058181781043, + "learning_rate": 4.2163774296139474e-06, + "loss": 0.4557, + "step": 5284 + }, + { + "avg_step_time": 5.652494452216408, + "epoch": 0.5636266666666667, + "eta_time": 6.423431890004813, + "step": 5284 + }, + { + "epoch": 0.5637333333333333, + "grad_norm": 1.7861958692897981, + "learning_rate": 4.214671345341096e-06, + "loss": 0.5215, + "step": 5285 + }, + { + "avg_step_time": 5.667706713531956, + "epoch": 0.5637333333333333, + "eta_time": 6.439144571762695, + "step": 5285 + }, + { + "epoch": 0.56384, + "grad_norm": 0.6371014167651801, + "learning_rate": 4.212965354810802e-06, + "loss": 0.4612, + "step": 5286 + }, + { + "avg_step_time": 5.631375088836208, + "epoch": 0.56384, + "eta_time": 6.396303538403126, + "step": 5286 + }, + { + "epoch": 0.5639466666666667, + "grad_norm": 0.663902254068992, + "learning_rate": 4.211259458226706e-06, + "loss": 0.4361, + "step": 5287 + }, + { + "avg_step_time": 5.6008042253629124, + "epoch": 0.5639466666666667, + "eta_time": 6.360024353689885, + "step": 5287 + }, + { + "epoch": 0.5640533333333333, + "grad_norm": 1.7127576005955614, + "learning_rate": 4.209553655792436e-06, + "loss": 0.4598, + "step": 5288 + }, + { + "avg_step_time": 5.612981618052781, + "epoch": 0.5640533333333333, + "eta_time": 6.372293298050477, + "step": 5288 + }, + { + "epoch": 0.56416, + "grad_norm": 1.9136117523807572, + "learning_rate": 4.207847947711609e-06, + "loss": 0.5618, + "step": 5289 + }, + { + "avg_step_time": 5.618548735223635, + "epoch": 0.56416, + "eta_time": 6.3770528144788265, + "step": 5289 + }, + { + "epoch": 0.5642666666666667, + "grad_norm": 2.002998086688145, + "learning_rate": 4.206142334187832e-06, + "loss": 0.554, + "step": 5290 + }, + { + "avg_step_time": 5.610130353407427, + "epoch": 0.5642666666666667, + "eta_time": 6.365939581574816, + "step": 5290 + }, + { + "epoch": 0.5643733333333333, + "grad_norm": 1.8461446340929046, + "learning_rate": 4.204436815424699e-06, + "loss": 0.5074, + "step": 5291 + }, + { + "avg_step_time": 5.615098955655339, + "epoch": 0.5643733333333333, + "eta_time": 6.370017815249001, + "step": 5291 + }, + { + "epoch": 0.56448, + "grad_norm": 0.642686027119575, + "learning_rate": 4.202731391625793e-06, + "loss": 0.4582, + "step": 5292 + }, + { + "avg_step_time": 5.602026409573025, + "epoch": 0.56448, + "eta_time": 6.353631619524072, + "step": 5292 + }, + { + "epoch": 0.5645866666666667, + "grad_norm": 1.786101033646903, + "learning_rate": 4.201026062994684e-06, + "loss": 0.4809, + "step": 5293 + }, + { + "avg_step_time": 5.602014348964499, + "epoch": 0.5645866666666667, + "eta_time": 6.352061825686968, + "step": 5293 + }, + { + "epoch": 0.5646933333333334, + "grad_norm": 1.8134651083424909, + "learning_rate": 4.199320829734934e-06, + "loss": 0.4927, + "step": 5294 + }, + { + "avg_step_time": 5.603450652324792, + "epoch": 0.5646933333333334, + "eta_time": 6.352133920038188, + "step": 5294 + }, + { + "epoch": 0.5648, + "grad_norm": 1.9243598238430846, + "learning_rate": 4.1976156920500935e-06, + "loss": 0.434, + "step": 5295 + }, + { + "avg_step_time": 5.644340883601796, + "epoch": 0.5648, + "eta_time": 6.396919668082035, + "step": 5295 + }, + { + "epoch": 0.5649066666666667, + "grad_norm": 0.6492812411093475, + "learning_rate": 4.1959106501436985e-06, + "loss": 0.4443, + "step": 5296 + }, + { + "avg_step_time": 5.610783227766403, + "epoch": 0.5649066666666667, + "eta_time": 6.357329107238654, + "step": 5296 + }, + { + "epoch": 0.5650133333333334, + "grad_norm": 2.2197524181667907, + "learning_rate": 4.194205704219276e-06, + "loss": 0.6429, + "step": 5297 + }, + { + "avg_step_time": 5.506036267136082, + "epoch": 0.5650133333333334, + "eta_time": 6.237115527050262, + "step": 5297 + }, + { + "epoch": 0.56512, + "grad_norm": 1.4444633186995146, + "learning_rate": 4.19250085448034e-06, + "loss": 0.4093, + "step": 5298 + }, + { + "avg_step_time": 5.501598078795154, + "epoch": 0.56512, + "eta_time": 6.230559824235511, + "step": 5298 + }, + { + "epoch": 0.5652266666666667, + "grad_norm": 2.036400981871531, + "learning_rate": 4.190796101130392e-06, + "loss": 0.5554, + "step": 5299 + }, + { + "avg_step_time": 5.50417955716451, + "epoch": 0.5652266666666667, + "eta_time": 6.231954409722928, + "step": 5299 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 1.932426433426067, + "learning_rate": 4.189091444372928e-06, + "loss": 0.5109, + "step": 5300 + }, + { + "avg_step_time": 5.532320179120458, + "epoch": 0.5653333333333334, + "eta_time": 6.262279091643297, + "step": 5300 + }, + { + "epoch": 0.56544, + "grad_norm": 1.8034638700454253, + "learning_rate": 4.187386884411426e-06, + "loss": 0.561, + "step": 5301 + }, + { + "avg_step_time": 5.532651773606888, + "epoch": 0.56544, + "eta_time": 6.261117590465128, + "step": 5301 + }, + { + "epoch": 0.5655466666666666, + "grad_norm": 1.7632597121318019, + "learning_rate": 4.185682421449356e-06, + "loss": 0.4513, + "step": 5302 + }, + { + "avg_step_time": 5.550130916364266, + "epoch": 0.5655466666666666, + "eta_time": 6.279356450653237, + "step": 5302 + }, + { + "epoch": 0.5656533333333333, + "grad_norm": 2.056922130661601, + "learning_rate": 4.1839780556901716e-06, + "loss": 0.4889, + "step": 5303 + }, + { + "avg_step_time": 5.5705314573615485, + "epoch": 0.5656533333333333, + "eta_time": 6.300890026215618, + "step": 5303 + }, + { + "epoch": 0.56576, + "grad_norm": 1.8287167293895479, + "learning_rate": 4.182273787337323e-06, + "loss": 0.5165, + "step": 5304 + }, + { + "avg_step_time": 5.569660822550456, + "epoch": 0.56576, + "eta_time": 6.298358113500807, + "step": 5304 + }, + { + "epoch": 0.5658666666666666, + "grad_norm": 1.7443600920661488, + "learning_rate": 4.180569616594242e-06, + "loss": 0.5307, + "step": 5305 + }, + { + "avg_step_time": 5.576257231259587, + "epoch": 0.5658666666666666, + "eta_time": 6.304268592007366, + "step": 5305 + }, + { + "epoch": 0.5659733333333333, + "grad_norm": 2.287074576096073, + "learning_rate": 4.17886554366435e-06, + "loss": 0.6301, + "step": 5306 + }, + { + "avg_step_time": 5.639837361345387, + "epoch": 0.5659733333333333, + "eta_time": 6.37458283980955, + "step": 5306 + }, + { + "epoch": 0.56608, + "grad_norm": 1.6178188527848785, + "learning_rate": 4.177161568751058e-06, + "loss": 0.4705, + "step": 5307 + }, + { + "avg_step_time": 5.672131942980217, + "epoch": 0.56608, + "eta_time": 6.409509095567645, + "step": 5307 + }, + { + "epoch": 0.5661866666666666, + "grad_norm": 1.734368994236022, + "learning_rate": 4.175457692057765e-06, + "loss": 0.3803, + "step": 5308 + }, + { + "avg_step_time": 5.674994042425444, + "epoch": 0.5661866666666666, + "eta_time": 6.411166880706745, + "step": 5308 + }, + { + "epoch": 0.5662933333333333, + "grad_norm": 2.162927842675569, + "learning_rate": 4.173753913787859e-06, + "loss": 0.588, + "step": 5309 + }, + { + "avg_step_time": 5.677017517764159, + "epoch": 0.5662933333333333, + "eta_time": 6.4118758964525195, + "step": 5309 + }, + { + "epoch": 0.5664, + "grad_norm": 0.6422936944344726, + "learning_rate": 4.172050234144716e-06, + "loss": 0.426, + "step": 5310 + }, + { + "avg_step_time": 5.64381097783946, + "epoch": 0.5664, + "eta_time": 6.372803229143724, + "step": 5310 + }, + { + "epoch": 0.5665066666666667, + "grad_norm": 1.7221492980078268, + "learning_rate": 4.1703466533316975e-06, + "loss": 0.4641, + "step": 5311 + }, + { + "avg_step_time": 5.665905294996319, + "epoch": 0.5665066666666667, + "eta_time": 6.396177533018068, + "step": 5311 + }, + { + "epoch": 0.5666133333333333, + "grad_norm": 1.7657875497900564, + "learning_rate": 4.168643171552156e-06, + "loss": 0.4042, + "step": 5312 + }, + { + "avg_step_time": 5.666120717019746, + "epoch": 0.5666133333333333, + "eta_time": 6.394846798125341, + "step": 5312 + }, + { + "epoch": 0.56672, + "grad_norm": 1.767999492099267, + "learning_rate": 4.16693978900943e-06, + "loss": 0.4724, + "step": 5313 + }, + { + "avg_step_time": 5.6712256031807025, + "epoch": 0.56672, + "eta_time": 6.3990328889222265, + "step": 5313 + }, + { + "epoch": 0.5668266666666667, + "grad_norm": 1.9814484711507383, + "learning_rate": 4.165236505906851e-06, + "loss": 0.5163, + "step": 5314 + }, + { + "avg_step_time": 5.695048765702681, + "epoch": 0.5668266666666667, + "eta_time": 6.424331399310718, + "step": 5314 + }, + { + "epoch": 0.5669333333333333, + "grad_norm": 1.6076318858504797, + "learning_rate": 4.163533322447734e-06, + "loss": 0.4597, + "step": 5315 + }, + { + "avg_step_time": 5.728166252675683, + "epoch": 0.5669333333333333, + "eta_time": 6.460098607184242, + "step": 5315 + }, + { + "epoch": 0.56704, + "grad_norm": 1.8381046577182825, + "learning_rate": 4.161830238835386e-06, + "loss": 0.4479, + "step": 5316 + }, + { + "avg_step_time": 5.731566501386238, + "epoch": 0.56704, + "eta_time": 6.462341230312983, + "step": 5316 + }, + { + "epoch": 0.5671466666666667, + "grad_norm": 1.7771880868373227, + "learning_rate": 4.160127255273093e-06, + "loss": 0.4294, + "step": 5317 + }, + { + "avg_step_time": 5.738572679384791, + "epoch": 0.5671466666666667, + "eta_time": 6.468646648039855, + "step": 5317 + }, + { + "epoch": 0.5672533333333334, + "grad_norm": 1.8945725442848198, + "learning_rate": 4.158424371964139e-06, + "loss": 0.4661, + "step": 5318 + }, + { + "avg_step_time": 5.73647831907176, + "epoch": 0.5672533333333334, + "eta_time": 6.464692372353925, + "step": 5318 + }, + { + "epoch": 0.56736, + "grad_norm": 1.574985617930084, + "learning_rate": 4.156721589111794e-06, + "loss": 0.479, + "step": 5319 + }, + { + "avg_step_time": 5.73485569761257, + "epoch": 0.56736, + "eta_time": 6.461270752643495, + "step": 5319 + }, + { + "epoch": 0.5674666666666667, + "grad_norm": 1.799969937512356, + "learning_rate": 4.1550189069193134e-06, + "loss": 0.522, + "step": 5320 + }, + { + "avg_step_time": 5.759014543860849, + "epoch": 0.5674666666666667, + "eta_time": 6.486889993154373, + "step": 5320 + }, + { + "epoch": 0.5675733333333334, + "grad_norm": 1.6707478806752638, + "learning_rate": 4.153316325589941e-06, + "loss": 0.4566, + "step": 5321 + }, + { + "avg_step_time": 5.76757479195643, + "epoch": 0.5675733333333334, + "eta_time": 6.494930057386491, + "step": 5321 + }, + { + "epoch": 0.56768, + "grad_norm": 2.0176986186577337, + "learning_rate": 4.151613845326912e-06, + "loss": 0.5466, + "step": 5322 + }, + { + "avg_step_time": 5.762922660268918, + "epoch": 0.56768, + "eta_time": 6.488090428352757, + "step": 5322 + }, + { + "epoch": 0.5677866666666667, + "grad_norm": 1.9354971177511824, + "learning_rate": 4.149911466333441e-06, + "loss": 0.5351, + "step": 5323 + }, + { + "avg_step_time": 5.763516187667847, + "epoch": 0.5677866666666667, + "eta_time": 6.487157664563921, + "step": 5323 + }, + { + "epoch": 0.5678933333333334, + "grad_norm": 2.9343422044575203, + "learning_rate": 4.1482091888127444e-06, + "loss": 0.4724, + "step": 5324 + }, + { + "avg_step_time": 5.763040595584446, + "epoch": 0.5678933333333334, + "eta_time": 6.485021514642386, + "step": 5324 + }, + { + "epoch": 0.568, + "grad_norm": 1.983849632581401, + "learning_rate": 4.146507012968013e-06, + "loss": 0.4976, + "step": 5325 + }, + { + "avg_step_time": 5.761206600401136, + "epoch": 0.568, + "eta_time": 6.481357425451279, + "step": 5325 + }, + { + "epoch": 0.5681066666666666, + "grad_norm": 1.8769605107130258, + "learning_rate": 4.144804939002432e-06, + "loss": 0.5775, + "step": 5326 + }, + { + "avg_step_time": 5.640479564666748, + "epoch": 0.5681066666666666, + "eta_time": 6.343972710371017, + "step": 5326 + }, + { + "epoch": 0.5682133333333333, + "grad_norm": 1.9968909250221896, + "learning_rate": 4.143102967119173e-06, + "loss": 0.5318, + "step": 5327 + }, + { + "avg_step_time": 5.686165154582322, + "epoch": 0.5682133333333333, + "eta_time": 6.393776818263677, + "step": 5327 + }, + { + "epoch": 0.56832, + "grad_norm": 1.588046893567044, + "learning_rate": 4.141401097521396e-06, + "loss": 0.55, + "step": 5328 + }, + { + "avg_step_time": 5.689317573200572, + "epoch": 0.56832, + "eta_time": 6.395741171872977, + "step": 5328 + }, + { + "epoch": 0.5684266666666666, + "grad_norm": 1.902980605753584, + "learning_rate": 4.13969933041225e-06, + "loss": 0.5539, + "step": 5329 + }, + { + "avg_step_time": 5.681385430422696, + "epoch": 0.5684266666666666, + "eta_time": 6.385245958747286, + "step": 5329 + }, + { + "epoch": 0.5685333333333333, + "grad_norm": 1.5121800095586415, + "learning_rate": 4.137997665994871e-06, + "loss": 0.4258, + "step": 5330 + }, + { + "avg_step_time": 5.681218436270049, + "epoch": 0.5685333333333333, + "eta_time": 6.383480159642319, + "step": 5330 + }, + { + "epoch": 0.56864, + "grad_norm": 2.037811941455646, + "learning_rate": 4.136296104472378e-06, + "loss": 0.5387, + "step": 5331 + }, + { + "avg_step_time": 5.682831913533837, + "epoch": 0.56864, + "eta_time": 6.3837145162030104, + "step": 5331 + }, + { + "epoch": 0.5687466666666666, + "grad_norm": 1.6069410914456133, + "learning_rate": 4.134594646047886e-06, + "loss": 0.3653, + "step": 5332 + }, + { + "avg_step_time": 5.685599435459483, + "epoch": 0.5687466666666666, + "eta_time": 6.385244032656303, + "step": 5332 + }, + { + "epoch": 0.5688533333333333, + "grad_norm": 1.8955119443543706, + "learning_rate": 4.13289329092449e-06, + "loss": 0.5704, + "step": 5333 + }, + { + "avg_step_time": 5.686969819695059, + "epoch": 0.5688533333333333, + "eta_time": 6.385203336446508, + "step": 5333 + }, + { + "epoch": 0.56896, + "grad_norm": 2.179106430090959, + "learning_rate": 4.131192039305278e-06, + "loss": 0.4872, + "step": 5334 + }, + { + "avg_step_time": 5.6911340458224515, + "epoch": 0.56896, + "eta_time": 6.388297966435702, + "step": 5334 + }, + { + "epoch": 0.5690666666666667, + "grad_norm": 1.765978452221394, + "learning_rate": 4.129490891393325e-06, + "loss": 0.5243, + "step": 5335 + }, + { + "avg_step_time": 5.691835687618063, + "epoch": 0.5690666666666667, + "eta_time": 6.387504493882493, + "step": 5335 + }, + { + "epoch": 0.5691733333333333, + "grad_norm": 1.7415103698114491, + "learning_rate": 4.127789847391692e-06, + "loss": 0.4295, + "step": 5336 + }, + { + "avg_step_time": 5.694849204535436, + "epoch": 0.5691733333333333, + "eta_time": 6.389304426977397, + "step": 5336 + }, + { + "epoch": 0.56928, + "grad_norm": 0.6690674966282719, + "learning_rate": 4.1260889075034254e-06, + "loss": 0.4561, + "step": 5337 + }, + { + "avg_step_time": 5.665475669533316, + "epoch": 0.56928, + "eta_time": 6.354775209326536, + "step": 5337 + }, + { + "epoch": 0.5693866666666667, + "grad_norm": 1.686852867810426, + "learning_rate": 4.124388071931563e-06, + "loss": 0.4819, + "step": 5338 + }, + { + "avg_step_time": 5.663583266614664, + "epoch": 0.5693866666666667, + "eta_time": 6.351079346478722, + "step": 5338 + }, + { + "epoch": 0.5694933333333333, + "grad_norm": 0.6342128408247214, + "learning_rate": 4.122687340879131e-06, + "loss": 0.4181, + "step": 5339 + }, + { + "avg_step_time": 5.625568293561839, + "epoch": 0.5694933333333333, + "eta_time": 6.306887120226551, + "step": 5339 + }, + { + "epoch": 0.5696, + "grad_norm": 1.874656414742722, + "learning_rate": 4.120986714549139e-06, + "loss": 0.4481, + "step": 5340 + }, + { + "avg_step_time": 5.651300153346977, + "epoch": 0.5696, + "eta_time": 6.33416558854307, + "step": 5340 + }, + { + "epoch": 0.5697066666666667, + "grad_norm": 1.8481672052212257, + "learning_rate": 4.119286193144587e-06, + "loss": 0.5346, + "step": 5341 + }, + { + "avg_step_time": 5.65008725060357, + "epoch": 0.5697066666666667, + "eta_time": 6.331236658037445, + "step": 5341 + }, + { + "epoch": 0.5698133333333333, + "grad_norm": 2.06837513616586, + "learning_rate": 4.1175857768684614e-06, + "loss": 0.5626, + "step": 5342 + }, + { + "avg_step_time": 5.660699637249262, + "epoch": 0.5698133333333333, + "eta_time": 6.3415560102850765, + "step": 5342 + }, + { + "epoch": 0.56992, + "grad_norm": 1.8439250587139406, + "learning_rate": 4.115885465923734e-06, + "loss": 0.5404, + "step": 5343 + }, + { + "avg_step_time": 5.649033385093766, + "epoch": 0.56992, + "eta_time": 6.326917391305018, + "step": 5343 + }, + { + "epoch": 0.5700266666666667, + "grad_norm": 1.6569882920882302, + "learning_rate": 4.114185260513371e-06, + "loss": 0.4477, + "step": 5344 + }, + { + "avg_step_time": 5.643546126105568, + "epoch": 0.5700266666666667, + "eta_time": 6.3192040095365405, + "step": 5344 + }, + { + "epoch": 0.5701333333333334, + "grad_norm": 1.574115246725941, + "learning_rate": 4.11248516084032e-06, + "loss": 0.512, + "step": 5345 + }, + { + "avg_step_time": 5.644023536431669, + "epoch": 0.5701333333333334, + "eta_time": 6.3181707921721175, + "step": 5345 + }, + { + "epoch": 0.57024, + "grad_norm": 1.6183901158251066, + "learning_rate": 4.110785167107514e-06, + "loss": 0.4327, + "step": 5346 + }, + { + "avg_step_time": 5.646893368826972, + "epoch": 0.57024, + "eta_time": 6.319814828612187, + "step": 5346 + }, + { + "epoch": 0.5703466666666667, + "grad_norm": 1.9402814749065196, + "learning_rate": 4.109085279517878e-06, + "loss": 0.5156, + "step": 5347 + }, + { + "avg_step_time": 5.6553225252363415, + "epoch": 0.5703466666666667, + "eta_time": 6.327677536569995, + "step": 5347 + }, + { + "epoch": 0.5704533333333334, + "grad_norm": 2.034230155336728, + "learning_rate": 4.1073854982743256e-06, + "loss": 0.4633, + "step": 5348 + }, + { + "avg_step_time": 5.65410030731047, + "epoch": 0.5704533333333334, + "eta_time": 6.32473942709424, + "step": 5348 + }, + { + "epoch": 0.57056, + "grad_norm": 1.6952689594106984, + "learning_rate": 4.1056858235797545e-06, + "loss": 0.4982, + "step": 5349 + }, + { + "avg_step_time": 5.6493841542137995, + "epoch": 0.57056, + "eta_time": 6.317894612462433, + "step": 5349 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 1.8956133083233915, + "learning_rate": 4.103986255637048e-06, + "loss": 0.5125, + "step": 5350 + }, + { + "avg_step_time": 5.650009268462056, + "epoch": 0.5706666666666667, + "eta_time": 6.317024251544382, + "step": 5350 + }, + { + "epoch": 0.5707733333333334, + "grad_norm": 1.6080992698157115, + "learning_rate": 4.1022867946490795e-06, + "loss": 0.4771, + "step": 5351 + }, + { + "avg_step_time": 5.644231078600643, + "epoch": 0.5707733333333334, + "eta_time": 6.308996072302497, + "step": 5351 + }, + { + "epoch": 0.57088, + "grad_norm": 1.7399843961042398, + "learning_rate": 4.100587440818709e-06, + "loss": 0.5113, + "step": 5352 + }, + { + "avg_step_time": 5.647690233558115, + "epoch": 0.57088, + "eta_time": 6.311293836001194, + "step": 5352 + }, + { + "epoch": 0.5709866666666666, + "grad_norm": 1.7553835088229235, + "learning_rate": 4.098888194348785e-06, + "loss": 0.529, + "step": 5353 + }, + { + "avg_step_time": 5.679382362751046, + "epoch": 0.5709866666666666, + "eta_time": 6.345132184162418, + "step": 5353 + }, + { + "epoch": 0.5710933333333333, + "grad_norm": 1.7070391455764757, + "learning_rate": 4.097189055442142e-06, + "loss": 0.6162, + "step": 5354 + }, + { + "avg_step_time": 5.675670985019568, + "epoch": 0.5710933333333333, + "eta_time": 6.339409175212134, + "step": 5354 + }, + { + "epoch": 0.5712, + "grad_norm": 1.794519734830796, + "learning_rate": 4.0954900243016016e-06, + "loss": 0.5403, + "step": 5355 + }, + { + "avg_step_time": 5.685061946059719, + "epoch": 0.5712, + "eta_time": 6.348319173100019, + "step": 5355 + }, + { + "epoch": 0.5713066666666666, + "grad_norm": 1.5078362201504332, + "learning_rate": 4.093791101129972e-06, + "loss": 0.4244, + "step": 5356 + }, + { + "avg_step_time": 5.775659751410436, + "epoch": 0.5713066666666666, + "eta_time": 6.447882372477373, + "step": 5356 + }, + { + "epoch": 0.5714133333333333, + "grad_norm": 1.7581668033142874, + "learning_rate": 4.092092286130046e-06, + "loss": 0.5404, + "step": 5357 + }, + { + "avg_step_time": 5.803263276514381, + "epoch": 0.5714133333333333, + "eta_time": 6.477086623620772, + "step": 5357 + }, + { + "epoch": 0.57152, + "grad_norm": 1.6952004205133293, + "learning_rate": 4.090393579504612e-06, + "loss": 0.5358, + "step": 5358 + }, + { + "avg_step_time": 5.804376012147075, + "epoch": 0.57152, + "eta_time": 6.476716233554111, + "step": 5358 + }, + { + "epoch": 0.5716266666666666, + "grad_norm": 1.7236519399134318, + "learning_rate": 4.088694981456437e-06, + "loss": 0.4812, + "step": 5359 + }, + { + "avg_step_time": 5.805722503951102, + "epoch": 0.5716266666666666, + "eta_time": 6.476605993296562, + "step": 5359 + }, + { + "epoch": 0.5717333333333333, + "grad_norm": 1.7122013415043138, + "learning_rate": 4.086996492188279e-06, + "loss": 0.5709, + "step": 5360 + }, + { + "avg_step_time": 5.821863725931958, + "epoch": 0.5717333333333333, + "eta_time": 6.492995238782448, + "step": 5360 + }, + { + "epoch": 0.57184, + "grad_norm": 1.985945305076025, + "learning_rate": 4.085298111902882e-06, + "loss": 0.5729, + "step": 5361 + }, + { + "avg_step_time": 5.818651370327882, + "epoch": 0.57184, + "eta_time": 6.487796277915589, + "step": 5361 + }, + { + "epoch": 0.5719466666666667, + "grad_norm": 1.7608180082667266, + "learning_rate": 4.083599840802974e-06, + "loss": 0.5089, + "step": 5362 + }, + { + "avg_step_time": 5.852496385574341, + "epoch": 0.5719466666666667, + "eta_time": 6.523907776474953, + "step": 5362 + }, + { + "epoch": 0.5720533333333333, + "grad_norm": 0.6463772797820588, + "learning_rate": 4.081901679091279e-06, + "loss": 0.4092, + "step": 5363 + }, + { + "avg_step_time": 5.853389034367571, + "epoch": 0.5720533333333333, + "eta_time": 6.523276890522971, + "step": 5363 + }, + { + "epoch": 0.57216, + "grad_norm": 0.6324638809014977, + "learning_rate": 4.080203626970498e-06, + "loss": 0.4383, + "step": 5364 + }, + { + "avg_step_time": 5.7651965618133545, + "epoch": 0.57216, + "eta_time": 6.423389835953713, + "step": 5364 + }, + { + "epoch": 0.5722666666666667, + "grad_norm": 1.8357926400546065, + "learning_rate": 4.078505684643323e-06, + "loss": 0.5134, + "step": 5365 + }, + { + "avg_step_time": 5.797169235017565, + "epoch": 0.5722666666666667, + "eta_time": 6.457402397894565, + "step": 5365 + }, + { + "epoch": 0.5723733333333333, + "grad_norm": 1.794192741960668, + "learning_rate": 4.076807852312434e-06, + "loss": 0.4355, + "step": 5366 + }, + { + "avg_step_time": 5.796568711598714, + "epoch": 0.5723733333333333, + "eta_time": 6.455123323555346, + "step": 5366 + }, + { + "epoch": 0.57248, + "grad_norm": 1.9380688335517011, + "learning_rate": 4.0751101301804945e-06, + "loss": 0.4361, + "step": 5367 + }, + { + "avg_step_time": 5.795639093476113, + "epoch": 0.57248, + "eta_time": 6.452478190736739, + "step": 5367 + }, + { + "epoch": 0.5725866666666667, + "grad_norm": 1.7905241879785323, + "learning_rate": 4.0734125184501605e-06, + "loss": 0.4259, + "step": 5368 + }, + { + "avg_step_time": 5.798874351713392, + "epoch": 0.5725866666666667, + "eta_time": 6.454469313143211, + "step": 5368 + }, + { + "epoch": 0.5726933333333334, + "grad_norm": 1.4275394521556544, + "learning_rate": 4.07171501732407e-06, + "loss": 0.4739, + "step": 5369 + }, + { + "avg_step_time": 5.796875683948247, + "epoch": 0.5726933333333334, + "eta_time": 6.450634441637966, + "step": 5369 + }, + { + "epoch": 0.5728, + "grad_norm": 1.926741294754767, + "learning_rate": 4.070017627004847e-06, + "loss": 0.5511, + "step": 5370 + }, + { + "avg_step_time": 5.800365623801645, + "epoch": 0.5728, + "eta_time": 6.45290675647933, + "step": 5370 + }, + { + "epoch": 0.5729066666666667, + "grad_norm": 1.819043676696803, + "learning_rate": 4.0683203476951065e-06, + "loss": 0.5131, + "step": 5371 + }, + { + "avg_step_time": 5.836825040855793, + "epoch": 0.5729066666666667, + "eta_time": 6.4918465176629425, + "step": 5371 + }, + { + "epoch": 0.5730133333333334, + "grad_norm": 1.7252282481313945, + "learning_rate": 4.066623179597447e-06, + "loss": 0.5649, + "step": 5372 + }, + { + "avg_step_time": 5.834769610202674, + "epoch": 0.5730133333333334, + "eta_time": 6.48793965267814, + "step": 5372 + }, + { + "epoch": 0.57312, + "grad_norm": 0.6495978361076893, + "learning_rate": 4.0649261229144554e-06, + "loss": 0.4405, + "step": 5373 + }, + { + "avg_step_time": 5.797211288201688, + "epoch": 0.57312, + "eta_time": 6.444566548717543, + "step": 5373 + }, + { + "epoch": 0.5732266666666667, + "grad_norm": 0.6509280529188208, + "learning_rate": 4.063229177848706e-06, + "loss": 0.4455, + "step": 5374 + }, + { + "avg_step_time": 5.785625638383808, + "epoch": 0.5732266666666667, + "eta_time": 6.4300800497704484, + "step": 5374 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 1.7173101510351403, + "learning_rate": 4.061532344602757e-06, + "loss": 0.4727, + "step": 5375 + }, + { + "avg_step_time": 5.798184033596154, + "epoch": 0.5733333333333334, + "eta_time": 6.442426703995727, + "step": 5375 + }, + { + "epoch": 0.57344, + "grad_norm": 1.6525086381303913, + "learning_rate": 4.059835623379155e-06, + "loss": 0.5093, + "step": 5376 + }, + { + "avg_step_time": 5.798590508374301, + "epoch": 0.57344, + "eta_time": 6.441267623052453, + "step": 5376 + }, + { + "epoch": 0.5735466666666666, + "grad_norm": 1.9510896829557995, + "learning_rate": 4.058139014380432e-06, + "loss": 0.5276, + "step": 5377 + }, + { + "avg_step_time": 5.801876205386537, + "epoch": 0.5735466666666666, + "eta_time": 6.443305852537605, + "step": 5377 + }, + { + "epoch": 0.5736533333333333, + "grad_norm": 1.7592397556849972, + "learning_rate": 4.056442517809109e-06, + "loss": 0.4455, + "step": 5378 + }, + { + "avg_step_time": 5.8082579868008395, + "epoch": 0.5736533333333333, + "eta_time": 6.448779770345266, + "step": 5378 + }, + { + "epoch": 0.57376, + "grad_norm": 1.865856826712245, + "learning_rate": 4.054746133867693e-06, + "loss": 0.5025, + "step": 5379 + }, + { + "avg_step_time": 5.824998060862224, + "epoch": 0.57376, + "eta_time": 6.4657478475570676, + "step": 5379 + }, + { + "epoch": 0.5738666666666666, + "grad_norm": 1.7268552537003412, + "learning_rate": 4.053049862758675e-06, + "loss": 0.5356, + "step": 5380 + }, + { + "avg_step_time": 5.891550786567457, + "epoch": 0.5738666666666666, + "eta_time": 6.53798483120472, + "step": 5380 + }, + { + "epoch": 0.5739733333333333, + "grad_norm": 1.7059712686335788, + "learning_rate": 4.051353704684538e-06, + "loss": 0.4288, + "step": 5381 + }, + { + "avg_step_time": 5.8944443620816624, + "epoch": 0.5739733333333333, + "eta_time": 6.539558550598377, + "step": 5381 + }, + { + "epoch": 0.57408, + "grad_norm": 1.8631853218501753, + "learning_rate": 4.0496576598477396e-06, + "loss": 0.4968, + "step": 5382 + }, + { + "avg_step_time": 5.823294165158512, + "epoch": 0.57408, + "eta_time": 6.4590037781883165, + "step": 5382 + }, + { + "epoch": 0.5741866666666666, + "grad_norm": 1.8237418761138562, + "learning_rate": 4.047961728450742e-06, + "loss": 0.5488, + "step": 5383 + }, + { + "avg_step_time": 5.825955530609748, + "epoch": 0.5741866666666666, + "eta_time": 6.4603373550539205, + "step": 5383 + }, + { + "epoch": 0.5742933333333333, + "grad_norm": 1.5704870152817811, + "learning_rate": 4.046265910695977e-06, + "loss": 0.3985, + "step": 5384 + }, + { + "avg_step_time": 5.808526559309526, + "epoch": 0.5742933333333333, + "eta_time": 6.439397082834533, + "step": 5384 + }, + { + "epoch": 0.5744, + "grad_norm": 1.931116306225193, + "learning_rate": 4.044570206785874e-06, + "loss": 0.5694, + "step": 5385 + }, + { + "avg_step_time": 5.847231465156632, + "epoch": 0.5744, + "eta_time": 6.480681540548601, + "step": 5385 + }, + { + "epoch": 0.5745066666666667, + "grad_norm": 1.9011423600593538, + "learning_rate": 4.042874616922841e-06, + "loss": 0.5051, + "step": 5386 + }, + { + "avg_step_time": 5.8802286181787045, + "epoch": 0.5745066666666667, + "eta_time": 6.515619988309681, + "step": 5386 + }, + { + "epoch": 0.5746133333333333, + "grad_norm": 1.8168127095388806, + "learning_rate": 4.041179141309276e-06, + "loss": 0.5672, + "step": 5387 + }, + { + "avg_step_time": 5.867239518599077, + "epoch": 0.5746133333333333, + "eta_time": 6.499597555603644, + "step": 5387 + }, + { + "epoch": 0.57472, + "grad_norm": 1.922182390852504, + "learning_rate": 4.039483780147568e-06, + "loss": 0.5073, + "step": 5388 + }, + { + "avg_step_time": 5.859666070552787, + "epoch": 0.57472, + "eta_time": 6.489580173137212, + "step": 5388 + }, + { + "epoch": 0.5748266666666667, + "grad_norm": 1.5914734330995428, + "learning_rate": 4.0377885336400845e-06, + "loss": 0.433, + "step": 5389 + }, + { + "avg_step_time": 5.868811592911229, + "epoch": 0.5748266666666667, + "eta_time": 6.498078613706711, + "step": 5389 + }, + { + "epoch": 0.5749333333333333, + "grad_norm": 1.6766332824612171, + "learning_rate": 4.036093401989182e-06, + "loss": 0.52, + "step": 5390 + }, + { + "avg_step_time": 5.871378270062533, + "epoch": 0.5749333333333333, + "eta_time": 6.499289557277554, + "step": 5390 + }, + { + "epoch": 0.57504, + "grad_norm": 1.8346519039826248, + "learning_rate": 4.0343983853972045e-06, + "loss": 0.534, + "step": 5391 + }, + { + "avg_step_time": 5.882228579184021, + "epoch": 0.57504, + "eta_time": 6.509666294296983, + "step": 5391 + }, + { + "epoch": 0.5751466666666667, + "grad_norm": 2.4035304266824227, + "learning_rate": 4.03270348406648e-06, + "loss": 0.5046, + "step": 5392 + }, + { + "avg_step_time": 5.881175479503593, + "epoch": 0.5751466666666667, + "eta_time": 6.506867204128558, + "step": 5392 + }, + { + "epoch": 0.5752533333333333, + "grad_norm": 2.0946830410632904, + "learning_rate": 4.031008698199328e-06, + "loss": 0.498, + "step": 5393 + }, + { + "avg_step_time": 5.877287238535255, + "epoch": 0.5752533333333333, + "eta_time": 6.500932717735384, + "step": 5393 + }, + { + "epoch": 0.57536, + "grad_norm": 1.816543780077368, + "learning_rate": 4.029314027998049e-06, + "loss": 0.5375, + "step": 5394 + }, + { + "avg_step_time": 5.864029906012795, + "epoch": 0.57536, + "eta_time": 6.484639737732483, + "step": 5394 + }, + { + "epoch": 0.5754666666666667, + "grad_norm": 1.6385420591537814, + "learning_rate": 4.0276194736649285e-06, + "loss": 0.5223, + "step": 5395 + }, + { + "avg_step_time": 5.903185403708256, + "epoch": 0.5754666666666667, + "eta_time": 6.526299418544127, + "step": 5395 + }, + { + "epoch": 0.5755733333333334, + "grad_norm": 1.5855576536779585, + "learning_rate": 4.025925035402242e-06, + "loss": 0.4534, + "step": 5396 + }, + { + "avg_step_time": 5.910159534878201, + "epoch": 0.5755733333333334, + "eta_time": 6.532367997022322, + "step": 5396 + }, + { + "epoch": 0.57568, + "grad_norm": 1.7901381920258577, + "learning_rate": 4.024230713412253e-06, + "loss": 0.4842, + "step": 5397 + }, + { + "avg_step_time": 5.910956963144168, + "epoch": 0.57568, + "eta_time": 6.5316074442743055, + "step": 5397 + }, + { + "epoch": 0.5757866666666667, + "grad_norm": 1.6158022868824982, + "learning_rate": 4.022536507897206e-06, + "loss": 0.5557, + "step": 5398 + }, + { + "avg_step_time": 5.909020780312894, + "epoch": 0.5757866666666667, + "eta_time": 6.52782656758455, + "step": 5398 + }, + { + "epoch": 0.5758933333333334, + "grad_norm": 1.6440463090358926, + "learning_rate": 4.0208424190593325e-06, + "loss": 0.5432, + "step": 5399 + }, + { + "avg_step_time": 5.91333083672957, + "epoch": 0.5758933333333334, + "eta_time": 6.530945390787992, + "step": 5399 + }, + { + "epoch": 0.576, + "grad_norm": 1.7126588651488501, + "learning_rate": 4.019148447100855e-06, + "loss": 0.4805, + "step": 5400 + }, + { + "avg_step_time": 5.963503611208212, + "epoch": 0.576, + "eta_time": 6.584701904042401, + "step": 5400 + }, + { + "epoch": 0.5761066666666667, + "grad_norm": 1.9927175497849843, + "learning_rate": 4.017454592223971e-06, + "loss": 0.4393, + "step": 5401 + }, + { + "avg_step_time": 5.946706863364788, + "epoch": 0.5761066666666667, + "eta_time": 6.564503631947686, + "step": 5401 + }, + { + "epoch": 0.5762133333333334, + "grad_norm": 1.7592988437131232, + "learning_rate": 4.015760854630881e-06, + "loss": 0.4986, + "step": 5402 + }, + { + "avg_step_time": 5.9279139475388964, + "epoch": 0.5762133333333334, + "eta_time": 6.5421116982144545, + "step": 5402 + }, + { + "epoch": 0.57632, + "grad_norm": 2.0484864684877526, + "learning_rate": 4.014067234523756e-06, + "loss": 0.4653, + "step": 5403 + }, + { + "avg_step_time": 5.9273890533832585, + "epoch": 0.57632, + "eta_time": 6.5398859222328625, + "step": 5403 + }, + { + "epoch": 0.5764266666666666, + "grad_norm": 1.7109997731370903, + "learning_rate": 4.012373732104759e-06, + "loss": 0.4528, + "step": 5404 + }, + { + "avg_step_time": 5.928280835199838, + "epoch": 0.5764266666666666, + "eta_time": 6.539223110160711, + "step": 5404 + }, + { + "epoch": 0.5765333333333333, + "grad_norm": 1.6436402755254849, + "learning_rate": 4.010680347576041e-06, + "loss": 0.4432, + "step": 5405 + }, + { + "avg_step_time": 5.903235599248096, + "epoch": 0.5765333333333333, + "eta_time": 6.509957035837483, + "step": 5405 + }, + { + "epoch": 0.57664, + "grad_norm": 2.0151884694634425, + "learning_rate": 4.008987081139734e-06, + "loss": 0.5147, + "step": 5406 + }, + { + "avg_step_time": 5.898126248157386, + "epoch": 0.57664, + "eta_time": 6.502684188593518, + "step": 5406 + }, + { + "epoch": 0.5767466666666666, + "grad_norm": 1.7645057356049898, + "learning_rate": 4.007293932997962e-06, + "loss": 0.4842, + "step": 5407 + }, + { + "avg_step_time": 5.935570584403144, + "epoch": 0.5767466666666666, + "eta_time": 6.542317799697687, + "step": 5407 + }, + { + "epoch": 0.5768533333333333, + "grad_norm": 2.0321613739994797, + "learning_rate": 4.00560090335283e-06, + "loss": 0.5141, + "step": 5408 + }, + { + "avg_step_time": 5.9346391745287965, + "epoch": 0.5768533333333333, + "eta_time": 6.539642668154372, + "step": 5408 + }, + { + "epoch": 0.57696, + "grad_norm": 2.050328545105859, + "learning_rate": 4.0039079924064285e-06, + "loss": 0.4713, + "step": 5409 + }, + { + "avg_step_time": 5.966751327418318, + "epoch": 0.57696, + "eta_time": 6.573371045705846, + "step": 5409 + }, + { + "epoch": 0.5770666666666666, + "grad_norm": 1.7224594132654583, + "learning_rate": 4.002215200360838e-06, + "loss": 0.5082, + "step": 5410 + }, + { + "avg_step_time": 5.9492661447236035, + "epoch": 0.5770666666666666, + "eta_time": 6.552455628841413, + "step": 5410 + }, + { + "epoch": 0.5771733333333333, + "grad_norm": 1.7546901292577095, + "learning_rate": 4.000522527418121e-06, + "loss": 0.4055, + "step": 5411 + }, + { + "avg_step_time": 5.951901252823647, + "epoch": 0.5771733333333333, + "eta_time": 6.55370460172026, + "step": 5411 + }, + { + "epoch": 0.57728, + "grad_norm": 1.9580672582142338, + "learning_rate": 3.998829973780329e-06, + "loss": 0.5731, + "step": 5412 + }, + { + "avg_step_time": 5.9498483628937695, + "epoch": 0.57728, + "eta_time": 6.549791406152225, + "step": 5412 + }, + { + "epoch": 0.5773866666666667, + "grad_norm": 0.6259291048193927, + "learning_rate": 3.9971375396494965e-06, + "loss": 0.4163, + "step": 5413 + }, + { + "avg_step_time": 5.8863519731194085, + "epoch": 0.5773866666666667, + "eta_time": 6.478257365971971, + "step": 5413 + }, + { + "epoch": 0.5774933333333333, + "grad_norm": 1.841266537072878, + "learning_rate": 3.995445225227646e-06, + "loss": 0.5782, + "step": 5414 + }, + { + "avg_step_time": 5.889983757577761, + "epoch": 0.5774933333333333, + "eta_time": 6.480618239934865, + "step": 5414 + }, + { + "epoch": 0.5776, + "grad_norm": 1.8666594854687935, + "learning_rate": 3.993753030716783e-06, + "loss": 0.4897, + "step": 5415 + }, + { + "avg_step_time": 5.919991673845233, + "epoch": 0.5776, + "eta_time": 6.511990841229757, + "step": 5415 + }, + { + "epoch": 0.5777066666666667, + "grad_norm": 0.637597311774503, + "learning_rate": 3.992060956318898e-06, + "loss": 0.4679, + "step": 5416 + }, + { + "avg_step_time": 5.879764679706458, + "epoch": 0.5777066666666667, + "eta_time": 6.466107879710519, + "step": 5416 + }, + { + "epoch": 0.5778133333333333, + "grad_norm": 1.7268129722290761, + "learning_rate": 3.990369002235975e-06, + "loss": 0.4819, + "step": 5417 + }, + { + "avg_step_time": 5.881718710215405, + "epoch": 0.5778133333333333, + "eta_time": 6.46662295973127, + "step": 5417 + }, + { + "epoch": 0.57792, + "grad_norm": 1.7496752048849986, + "learning_rate": 3.988677168669974e-06, + "loss": 0.4168, + "step": 5418 + }, + { + "avg_step_time": 5.881557712651262, + "epoch": 0.57792, + "eta_time": 6.464812185822512, + "step": 5418 + }, + { + "epoch": 0.5780266666666667, + "grad_norm": 1.9346415521604063, + "learning_rate": 3.9869854558228455e-06, + "loss": 0.527, + "step": 5419 + }, + { + "avg_step_time": 5.882783952385489, + "epoch": 0.5780266666666667, + "eta_time": 6.464525921010276, + "step": 5419 + }, + { + "epoch": 0.5781333333333334, + "grad_norm": 1.6365260681163407, + "learning_rate": 3.985293863896525e-06, + "loss": 0.5399, + "step": 5420 + }, + { + "avg_step_time": 5.877241052762426, + "epoch": 0.5781333333333334, + "eta_time": 6.456802323243165, + "step": 5420 + }, + { + "epoch": 0.57824, + "grad_norm": 1.899177197799008, + "learning_rate": 3.983602393092931e-06, + "loss": 0.4636, + "step": 5421 + }, + { + "avg_step_time": 5.880782009375216, + "epoch": 0.57824, + "eta_time": 6.4590589069637785, + "step": 5421 + }, + { + "epoch": 0.5783466666666667, + "grad_norm": 2.0103103723282723, + "learning_rate": 3.9819110436139755e-06, + "loss": 0.4959, + "step": 5422 + }, + { + "avg_step_time": 5.882904621085736, + "epoch": 0.5783466666666667, + "eta_time": 6.459756101986643, + "step": 5422 + }, + { + "epoch": 0.5784533333333334, + "grad_norm": 2.0030238831118408, + "learning_rate": 3.980219815661545e-06, + "loss": 0.5433, + "step": 5423 + }, + { + "avg_step_time": 5.880664950669414, + "epoch": 0.5784533333333334, + "eta_time": 6.455663301401534, + "step": 5423 + }, + { + "epoch": 0.57856, + "grad_norm": 0.6463397082865088, + "learning_rate": 3.978528709437518e-06, + "loss": 0.4499, + "step": 5424 + }, + { + "avg_step_time": 5.846703512500031, + "epoch": 0.57856, + "eta_time": 6.416757104968784, + "step": 5424 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 1.6405321324026778, + "learning_rate": 3.976837725143758e-06, + "loss": 0.4306, + "step": 5425 + }, + { + "avg_step_time": 5.848782076980129, + "epoch": 0.5786666666666667, + "eta_time": 6.417413667797642, + "step": 5425 + }, + { + "epoch": 0.5787733333333334, + "grad_norm": 1.8159411266264305, + "learning_rate": 3.975146862982111e-06, + "loss": 0.6162, + "step": 5426 + }, + { + "avg_step_time": 5.804160395053902, + "epoch": 0.5787733333333334, + "eta_time": 6.36684150001885, + "step": 5426 + }, + { + "epoch": 0.57888, + "grad_norm": 1.952206492170381, + "learning_rate": 3.973456123154415e-06, + "loss": 0.4718, + "step": 5427 + }, + { + "avg_step_time": 5.80016663339403, + "epoch": 0.57888, + "eta_time": 6.3608494079554525, + "step": 5427 + }, + { + "epoch": 0.5789866666666666, + "grad_norm": 1.8451761940756233, + "learning_rate": 3.9717655058624874e-06, + "loss": 0.4492, + "step": 5428 + }, + { + "avg_step_time": 5.80316394266456, + "epoch": 0.5789866666666666, + "eta_time": 6.362524467138061, + "step": 5428 + }, + { + "epoch": 0.5790933333333333, + "grad_norm": 1.6328777954260134, + "learning_rate": 3.97007501130813e-06, + "loss": 0.4372, + "step": 5429 + }, + { + "avg_step_time": 5.80317988540187, + "epoch": 0.5790933333333333, + "eta_time": 6.3609299521654945, + "step": 5429 + }, + { + "epoch": 0.5792, + "grad_norm": 2.0737425380544634, + "learning_rate": 3.9683846396931345e-06, + "loss": 0.5371, + "step": 5430 + }, + { + "avg_step_time": 5.7997761278441455, + "epoch": 0.5792, + "eta_time": 6.3555880067625425, + "step": 5430 + }, + { + "epoch": 0.5793066666666666, + "grad_norm": 1.8241844823289202, + "learning_rate": 3.966694391219276e-06, + "loss": 0.4768, + "step": 5431 + }, + { + "avg_step_time": 5.825895812776354, + "epoch": 0.5793066666666666, + "eta_time": 6.382592523774983, + "step": 5431 + }, + { + "epoch": 0.5794133333333333, + "grad_norm": 1.7869995935958494, + "learning_rate": 3.965004266088315e-06, + "loss": 0.4736, + "step": 5432 + }, + { + "avg_step_time": 5.822110633657436, + "epoch": 0.5794133333333333, + "eta_time": 6.376828396808686, + "step": 5432 + }, + { + "epoch": 0.57952, + "grad_norm": 1.8844893333264316, + "learning_rate": 3.9633142645019965e-06, + "loss": 0.4699, + "step": 5433 + }, + { + "avg_step_time": 5.8168659282453135, + "epoch": 0.57952, + "eta_time": 6.369468191428618, + "step": 5433 + }, + { + "epoch": 0.5796266666666666, + "grad_norm": 1.8781481762266785, + "learning_rate": 3.961624386662053e-06, + "loss": 0.5287, + "step": 5434 + }, + { + "avg_step_time": 5.82236813535594, + "epoch": 0.5796266666666666, + "eta_time": 6.373875783732711, + "step": 5434 + }, + { + "epoch": 0.5797333333333333, + "grad_norm": 2.0442144957583794, + "learning_rate": 3.9599346327702e-06, + "loss": 0.4259, + "step": 5435 + }, + { + "avg_step_time": 5.818744375248148, + "epoch": 0.5797333333333333, + "eta_time": 6.368292455132695, + "step": 5435 + }, + { + "epoch": 0.57984, + "grad_norm": 1.613344964826883, + "learning_rate": 3.958245003028136e-06, + "loss": 0.4741, + "step": 5436 + }, + { + "avg_step_time": 5.849243183328648, + "epoch": 0.57984, + "eta_time": 6.4000469164254286, + "step": 5436 + }, + { + "epoch": 0.5799466666666667, + "grad_norm": 1.9660996509924307, + "learning_rate": 3.956555497637551e-06, + "loss": 0.5356, + "step": 5437 + }, + { + "avg_step_time": 5.849264359233355, + "epoch": 0.5799466666666667, + "eta_time": 6.398445290739153, + "step": 5437 + }, + { + "epoch": 0.5800533333333333, + "grad_norm": 1.71988130265877, + "learning_rate": 3.954866116800115e-06, + "loss": 0.4589, + "step": 5438 + }, + { + "avg_step_time": 5.8857296259716305, + "epoch": 0.5800533333333333, + "eta_time": 6.436699315958419, + "step": 5438 + }, + { + "epoch": 0.58016, + "grad_norm": 1.9542855328235116, + "learning_rate": 3.953176860717488e-06, + "loss": 0.4837, + "step": 5439 + }, + { + "avg_step_time": 5.859566662046644, + "epoch": 0.58016, + "eta_time": 6.406459550504331, + "step": 5439 + }, + { + "epoch": 0.5802666666666667, + "grad_norm": 1.9868389436142306, + "learning_rate": 3.951487729591305e-06, + "loss": 0.5365, + "step": 5440 + }, + { + "avg_step_time": 5.859404200255269, + "epoch": 0.5802666666666667, + "eta_time": 6.404654313334579, + "step": 5440 + }, + { + "epoch": 0.5803733333333333, + "grad_norm": 1.7098178046291637, + "learning_rate": 3.949798723623201e-06, + "loss": 0.4476, + "step": 5441 + }, + { + "avg_step_time": 5.857734094966542, + "epoch": 0.5803733333333333, + "eta_time": 6.4012016471106605, + "step": 5441 + }, + { + "epoch": 0.58048, + "grad_norm": 2.2442281897873495, + "learning_rate": 3.948109843014784e-06, + "loss": 0.5587, + "step": 5442 + }, + { + "avg_step_time": 5.863169051179982, + "epoch": 0.58048, + "eta_time": 6.40551218841413, + "step": 5442 + }, + { + "epoch": 0.5805866666666667, + "grad_norm": 1.8542977797781788, + "learning_rate": 3.94642108796765e-06, + "loss": 0.557, + "step": 5443 + }, + { + "avg_step_time": 5.865001866311738, + "epoch": 0.5805866666666667, + "eta_time": 6.405885371760487, + "step": 5443 + }, + { + "epoch": 0.5806933333333333, + "grad_norm": 1.7349595924174173, + "learning_rate": 3.944732458683385e-06, + "loss": 0.5155, + "step": 5444 + }, + { + "avg_step_time": 5.8656978294102835, + "epoch": 0.5806933333333333, + "eta_time": 6.405016157614396, + "step": 5444 + }, + { + "epoch": 0.5808, + "grad_norm": 0.6656149310579307, + "learning_rate": 3.9430439553635504e-06, + "loss": 0.4585, + "step": 5445 + }, + { + "avg_step_time": 5.852882968054877, + "epoch": 0.5808, + "eta_time": 6.389397240126574, + "step": 5445 + }, + { + "epoch": 0.5809066666666667, + "grad_norm": 1.7000191194927243, + "learning_rate": 3.941355578209704e-06, + "loss": 0.5121, + "step": 5446 + }, + { + "avg_step_time": 5.848807057949028, + "epoch": 0.5809066666666667, + "eta_time": 6.383323036300481, + "step": 5446 + }, + { + "epoch": 0.5810133333333334, + "grad_norm": 1.5658931701365455, + "learning_rate": 3.939667327423381e-06, + "loss": 0.4338, + "step": 5447 + }, + { + "avg_step_time": 5.852881467703617, + "epoch": 0.5810133333333334, + "eta_time": 6.386144001427724, + "step": 5447 + }, + { + "epoch": 0.58112, + "grad_norm": 2.1341552888936013, + "learning_rate": 3.937979203206103e-06, + "loss": 0.5539, + "step": 5448 + }, + { + "avg_step_time": 5.861582941479153, + "epoch": 0.58112, + "eta_time": 6.394010058663509, + "step": 5448 + }, + { + "epoch": 0.5812266666666667, + "grad_norm": 2.245611920157429, + "learning_rate": 3.936291205759375e-06, + "loss": 0.5262, + "step": 5449 + }, + { + "avg_step_time": 5.859821830132995, + "epoch": 0.5812266666666667, + "eta_time": 6.390461251417261, + "step": 5449 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 1.5041308081573437, + "learning_rate": 3.93460333528469e-06, + "loss": 0.4963, + "step": 5450 + }, + { + "avg_step_time": 5.861413962913282, + "epoch": 0.5813333333333334, + "eta_time": 6.3905693901207306, + "step": 5450 + }, + { + "epoch": 0.58144, + "grad_norm": 2.1636653448559358, + "learning_rate": 3.932915591983526e-06, + "loss": 0.4767, + "step": 5451 + }, + { + "avg_step_time": 5.858858496251733, + "epoch": 0.58144, + "eta_time": 6.386155760914388, + "step": 5451 + }, + { + "epoch": 0.5815466666666667, + "grad_norm": 0.6510463979669301, + "learning_rate": 3.931227976057344e-06, + "loss": 0.4543, + "step": 5452 + }, + { + "avg_step_time": 5.827625672022502, + "epoch": 0.5815466666666667, + "eta_time": 6.3504931975956325, + "step": 5452 + }, + { + "epoch": 0.5816533333333334, + "grad_norm": 1.8879599290843512, + "learning_rate": 3.929540487707589e-06, + "loss": 0.4241, + "step": 5453 + }, + { + "avg_step_time": 5.8281149189881605, + "epoch": 0.5816533333333334, + "eta_time": 6.349407420075435, + "step": 5453 + }, + { + "epoch": 0.58176, + "grad_norm": 1.9846768557622885, + "learning_rate": 3.927853127135692e-06, + "loss": 0.4535, + "step": 5454 + }, + { + "avg_step_time": 5.819844120680684, + "epoch": 0.58176, + "eta_time": 6.338780221441378, + "step": 5454 + }, + { + "epoch": 0.5818666666666666, + "grad_norm": 1.8327664881200487, + "learning_rate": 3.9261658945430675e-06, + "loss": 0.4811, + "step": 5455 + }, + { + "avg_step_time": 5.796855461717856, + "epoch": 0.5818666666666666, + "eta_time": 6.312131502759443, + "step": 5455 + }, + { + "epoch": 0.5819733333333333, + "grad_norm": 1.7418424749296104, + "learning_rate": 3.924478790131119e-06, + "loss": 0.4098, + "step": 5456 + }, + { + "avg_step_time": 5.7713045640425245, + "epoch": 0.5819733333333333, + "eta_time": 6.28270627402296, + "step": 5456 + }, + { + "epoch": 0.58208, + "grad_norm": 1.6611796773418122, + "learning_rate": 3.92279181410123e-06, + "loss": 0.4342, + "step": 5457 + }, + { + "avg_step_time": 5.803014133915757, + "epoch": 0.58208, + "eta_time": 6.315613715744981, + "step": 5457 + }, + { + "epoch": 0.5821866666666666, + "grad_norm": 1.9718435095731954, + "learning_rate": 3.921104966654769e-06, + "loss": 0.4573, + "step": 5458 + }, + { + "avg_step_time": 5.803242546139342, + "epoch": 0.5821866666666666, + "eta_time": 6.314250292563278, + "step": 5458 + }, + { + "epoch": 0.5822933333333333, + "grad_norm": 1.75188613373447, + "learning_rate": 3.919418247993094e-06, + "loss": 0.432, + "step": 5459 + }, + { + "avg_step_time": 5.806715433043663, + "epoch": 0.5822933333333333, + "eta_time": 6.316416009944161, + "step": 5459 + }, + { + "epoch": 0.5824, + "grad_norm": 1.794768128943469, + "learning_rate": 3.917731658317538e-06, + "loss": 0.5239, + "step": 5460 + }, + { + "avg_step_time": 5.80526386607777, + "epoch": 0.5824, + "eta_time": 6.313224454359575, + "step": 5460 + }, + { + "epoch": 0.5825066666666666, + "grad_norm": 1.8779591087559564, + "learning_rate": 3.916045197829431e-06, + "loss": 0.4518, + "step": 5461 + }, + { + "avg_step_time": 5.80652713293981, + "epoch": 0.5825066666666666, + "eta_time": 6.3129853328684495, + "step": 5461 + }, + { + "epoch": 0.5826133333333333, + "grad_norm": 1.9087659543780788, + "learning_rate": 3.9143588667300795e-06, + "loss": 0.5407, + "step": 5462 + }, + { + "avg_step_time": 5.840229439012932, + "epoch": 0.5826133333333333, + "eta_time": 6.348004943016, + "step": 5462 + }, + { + "epoch": 0.58272, + "grad_norm": 1.6395543543500948, + "learning_rate": 3.912672665220773e-06, + "loss": 0.5051, + "step": 5463 + }, + { + "avg_step_time": 5.857503190185085, + "epoch": 0.58272, + "eta_time": 6.365153466667792, + "step": 5463 + }, + { + "epoch": 0.5828266666666667, + "grad_norm": 1.8784447237682946, + "learning_rate": 3.910986593502793e-06, + "loss": 0.4369, + "step": 5464 + }, + { + "avg_step_time": 5.857580093422321, + "epoch": 0.5828266666666667, + "eta_time": 6.3636099292707495, + "step": 5464 + }, + { + "epoch": 0.5829333333333333, + "grad_norm": 1.8368445377183056, + "learning_rate": 3.909300651777398e-06, + "loss": 0.4705, + "step": 5465 + }, + { + "avg_step_time": 5.880346411406392, + "epoch": 0.5829333333333333, + "eta_time": 6.3867095746108316, + "step": 5465 + }, + { + "epoch": 0.58304, + "grad_norm": 2.0387498473299743, + "learning_rate": 3.907614840245836e-06, + "loss": 0.5414, + "step": 5466 + }, + { + "avg_step_time": 5.879727195007632, + "epoch": 0.58304, + "eta_time": 6.384403779245788, + "step": 5466 + }, + { + "epoch": 0.5831466666666667, + "grad_norm": 1.8616151290166914, + "learning_rate": 3.90592915910934e-06, + "loss": 0.4602, + "step": 5467 + }, + { + "avg_step_time": 5.881101649216931, + "epoch": 0.5831466666666667, + "eta_time": 6.38426256809438, + "step": 5467 + }, + { + "epoch": 0.5832533333333333, + "grad_norm": 0.6016387218685166, + "learning_rate": 3.90424360856912e-06, + "loss": 0.4186, + "step": 5468 + }, + { + "avg_step_time": 5.848286031472562, + "epoch": 0.5832533333333333, + "eta_time": 6.3470148680453615, + "step": 5468 + }, + { + "epoch": 0.58336, + "grad_norm": 1.9501981959296617, + "learning_rate": 3.90255818882638e-06, + "loss": 0.4888, + "step": 5469 + }, + { + "avg_step_time": 5.881569727502688, + "epoch": 0.58336, + "eta_time": 6.381503154340416, + "step": 5469 + }, + { + "epoch": 0.5834666666666667, + "grad_norm": 1.6027783706325047, + "learning_rate": 3.9008729000823e-06, + "loss": 0.4066, + "step": 5470 + }, + { + "avg_step_time": 5.883287499649356, + "epoch": 0.5834666666666667, + "eta_time": 6.381732690591871, + "step": 5470 + }, + { + "epoch": 0.5835733333333334, + "grad_norm": 1.8312370533597013, + "learning_rate": 3.899187742538053e-06, + "loss": 0.469, + "step": 5471 + }, + { + "avg_step_time": 5.887182122529155, + "epoch": 0.5835733333333334, + "eta_time": 6.384321946209395, + "step": 5471 + }, + { + "epoch": 0.58368, + "grad_norm": 1.982068760275594, + "learning_rate": 3.897502716394789e-06, + "loss": 0.5973, + "step": 5472 + }, + { + "avg_step_time": 5.926528215408325, + "epoch": 0.58368, + "eta_time": 6.425344340205193, + "step": 5472 + }, + { + "epoch": 0.5837866666666667, + "grad_norm": 1.729625068433466, + "learning_rate": 3.895817821853646e-06, + "loss": 0.4543, + "step": 5473 + }, + { + "avg_step_time": 5.937020824413107, + "epoch": 0.5837866666666667, + "eta_time": 6.435070904683317, + "step": 5473 + }, + { + "epoch": 0.5838933333333334, + "grad_norm": 1.7380081569978516, + "learning_rate": 3.894133059115745e-06, + "loss": 0.4566, + "step": 5474 + }, + { + "avg_step_time": 5.924225063034982, + "epoch": 0.5838933333333334, + "eta_time": 6.41955610302763, + "step": 5474 + }, + { + "epoch": 0.584, + "grad_norm": 1.661739664218353, + "learning_rate": 3.892448428382189e-06, + "loss": 0.5171, + "step": 5475 + }, + { + "avg_step_time": 5.92361782777189, + "epoch": 0.584, + "eta_time": 6.417252646752881, + "step": 5475 + }, + { + "epoch": 0.5841066666666667, + "grad_norm": 1.7773653027449614, + "learning_rate": 3.890763929854071e-06, + "loss": 0.4914, + "step": 5476 + }, + { + "avg_step_time": 5.95212544816913, + "epoch": 0.5841066666666667, + "eta_time": 6.446482534003177, + "step": 5476 + }, + { + "epoch": 0.5842133333333334, + "grad_norm": 1.9021164062963423, + "learning_rate": 3.889079563732465e-06, + "loss": 0.5151, + "step": 5477 + }, + { + "avg_step_time": 5.947867528356687, + "epoch": 0.5842133333333334, + "eta_time": 6.440218784870657, + "step": 5477 + }, + { + "epoch": 0.58432, + "grad_norm": 1.7143422181047399, + "learning_rate": 3.887395330218429e-06, + "loss": 0.4508, + "step": 5478 + }, + { + "avg_step_time": 5.943077879722672, + "epoch": 0.58432, + "eta_time": 6.433381804799793, + "step": 5478 + }, + { + "epoch": 0.5844266666666666, + "grad_norm": 1.6304666864101258, + "learning_rate": 3.885711229513005e-06, + "loss": 0.457, + "step": 5479 + }, + { + "avg_step_time": 5.915192900281964, + "epoch": 0.5844266666666666, + "eta_time": 6.401553205416259, + "step": 5479 + }, + { + "epoch": 0.5845333333333333, + "grad_norm": 1.5909091672566777, + "learning_rate": 3.884027261817216e-06, + "loss": 0.4874, + "step": 5480 + }, + { + "avg_step_time": 5.910502441001661, + "epoch": 0.5845333333333333, + "eta_time": 6.394835279917075, + "step": 5480 + }, + { + "epoch": 0.58464, + "grad_norm": 1.851972978710114, + "learning_rate": 3.8823434273320794e-06, + "loss": 0.5695, + "step": 5481 + }, + { + "avg_step_time": 5.910964387835878, + "epoch": 0.58464, + "eta_time": 6.393693146175808, + "step": 5481 + }, + { + "epoch": 0.5847466666666666, + "grad_norm": 1.6801000612739283, + "learning_rate": 3.880659726258586e-06, + "loss": 0.4772, + "step": 5482 + }, + { + "avg_step_time": 5.909962348263673, + "epoch": 0.5847466666666666, + "eta_time": 6.390967617164022, + "step": 5482 + }, + { + "epoch": 0.5848533333333333, + "grad_norm": 1.7703998866123614, + "learning_rate": 3.878976158797715e-06, + "loss": 0.4983, + "step": 5483 + }, + { + "avg_step_time": 5.911124239064226, + "epoch": 0.5848533333333333, + "eta_time": 6.390582094010546, + "step": 5483 + }, + { + "epoch": 0.58496, + "grad_norm": 1.9197025440671074, + "learning_rate": 3.877292725150429e-06, + "loss": 0.5313, + "step": 5484 + }, + { + "avg_step_time": 5.913481127132069, + "epoch": 0.58496, + "eta_time": 6.391487518241912, + "step": 5484 + }, + { + "epoch": 0.5850666666666666, + "grad_norm": 1.8682128179533555, + "learning_rate": 3.875609425517676e-06, + "loss": 0.5351, + "step": 5485 + }, + { + "avg_step_time": 5.918025715182526, + "epoch": 0.5850666666666666, + "eta_time": 6.394755564461118, + "step": 5485 + }, + { + "epoch": 0.5851733333333333, + "grad_norm": 1.612510390692113, + "learning_rate": 3.873926260100386e-06, + "loss": 0.3682, + "step": 5486 + }, + { + "avg_step_time": 5.921749196871363, + "epoch": 0.5851733333333333, + "eta_time": 6.397134062953536, + "step": 5486 + }, + { + "epoch": 0.58528, + "grad_norm": 1.846802634100169, + "learning_rate": 3.872243229099476e-06, + "loss": 0.4343, + "step": 5487 + }, + { + "avg_step_time": 5.938953524888164, + "epoch": 0.58528, + "eta_time": 6.414069806879217, + "step": 5487 + }, + { + "epoch": 0.5853866666666667, + "grad_norm": 1.7738880216662074, + "learning_rate": 3.870560332715842e-06, + "loss": 0.4769, + "step": 5488 + }, + { + "avg_step_time": 5.946371832279244, + "epoch": 0.5853866666666667, + "eta_time": 6.420429808908173, + "step": 5488 + }, + { + "epoch": 0.5854933333333333, + "grad_norm": 1.706799737795069, + "learning_rate": 3.868877571150367e-06, + "loss": 0.518, + "step": 5489 + }, + { + "avg_step_time": 5.935064212240354, + "epoch": 0.5854933333333333, + "eta_time": 6.406572091323894, + "step": 5489 + }, + { + "epoch": 0.5856, + "grad_norm": 0.6622376932264422, + "learning_rate": 3.86719494460392e-06, + "loss": 0.4542, + "step": 5490 + }, + { + "avg_step_time": 5.9032167473224675, + "epoch": 0.5856, + "eta_time": 6.37055473981883, + "step": 5490 + }, + { + "epoch": 0.5857066666666667, + "grad_norm": 1.740846283418572, + "learning_rate": 3.865512453277351e-06, + "loss": 0.4525, + "step": 5491 + }, + { + "avg_step_time": 5.903047766348328, + "epoch": 0.5857066666666667, + "eta_time": 6.368732645693584, + "step": 5491 + }, + { + "epoch": 0.5858133333333333, + "grad_norm": 1.7435427037303102, + "learning_rate": 3.863830097371493e-06, + "loss": 0.4926, + "step": 5492 + }, + { + "avg_step_time": 5.90220342982899, + "epoch": 0.5858133333333333, + "eta_time": 6.366182199451658, + "step": 5492 + }, + { + "epoch": 0.58592, + "grad_norm": 1.7751946135202783, + "learning_rate": 3.8621478770871645e-06, + "loss": 0.4589, + "step": 5493 + }, + { + "avg_step_time": 5.906557969372682, + "epoch": 0.58592, + "eta_time": 6.369238343640209, + "step": 5493 + }, + { + "epoch": 0.5860266666666667, + "grad_norm": 1.862331691689297, + "learning_rate": 3.860465792625166e-06, + "loss": 0.46, + "step": 5494 + }, + { + "avg_step_time": 5.900898379508895, + "epoch": 0.5860266666666667, + "eta_time": 6.361496280798339, + "step": 5494 + }, + { + "epoch": 0.5861333333333333, + "grad_norm": 1.5557337440946795, + "learning_rate": 3.8587838441862884e-06, + "loss": 0.4843, + "step": 5495 + }, + { + "avg_step_time": 5.896200919392133, + "epoch": 0.5861333333333333, + "eta_time": 6.354794324233744, + "step": 5495 + }, + { + "epoch": 0.58624, + "grad_norm": 1.771085433033151, + "learning_rate": 3.857102031971298e-06, + "loss": 0.4882, + "step": 5496 + }, + { + "avg_step_time": 5.894711788254555, + "epoch": 0.58624, + "eta_time": 6.351551951844283, + "step": 5496 + }, + { + "epoch": 0.5863466666666667, + "grad_norm": 1.8869936370933889, + "learning_rate": 3.8554203561809475e-06, + "loss": 0.466, + "step": 5497 + }, + { + "avg_step_time": 5.898197123498628, + "epoch": 0.5863466666666667, + "eta_time": 6.3536690124799104, + "step": 5497 + }, + { + "epoch": 0.5864533333333334, + "grad_norm": 1.9399810745262807, + "learning_rate": 3.853738817015977e-06, + "loss": 0.5151, + "step": 5498 + }, + { + "avg_step_time": 5.900335046980116, + "epoch": 0.5864533333333334, + "eta_time": 6.354333049206086, + "step": 5498 + }, + { + "epoch": 0.58656, + "grad_norm": 0.625613976558511, + "learning_rate": 3.852057414677102e-06, + "loss": 0.4561, + "step": 5499 + }, + { + "avg_step_time": 5.811202213017627, + "epoch": 0.58656, + "eta_time": 6.256727716015646, + "step": 5499 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 1.8405263391445106, + "learning_rate": 3.850376149365034e-06, + "loss": 0.5101, + "step": 5500 + }, + { + "avg_step_time": 5.8081383536560365, + "epoch": 0.5866666666666667, + "eta_time": 6.251815589004762, + "step": 5500 + }, + { + "epoch": 0.5867733333333334, + "grad_norm": 0.6703694457874312, + "learning_rate": 3.848695021280455e-06, + "loss": 0.4439, + "step": 5501 + }, + { + "avg_step_time": 5.777080954927387, + "epoch": 0.5867733333333334, + "eta_time": 6.216781005385749, + "step": 5501 + }, + { + "epoch": 0.58688, + "grad_norm": 1.6591988202239085, + "learning_rate": 3.84701403062404e-06, + "loss": 0.504, + "step": 5502 + }, + { + "avg_step_time": 5.834600528081258, + "epoch": 0.58688, + "eta_time": 6.277057734794087, + "step": 5502 + }, + { + "epoch": 0.5869866666666667, + "grad_norm": 1.836350112807176, + "learning_rate": 3.845333177596443e-06, + "loss": 0.4928, + "step": 5503 + }, + { + "avg_step_time": 5.827289183934529, + "epoch": 0.5869866666666667, + "eta_time": 6.267573255609582, + "step": 5503 + }, + { + "epoch": 0.5870933333333334, + "grad_norm": 1.7715215188539264, + "learning_rate": 3.843652462398303e-06, + "loss": 0.546, + "step": 5504 + }, + { + "avg_step_time": 5.824716026132757, + "epoch": 0.5870933333333334, + "eta_time": 6.263187704766639, + "step": 5504 + }, + { + "epoch": 0.5872, + "grad_norm": 2.1497799502185484, + "learning_rate": 3.841971885230243e-06, + "loss": 0.5519, + "step": 5505 + }, + { + "avg_step_time": 5.827576685433436, + "epoch": 0.5872, + "eta_time": 6.264644936840943, + "step": 5505 + }, + { + "epoch": 0.5873066666666666, + "grad_norm": 0.6639119644942808, + "learning_rate": 3.84029144629287e-06, + "loss": 0.446, + "step": 5506 + }, + { + "avg_step_time": 5.754541575306594, + "epoch": 0.5873066666666666, + "eta_time": 6.18453370968367, + "step": 5506 + }, + { + "epoch": 0.5874133333333333, + "grad_norm": 1.7843542551879836, + "learning_rate": 3.838611145786771e-06, + "loss": 0.5599, + "step": 5507 + }, + { + "avg_step_time": 5.769587203709766, + "epoch": 0.5874133333333333, + "eta_time": 6.199100917763715, + "step": 5507 + }, + { + "epoch": 0.58752, + "grad_norm": 2.033375714608032, + "learning_rate": 3.83693098391252e-06, + "loss": 0.5747, + "step": 5508 + }, + { + "avg_step_time": 5.7691376666830045, + "epoch": 0.58752, + "eta_time": 6.1970153769619944, + "step": 5508 + }, + { + "epoch": 0.5876266666666666, + "grad_norm": 2.1311327860510283, + "learning_rate": 3.835250960870672e-06, + "loss": 0.5769, + "step": 5509 + }, + { + "avg_step_time": 5.768946931819723, + "epoch": 0.5876266666666666, + "eta_time": 6.195208010670847, + "step": 5509 + }, + { + "epoch": 0.5877333333333333, + "grad_norm": 1.9446905901942082, + "learning_rate": 3.83357107686177e-06, + "loss": 0.4678, + "step": 5510 + }, + { + "avg_step_time": 5.765754025391858, + "epoch": 0.5877333333333333, + "eta_time": 6.190177585594314, + "step": 5510 + }, + { + "epoch": 0.58784, + "grad_norm": 1.586895677879256, + "learning_rate": 3.8318913320863355e-06, + "loss": 0.4001, + "step": 5511 + }, + { + "avg_step_time": 5.76314096498971, + "epoch": 0.58784, + "eta_time": 6.185771302422289, + "step": 5511 + }, + { + "epoch": 0.5879466666666666, + "grad_norm": 0.6373957964729166, + "learning_rate": 3.8302117267448754e-06, + "loss": 0.4418, + "step": 5512 + }, + { + "avg_step_time": 5.763311085074839, + "epoch": 0.5879466666666666, + "eta_time": 6.184352978234473, + "step": 5512 + }, + { + "epoch": 0.5880533333333333, + "grad_norm": 1.8154752323128756, + "learning_rate": 3.828532261037879e-06, + "loss": 0.4679, + "step": 5513 + }, + { + "avg_step_time": 5.764215654797024, + "epoch": 0.5880533333333333, + "eta_time": 6.183722460785029, + "step": 5513 + }, + { + "epoch": 0.58816, + "grad_norm": 2.016291891620811, + "learning_rate": 3.826852935165818e-06, + "loss": 0.5232, + "step": 5514 + }, + { + "avg_step_time": 5.73174291909343, + "epoch": 0.58816, + "eta_time": 6.147294280727705, + "step": 5514 + }, + { + "epoch": 0.5882666666666667, + "grad_norm": 1.8941189499816837, + "learning_rate": 3.825173749329153e-06, + "loss": 0.4378, + "step": 5515 + }, + { + "avg_step_time": 5.765274664368293, + "epoch": 0.5882666666666667, + "eta_time": 6.181655612350448, + "step": 5515 + }, + { + "epoch": 0.5883733333333333, + "grad_norm": 1.545626395953442, + "learning_rate": 3.823494703728321e-06, + "loss": 0.4403, + "step": 5516 + }, + { + "avg_step_time": 5.763897686293631, + "epoch": 0.5883733333333333, + "eta_time": 6.178578103168644, + "step": 5516 + }, + { + "epoch": 0.58848, + "grad_norm": 1.8101000225314223, + "learning_rate": 3.8218157985637465e-06, + "loss": 0.5658, + "step": 5517 + }, + { + "avg_step_time": 5.774218041487415, + "epoch": 0.58848, + "eta_time": 6.188037001127346, + "step": 5517 + }, + { + "epoch": 0.5885866666666667, + "grad_norm": 1.7681079824198376, + "learning_rate": 3.820137034035835e-06, + "loss": 0.4676, + "step": 5518 + }, + { + "avg_step_time": 5.774749151383988, + "epoch": 0.5885866666666667, + "eta_time": 6.187002076913345, + "step": 5518 + }, + { + "epoch": 0.5886933333333333, + "grad_norm": 1.7308645134494707, + "learning_rate": 3.818458410344974e-06, + "loss": 0.5199, + "step": 5519 + }, + { + "avg_step_time": 5.774912896782461, + "epoch": 0.5886933333333333, + "eta_time": 6.185573369442547, + "step": 5519 + }, + { + "epoch": 0.5888, + "grad_norm": 1.9383602426147262, + "learning_rate": 3.816779927691542e-06, + "loss": 0.4567, + "step": 5520 + }, + { + "avg_step_time": 5.772661726884167, + "epoch": 0.5888, + "eta_time": 6.18155859920513, + "step": 5520 + }, + { + "epoch": 0.5889066666666667, + "grad_norm": 1.8522475744113094, + "learning_rate": 3.81510158627589e-06, + "loss": 0.4832, + "step": 5521 + }, + { + "avg_step_time": 5.771852430671152, + "epoch": 0.5889066666666667, + "eta_time": 6.1790886855018385, + "step": 5521 + }, + { + "epoch": 0.5890133333333334, + "grad_norm": 2.0573667009905208, + "learning_rate": 3.8134233862983594e-06, + "loss": 0.5247, + "step": 5522 + }, + { + "avg_step_time": 5.772008729703499, + "epoch": 0.5890133333333334, + "eta_time": 6.177652676540995, + "step": 5522 + }, + { + "epoch": 0.58912, + "grad_norm": 1.7502391975525695, + "learning_rate": 3.811745327959271e-06, + "loss": 0.4679, + "step": 5523 + }, + { + "avg_step_time": 5.805361268496273, + "epoch": 0.58912, + "eta_time": 6.211736557291012, + "step": 5523 + }, + { + "epoch": 0.5892266666666667, + "grad_norm": 0.6681468334160294, + "learning_rate": 3.81006741145893e-06, + "loss": 0.4191, + "step": 5524 + }, + { + "avg_step_time": 5.768750881907915, + "epoch": 0.5892266666666667, + "eta_time": 6.17096101284094, + "step": 5524 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 2.0035083239577958, + "learning_rate": 3.808389636997626e-06, + "loss": 0.463, + "step": 5525 + }, + { + "avg_step_time": 5.765760973246411, + "epoch": 0.5893333333333334, + "eta_time": 6.166161040832967, + "step": 5525 + }, + { + "epoch": 0.58944, + "grad_norm": 1.9937553535392956, + "learning_rate": 3.8067120047756313e-06, + "loss": 0.4922, + "step": 5526 + }, + { + "avg_step_time": 5.768543017030966, + "epoch": 0.58944, + "eta_time": 6.167533909042275, + "step": 5526 + }, + { + "epoch": 0.5895466666666667, + "grad_norm": 1.6337047145850183, + "learning_rate": 3.805034514993198e-06, + "loss": 0.4552, + "step": 5527 + }, + { + "avg_step_time": 5.766444278485848, + "epoch": 0.5895466666666667, + "eta_time": 6.163688217670428, + "step": 5527 + }, + { + "epoch": 0.5896533333333334, + "grad_norm": 2.0727534215828682, + "learning_rate": 3.8033571678505626e-06, + "loss": 0.4531, + "step": 5528 + }, + { + "avg_step_time": 5.780477326325696, + "epoch": 0.5896533333333334, + "eta_time": 6.177082298437487, + "step": 5528 + }, + { + "epoch": 0.58976, + "grad_norm": 1.8568565388119125, + "learning_rate": 3.801679963547949e-06, + "loss": 0.5365, + "step": 5529 + }, + { + "avg_step_time": 5.781042912993768, + "epoch": 0.58976, + "eta_time": 6.176080845381676, + "step": 5529 + }, + { + "epoch": 0.5898666666666667, + "grad_norm": 1.7228370493777618, + "learning_rate": 3.8000029022855587e-06, + "loss": 0.5188, + "step": 5530 + }, + { + "avg_step_time": 5.758949026916966, + "epoch": 0.5898666666666667, + "eta_time": 6.1508775023599265, + "step": 5530 + }, + { + "epoch": 0.5899733333333333, + "grad_norm": 2.077767398900573, + "learning_rate": 3.798325984263578e-06, + "loss": 0.495, + "step": 5531 + }, + { + "avg_step_time": 5.761687748359911, + "epoch": 0.5899733333333333, + "eta_time": 6.152202140193194, + "step": 5531 + }, + { + "epoch": 0.59008, + "grad_norm": 1.7768578080251314, + "learning_rate": 3.7966492096821773e-06, + "loss": 0.4686, + "step": 5532 + }, + { + "avg_step_time": 5.763268779022525, + "epoch": 0.59008, + "eta_time": 6.152289421606545, + "step": 5532 + }, + { + "epoch": 0.5901866666666666, + "grad_norm": 2.170181196502852, + "learning_rate": 3.7949725787415044e-06, + "loss": 0.4999, + "step": 5533 + }, + { + "avg_step_time": 5.760869623434664, + "epoch": 0.5901866666666666, + "eta_time": 6.1481280814544395, + "step": 5533 + }, + { + "epoch": 0.5902933333333333, + "grad_norm": 0.6759553143982644, + "learning_rate": 3.7932960916417004e-06, + "loss": 0.4464, + "step": 5534 + }, + { + "avg_step_time": 5.726528866122467, + "epoch": 0.5902933333333333, + "eta_time": 6.10988815966011, + "step": 5534 + }, + { + "epoch": 0.5904, + "grad_norm": 1.6069866290772732, + "learning_rate": 3.7916197485828793e-06, + "loss": 0.4029, + "step": 5535 + }, + { + "avg_step_time": 5.726634935899214, + "epoch": 0.5904, + "eta_time": 6.108410598292495, + "step": 5535 + }, + { + "epoch": 0.5905066666666666, + "grad_norm": 1.8365167544964556, + "learning_rate": 3.7899435497651416e-06, + "loss": 0.4626, + "step": 5536 + }, + { + "avg_step_time": 5.7277301778697005, + "epoch": 0.5905066666666666, + "eta_time": 6.107987820233827, + "step": 5536 + }, + { + "epoch": 0.5906133333333333, + "grad_norm": 1.7863938458808823, + "learning_rate": 3.7882674953885736e-06, + "loss": 0.489, + "step": 5537 + }, + { + "avg_step_time": 5.7257690911341195, + "epoch": 0.5906133333333333, + "eta_time": 6.104306047714653, + "step": 5537 + }, + { + "epoch": 0.59072, + "grad_norm": 1.6802224009339712, + "learning_rate": 3.786591585653235e-06, + "loss": 0.5201, + "step": 5538 + }, + { + "avg_step_time": 5.725845093678946, + "epoch": 0.59072, + "eta_time": 6.1027965623461435, + "step": 5538 + }, + { + "epoch": 0.5908266666666667, + "grad_norm": 1.6752838243232113, + "learning_rate": 3.7849158207591806e-06, + "loss": 0.4887, + "step": 5539 + }, + { + "avg_step_time": 5.727400789357195, + "epoch": 0.5908266666666667, + "eta_time": 6.102863729992833, + "step": 5539 + }, + { + "epoch": 0.5909333333333333, + "grad_norm": 1.7979608513408152, + "learning_rate": 3.783240200906442e-06, + "loss": 0.4418, + "step": 5540 + }, + { + "avg_step_time": 5.727792898813884, + "epoch": 0.5909333333333333, + "eta_time": 6.10169049081979, + "step": 5540 + }, + { + "epoch": 0.59104, + "grad_norm": 0.6394148852842965, + "learning_rate": 3.7815647262950293e-06, + "loss": 0.4179, + "step": 5541 + }, + { + "avg_step_time": 5.6900004834839795, + "epoch": 0.59104, + "eta_time": 6.059850514910439, + "step": 5541 + }, + { + "epoch": 0.5911466666666667, + "grad_norm": 1.5850802620262858, + "learning_rate": 3.7798893971249424e-06, + "loss": 0.4833, + "step": 5542 + }, + { + "avg_step_time": 5.688658220599396, + "epoch": 0.5911466666666667, + "eta_time": 6.056840822099302, + "step": 5542 + }, + { + "epoch": 0.5912533333333333, + "grad_norm": 0.6044730066511137, + "learning_rate": 3.7782142135961586e-06, + "loss": 0.4201, + "step": 5543 + }, + { + "avg_step_time": 5.654230059999408, + "epoch": 0.5912533333333333, + "eta_time": 6.018613774977148, + "step": 5543 + }, + { + "epoch": 0.59136, + "grad_norm": 1.9475159413164265, + "learning_rate": 3.7765391759086424e-06, + "loss": 0.4802, + "step": 5544 + }, + { + "avg_step_time": 5.669026757731582, + "epoch": 0.59136, + "eta_time": 6.032789308019359, + "step": 5544 + }, + { + "epoch": 0.5914666666666667, + "grad_norm": 1.6613549538268757, + "learning_rate": 3.774864284262339e-06, + "loss": 0.5051, + "step": 5545 + }, + { + "avg_step_time": 5.677330953906281, + "epoch": 0.5914666666666667, + "eta_time": 6.040049320405848, + "step": 5545 + }, + { + "epoch": 0.5915733333333333, + "grad_norm": 1.4309566617406575, + "learning_rate": 3.7731895388571725e-06, + "loss": 0.3742, + "step": 5546 + }, + { + "avg_step_time": 5.67646429755471, + "epoch": 0.5915733333333333, + "eta_time": 6.037550498704717, + "step": 5546 + }, + { + "epoch": 0.59168, + "grad_norm": 1.7915030842624124, + "learning_rate": 3.771514939893055e-06, + "loss": 0.5808, + "step": 5547 + }, + { + "avg_step_time": 5.672542545530531, + "epoch": 0.59168, + "eta_time": 6.03180357341413, + "step": 5547 + }, + { + "epoch": 0.5917866666666667, + "grad_norm": 1.6552504466715674, + "learning_rate": 3.769840487569877e-06, + "loss": 0.487, + "step": 5548 + }, + { + "avg_step_time": 5.6780283812320596, + "epoch": 0.5917866666666667, + "eta_time": 6.036059615270859, + "step": 5548 + }, + { + "epoch": 0.5918933333333334, + "grad_norm": 1.66435542262789, + "learning_rate": 3.7681661820875156e-06, + "loss": 0.4562, + "step": 5549 + }, + { + "avg_step_time": 5.675635662945834, + "epoch": 0.5918933333333334, + "eta_time": 6.031939457341878, + "step": 5549 + }, + { + "epoch": 0.592, + "grad_norm": 1.5964179593932732, + "learning_rate": 3.766492023645827e-06, + "loss": 0.5082, + "step": 5550 + }, + { + "avg_step_time": 5.704134428139889, + "epoch": 0.592, + "eta_time": 6.060642829898632, + "step": 5550 + }, + { + "epoch": 0.5921066666666667, + "grad_norm": 1.541619707813795, + "learning_rate": 3.764818012444652e-06, + "loss": 0.4757, + "step": 5551 + }, + { + "avg_step_time": 5.739896480483238, + "epoch": 0.5921066666666667, + "eta_time": 6.097045594824418, + "step": 5551 + }, + { + "epoch": 0.5922133333333334, + "grad_norm": 1.7388334967715111, + "learning_rate": 3.7631441486838115e-06, + "loss": 0.5007, + "step": 5552 + }, + { + "avg_step_time": 5.761115240328239, + "epoch": 0.5922133333333334, + "eta_time": 6.117984323270795, + "step": 5552 + }, + { + "epoch": 0.59232, + "grad_norm": 1.7192065736395747, + "learning_rate": 3.761470432563109e-06, + "loss": 0.4549, + "step": 5553 + }, + { + "avg_step_time": 5.76190138103986, + "epoch": 0.59232, + "eta_time": 6.117218632870652, + "step": 5553 + }, + { + "epoch": 0.5924266666666667, + "grad_norm": 1.946247819048049, + "learning_rate": 3.7597968642823348e-06, + "loss": 0.5157, + "step": 5554 + }, + { + "avg_step_time": 5.7293757958845655, + "epoch": 0.5924266666666667, + "eta_time": 6.081095810020813, + "step": 5554 + }, + { + "epoch": 0.5925333333333334, + "grad_norm": 1.9581958635032213, + "learning_rate": 3.758123444041255e-06, + "loss": 0.515, + "step": 5555 + }, + { + "avg_step_time": 5.731337896501175, + "epoch": 0.5925333333333334, + "eta_time": 6.08158632350958, + "step": 5555 + }, + { + "epoch": 0.59264, + "grad_norm": 1.819155992455428, + "learning_rate": 3.7564501720396242e-06, + "loss": 0.4547, + "step": 5556 + }, + { + "avg_step_time": 5.703267518920128, + "epoch": 0.59264, + "eta_time": 6.050216292987768, + "step": 5556 + }, + { + "epoch": 0.5927466666666666, + "grad_norm": 2.0759481897579493, + "learning_rate": 3.7547770484771745e-06, + "loss": 0.5488, + "step": 5557 + }, + { + "avg_step_time": 5.7009363270769216, + "epoch": 0.5927466666666666, + "eta_time": 6.046159693549912, + "step": 5557 + }, + { + "epoch": 0.5928533333333333, + "grad_norm": 1.760501436124895, + "learning_rate": 3.7531040735536194e-06, + "loss": 0.4823, + "step": 5558 + }, + { + "avg_step_time": 5.6849239185602976, + "epoch": 0.5928533333333333, + "eta_time": 6.0275984992068485, + "step": 5558 + }, + { + "epoch": 0.59296, + "grad_norm": 1.7227897404170893, + "learning_rate": 3.7514312474686643e-06, + "loss": 0.5069, + "step": 5559 + }, + { + "avg_step_time": 5.6896824066085046, + "epoch": 0.59296, + "eta_time": 6.031063351005015, + "step": 5559 + }, + { + "epoch": 0.5930666666666666, + "grad_norm": 1.610441281849699, + "learning_rate": 3.7497585704219845e-06, + "loss": 0.5098, + "step": 5560 + }, + { + "avg_step_time": 5.699631852332992, + "epoch": 0.5930666666666666, + "eta_time": 6.040026532402878, + "step": 5560 + }, + { + "epoch": 0.5931733333333333, + "grad_norm": 1.4423351427311275, + "learning_rate": 3.748086042613245e-06, + "loss": 0.4642, + "step": 5561 + }, + { + "avg_step_time": 5.7011809638052275, + "epoch": 0.5931733333333333, + "eta_time": 6.0400844988758715, + "step": 5561 + }, + { + "epoch": 0.59328, + "grad_norm": 1.641138247055765, + "learning_rate": 3.74641366424209e-06, + "loss": 0.3693, + "step": 5562 + }, + { + "avg_step_time": 5.697324422874836, + "epoch": 0.59328, + "eta_time": 6.0344161178949305, + "step": 5562 + }, + { + "epoch": 0.5933866666666666, + "grad_norm": 1.9404102972882926, + "learning_rate": 3.7447414355081465e-06, + "loss": 0.4669, + "step": 5563 + }, + { + "avg_step_time": 5.698242625804863, + "epoch": 0.5933866666666666, + "eta_time": 6.033805802657816, + "step": 5563 + }, + { + "epoch": 0.5934933333333333, + "grad_norm": 2.061164386224398, + "learning_rate": 3.7430693566110254e-06, + "loss": 0.5033, + "step": 5564 + }, + { + "avg_step_time": 5.676916493309869, + "epoch": 0.5934933333333333, + "eta_time": 6.0096468766677535, + "step": 5564 + }, + { + "epoch": 0.5936, + "grad_norm": 1.574732965262652, + "learning_rate": 3.7413974277503183e-06, + "loss": 0.4882, + "step": 5565 + }, + { + "avg_step_time": 5.679144938786824, + "epoch": 0.5936, + "eta_time": 6.01042839354939, + "step": 5565 + }, + { + "epoch": 0.5937066666666667, + "grad_norm": 0.6357837265533399, + "learning_rate": 3.7397256491255973e-06, + "loss": 0.4314, + "step": 5566 + }, + { + "avg_step_time": 5.652401509911123, + "epoch": 0.5937066666666667, + "eta_time": 5.980554819792075, + "step": 5566 + }, + { + "epoch": 0.5938133333333333, + "grad_norm": 1.83199081658081, + "learning_rate": 3.738054020936418e-06, + "loss": 0.5034, + "step": 5567 + }, + { + "avg_step_time": 5.6884010560584795, + "epoch": 0.5938133333333333, + "eta_time": 6.017064228186303, + "step": 5567 + }, + { + "epoch": 0.59392, + "grad_norm": 1.7890896811669128, + "learning_rate": 3.7363825433823187e-06, + "loss": 0.4435, + "step": 5568 + }, + { + "avg_step_time": 5.65449990407385, + "epoch": 0.59392, + "eta_time": 5.979633648558097, + "step": 5568 + }, + { + "epoch": 0.5940266666666667, + "grad_norm": 1.8234819279078631, + "learning_rate": 3.7347112166628207e-06, + "loss": 0.5126, + "step": 5569 + }, + { + "avg_step_time": 5.654525937456073, + "epoch": 0.5940266666666667, + "eta_time": 5.978090477210504, + "step": 5569 + }, + { + "epoch": 0.5941333333333333, + "grad_norm": 1.9151678799289085, + "learning_rate": 3.7330400409774236e-06, + "loss": 0.4627, + "step": 5570 + }, + { + "avg_step_time": 5.652982511905709, + "epoch": 0.5941333333333333, + "eta_time": 5.974888460500339, + "step": 5570 + }, + { + "epoch": 0.59424, + "grad_norm": 1.685165361160553, + "learning_rate": 3.7313690165256134e-06, + "loss": 0.4625, + "step": 5571 + }, + { + "avg_step_time": 5.71002938289835, + "epoch": 0.59424, + "eta_time": 6.033597714595923, + "step": 5571 + }, + { + "epoch": 0.5943466666666667, + "grad_norm": 1.9162347314625787, + "learning_rate": 3.729698143506851e-06, + "loss": 0.4782, + "step": 5572 + }, + { + "avg_step_time": 5.718027654320303, + "epoch": 0.5943466666666667, + "eta_time": 6.040460880383365, + "step": 5572 + }, + { + "epoch": 0.5944533333333333, + "grad_norm": 0.638337345631739, + "learning_rate": 3.7280274221205907e-06, + "loss": 0.4329, + "step": 5573 + }, + { + "avg_step_time": 5.684615019595984, + "epoch": 0.5944533333333333, + "eta_time": 6.003585084584426, + "step": 5573 + }, + { + "epoch": 0.59456, + "grad_norm": 1.5149502378440212, + "learning_rate": 3.7263568525662574e-06, + "loss": 0.4041, + "step": 5574 + }, + { + "avg_step_time": 5.702805218070444, + "epoch": 0.59456, + "eta_time": 6.021211842746044, + "step": 5574 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 1.8070208459036567, + "learning_rate": 3.7246864350432636e-06, + "loss": 0.5063, + "step": 5575 + }, + { + "avg_step_time": 5.670134915245904, + "epoch": 0.5946666666666667, + "eta_time": 5.985142410537343, + "step": 5575 + }, + { + "epoch": 0.5947733333333334, + "grad_norm": 1.819472143954221, + "learning_rate": 3.723016169751003e-06, + "loss": 0.4348, + "step": 5576 + }, + { + "avg_step_time": 5.670874077864368, + "epoch": 0.5947733333333334, + "eta_time": 5.984347394946314, + "step": 5576 + }, + { + "epoch": 0.59488, + "grad_norm": 2.01153261911861, + "learning_rate": 3.7213460568888493e-06, + "loss": 0.4867, + "step": 5577 + }, + { + "avg_step_time": 5.681347184711033, + "epoch": 0.59488, + "eta_time": 5.993821279870139, + "step": 5577 + }, + { + "epoch": 0.5949866666666667, + "grad_norm": 1.897219661016442, + "learning_rate": 3.7196760966561607e-06, + "loss": 0.4717, + "step": 5578 + }, + { + "avg_step_time": 5.68211392922835, + "epoch": 0.5949866666666667, + "eta_time": 5.993051830355568, + "step": 5578 + }, + { + "epoch": 0.5950933333333334, + "grad_norm": 0.6511313848845844, + "learning_rate": 3.7180062892522774e-06, + "loss": 0.4528, + "step": 5579 + }, + { + "avg_step_time": 5.64766344638786, + "epoch": 0.5950933333333334, + "eta_time": 5.955147345135643, + "step": 5579 + }, + { + "epoch": 0.5952, + "grad_norm": 1.7054534981134841, + "learning_rate": 3.716336634876516e-06, + "loss": 0.4991, + "step": 5580 + }, + { + "avg_step_time": 5.652862009375986, + "epoch": 0.5952, + "eta_time": 5.959058701550519, + "step": 5580 + }, + { + "epoch": 0.5953066666666667, + "grad_norm": 1.851366546981133, + "learning_rate": 3.71466713372818e-06, + "loss": 0.4654, + "step": 5581 + }, + { + "avg_step_time": 5.660656242659598, + "epoch": 0.5953066666666667, + "eta_time": 5.965702717958476, + "step": 5581 + }, + { + "epoch": 0.5954133333333333, + "grad_norm": 1.8408890969389269, + "learning_rate": 3.712997786006554e-06, + "loss": 0.4986, + "step": 5582 + }, + { + "avg_step_time": 5.664290900182242, + "epoch": 0.5954133333333333, + "eta_time": 5.967959828997568, + "step": 5582 + }, + { + "epoch": 0.59552, + "grad_norm": 1.8485115575069102, + "learning_rate": 3.711328591910904e-06, + "loss": 0.4831, + "step": 5583 + }, + { + "avg_step_time": 5.704660839504665, + "epoch": 0.59552, + "eta_time": 6.008909417611581, + "step": 5583 + }, + { + "epoch": 0.5956266666666666, + "grad_norm": 1.7614312531764686, + "learning_rate": 3.709659551640476e-06, + "loss": 0.4602, + "step": 5584 + }, + { + "avg_step_time": 5.701107123885492, + "epoch": 0.5956266666666666, + "eta_time": 6.003582529624972, + "step": 5584 + }, + { + "epoch": 0.5957333333333333, + "grad_norm": 1.7959526084150517, + "learning_rate": 3.7079906653945008e-06, + "loss": 0.453, + "step": 5585 + }, + { + "avg_step_time": 5.697908480962117, + "epoch": 0.5957333333333333, + "eta_time": 5.998631428568451, + "step": 5585 + }, + { + "epoch": 0.59584, + "grad_norm": 1.7467294123079937, + "learning_rate": 3.7063219333721857e-06, + "loss": 0.4884, + "step": 5586 + }, + { + "avg_step_time": 5.697098862041127, + "epoch": 0.59584, + "eta_time": 5.9961965522982865, + "step": 5586 + }, + { + "epoch": 0.5959466666666666, + "grad_norm": 1.7225598649164968, + "learning_rate": 3.7046533557727238e-06, + "loss": 0.5359, + "step": 5587 + }, + { + "avg_step_time": 5.683220506918551, + "epoch": 0.5959466666666666, + "eta_time": 5.980010911168742, + "step": 5587 + }, + { + "epoch": 0.5960533333333333, + "grad_norm": 1.9024489127337794, + "learning_rate": 3.7029849327952897e-06, + "loss": 0.49, + "step": 5588 + }, + { + "avg_step_time": 5.7129291308046595, + "epoch": 0.5960533333333333, + "eta_time": 6.0096840606547905, + "step": 5588 + }, + { + "epoch": 0.59616, + "grad_norm": 1.669564357660873, + "learning_rate": 3.7013166646390384e-06, + "loss": 0.4836, + "step": 5589 + }, + { + "avg_step_time": 5.749970525202125, + "epoch": 0.59616, + "eta_time": 6.047052335670902, + "step": 5589 + }, + { + "epoch": 0.5962666666666666, + "grad_norm": 1.745298532172104, + "learning_rate": 3.6996485515031077e-06, + "loss": 0.5213, + "step": 5590 + }, + { + "avg_step_time": 5.754897688374375, + "epoch": 0.5962666666666666, + "eta_time": 6.05063548624917, + "step": 5590 + }, + { + "epoch": 0.5963733333333333, + "grad_norm": 1.922023226767715, + "learning_rate": 3.6979805935866125e-06, + "loss": 0.4494, + "step": 5591 + }, + { + "avg_step_time": 5.753698958290948, + "epoch": 0.5963733333333333, + "eta_time": 6.047776905048041, + "step": 5591 + }, + { + "epoch": 0.59648, + "grad_norm": 1.8219340033503661, + "learning_rate": 3.6963127910886526e-06, + "loss": 0.5045, + "step": 5592 + }, + { + "avg_step_time": 5.759126993140789, + "epoch": 0.59648, + "eta_time": 6.051882615292112, + "step": 5592 + }, + { + "epoch": 0.5965866666666667, + "grad_norm": 2.106410045917053, + "learning_rate": 3.694645144208314e-06, + "loss": 0.5232, + "step": 5593 + }, + { + "avg_step_time": 5.75784223489087, + "epoch": 0.5965866666666667, + "eta_time": 6.04893314787702, + "step": 5593 + }, + { + "epoch": 0.5966933333333333, + "grad_norm": 1.8660230236843243, + "learning_rate": 3.6929776531446544e-06, + "loss": 0.5247, + "step": 5594 + }, + { + "avg_step_time": 5.755539198114414, + "epoch": 0.5966933333333333, + "eta_time": 6.044914918908501, + "step": 5594 + }, + { + "epoch": 0.5968, + "grad_norm": 1.605228504415581, + "learning_rate": 3.691310318096719e-06, + "loss": 0.4333, + "step": 5595 + }, + { + "avg_step_time": 5.758242029132265, + "epoch": 0.5968, + "eta_time": 6.046154130588878, + "step": 5595 + }, + { + "epoch": 0.5969066666666667, + "grad_norm": 1.776001507336617, + "learning_rate": 3.6896431392635345e-06, + "loss": 0.5078, + "step": 5596 + }, + { + "avg_step_time": 5.754475152853764, + "epoch": 0.5969066666666667, + "eta_time": 6.0406004451762145, + "step": 5596 + }, + { + "epoch": 0.5970133333333333, + "grad_norm": 1.644731819028672, + "learning_rate": 3.6879761168441038e-06, + "loss": 0.4615, + "step": 5597 + }, + { + "avg_step_time": 5.748487412327468, + "epoch": 0.5970133333333333, + "eta_time": 6.032718178825881, + "step": 5597 + }, + { + "epoch": 0.59712, + "grad_norm": 1.7432457545899869, + "learning_rate": 3.6863092510374198e-06, + "loss": 0.4889, + "step": 5598 + }, + { + "avg_step_time": 5.782125456164581, + "epoch": 0.59712, + "eta_time": 6.066413291092673, + "step": 5598 + }, + { + "epoch": 0.5972266666666667, + "grad_norm": 1.9530803965052883, + "learning_rate": 3.684642542042449e-06, + "loss": 0.4807, + "step": 5599 + }, + { + "avg_step_time": 5.7814744385806, + "epoch": 0.5972266666666667, + "eta_time": 6.064124300022318, + "step": 5599 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 1.939837777218539, + "learning_rate": 3.6829759900581413e-06, + "loss": 0.5223, + "step": 5600 + }, + { + "avg_step_time": 5.821294435346969, + "epoch": 0.5973333333333334, + "eta_time": 6.104274025954114, + "step": 5600 + }, + { + "epoch": 0.59744, + "grad_norm": 1.6935960247858395, + "learning_rate": 3.68130959528343e-06, + "loss": 0.433, + "step": 5601 + }, + { + "avg_step_time": 5.789908900405422, + "epoch": 0.59744, + "eta_time": 6.069754497258351, + "step": 5601 + }, + { + "epoch": 0.5975466666666667, + "grad_norm": 1.9538549887583547, + "learning_rate": 3.6796433579172265e-06, + "loss": 0.4211, + "step": 5602 + }, + { + "avg_step_time": 5.7916360358999235, + "epoch": 0.5975466666666667, + "eta_time": 6.06995632318067, + "step": 5602 + }, + { + "epoch": 0.5976533333333334, + "grad_norm": 1.7553804234742585, + "learning_rate": 3.677977278158427e-06, + "loss": 0.4692, + "step": 5603 + }, + { + "avg_step_time": 5.7944209021751325, + "epoch": 0.5976533333333334, + "eta_time": 6.071265456390166, + "step": 5603 + }, + { + "epoch": 0.59776, + "grad_norm": 0.6753051970378026, + "learning_rate": 3.6763113562059077e-06, + "loss": 0.4776, + "step": 5604 + }, + { + "avg_step_time": 5.765384847467596, + "epoch": 0.59776, + "eta_time": 6.0392406277223065, + "step": 5604 + }, + { + "epoch": 0.5978666666666667, + "grad_norm": 1.6916790304956904, + "learning_rate": 3.6746455922585222e-06, + "loss": 0.4653, + "step": 5605 + }, + { + "avg_step_time": 5.8152064361957585, + "epoch": 0.5978666666666667, + "eta_time": 6.089813406793891, + "step": 5605 + }, + { + "epoch": 0.5979733333333334, + "grad_norm": 1.8407799743839155, + "learning_rate": 3.6729799865151094e-06, + "loss": 0.5651, + "step": 5606 + }, + { + "avg_step_time": 5.804236202528982, + "epoch": 0.5979733333333334, + "eta_time": 6.076712846481037, + "step": 5606 + }, + { + "epoch": 0.59808, + "grad_norm": 1.9089271080936456, + "learning_rate": 3.6713145391744877e-06, + "loss": 0.5124, + "step": 5607 + }, + { + "avg_step_time": 5.803072664472792, + "epoch": 0.59808, + "eta_time": 6.073882722148189, + "step": 5607 + }, + { + "epoch": 0.5981866666666666, + "grad_norm": 1.6163749450583655, + "learning_rate": 3.6696492504354585e-06, + "loss": 0.5131, + "step": 5608 + }, + { + "avg_step_time": 5.802228392976703, + "epoch": 0.5981866666666666, + "eta_time": 6.071387321206455, + "step": 5608 + }, + { + "epoch": 0.5982933333333333, + "grad_norm": 1.624506022492558, + "learning_rate": 3.6679841204968025e-06, + "loss": 0.4761, + "step": 5609 + }, + { + "avg_step_time": 5.8030055749295935, + "epoch": 0.5982933333333333, + "eta_time": 6.070588609773569, + "step": 5609 + }, + { + "epoch": 0.5984, + "grad_norm": 1.8184817137946967, + "learning_rate": 3.6663191495572827e-06, + "loss": 0.3993, + "step": 5610 + }, + { + "avg_step_time": 5.80142098966271, + "epoch": 0.5984, + "eta_time": 6.067319451688918, + "step": 5610 + }, + { + "epoch": 0.5985066666666666, + "grad_norm": 0.6879389196923839, + "learning_rate": 3.664654337815639e-06, + "loss": 0.4653, + "step": 5611 + }, + { + "avg_step_time": 5.8015039569199685, + "epoch": 0.5985066666666666, + "eta_time": 6.065794692735212, + "step": 5611 + }, + { + "epoch": 0.5986133333333333, + "grad_norm": 2.1208155237149846, + "learning_rate": 3.6629896854705963e-06, + "loss": 0.4626, + "step": 5612 + }, + { + "avg_step_time": 5.800173757052181, + "epoch": 0.5986133333333333, + "eta_time": 6.062792735496488, + "step": 5612 + }, + { + "epoch": 0.59872, + "grad_norm": 1.90050179209991, + "learning_rate": 3.661325192720862e-06, + "loss": 0.5619, + "step": 5613 + }, + { + "avg_step_time": 5.7990665869279345, + "epoch": 0.59872, + "eta_time": 6.0600245833396915, + "step": 5613 + }, + { + "epoch": 0.5988266666666666, + "grad_norm": 1.7179641476263148, + "learning_rate": 3.6596608597651205e-06, + "loss": 0.4674, + "step": 5614 + }, + { + "avg_step_time": 5.795435431027653, + "epoch": 0.5988266666666666, + "eta_time": 6.0546201822486125, + "step": 5614 + }, + { + "epoch": 0.5989333333333333, + "grad_norm": 2.1026162189856974, + "learning_rate": 3.657996686802039e-06, + "loss": 0.4705, + "step": 5615 + }, + { + "avg_step_time": 5.82067044816836, + "epoch": 0.5989333333333333, + "eta_time": 6.079366912531398, + "step": 5615 + }, + { + "epoch": 0.59904, + "grad_norm": 1.949592864080913, + "learning_rate": 3.6563326740302664e-06, + "loss": 0.4432, + "step": 5616 + }, + { + "avg_step_time": 5.813391278488467, + "epoch": 0.59904, + "eta_time": 6.070149393288374, + "step": 5616 + }, + { + "epoch": 0.5991466666666667, + "grad_norm": 1.503194805203827, + "learning_rate": 3.6546688216484272e-06, + "loss": 0.4883, + "step": 5617 + }, + { + "avg_step_time": 5.82020049384146, + "epoch": 0.5991466666666667, + "eta_time": 6.075642626626724, + "step": 5617 + }, + { + "epoch": 0.5992533333333333, + "grad_norm": 1.9704457827145216, + "learning_rate": 3.6530051298551372e-06, + "loss": 0.4425, + "step": 5618 + }, + { + "avg_step_time": 5.819340958739772, + "epoch": 0.5992533333333333, + "eta_time": 6.073128883884812, + "step": 5618 + }, + { + "epoch": 0.59936, + "grad_norm": 1.8377463029990964, + "learning_rate": 3.6513415988489824e-06, + "loss": 0.5076, + "step": 5619 + }, + { + "avg_step_time": 5.822821590635511, + "epoch": 0.59936, + "eta_time": 6.07514385956305, + "step": 5619 + }, + { + "epoch": 0.5994666666666667, + "grad_norm": 1.7488159089770101, + "learning_rate": 3.649678228828535e-06, + "loss": 0.4639, + "step": 5620 + }, + { + "avg_step_time": 5.828170600563589, + "epoch": 0.5994666666666667, + "eta_time": 6.07910572364341, + "step": 5620 + }, + { + "epoch": 0.5995733333333333, + "grad_norm": 1.932363352575751, + "learning_rate": 3.648015019992347e-06, + "loss": 0.4562, + "step": 5621 + }, + { + "avg_step_time": 5.839656834650522, + "epoch": 0.5995733333333333, + "eta_time": 6.089464377021684, + "step": 5621 + }, + { + "epoch": 0.59968, + "grad_norm": 1.719526480101323, + "learning_rate": 3.6463519725389516e-06, + "loss": 0.4374, + "step": 5622 + }, + { + "avg_step_time": 5.841743404215032, + "epoch": 0.59968, + "eta_time": 6.090017498894171, + "step": 5622 + }, + { + "epoch": 0.5997866666666667, + "grad_norm": 1.4987518352514144, + "learning_rate": 3.6446890866668627e-06, + "loss": 0.4823, + "step": 5623 + }, + { + "avg_step_time": 5.8815323632172865, + "epoch": 0.5997866666666667, + "eta_time": 6.129863729664238, + "step": 5623 + }, + { + "epoch": 0.5998933333333333, + "grad_norm": 1.8193774067331372, + "learning_rate": 3.6430263625745744e-06, + "loss": 0.4878, + "step": 5624 + }, + { + "avg_step_time": 5.8846688029742, + "epoch": 0.5998933333333333, + "eta_time": 6.131497966654506, + "step": 5624 + }, + { + "epoch": 0.6, + "grad_norm": 1.9953623467890265, + "learning_rate": 3.64136380046056e-06, + "loss": 0.5697, + "step": 5625 + }, + { + "avg_step_time": 5.8856641885006065, + "epoch": 0.6, + "eta_time": 6.130900196354799, + "step": 5625 + }, + { + "epoch": 0.6001066666666667, + "grad_norm": 0.6591388926908778, + "learning_rate": 3.6397014005232754e-06, + "loss": 0.4407, + "step": 5626 + }, + { + "avg_step_time": 5.8512349995699795, + "epoch": 0.6001066666666667, + "eta_time": 6.093411114829959, + "step": 5626 + }, + { + "epoch": 0.6002133333333334, + "grad_norm": 1.8140826473440452, + "learning_rate": 3.6380391629611585e-06, + "loss": 0.4569, + "step": 5627 + }, + { + "avg_step_time": 5.835978941483931, + "epoch": 0.6002133333333334, + "eta_time": 6.075902520189381, + "step": 5627 + }, + { + "epoch": 0.60032, + "grad_norm": 0.6214259253271598, + "learning_rate": 3.6363770879726247e-06, + "loss": 0.4134, + "step": 5628 + }, + { + "avg_step_time": 5.805826119702272, + "epoch": 0.60032, + "eta_time": 6.042897352923449, + "step": 5628 + }, + { + "epoch": 0.6004266666666667, + "grad_norm": 1.4433038822375972, + "learning_rate": 3.6347151757560716e-06, + "loss": 0.3337, + "step": 5629 + }, + { + "avg_step_time": 5.805599369183935, + "epoch": 0.6004266666666667, + "eta_time": 6.041048676934173, + "step": 5629 + }, + { + "epoch": 0.6005333333333334, + "grad_norm": 2.1044817151356034, + "learning_rate": 3.6330534265098793e-06, + "loss": 0.6143, + "step": 5630 + }, + { + "avg_step_time": 5.8013019417271465, + "epoch": 0.6005333333333334, + "eta_time": 6.034965492157823, + "step": 5630 + }, + { + "epoch": 0.60064, + "grad_norm": 1.6002894220937318, + "learning_rate": 3.6313918404324e-06, + "loss": 0.5076, + "step": 5631 + }, + { + "avg_step_time": 5.819528490605981, + "epoch": 0.60064, + "eta_time": 6.05230963023022, + "step": 5631 + }, + { + "epoch": 0.6007466666666667, + "grad_norm": 0.6541431999163821, + "learning_rate": 3.629730417721981e-06, + "loss": 0.4447, + "step": 5632 + }, + { + "avg_step_time": 5.804547348407784, + "epoch": 0.6007466666666667, + "eta_time": 6.035116868080649, + "step": 5632 + }, + { + "epoch": 0.6008533333333334, + "grad_norm": 0.6495119575680531, + "learning_rate": 3.6280691585769368e-06, + "loss": 0.4299, + "step": 5633 + }, + { + "avg_step_time": 5.804465852602564, + "epoch": 0.6008533333333334, + "eta_time": 6.033419783455221, + "step": 5633 + }, + { + "epoch": 0.60096, + "grad_norm": 1.8612790945448365, + "learning_rate": 3.6264080631955683e-06, + "loss": 0.4651, + "step": 5634 + }, + { + "avg_step_time": 5.802938321624139, + "epoch": 0.60096, + "eta_time": 6.0302200725544175, + "step": 5634 + }, + { + "epoch": 0.6010666666666666, + "grad_norm": 2.033021653596623, + "learning_rate": 3.6247471317761572e-06, + "loss": 0.5149, + "step": 5635 + }, + { + "avg_step_time": 5.805468462934398, + "epoch": 0.6010666666666666, + "eta_time": 6.031236680937401, + "step": 5635 + }, + { + "epoch": 0.6011733333333333, + "grad_norm": 1.9726233060248517, + "learning_rate": 3.62308636451696e-06, + "loss": 0.5111, + "step": 5636 + }, + { + "avg_step_time": 5.808058485840306, + "epoch": 0.6011733333333333, + "eta_time": 6.032314077376918, + "step": 5636 + }, + { + "epoch": 0.60128, + "grad_norm": 1.7137941946072028, + "learning_rate": 3.621425761616224e-06, + "loss": 0.4168, + "step": 5637 + }, + { + "avg_step_time": 5.809760871559683, + "epoch": 0.60128, + "eta_time": 6.032468371636138, + "step": 5637 + }, + { + "epoch": 0.6013866666666666, + "grad_norm": 0.6611160870294284, + "learning_rate": 3.6197653232721696e-06, + "loss": 0.4581, + "step": 5638 + }, + { + "avg_step_time": 5.781996507837315, + "epoch": 0.6013866666666666, + "eta_time": 6.002033597163346, + "step": 5638 + }, + { + "epoch": 0.6014933333333333, + "grad_norm": 0.6936853598924847, + "learning_rate": 3.6181050496829963e-06, + "loss": 0.4837, + "step": 5639 + }, + { + "avg_step_time": 5.747996161682437, + "epoch": 0.6014933333333333, + "eta_time": 5.965142683345996, + "step": 5639 + }, + { + "epoch": 0.6016, + "grad_norm": 1.5634236109691295, + "learning_rate": 3.616444941046887e-06, + "loss": 0.4685, + "step": 5640 + }, + { + "avg_step_time": 5.780351000602799, + "epoch": 0.6016, + "eta_time": 5.997114163125404, + "step": 5640 + }, + { + "epoch": 0.6017066666666666, + "grad_norm": 2.3263485326848063, + "learning_rate": 3.614784997562004e-06, + "loss": 0.5159, + "step": 5641 + }, + { + "avg_step_time": 5.780846268239648, + "epoch": 0.6017066666666666, + "eta_time": 5.996022212668567, + "step": 5641 + }, + { + "epoch": 0.6018133333333333, + "grad_norm": 1.8597953636637679, + "learning_rate": 3.6131252194264932e-06, + "loss": 0.4644, + "step": 5642 + }, + { + "avg_step_time": 5.814816703700056, + "epoch": 0.6018133333333333, + "eta_time": 6.029641876364531, + "step": 5642 + }, + { + "epoch": 0.60192, + "grad_norm": 1.6481644866071903, + "learning_rate": 3.6114656068384767e-06, + "loss": 0.4325, + "step": 5643 + }, + { + "avg_step_time": 5.824161592155996, + "epoch": 0.60192, + "eta_time": 6.037714183868383, + "step": 5643 + }, + { + "epoch": 0.6020266666666667, + "grad_norm": 1.5304535859348865, + "learning_rate": 3.609806159996056e-06, + "loss": 0.3892, + "step": 5644 + }, + { + "avg_step_time": 5.810183308341286, + "epoch": 0.6020266666666667, + "eta_time": 6.021609423172594, + "step": 5644 + }, + { + "epoch": 0.6021333333333333, + "grad_norm": 1.7814171091022406, + "learning_rate": 3.608146879097316e-06, + "loss": 0.5157, + "step": 5645 + }, + { + "avg_step_time": 5.812629360141176, + "epoch": 0.6021333333333333, + "eta_time": 6.02252986481294, + "step": 5645 + }, + { + "epoch": 0.60224, + "grad_norm": 1.7926355704362575, + "learning_rate": 3.6064877643403194e-06, + "loss": 0.4879, + "step": 5646 + }, + { + "avg_step_time": 5.83450555078911, + "epoch": 0.60224, + "eta_time": 6.0435753330257205, + "step": 5646 + }, + { + "epoch": 0.6023466666666667, + "grad_norm": 1.7175523376553692, + "learning_rate": 3.604828815923113e-06, + "loss": 0.4885, + "step": 5647 + }, + { + "avg_step_time": 5.830447119895858, + "epoch": 0.6023466666666667, + "eta_time": 6.037751906381044, + "step": 5647 + }, + { + "epoch": 0.6024533333333333, + "grad_norm": 0.6455592377770095, + "learning_rate": 3.6031700340437188e-06, + "loss": 0.4336, + "step": 5648 + }, + { + "avg_step_time": 5.798826287491153, + "epoch": 0.6024533333333333, + "eta_time": 6.003395992633202, + "step": 5648 + }, + { + "epoch": 0.60256, + "grad_norm": 1.5960966979246671, + "learning_rate": 3.601511418900143e-06, + "loss": 0.463, + "step": 5649 + }, + { + "avg_step_time": 5.770662970013088, + "epoch": 0.60256, + "eta_time": 5.972636173963547, + "step": 5649 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 1.891427267527601, + "learning_rate": 3.5998529706903673e-06, + "loss": 0.5399, + "step": 5650 + }, + { + "avg_step_time": 5.769627193007806, + "epoch": 0.6026666666666667, + "eta_time": 5.969961470542799, + "step": 5650 + }, + { + "epoch": 0.6027733333333334, + "grad_norm": 1.7153095599651875, + "learning_rate": 3.5981946896123576e-06, + "loss": 0.4536, + "step": 5651 + }, + { + "avg_step_time": 5.754135772435352, + "epoch": 0.6027733333333334, + "eta_time": 5.952333782374792, + "step": 5651 + }, + { + "epoch": 0.60288, + "grad_norm": 1.672649351513292, + "learning_rate": 3.5965365758640587e-06, + "loss": 0.3918, + "step": 5652 + }, + { + "avg_step_time": 5.754521374750619, + "epoch": 0.60288, + "eta_time": 5.9511341883879325, + "step": 5652 + }, + { + "epoch": 0.6029866666666667, + "grad_norm": 0.684367113372712, + "learning_rate": 3.5948786296433948e-06, + "loss": 0.4647, + "step": 5653 + }, + { + "avg_step_time": 5.724154705953116, + "epoch": 0.6029866666666667, + "eta_time": 5.918139948765972, + "step": 5653 + }, + { + "epoch": 0.6030933333333334, + "grad_norm": 0.6335591372985302, + "learning_rate": 3.5932208511482707e-06, + "loss": 0.4607, + "step": 5654 + }, + { + "avg_step_time": 5.690325773123539, + "epoch": 0.6030933333333334, + "eta_time": 5.881583944942414, + "step": 5654 + }, + { + "epoch": 0.6032, + "grad_norm": 2.1535755800941287, + "learning_rate": 3.591563240576572e-06, + "loss": 0.51, + "step": 5655 + }, + { + "avg_step_time": 5.687289177769363, + "epoch": 0.6032, + "eta_time": 5.876865483695008, + "step": 5655 + }, + { + "epoch": 0.6033066666666667, + "grad_norm": 2.281342763705689, + "learning_rate": 3.5899057981261586e-06, + "loss": 0.566, + "step": 5656 + }, + { + "avg_step_time": 5.686324085852112, + "epoch": 0.6033066666666667, + "eta_time": 5.87428868757889, + "step": 5656 + }, + { + "epoch": 0.6034133333333334, + "grad_norm": 1.7358544014591422, + "learning_rate": 3.588248523994882e-06, + "loss": 0.3951, + "step": 5657 + }, + { + "avg_step_time": 5.687311357922024, + "epoch": 0.6034133333333334, + "eta_time": 5.8737287857650236, + "step": 5657 + }, + { + "epoch": 0.60352, + "grad_norm": 2.026386355649758, + "learning_rate": 3.5865914183805606e-06, + "loss": 0.4795, + "step": 5658 + }, + { + "avg_step_time": 5.688711888862379, + "epoch": 0.60352, + "eta_time": 5.873595025250406, + "step": 5658 + }, + { + "epoch": 0.6036266666666666, + "grad_norm": 1.736267563352761, + "learning_rate": 3.584934481481002e-06, + "loss": 0.4436, + "step": 5659 + }, + { + "avg_step_time": 5.6793426744865645, + "epoch": 0.6036266666666666, + "eta_time": 5.862343716220021, + "step": 5659 + }, + { + "epoch": 0.6037333333333333, + "grad_norm": 1.6390757957332713, + "learning_rate": 3.5832777134939888e-06, + "loss": 0.4896, + "step": 5660 + }, + { + "avg_step_time": 5.678908311959469, + "epoch": 0.6037333333333333, + "eta_time": 5.860317883035952, + "step": 5660 + }, + { + "epoch": 0.60384, + "grad_norm": 1.995397310323524, + "learning_rate": 3.581621114617284e-06, + "loss": 0.5715, + "step": 5661 + }, + { + "avg_step_time": 5.679934860479952, + "epoch": 0.60384, + "eta_time": 5.859799464395151, + "step": 5661 + }, + { + "epoch": 0.6039466666666666, + "grad_norm": 0.6412494231219756, + "learning_rate": 3.5799646850486334e-06, + "loss": 0.4495, + "step": 5662 + }, + { + "avg_step_time": 5.644881773476649, + "epoch": 0.6039466666666666, + "eta_time": 5.822068340255222, + "step": 5662 + }, + { + "epoch": 0.6040533333333333, + "grad_norm": 1.7464503893525383, + "learning_rate": 3.5783084249857615e-06, + "loss": 0.4849, + "step": 5663 + }, + { + "avg_step_time": 5.646414472599222, + "epoch": 0.6040533333333333, + "eta_time": 5.8220807006356425, + "step": 5663 + }, + { + "epoch": 0.60416, + "grad_norm": 1.7952522129723396, + "learning_rate": 3.5766523346263682e-06, + "loss": 0.4895, + "step": 5664 + }, + { + "avg_step_time": 5.646942658857866, + "epoch": 0.60416, + "eta_time": 5.82105672417265, + "step": 5664 + }, + { + "epoch": 0.6042666666666666, + "grad_norm": 2.2329046034499753, + "learning_rate": 3.574996414168137e-06, + "loss": 0.5566, + "step": 5665 + }, + { + "avg_step_time": 5.674361551650847, + "epoch": 0.6042666666666666, + "eta_time": 5.847744821284623, + "step": 5665 + }, + { + "epoch": 0.6043733333333333, + "grad_norm": 1.806154617307674, + "learning_rate": 3.573340663808733e-06, + "loss": 0.4759, + "step": 5666 + }, + { + "avg_step_time": 5.671377916528721, + "epoch": 0.6043733333333333, + "eta_time": 5.843094636779174, + "step": 5666 + }, + { + "epoch": 0.60448, + "grad_norm": 2.0528367106543355, + "learning_rate": 3.571685083745798e-06, + "loss": 0.4786, + "step": 5667 + }, + { + "avg_step_time": 5.672772812120842, + "epoch": 0.60448, + "eta_time": 5.842955996484467, + "step": 5667 + }, + { + "epoch": 0.6045866666666667, + "grad_norm": 1.6226447319802637, + "learning_rate": 3.5700296741769524e-06, + "loss": 0.4937, + "step": 5668 + }, + { + "avg_step_time": 5.703108421479813, + "epoch": 0.6045866666666667, + "eta_time": 5.872617477340462, + "step": 5668 + }, + { + "epoch": 0.6046933333333333, + "grad_norm": 1.9115548182201456, + "learning_rate": 3.568374435299801e-06, + "loss": 0.5057, + "step": 5669 + }, + { + "avg_step_time": 5.702257890893955, + "epoch": 0.6046933333333333, + "eta_time": 5.870157706570278, + "step": 5669 + }, + { + "epoch": 0.6048, + "grad_norm": 1.8897934729462922, + "learning_rate": 3.56671936731192e-06, + "loss": 0.5002, + "step": 5670 + }, + { + "avg_step_time": 5.646919570787989, + "epoch": 0.6048, + "eta_time": 5.811621391602639, + "step": 5670 + }, + { + "epoch": 0.6049066666666667, + "grad_norm": 1.4346598157408426, + "learning_rate": 3.5650644704108767e-06, + "loss": 0.4061, + "step": 5671 + }, + { + "avg_step_time": 5.641033948069871, + "epoch": 0.6049066666666667, + "eta_time": 5.803997151014111, + "step": 5671 + }, + { + "epoch": 0.6050133333333333, + "grad_norm": 1.7236504352678474, + "learning_rate": 3.563409744794207e-06, + "loss": 0.4321, + "step": 5672 + }, + { + "avg_step_time": 5.676397492187192, + "epoch": 0.6050133333333333, + "eta_time": 5.838805531546993, + "step": 5672 + }, + { + "epoch": 0.60512, + "grad_norm": 1.5923675858939197, + "learning_rate": 3.561755190659434e-06, + "loss": 0.4462, + "step": 5673 + }, + { + "avg_step_time": 5.660667771040791, + "epoch": 0.60512, + "eta_time": 5.821053357886947, + "step": 5673 + }, + { + "epoch": 0.6052266666666667, + "grad_norm": 1.7456438829402594, + "learning_rate": 3.5601008082040545e-06, + "loss": 0.4531, + "step": 5674 + }, + { + "avg_step_time": 5.781204683612091, + "epoch": 0.6052266666666667, + "eta_time": 5.943399592791208, + "step": 5674 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 2.176588261012511, + "learning_rate": 3.5584465976255487e-06, + "loss": 0.504, + "step": 5675 + }, + { + "avg_step_time": 5.781550265321828, + "epoch": 0.6053333333333333, + "eta_time": 5.9421488838029894, + "step": 5675 + }, + { + "epoch": 0.60544, + "grad_norm": 1.8433083331181865, + "learning_rate": 3.556792559121377e-06, + "loss": 0.4809, + "step": 5676 + }, + { + "avg_step_time": 5.76848918018919, + "epoch": 0.60544, + "eta_time": 5.927122632644393, + "step": 5676 + }, + { + "epoch": 0.6055466666666667, + "grad_norm": 0.6641497779293767, + "learning_rate": 3.5551386928889774e-06, + "loss": 0.4245, + "step": 5677 + }, + { + "avg_step_time": 5.728521831107862, + "epoch": 0.6055466666666667, + "eta_time": 5.884464925399132, + "step": 5677 + }, + { + "epoch": 0.6056533333333334, + "grad_norm": 1.7000826252682006, + "learning_rate": 3.553484999125765e-06, + "loss": 0.4761, + "step": 5678 + }, + { + "avg_step_time": 5.7682200561870225, + "epoch": 0.6056533333333334, + "eta_time": 5.923641541034284, + "step": 5678 + }, + { + "epoch": 0.60576, + "grad_norm": 2.142910229533995, + "learning_rate": 3.5518314780291384e-06, + "loss": 0.5452, + "step": 5679 + }, + { + "avg_step_time": 5.763388238771998, + "epoch": 0.60576, + "eta_time": 5.917078591805918, + "step": 5679 + }, + { + "epoch": 0.6058666666666667, + "grad_norm": 1.7455251351936367, + "learning_rate": 3.550178129796472e-06, + "loss": 0.4652, + "step": 5680 + }, + { + "avg_step_time": 5.754534307152334, + "epoch": 0.6058666666666667, + "eta_time": 5.906390073591077, + "step": 5680 + }, + { + "epoch": 0.6059733333333334, + "grad_norm": 1.6974751366485339, + "learning_rate": 3.5485249546251244e-06, + "loss": 0.5033, + "step": 5681 + }, + { + "avg_step_time": 5.750068609160606, + "epoch": 0.6059733333333334, + "eta_time": 5.900209289510911, + "step": 5681 + }, + { + "epoch": 0.60608, + "grad_norm": 1.731960343182951, + "learning_rate": 3.5468719527124294e-06, + "loss": 0.465, + "step": 5682 + }, + { + "avg_step_time": 5.701238304677636, + "epoch": 0.60608, + "eta_time": 5.848520294215142, + "step": 5682 + }, + { + "epoch": 0.6061866666666667, + "grad_norm": 1.6731542767968395, + "learning_rate": 3.545219124255702e-06, + "loss": 0.4962, + "step": 5683 + }, + { + "avg_step_time": 5.706373739724207, + "epoch": 0.6061866666666667, + "eta_time": 5.852203290850492, + "step": 5683 + }, + { + "epoch": 0.6062933333333334, + "grad_norm": 1.8283844327833865, + "learning_rate": 3.5435664694522343e-06, + "loss": 0.5288, + "step": 5684 + }, + { + "avg_step_time": 5.70662116281914, + "epoch": 0.6062933333333334, + "eta_time": 5.850871864434845, + "step": 5684 + }, + { + "epoch": 0.6064, + "grad_norm": 1.6375418816879608, + "learning_rate": 3.541913988499299e-06, + "loss": 0.5093, + "step": 5685 + }, + { + "avg_step_time": 5.69084029727512, + "epoch": 0.6064, + "eta_time": 5.833111304706997, + "step": 5685 + }, + { + "epoch": 0.6065066666666666, + "grad_norm": 1.8221673921175037, + "learning_rate": 3.5402616815941504e-06, + "loss": 0.4952, + "step": 5686 + }, + { + "avg_step_time": 5.688929442203406, + "epoch": 0.6065066666666666, + "eta_time": 5.829572420080101, + "step": 5686 + }, + { + "epoch": 0.6066133333333333, + "grad_norm": 1.3543629967085837, + "learning_rate": 3.5386095489340188e-06, + "loss": 0.3976, + "step": 5687 + }, + { + "avg_step_time": 5.66093905766805, + "epoch": 0.6066133333333333, + "eta_time": 5.799317567966602, + "step": 5687 + }, + { + "epoch": 0.60672, + "grad_norm": 1.7694397172955685, + "learning_rate": 3.5369575907161167e-06, + "loss": 0.4502, + "step": 5688 + }, + { + "avg_step_time": 5.65709117205456, + "epoch": 0.60672, + "eta_time": 5.793804208712545, + "step": 5688 + }, + { + "epoch": 0.6068266666666666, + "grad_norm": 0.6467491468992779, + "learning_rate": 3.53530580713763e-06, + "loss": 0.4624, + "step": 5689 + }, + { + "avg_step_time": 5.620592271438753, + "epoch": 0.6068266666666666, + "eta_time": 5.7548619757009005, + "step": 5689 + }, + { + "epoch": 0.6069333333333333, + "grad_norm": 1.7121834873504025, + "learning_rate": 3.5336541983957285e-06, + "loss": 0.5394, + "step": 5690 + }, + { + "avg_step_time": 5.622430257122926, + "epoch": 0.6069333333333333, + "eta_time": 5.755182082638329, + "step": 5690 + }, + { + "epoch": 0.60704, + "grad_norm": 2.290152645317388, + "learning_rate": 3.5320027646875643e-06, + "loss": 0.5407, + "step": 5691 + }, + { + "avg_step_time": 5.612775882085164, + "epoch": 0.60704, + "eta_time": 5.743740652667151, + "step": 5691 + }, + { + "epoch": 0.6071466666666666, + "grad_norm": 1.9192396929739832, + "learning_rate": 3.5303515062102604e-06, + "loss": 0.444, + "step": 5692 + }, + { + "avg_step_time": 5.612042867776119, + "epoch": 0.6071466666666666, + "eta_time": 5.741431633894291, + "step": 5692 + }, + { + "epoch": 0.6072533333333333, + "grad_norm": 1.6661201775974495, + "learning_rate": 3.5287004231609245e-06, + "loss": 0.5036, + "step": 5693 + }, + { + "avg_step_time": 5.680408971478241, + "epoch": 0.6072533333333333, + "eta_time": 5.809796064717468, + "step": 5693 + }, + { + "epoch": 0.60736, + "grad_norm": 1.8672795425232958, + "learning_rate": 3.5270495157366434e-06, + "loss": 0.4686, + "step": 5694 + }, + { + "avg_step_time": 5.676694650842686, + "epoch": 0.60736, + "eta_time": 5.804420280486646, + "step": 5694 + }, + { + "epoch": 0.6074666666666667, + "grad_norm": 2.036797021210753, + "learning_rate": 3.5253987841344766e-06, + "loss": 0.4719, + "step": 5695 + }, + { + "avg_step_time": 5.676807637166495, + "epoch": 0.6074666666666667, + "eta_time": 5.802958917992417, + "step": 5695 + }, + { + "epoch": 0.6075733333333333, + "grad_norm": 1.997901453180389, + "learning_rate": 3.523748228551474e-06, + "loss": 0.5238, + "step": 5696 + }, + { + "avg_step_time": 5.677876855387832, + "epoch": 0.6075733333333333, + "eta_time": 5.802474708603286, + "step": 5696 + }, + { + "epoch": 0.60768, + "grad_norm": 1.937809896874147, + "learning_rate": 3.5220978491846534e-06, + "loss": 0.5076, + "step": 5697 + }, + { + "avg_step_time": 5.6827679354735094, + "epoch": 0.60768, + "eta_time": 5.805894574075435, + "step": 5697 + }, + { + "epoch": 0.6077866666666667, + "grad_norm": 0.6409966649339415, + "learning_rate": 3.5204476462310177e-06, + "loss": 0.4254, + "step": 5698 + }, + { + "avg_step_time": 5.649815373950535, + "epoch": 0.6077866666666667, + "eta_time": 5.770658647226699, + "step": 5698 + }, + { + "epoch": 0.6078933333333333, + "grad_norm": 1.9861311025877912, + "learning_rate": 3.5187976198875466e-06, + "loss": 0.4995, + "step": 5699 + }, + { + "avg_step_time": 5.6396410272579, + "epoch": 0.6078933333333333, + "eta_time": 5.758700115611123, + "step": 5699 + }, + { + "epoch": 0.608, + "grad_norm": 1.65531690115142, + "learning_rate": 3.517147770351199e-06, + "loss": 0.3761, + "step": 5700 + }, + { + "avg_step_time": 5.62343166572879, + "epoch": 0.608, + "eta_time": 5.7405864920981395, + "step": 5700 + }, + { + "epoch": 0.6081066666666667, + "grad_norm": 1.7968394635205982, + "learning_rate": 3.5154980978189147e-06, + "loss": 0.3853, + "step": 5701 + }, + { + "avg_step_time": 5.624486268168748, + "epoch": 0.6081066666666667, + "eta_time": 5.740100708125549, + "step": 5701 + }, + { + "epoch": 0.6082133333333334, + "grad_norm": 1.9156796374489937, + "learning_rate": 3.5138486024876107e-06, + "loss": 0.4802, + "step": 5702 + }, + { + "avg_step_time": 5.620392577816742, + "epoch": 0.6082133333333334, + "eta_time": 5.734361649533581, + "step": 5702 + }, + { + "epoch": 0.60832, + "grad_norm": 1.8462045502913833, + "learning_rate": 3.5121992845541797e-06, + "loss": 0.4874, + "step": 5703 + }, + { + "avg_step_time": 5.6498051002772165, + "epoch": 0.60832, + "eta_time": 5.762801202282761, + "step": 5703 + }, + { + "epoch": 0.6084266666666667, + "grad_norm": 1.6057883787134413, + "learning_rate": 3.5105501442154986e-06, + "loss": 0.392, + "step": 5704 + }, + { + "avg_step_time": 5.634431090017761, + "epoch": 0.6084266666666667, + "eta_time": 5.7455545920708895, + "step": 5704 + }, + { + "epoch": 0.6085333333333334, + "grad_norm": 2.0307894703687275, + "learning_rate": 3.5089011816684203e-06, + "loss": 0.4029, + "step": 5705 + }, + { + "avg_step_time": 5.628229764976886, + "epoch": 0.6085333333333334, + "eta_time": 5.737667565962548, + "step": 5705 + }, + { + "epoch": 0.60864, + "grad_norm": 1.7678083333263765, + "learning_rate": 3.507252397109777e-06, + "loss": 0.4961, + "step": 5706 + }, + { + "avg_step_time": 5.630567762586805, + "epoch": 0.60864, + "eta_time": 5.738486978036386, + "step": 5706 + }, + { + "epoch": 0.6087466666666667, + "grad_norm": 1.6508782509681332, + "learning_rate": 3.505603790736381e-06, + "loss": 0.4702, + "step": 5707 + }, + { + "avg_step_time": 5.629027029480597, + "epoch": 0.6087466666666667, + "eta_time": 5.735353095593008, + "step": 5707 + }, + { + "epoch": 0.6088533333333334, + "grad_norm": 1.8686916142573546, + "learning_rate": 3.5039553627450213e-06, + "loss": 0.571, + "step": 5708 + }, + { + "avg_step_time": 5.633497772794781, + "epoch": 0.6088533333333334, + "eta_time": 5.738343425788462, + "step": 5708 + }, + { + "epoch": 0.60896, + "grad_norm": 2.0592804004517697, + "learning_rate": 3.5023071133324627e-06, + "loss": 0.5437, + "step": 5709 + }, + { + "avg_step_time": 5.636098358366224, + "epoch": 0.60896, + "eta_time": 5.739426828269605, + "step": 5709 + }, + { + "epoch": 0.6090666666666666, + "grad_norm": 0.6702924668448766, + "learning_rate": 3.500659042695459e-06, + "loss": 0.4425, + "step": 5710 + }, + { + "avg_step_time": 5.636173120652787, + "epoch": 0.6090666666666666, + "eta_time": 5.737937357553462, + "step": 5710 + }, + { + "epoch": 0.6091733333333333, + "grad_norm": 1.7824275723170762, + "learning_rate": 3.4990111510307305e-06, + "loss": 0.4073, + "step": 5711 + }, + { + "avg_step_time": 5.651731568153458, + "epoch": 0.6091733333333333, + "eta_time": 5.752206796031742, + "step": 5711 + }, + { + "epoch": 0.60928, + "grad_norm": 1.949395102156321, + "learning_rate": 3.497363438534984e-06, + "loss": 0.4416, + "step": 5712 + }, + { + "avg_step_time": 5.6523807024714925, + "epoch": 0.60928, + "eta_time": 5.751297364764743, + "step": 5712 + }, + { + "epoch": 0.6093866666666666, + "grad_norm": 1.5281744105048398, + "learning_rate": 3.4957159054049015e-06, + "loss": 0.4276, + "step": 5713 + }, + { + "avg_step_time": 5.651353498901984, + "epoch": 0.6093866666666666, + "eta_time": 5.748682364716407, + "step": 5713 + }, + { + "epoch": 0.6094933333333333, + "grad_norm": 1.844227082569438, + "learning_rate": 3.4940685518371444e-06, + "loss": 0.4353, + "step": 5714 + }, + { + "avg_step_time": 5.625970989766747, + "epoch": 0.6094933333333333, + "eta_time": 5.721299942648907, + "step": 5714 + }, + { + "epoch": 0.6096, + "grad_norm": 1.788088849587129, + "learning_rate": 3.4924213780283545e-06, + "loss": 0.5455, + "step": 5715 + }, + { + "avg_step_time": 5.66025185585022, + "epoch": 0.6096, + "eta_time": 5.754589386781057, + "step": 5715 + }, + { + "epoch": 0.6097066666666666, + "grad_norm": 1.6998312563151878, + "learning_rate": 3.4907743841751494e-06, + "loss": 0.5073, + "step": 5716 + }, + { + "avg_step_time": 5.651221776249433, + "epoch": 0.6097066666666666, + "eta_time": 5.7438390220268545, + "step": 5716 + }, + { + "epoch": 0.6098133333333333, + "grad_norm": 1.9876821386924202, + "learning_rate": 3.4891275704741267e-06, + "loss": 0.4768, + "step": 5717 + }, + { + "avg_step_time": 5.64813136091136, + "epoch": 0.6098133333333333, + "eta_time": 5.7391290328371545, + "step": 5717 + }, + { + "epoch": 0.60992, + "grad_norm": 1.8630901012041827, + "learning_rate": 3.4874809371218608e-06, + "loss": 0.5255, + "step": 5718 + }, + { + "avg_step_time": 5.648229483402137, + "epoch": 0.60992, + "eta_time": 5.737659783556004, + "step": 5718 + }, + { + "epoch": 0.6100266666666667, + "grad_norm": 1.7136790079610447, + "learning_rate": 3.485834484314906e-06, + "loss": 0.4599, + "step": 5719 + }, + { + "avg_step_time": 5.656907946172387, + "epoch": 0.6100266666666667, + "eta_time": 5.744904292001735, + "step": 5719 + }, + { + "epoch": 0.6101333333333333, + "grad_norm": 0.648189529196702, + "learning_rate": 3.4841882122497973e-06, + "loss": 0.4314, + "step": 5720 + }, + { + "avg_step_time": 5.618399957213739, + "epoch": 0.6101333333333333, + "eta_time": 5.704236623226726, + "step": 5720 + }, + { + "epoch": 0.61024, + "grad_norm": 1.9706824098934301, + "learning_rate": 3.4825421211230437e-06, + "loss": 0.5043, + "step": 5721 + }, + { + "avg_step_time": 5.61987748772207, + "epoch": 0.61024, + "eta_time": 5.704175650037901, + "step": 5721 + }, + { + "epoch": 0.6103466666666667, + "grad_norm": 1.5625232254846533, + "learning_rate": 3.4808962111311354e-06, + "loss": 0.4311, + "step": 5722 + }, + { + "avg_step_time": 5.6127967930803395, + "epoch": 0.6103466666666667, + "eta_time": 5.695429634756245, + "step": 5722 + }, + { + "epoch": 0.6104533333333333, + "grad_norm": 1.7130536864369053, + "learning_rate": 3.47925048247054e-06, + "loss": 0.4501, + "step": 5723 + }, + { + "avg_step_time": 5.618074925258906, + "epoch": 0.6104533333333333, + "eta_time": 5.699224896401535, + "step": 5723 + }, + { + "epoch": 0.61056, + "grad_norm": 2.407108345798488, + "learning_rate": 3.4776049353377016e-06, + "loss": 0.5217, + "step": 5724 + }, + { + "avg_step_time": 5.616530969889477, + "epoch": 0.61056, + "eta_time": 5.696098491962911, + "step": 5724 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 0.6667795340531412, + "learning_rate": 3.4759595699290482e-06, + "loss": 0.4307, + "step": 5725 + }, + { + "avg_step_time": 5.614371456281103, + "epoch": 0.6106666666666667, + "eta_time": 5.692348837618341, + "step": 5725 + }, + { + "epoch": 0.6107733333333333, + "grad_norm": 1.7903602597268249, + "learning_rate": 3.4743143864409817e-06, + "loss": 0.4461, + "step": 5726 + }, + { + "avg_step_time": 5.615445816155636, + "epoch": 0.6107733333333333, + "eta_time": 5.691878273097754, + "step": 5726 + }, + { + "epoch": 0.61088, + "grad_norm": 1.869839688467727, + "learning_rate": 3.4726693850698824e-06, + "loss": 0.5456, + "step": 5727 + }, + { + "avg_step_time": 5.647544554989747, + "epoch": 0.61088, + "eta_time": 5.722845149056278, + "step": 5727 + }, + { + "epoch": 0.6109866666666667, + "grad_norm": 0.6499072401493448, + "learning_rate": 3.4710245660121107e-06, + "loss": 0.4494, + "step": 5728 + }, + { + "avg_step_time": 5.612550747514975, + "epoch": 0.6109866666666667, + "eta_time": 5.685825715607531, + "step": 5728 + }, + { + "epoch": 0.6110933333333334, + "grad_norm": 1.9731864964541972, + "learning_rate": 3.469379929464e-06, + "loss": 0.5056, + "step": 5729 + }, + { + "avg_step_time": 5.616039699978298, + "epoch": 0.6110933333333334, + "eta_time": 5.6878002072557985, + "step": 5729 + }, + { + "epoch": 0.6112, + "grad_norm": 1.722469464687884, + "learning_rate": 3.467735475621873e-06, + "loss": 0.4413, + "step": 5730 + }, + { + "avg_step_time": 5.598034675675209, + "epoch": 0.6112, + "eta_time": 5.66801010912115, + "step": 5730 + }, + { + "epoch": 0.6113066666666667, + "grad_norm": 1.6422311189607257, + "learning_rate": 3.4660912046820195e-06, + "loss": 0.4149, + "step": 5731 + }, + { + "avg_step_time": 5.610775533348623, + "epoch": 0.6113066666666667, + "eta_time": 5.679351678756217, + "step": 5731 + }, + { + "epoch": 0.6114133333333334, + "grad_norm": 0.6800514897391808, + "learning_rate": 3.4644471168407124e-06, + "loss": 0.4508, + "step": 5732 + }, + { + "avg_step_time": 5.610572906455609, + "epoch": 0.6114133333333334, + "eta_time": 5.677588082838273, + "step": 5732 + }, + { + "epoch": 0.61152, + "grad_norm": 0.6580217089015215, + "learning_rate": 3.4628032122942024e-06, + "loss": 0.4295, + "step": 5733 + }, + { + "avg_step_time": 5.580786141482267, + "epoch": 0.61152, + "eta_time": 5.645895313132893, + "step": 5733 + }, + { + "epoch": 0.6116266666666667, + "grad_norm": 1.6654873848255982, + "learning_rate": 3.4611594912387148e-06, + "loss": 0.5013, + "step": 5734 + }, + { + "avg_step_time": 5.603964328765869, + "epoch": 0.6116266666666667, + "eta_time": 5.66778725584348, + "step": 5734 + }, + { + "epoch": 0.6117333333333334, + "grad_norm": 0.6380428963675577, + "learning_rate": 3.4595159538704613e-06, + "loss": 0.4439, + "step": 5735 + }, + { + "avg_step_time": 5.568413235924461, + "epoch": 0.6117333333333334, + "eta_time": 5.630284494101399, + "step": 5735 + }, + { + "epoch": 0.61184, + "grad_norm": 2.0171584026494704, + "learning_rate": 3.4578726003856245e-06, + "loss": 0.5743, + "step": 5736 + }, + { + "avg_step_time": 5.563925873149525, + "epoch": 0.61184, + "eta_time": 5.624201736775312, + "step": 5736 + }, + { + "epoch": 0.6119466666666666, + "grad_norm": 0.6262349432104307, + "learning_rate": 3.456229430980367e-06, + "loss": 0.4262, + "step": 5737 + }, + { + "avg_step_time": 5.558439654533309, + "epoch": 0.6119466666666666, + "eta_time": 5.617112073108939, + "step": 5737 + }, + { + "epoch": 0.6120533333333333, + "grad_norm": 1.6577522195863412, + "learning_rate": 3.454586445850828e-06, + "loss": 0.469, + "step": 5738 + }, + { + "avg_step_time": 5.596920061593104, + "epoch": 0.6120533333333333, + "eta_time": 5.654443962226144, + "step": 5738 + }, + { + "epoch": 0.61216, + "grad_norm": 1.6030664757636237, + "learning_rate": 3.4529436451931263e-06, + "loss": 0.3906, + "step": 5739 + }, + { + "avg_step_time": 5.597724066840278, + "epoch": 0.61216, + "eta_time": 5.653701307508681, + "step": 5739 + }, + { + "epoch": 0.6122666666666666, + "grad_norm": 1.7572292934433686, + "learning_rate": 3.451301029203361e-06, + "loss": 0.5118, + "step": 5740 + }, + { + "avg_step_time": 5.616746798910276, + "epoch": 0.6122666666666666, + "eta_time": 5.671354059455237, + "step": 5740 + }, + { + "epoch": 0.6123733333333333, + "grad_norm": 1.7958167795859454, + "learning_rate": 3.4496585980776066e-06, + "loss": 0.498, + "step": 5741 + }, + { + "avg_step_time": 5.61699271924568, + "epoch": 0.6123733333333333, + "eta_time": 5.670042094927444, + "step": 5741 + }, + { + "epoch": 0.61248, + "grad_norm": 1.6194935180814531, + "learning_rate": 3.448016352011914e-06, + "loss": 0.5335, + "step": 5742 + }, + { + "avg_step_time": 5.621903099194921, + "epoch": 0.61248, + "eta_time": 5.673437210937541, + "step": 5742 + }, + { + "epoch": 0.6125866666666666, + "grad_norm": 1.8205153509309897, + "learning_rate": 3.4463742912023127e-06, + "loss": 0.4462, + "step": 5743 + }, + { + "avg_step_time": 5.626329465345903, + "epoch": 0.6125866666666666, + "eta_time": 5.6763412828156445, + "step": 5743 + }, + { + "epoch": 0.6126933333333333, + "grad_norm": 1.6753273190372637, + "learning_rate": 3.4447324158448126e-06, + "loss": 0.531, + "step": 5744 + }, + { + "avg_step_time": 5.622007251989962, + "epoch": 0.6126933333333333, + "eta_time": 5.67041898110432, + "step": 5744 + }, + { + "epoch": 0.6128, + "grad_norm": 0.654969492763964, + "learning_rate": 3.4430907261354e-06, + "loss": 0.4387, + "step": 5745 + }, + { + "avg_step_time": 5.5627018706967135, + "epoch": 0.6128, + "eta_time": 5.609057719619186, + "step": 5745 + }, + { + "epoch": 0.6129066666666667, + "grad_norm": 1.5783152077628086, + "learning_rate": 3.4414492222700394e-06, + "loss": 0.4667, + "step": 5746 + }, + { + "avg_step_time": 5.5650614752913965, + "epoch": 0.6129066666666667, + "eta_time": 5.609891137175688, + "step": 5746 + }, + { + "epoch": 0.6130133333333333, + "grad_norm": 0.6466016322948404, + "learning_rate": 3.439807904444673e-06, + "loss": 0.4459, + "step": 5747 + }, + { + "avg_step_time": 5.56689521038171, + "epoch": 0.6130133333333333, + "eta_time": 5.610193284240234, + "step": 5747 + }, + { + "epoch": 0.61312, + "grad_norm": 1.7781512179406826, + "learning_rate": 3.438166772855218e-06, + "loss": 0.5077, + "step": 5748 + }, + { + "avg_step_time": 5.571262039319433, + "epoch": 0.61312, + "eta_time": 5.613046504614329, + "step": 5748 + }, + { + "epoch": 0.6132266666666667, + "grad_norm": 1.8237512421154305, + "learning_rate": 3.4365258276975734e-06, + "loss": 0.535, + "step": 5749 + }, + { + "avg_step_time": 5.607036927733758, + "epoch": 0.6132266666666667, + "eta_time": 5.647532194434057, + "step": 5749 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 2.0626708947651937, + "learning_rate": 3.4348850691676146e-06, + "loss": 0.4842, + "step": 5750 + }, + { + "avg_step_time": 5.600960994007612, + "epoch": 0.6133333333333333, + "eta_time": 5.639856556465998, + "step": 5750 + }, + { + "epoch": 0.61344, + "grad_norm": 1.7701621693451097, + "learning_rate": 3.4332444974611946e-06, + "loss": 0.5405, + "step": 5751 + }, + { + "avg_step_time": 5.6006801176552825, + "epoch": 0.61344, + "eta_time": 5.638017985106318, + "step": 5751 + }, + { + "epoch": 0.6135466666666667, + "grad_norm": 1.698094760769166, + "learning_rate": 3.4316041127741428e-06, + "loss": 0.5817, + "step": 5752 + }, + { + "avg_step_time": 5.628641453656283, + "epoch": 0.6135466666666667, + "eta_time": 5.664602218499088, + "step": 5752 + }, + { + "epoch": 0.6136533333333334, + "grad_norm": 1.8046091178577386, + "learning_rate": 3.4299639153022686e-06, + "loss": 0.4424, + "step": 5753 + }, + { + "avg_step_time": 5.660944218587393, + "epoch": 0.6136533333333334, + "eta_time": 5.695538877700983, + "step": 5753 + }, + { + "epoch": 0.61376, + "grad_norm": 1.7243552241248576, + "learning_rate": 3.428323905241358e-06, + "loss": 0.4155, + "step": 5754 + }, + { + "avg_step_time": 5.6646372260469375, + "epoch": 0.61376, + "eta_time": 5.697680943198878, + "step": 5754 + }, + { + "epoch": 0.6138666666666667, + "grad_norm": 1.8397693181937793, + "learning_rate": 3.4266840827871755e-06, + "loss": 0.4525, + "step": 5755 + }, + { + "avg_step_time": 5.665662972614019, + "epoch": 0.6138666666666667, + "eta_time": 5.69713887801743, + "step": 5755 + }, + { + "epoch": 0.6139733333333334, + "grad_norm": 1.623633623291722, + "learning_rate": 3.42504444813546e-06, + "loss": 0.3562, + "step": 5756 + }, + { + "avg_step_time": 5.667507674958971, + "epoch": 0.6139733333333334, + "eta_time": 5.697419521021255, + "step": 5756 + }, + { + "epoch": 0.61408, + "grad_norm": 0.6370885131179698, + "learning_rate": 3.4234050014819308e-06, + "loss": 0.4511, + "step": 5757 + }, + { + "avg_step_time": 5.628941663587936, + "epoch": 0.61408, + "eta_time": 5.6570863719058755, + "step": 5757 + }, + { + "epoch": 0.6141866666666667, + "grad_norm": 1.7568597072415975, + "learning_rate": 3.4217657430222845e-06, + "loss": 0.5078, + "step": 5758 + }, + { + "avg_step_time": 5.628245394639294, + "epoch": 0.6141866666666667, + "eta_time": 5.654823220113981, + "step": 5758 + }, + { + "epoch": 0.6142933333333334, + "grad_norm": 1.7117807049896085, + "learning_rate": 3.4201266729521958e-06, + "loss": 0.491, + "step": 5759 + }, + { + "avg_step_time": 5.639343295434509, + "epoch": 0.6142933333333334, + "eta_time": 5.664407043414219, + "step": 5759 + }, + { + "epoch": 0.6144, + "grad_norm": 1.5870819878937972, + "learning_rate": 3.4184877914673155e-06, + "loss": 0.471, + "step": 5760 + }, + { + "avg_step_time": 5.642004210539539, + "epoch": 0.6144, + "eta_time": 5.665512561416787, + "step": 5760 + }, + { + "epoch": 0.6145066666666666, + "grad_norm": 0.6475161466527303, + "learning_rate": 3.416849098763273e-06, + "loss": 0.4475, + "step": 5761 + }, + { + "avg_step_time": 5.642701637865317, + "epoch": 0.6145066666666666, + "eta_time": 5.6646454775681265, + "step": 5761 + }, + { + "epoch": 0.6146133333333333, + "grad_norm": 1.6184324416905063, + "learning_rate": 3.415210595035674e-06, + "loss": 0.3909, + "step": 5762 + }, + { + "avg_step_time": 5.639805875643336, + "epoch": 0.6146133333333333, + "eta_time": 5.660171841305381, + "step": 5762 + }, + { + "epoch": 0.61472, + "grad_norm": 0.6403721070816402, + "learning_rate": 3.4135722804801004e-06, + "loss": 0.4443, + "step": 5763 + }, + { + "avg_step_time": 5.603197179659449, + "epoch": 0.61472, + "eta_time": 5.621874503591647, + "step": 5763 + }, + { + "epoch": 0.6148266666666666, + "grad_norm": 1.9690322333133348, + "learning_rate": 3.411934155292116e-06, + "loss": 0.5275, + "step": 5764 + }, + { + "avg_step_time": 5.600581776012074, + "epoch": 0.6148266666666666, + "eta_time": 5.617694664772111, + "step": 5764 + }, + { + "epoch": 0.6149333333333333, + "grad_norm": 0.6702125557812763, + "learning_rate": 3.4102962196672597e-06, + "loss": 0.456, + "step": 5765 + }, + { + "avg_step_time": 5.5669518721224085, + "epoch": 0.6149333333333333, + "eta_time": 5.5824156273227485, + "step": 5765 + }, + { + "epoch": 0.61504, + "grad_norm": 0.6521265504025956, + "learning_rate": 3.4086584738010455e-06, + "loss": 0.4649, + "step": 5766 + }, + { + "avg_step_time": 5.532658206091987, + "epoch": 0.61504, + "eta_time": 5.546489851607217, + "step": 5766 + }, + { + "epoch": 0.6151466666666666, + "grad_norm": 1.8331592574279232, + "learning_rate": 3.4070209178889684e-06, + "loss": 0.4651, + "step": 5767 + }, + { + "avg_step_time": 5.4975601205922136, + "epoch": 0.6151466666666666, + "eta_time": 5.509776920860196, + "step": 5767 + }, + { + "epoch": 0.6152533333333333, + "grad_norm": 1.6690569885730675, + "learning_rate": 3.4053835521264956e-06, + "loss": 0.4413, + "step": 5768 + }, + { + "avg_step_time": 5.496177170011732, + "epoch": 0.6152533333333333, + "eta_time": 5.506864181175644, + "step": 5768 + }, + { + "epoch": 0.61536, + "grad_norm": 1.769410075002521, + "learning_rate": 3.4037463767090807e-06, + "loss": 0.4608, + "step": 5769 + }, + { + "avg_step_time": 5.490392080461136, + "epoch": 0.61536, + "eta_time": 5.499542733928571, + "step": 5769 + }, + { + "epoch": 0.6154666666666667, + "grad_norm": 1.7803919326493134, + "learning_rate": 3.4021093918321445e-06, + "loss": 0.517, + "step": 5770 + }, + { + "avg_step_time": 5.488998056662203, + "epoch": 0.6154666666666667, + "eta_time": 5.496621665074234, + "step": 5770 + }, + { + "epoch": 0.6155733333333333, + "grad_norm": 2.0166229503363278, + "learning_rate": 3.400472597691091e-06, + "loss": 0.5097, + "step": 5771 + }, + { + "avg_step_time": 5.491610088733712, + "epoch": 0.6155733333333333, + "eta_time": 5.497711877721193, + "step": 5771 + }, + { + "epoch": 0.61568, + "grad_norm": 1.6744279082883327, + "learning_rate": 3.3988359944812997e-06, + "loss": 0.4098, + "step": 5772 + }, + { + "avg_step_time": 5.487285756101512, + "epoch": 0.61568, + "eta_time": 5.491858494231597, + "step": 5772 + }, + { + "epoch": 0.6157866666666667, + "grad_norm": 1.8833663580966393, + "learning_rate": 3.3971995823981265e-06, + "loss": 0.4251, + "step": 5773 + }, + { + "avg_step_time": 5.368017647001478, + "epoch": 0.6157866666666667, + "eta_time": 5.37099987902759, + "step": 5773 + }, + { + "epoch": 0.6158933333333333, + "grad_norm": 1.7309791967981287, + "learning_rate": 3.3955633616369066e-06, + "loss": 0.4412, + "step": 5774 + }, + { + "avg_step_time": 5.365036925884208, + "epoch": 0.6158933333333333, + "eta_time": 5.366527213919176, + "step": 5774 + }, + { + "epoch": 0.616, + "grad_norm": 1.8250366466384436, + "learning_rate": 3.3939273323929533e-06, + "loss": 0.5039, + "step": 5775 + }, + { + "avg_step_time": 5.356434359694973, + "epoch": 0.616, + "eta_time": 5.356434359694973, + "step": 5775 + }, + { + "epoch": 0.6161066666666667, + "grad_norm": 1.7896428069598616, + "learning_rate": 3.3922914948615515e-06, + "loss": 0.4179, + "step": 5776 + }, + { + "avg_step_time": 5.396633745443942, + "epoch": 0.6161066666666667, + "eta_time": 5.395134680514651, + "step": 5776 + }, + { + "epoch": 0.6162133333333333, + "grad_norm": 1.5716805318797267, + "learning_rate": 3.390655849237967e-06, + "loss": 0.5107, + "step": 5777 + }, + { + "avg_step_time": 5.3934044019140375, + "epoch": 0.6162133333333333, + "eta_time": 5.390408066135197, + "step": 5777 + }, + { + "epoch": 0.61632, + "grad_norm": 0.6860522450781114, + "learning_rate": 3.3890203957174437e-06, + "loss": 0.4206, + "step": 5778 + }, + { + "avg_step_time": 5.358911468525125, + "epoch": 0.61632, + "eta_time": 5.35444570896802, + "step": 5778 + }, + { + "epoch": 0.6164266666666667, + "grad_norm": 1.944606528071115, + "learning_rate": 3.3873851344952013e-06, + "loss": 0.511, + "step": 5779 + }, + { + "avg_step_time": 5.360221347423515, + "epoch": 0.6164266666666667, + "eta_time": 5.354265545926378, + "step": 5779 + }, + { + "epoch": 0.6165333333333334, + "grad_norm": 1.7922438164989083, + "learning_rate": 3.3857500657664368e-06, + "loss": 0.5485, + "step": 5780 + }, + { + "avg_step_time": 5.367012529662161, + "epoch": 0.6165333333333334, + "eta_time": 5.359558345593186, + "step": 5780 + }, + { + "epoch": 0.61664, + "grad_norm": 1.6780903860549858, + "learning_rate": 3.3841151897263234e-06, + "loss": 0.5198, + "step": 5781 + }, + { + "avg_step_time": 5.373552950945768, + "epoch": 0.61664, + "eta_time": 5.3645970293608585, + "step": 5781 + }, + { + "epoch": 0.6167466666666667, + "grad_norm": 1.9833789217551645, + "learning_rate": 3.3824805065700113e-06, + "loss": 0.5032, + "step": 5782 + }, + { + "avg_step_time": 5.365866107170028, + "epoch": 0.6167466666666667, + "eta_time": 5.355432478628309, + "step": 5782 + }, + { + "epoch": 0.6168533333333334, + "grad_norm": 1.9918089540355646, + "learning_rate": 3.380846016492627e-06, + "loss": 0.5157, + "step": 5783 + }, + { + "avg_step_time": 5.366814114830711, + "epoch": 0.6168533333333334, + "eta_time": 5.354887861242198, + "step": 5783 + }, + { + "epoch": 0.61696, + "grad_norm": 0.6607418139518485, + "learning_rate": 3.379211719689278e-06, + "loss": 0.4166, + "step": 5784 + }, + { + "avg_step_time": 5.355555707758123, + "epoch": 0.61696, + "eta_time": 5.342166818488728, + "step": 5784 + }, + { + "epoch": 0.6170666666666667, + "grad_norm": 1.7461885126463645, + "learning_rate": 3.3775776163550455e-06, + "loss": 0.4862, + "step": 5785 + }, + { + "avg_step_time": 5.35591640857735, + "epoch": 0.6170666666666667, + "eta_time": 5.341038862997969, + "step": 5785 + }, + { + "epoch": 0.6171733333333334, + "grad_norm": 1.9441548786145368, + "learning_rate": 3.3759437066849876e-06, + "loss": 0.5195, + "step": 5786 + }, + { + "avg_step_time": 5.355213015970557, + "epoch": 0.6171733333333334, + "eta_time": 5.338849865088425, + "step": 5786 + }, + { + "epoch": 0.61728, + "grad_norm": 1.6792817352378144, + "learning_rate": 3.3743099908741385e-06, + "loss": 0.4963, + "step": 5787 + }, + { + "avg_step_time": 5.3543599398449215, + "epoch": 0.61728, + "eta_time": 5.336512073378771, + "step": 5787 + }, + { + "epoch": 0.6173866666666666, + "grad_norm": 1.9623564208576447, + "learning_rate": 3.3726764691175085e-06, + "loss": 0.4906, + "step": 5788 + }, + { + "avg_step_time": 5.384335527516375, + "epoch": 0.6173866666666666, + "eta_time": 5.3648920936670095, + "step": 5788 + }, + { + "epoch": 0.6174933333333333, + "grad_norm": 2.180201007313078, + "learning_rate": 3.371043141610093e-06, + "loss": 0.4939, + "step": 5789 + }, + { + "avg_step_time": 5.388829744223393, + "epoch": 0.6174933333333333, + "eta_time": 5.367873184106969, + "step": 5789 + }, + { + "epoch": 0.6176, + "grad_norm": 2.0612152913656647, + "learning_rate": 3.3694100085468535e-06, + "loss": 0.4016, + "step": 5790 + }, + { + "avg_step_time": 5.391429506167017, + "epoch": 0.6176, + "eta_time": 5.368965216557988, + "step": 5790 + }, + { + "epoch": 0.6177066666666666, + "grad_norm": 1.7240128672983246, + "learning_rate": 3.367777070122733e-06, + "loss": 0.4789, + "step": 5791 + }, + { + "avg_step_time": 5.392853895823161, + "epoch": 0.6177066666666666, + "eta_time": 5.36888565628617, + "step": 5791 + }, + { + "epoch": 0.6178133333333333, + "grad_norm": 1.621196670100118, + "learning_rate": 3.3661443265326528e-06, + "loss": 0.552, + "step": 5792 + }, + { + "avg_step_time": 5.327218038867218, + "epoch": 0.6178133333333333, + "eta_time": 5.302061731461456, + "step": 5792 + }, + { + "epoch": 0.61792, + "grad_norm": 1.935455487506954, + "learning_rate": 3.364511777971504e-06, + "loss": 0.4621, + "step": 5793 + }, + { + "avg_step_time": 5.330850225506407, + "epoch": 0.61792, + "eta_time": 5.304195974378875, + "step": 5793 + }, + { + "epoch": 0.6180266666666666, + "grad_norm": 1.7693916034471777, + "learning_rate": 3.3628794246341667e-06, + "loss": 0.4477, + "step": 5794 + }, + { + "avg_step_time": 5.338487890031603, + "epoch": 0.6180266666666666, + "eta_time": 5.310312537278658, + "step": 5794 + }, + { + "epoch": 0.6181333333333333, + "grad_norm": 1.94163451532575, + "learning_rate": 3.361247266715486e-06, + "loss": 0.4502, + "step": 5795 + }, + { + "avg_step_time": 5.34011111596618, + "epoch": 0.6181333333333333, + "eta_time": 5.310443831988589, + "step": 5795 + }, + { + "epoch": 0.61824, + "grad_norm": 1.8707483756759709, + "learning_rate": 3.3596153044102897e-06, + "loss": 0.5195, + "step": 5796 + }, + { + "avg_step_time": 5.3353465277739245, + "epoch": 0.61824, + "eta_time": 5.304223673028576, + "step": 5796 + }, + { + "epoch": 0.6183466666666667, + "grad_norm": 1.8329232139536176, + "learning_rate": 3.3579835379133787e-06, + "loss": 0.4667, + "step": 5797 + }, + { + "avg_step_time": 5.369375566039422, + "epoch": 0.6183466666666667, + "eta_time": 5.33656271535807, + "step": 5797 + }, + { + "epoch": 0.6184533333333333, + "grad_norm": 1.604849666912114, + "learning_rate": 3.356351967419535e-06, + "loss": 0.4053, + "step": 5798 + }, + { + "avg_step_time": 5.37052207763749, + "epoch": 0.6184533333333333, + "eta_time": 5.336210408808139, + "step": 5798 + }, + { + "epoch": 0.61856, + "grad_norm": 1.636306824221029, + "learning_rate": 3.354720593123514e-06, + "loss": 0.5353, + "step": 5799 + }, + { + "avg_step_time": 5.363268866683498, + "epoch": 0.61856, + "eta_time": 5.327513740905608, + "step": 5799 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 2.011528054774443, + "learning_rate": 3.353089415220049e-06, + "loss": 0.4714, + "step": 5800 + }, + { + "avg_step_time": 5.36239438345938, + "epoch": 0.6186666666666667, + "eta_time": 5.325155533574245, + "step": 5800 + }, + { + "epoch": 0.6187733333333333, + "grad_norm": 1.7622592794950878, + "learning_rate": 3.3514584339038476e-06, + "loss": 0.442, + "step": 5801 + }, + { + "avg_step_time": 5.3679675526089135, + "epoch": 0.6187733333333333, + "eta_time": 5.329198898062294, + "step": 5801 + }, + { + "epoch": 0.61888, + "grad_norm": 1.9172215329482847, + "learning_rate": 3.349827649369596e-06, + "loss": 0.4966, + "step": 5802 + }, + { + "avg_step_time": 5.404067865525834, + "epoch": 0.61888, + "eta_time": 5.36353735653439, + "step": 5802 + }, + { + "epoch": 0.6189866666666667, + "grad_norm": 1.5076212486343383, + "learning_rate": 3.3481970618119575e-06, + "loss": 0.4232, + "step": 5803 + }, + { + "avg_step_time": 5.420329715266372, + "epoch": 0.6189866666666667, + "eta_time": 5.3781715952587446, + "step": 5803 + }, + { + "epoch": 0.6190933333333334, + "grad_norm": 1.8775526051551503, + "learning_rate": 3.3465666714255707e-06, + "loss": 0.4586, + "step": 5804 + }, + { + "avg_step_time": 5.4204092122087575, + "epoch": 0.6190933333333334, + "eta_time": 5.3767448046659645, + "step": 5804 + }, + { + "epoch": 0.6192, + "grad_norm": 0.6603797757487301, + "learning_rate": 3.3449364784050515e-06, + "loss": 0.4787, + "step": 5805 + }, + { + "avg_step_time": 5.384237715692231, + "epoch": 0.6192, + "eta_time": 5.339369068061463, + "step": 5805 + }, + { + "epoch": 0.6193066666666667, + "grad_norm": 0.6742531612307542, + "learning_rate": 3.3433064829449913e-06, + "loss": 0.4384, + "step": 5806 + }, + { + "avg_step_time": 5.348196017621744, + "epoch": 0.6193066666666667, + "eta_time": 5.302142107470002, + "step": 5806 + }, + { + "epoch": 0.6194133333333334, + "grad_norm": 1.6551051932365255, + "learning_rate": 3.3416766852399553e-06, + "loss": 0.4491, + "step": 5807 + }, + { + "avg_step_time": 5.34328902128971, + "epoch": 0.6194133333333334, + "eta_time": 5.295793118878246, + "step": 5807 + }, + { + "epoch": 0.61952, + "grad_norm": 2.100477404741579, + "learning_rate": 3.3400470854844925e-06, + "loss": 0.4922, + "step": 5808 + }, + { + "avg_step_time": 5.3449450117169, + "epoch": 0.61952, + "eta_time": 5.295949682442829, + "step": 5808 + }, + { + "epoch": 0.6196266666666667, + "grad_norm": 1.8560682120324434, + "learning_rate": 3.338417683873122e-06, + "loss": 0.4336, + "step": 5809 + }, + { + "avg_step_time": 5.378315540275189, + "epoch": 0.6196266666666667, + "eta_time": 5.327520337950368, + "step": 5809 + }, + { + "epoch": 0.6197333333333334, + "grad_norm": 1.6930999255929822, + "learning_rate": 3.3367884806003402e-06, + "loss": 0.4884, + "step": 5810 + }, + { + "avg_step_time": 5.359297867977258, + "epoch": 0.6197333333333334, + "eta_time": 5.307193583149701, + "step": 5810 + }, + { + "epoch": 0.61984, + "grad_norm": 1.9388466887460392, + "learning_rate": 3.3351594758606222e-06, + "loss": 0.4888, + "step": 5811 + }, + { + "avg_step_time": 5.362385985827205, + "epoch": 0.61984, + "eta_time": 5.308762125968933, + "step": 5811 + }, + { + "epoch": 0.6199466666666666, + "grad_norm": 1.4714053847347401, + "learning_rate": 3.333530669848416e-06, + "loss": 0.4702, + "step": 5812 + }, + { + "avg_step_time": 5.363960420242464, + "epoch": 0.6199466666666666, + "eta_time": 5.308830827034416, + "step": 5812 + }, + { + "epoch": 0.6200533333333333, + "grad_norm": 1.8929725774035058, + "learning_rate": 3.3319020627581494e-06, + "loss": 0.4805, + "step": 5813 + }, + { + "avg_step_time": 5.3658863823823255, + "epoch": 0.6200533333333333, + "eta_time": 5.30924647056829, + "step": 5813 + }, + { + "epoch": 0.62016, + "grad_norm": 1.739837281817587, + "learning_rate": 3.3302736547842263e-06, + "loss": 0.4528, + "step": 5814 + }, + { + "avg_step_time": 5.3316658964060775, + "epoch": 0.62016, + "eta_time": 5.2739061825283455, + "step": 5814 + }, + { + "epoch": 0.6202666666666666, + "grad_norm": 1.7683917027377547, + "learning_rate": 3.3286454461210216e-06, + "loss": 0.4697, + "step": 5815 + }, + { + "avg_step_time": 5.340944569520276, + "epoch": 0.6202666666666666, + "eta_time": 5.281600740970051, + "step": 5815 + }, + { + "epoch": 0.6203733333333333, + "grad_norm": 2.161950589096947, + "learning_rate": 3.327017436962892e-06, + "loss": 0.5169, + "step": 5816 + }, + { + "avg_step_time": 5.344579872458872, + "epoch": 0.6203733333333333, + "eta_time": 5.283711046133646, + "step": 5816 + }, + { + "epoch": 0.62048, + "grad_norm": 1.8022098422259232, + "learning_rate": 3.3253896275041677e-06, + "loss": 0.4192, + "step": 5817 + }, + { + "avg_step_time": 5.339036582696317, + "epoch": 0.62048, + "eta_time": 5.27674782256486, + "step": 5817 + }, + { + "epoch": 0.6205866666666666, + "grad_norm": 1.959353524515712, + "learning_rate": 3.3237620179391584e-06, + "loss": 0.5336, + "step": 5818 + }, + { + "avg_step_time": 5.324041650752829, + "epoch": 0.6205866666666666, + "eta_time": 5.260448931035503, + "step": 5818 + }, + { + "epoch": 0.6206933333333333, + "grad_norm": 0.6233383547208411, + "learning_rate": 3.3221346084621447e-06, + "loss": 0.448, + "step": 5819 + }, + { + "avg_step_time": 5.316211081514455, + "epoch": 0.6206933333333333, + "eta_time": 5.251235168295945, + "step": 5819 + }, + { + "epoch": 0.6208, + "grad_norm": 2.2262295372929723, + "learning_rate": 3.3205073992673885e-06, + "loss": 0.5152, + "step": 5820 + }, + { + "avg_step_time": 5.317825986881449, + "epoch": 0.6208, + "eta_time": 5.25135316204543, + "step": 5820 + }, + { + "epoch": 0.6209066666666667, + "grad_norm": 1.847116333050141, + "learning_rate": 3.3188803905491233e-06, + "loss": 0.4707, + "step": 5821 + }, + { + "avg_step_time": 5.318362590038415, + "epoch": 0.6209066666666667, + "eta_time": 5.250405734721258, + "step": 5821 + }, + { + "epoch": 0.6210133333333333, + "grad_norm": 1.6979850118044078, + "learning_rate": 3.3172535825015608e-06, + "loss": 0.4038, + "step": 5822 + }, + { + "avg_step_time": 5.311487474826851, + "epoch": 0.6210133333333333, + "eta_time": 5.242143055016612, + "step": 5822 + }, + { + "epoch": 0.62112, + "grad_norm": 1.9799200938651966, + "learning_rate": 3.3156269753188895e-06, + "loss": 0.4961, + "step": 5823 + }, + { + "avg_step_time": 5.313300864865082, + "epoch": 0.62112, + "eta_time": 5.242456853333548, + "step": 5823 + }, + { + "epoch": 0.6212266666666667, + "grad_norm": 1.904549233892427, + "learning_rate": 3.3140005691952735e-06, + "loss": 0.4863, + "step": 5824 + }, + { + "avg_step_time": 5.350275651373044, + "epoch": 0.6212266666666667, + "eta_time": 5.277452455007134, + "step": 5824 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 2.007266963712952, + "learning_rate": 3.312374364324852e-06, + "loss": 0.5393, + "step": 5825 + }, + { + "avg_step_time": 5.352281452429415, + "epoch": 0.6213333333333333, + "eta_time": 5.277944210034562, + "step": 5825 + }, + { + "epoch": 0.62144, + "grad_norm": 1.8435433372197878, + "learning_rate": 3.310748360901741e-06, + "loss": 0.4914, + "step": 5826 + }, + { + "avg_step_time": 5.351782167800749, + "epoch": 0.62144, + "eta_time": 5.2759652537569055, + "step": 5826 + }, + { + "epoch": 0.6215466666666667, + "grad_norm": 1.7942790864103488, + "learning_rate": 3.3091225591200292e-06, + "loss": 0.4612, + "step": 5827 + }, + { + "avg_step_time": 5.388984540496209, + "epoch": 0.6215466666666667, + "eta_time": 5.311143652689042, + "step": 5827 + }, + { + "epoch": 0.6216533333333333, + "grad_norm": 0.6552963948792867, + "learning_rate": 3.3074969591737906e-06, + "loss": 0.432, + "step": 5828 + }, + { + "avg_step_time": 5.359865236764002, + "epoch": 0.6216533333333333, + "eta_time": 5.2809561096671995, + "step": 5828 + }, + { + "epoch": 0.62176, + "grad_norm": 1.9291472652576653, + "learning_rate": 3.3058715612570623e-06, + "loss": 0.5697, + "step": 5829 + }, + { + "avg_step_time": 5.360909657044844, + "epoch": 0.62176, + "eta_time": 5.280496012189171, + "step": 5829 + }, + { + "epoch": 0.6218666666666667, + "grad_norm": 1.8548871857505227, + "learning_rate": 3.304246365563867e-06, + "loss": 0.546, + "step": 5830 + }, + { + "avg_step_time": 5.357343312465783, + "epoch": 0.6218666666666667, + "eta_time": 5.275495011858666, + "step": 5830 + }, + { + "epoch": 0.6219733333333334, + "grad_norm": 1.9492488468847435, + "learning_rate": 3.3026213722882e-06, + "loss": 0.4608, + "step": 5831 + }, + { + "avg_step_time": 5.39451876794449, + "epoch": 0.6219733333333334, + "eta_time": 5.310604031554242, + "step": 5831 + }, + { + "epoch": 0.62208, + "grad_norm": 1.7029044257594113, + "learning_rate": 3.300996581624028e-06, + "loss": 0.4846, + "step": 5832 + }, + { + "avg_step_time": 5.428748157289293, + "epoch": 0.62208, + "eta_time": 5.342792978132213, + "step": 5832 + }, + { + "epoch": 0.6221866666666667, + "grad_norm": 1.7246646097247988, + "learning_rate": 3.2993719937653037e-06, + "loss": 0.4679, + "step": 5833 + }, + { + "avg_step_time": 5.403947572515468, + "epoch": 0.6221866666666667, + "eta_time": 5.316883972736052, + "step": 5833 + }, + { + "epoch": 0.6222933333333334, + "grad_norm": 1.4484850021790396, + "learning_rate": 3.2977476089059484e-06, + "loss": 0.438, + "step": 5834 + }, + { + "avg_step_time": 5.437374664075447, + "epoch": 0.6222933333333334, + "eta_time": 5.348262134858655, + "step": 5834 + }, + { + "epoch": 0.6224, + "grad_norm": 2.0098799545346275, + "learning_rate": 3.2961234272398578e-06, + "loss": 0.5512, + "step": 5835 + }, + { + "avg_step_time": 5.443425884150495, + "epoch": 0.6224, + "eta_time": 5.352702119414654, + "step": 5835 + }, + { + "epoch": 0.6225066666666667, + "grad_norm": 1.8009258271414414, + "learning_rate": 3.294499448960909e-06, + "loss": 0.5119, + "step": 5836 + }, + { + "avg_step_time": 5.479797637823856, + "epoch": 0.6225066666666667, + "eta_time": 5.386945511182953, + "step": 5836 + }, + { + "epoch": 0.6226133333333334, + "grad_norm": 1.5965823010822466, + "learning_rate": 3.2928756742629486e-06, + "loss": 0.4124, + "step": 5837 + }, + { + "avg_step_time": 5.479174303286003, + "epoch": 0.6226133333333334, + "eta_time": 5.384810745840522, + "step": 5837 + }, + { + "epoch": 0.62272, + "grad_norm": 1.7223593262548962, + "learning_rate": 3.291252103339806e-06, + "loss": 0.4871, + "step": 5838 + }, + { + "avg_step_time": 5.4790110852983265, + "epoch": 0.62272, + "eta_time": 5.383128391305606, + "step": 5838 + }, + { + "epoch": 0.6228266666666666, + "grad_norm": 0.6647655498519975, + "learning_rate": 3.289628736385281e-06, + "loss": 0.4466, + "step": 5839 + }, + { + "avg_step_time": 5.4229396039789375, + "epoch": 0.6228266666666666, + "eta_time": 5.326531788797089, + "step": 5839 + }, + { + "epoch": 0.6229333333333333, + "grad_norm": 1.8469189237589023, + "learning_rate": 3.28800557359315e-06, + "loss": 0.5189, + "step": 5840 + }, + { + "avg_step_time": 5.423730604576342, + "epoch": 0.6229333333333333, + "eta_time": 5.325802135327047, + "step": 5840 + }, + { + "epoch": 0.62304, + "grad_norm": 1.764295752366191, + "learning_rate": 3.2863826151571654e-06, + "loss": 0.4832, + "step": 5841 + }, + { + "avg_step_time": 5.408701104347152, + "epoch": 0.62304, + "eta_time": 5.309541584100788, + "step": 5841 + }, + { + "epoch": 0.6231466666666666, + "grad_norm": 1.7173456381492043, + "learning_rate": 3.2847598612710546e-06, + "loss": 0.4342, + "step": 5842 + }, + { + "avg_step_time": 5.404686662885878, + "epoch": 0.6231466666666666, + "eta_time": 5.304099438882169, + "step": 5842 + }, + { + "epoch": 0.6232533333333333, + "grad_norm": 1.6780843489109152, + "learning_rate": 3.283137312128524e-06, + "loss": 0.5269, + "step": 5843 + }, + { + "avg_step_time": 5.411140880199394, + "epoch": 0.6232533333333333, + "eta_time": 5.308930441351183, + "step": 5843 + }, + { + "epoch": 0.62336, + "grad_norm": 0.6313831836905858, + "learning_rate": 3.2815149679232507e-06, + "loss": 0.4385, + "step": 5844 + }, + { + "avg_step_time": 5.410120595585216, + "epoch": 0.62336, + "eta_time": 5.306426617503166, + "step": 5844 + }, + { + "epoch": 0.6234666666666666, + "grad_norm": 0.6351237930898582, + "learning_rate": 3.2798928288488917e-06, + "loss": 0.4327, + "step": 5845 + }, + { + "avg_step_time": 5.375213502633451, + "epoch": 0.6234666666666666, + "eta_time": 5.270695462304467, + "step": 5845 + }, + { + "epoch": 0.6235733333333333, + "grad_norm": 1.8243562363647834, + "learning_rate": 3.278270895099073e-06, + "loss": 0.4823, + "step": 5846 + }, + { + "avg_step_time": 5.428251314644862, + "epoch": 0.6235733333333333, + "eta_time": 5.321194135939366, + "step": 5846 + }, + { + "epoch": 0.62368, + "grad_norm": 2.006001888456276, + "learning_rate": 3.276649166867406e-06, + "loss": 0.5128, + "step": 5847 + }, + { + "avg_step_time": 5.424613641970085, + "epoch": 0.62368, + "eta_time": 5.316121369130683, + "step": 5847 + }, + { + "epoch": 0.6237866666666667, + "grad_norm": 1.972346052483251, + "learning_rate": 3.275027644347469e-06, + "loss": 0.4819, + "step": 5848 + }, + { + "avg_step_time": 5.379946874849724, + "epoch": 0.6237866666666667, + "eta_time": 5.2708535076652705, + "step": 5848 + }, + { + "epoch": 0.6238933333333333, + "grad_norm": 0.6346568962702881, + "learning_rate": 3.2734063277328187e-06, + "loss": 0.4398, + "step": 5849 + }, + { + "avg_step_time": 5.3461535699439775, + "epoch": 0.6238933333333333, + "eta_time": 5.236260413228462, + "step": 5849 + }, + { + "epoch": 0.624, + "grad_norm": 1.7018978885599356, + "learning_rate": 3.271785217216987e-06, + "loss": 0.4748, + "step": 5850 + }, + { + "avg_step_time": 5.343864228990343, + "epoch": 0.624, + "eta_time": 5.232533724219711, + "step": 5850 + }, + { + "epoch": 0.6241066666666667, + "grad_norm": 1.7757176016953844, + "learning_rate": 3.270164312993482e-06, + "loss": 0.4637, + "step": 5851 + }, + { + "avg_step_time": 5.350220935513275, + "epoch": 0.6241066666666667, + "eta_time": 5.237271826874662, + "step": 5851 + }, + { + "epoch": 0.6242133333333333, + "grad_norm": 1.854264002086749, + "learning_rate": 3.268543615255788e-06, + "loss": 0.5294, + "step": 5852 + }, + { + "avg_step_time": 5.35520023047322, + "epoch": 0.6242133333333333, + "eta_time": 5.240658447765877, + "step": 5852 + }, + { + "epoch": 0.62432, + "grad_norm": 1.8772664705263524, + "learning_rate": 3.266923124197363e-06, + "loss": 0.5231, + "step": 5853 + }, + { + "avg_step_time": 5.353929620800597, + "epoch": 0.62432, + "eta_time": 5.237927812349917, + "step": 5853 + }, + { + "epoch": 0.6244266666666667, + "grad_norm": 1.738475089757904, + "learning_rate": 3.2653028400116395e-06, + "loss": 0.4341, + "step": 5854 + }, + { + "avg_step_time": 5.355588474659005, + "epoch": 0.6244266666666667, + "eta_time": 5.2380630609095435, + "step": 5854 + }, + { + "epoch": 0.6245333333333334, + "grad_norm": 1.5739609614084995, + "learning_rate": 3.2636827628920258e-06, + "loss": 0.4315, + "step": 5855 + }, + { + "avg_step_time": 5.350969497603599, + "epoch": 0.6245333333333334, + "eta_time": 5.2320590643235185, + "step": 5855 + }, + { + "epoch": 0.62464, + "grad_norm": 1.7279624406826584, + "learning_rate": 3.2620628930319065e-06, + "loss": 0.4929, + "step": 5856 + }, + { + "avg_step_time": 5.39125375795846, + "epoch": 0.62464, + "eta_time": 5.2699505484043945, + "step": 5856 + }, + { + "epoch": 0.6247466666666667, + "grad_norm": 2.0132919988280125, + "learning_rate": 3.2604432306246424e-06, + "loss": 0.5482, + "step": 5857 + }, + { + "avg_step_time": 5.389825076767893, + "epoch": 0.6247466666666667, + "eta_time": 5.2670568389081796, + "step": 5857 + }, + { + "epoch": 0.6248533333333334, + "grad_norm": 1.6442318826205162, + "learning_rate": 3.258823775863568e-06, + "loss": 0.4166, + "step": 5858 + }, + { + "avg_step_time": 5.377001179589166, + "epoch": 0.6248533333333334, + "eta_time": 5.25303143017086, + "step": 5858 + }, + { + "epoch": 0.62496, + "grad_norm": 1.644174025919761, + "learning_rate": 3.257204528941993e-06, + "loss": 0.473, + "step": 5859 + }, + { + "avg_step_time": 5.374443651449801, + "epoch": 0.62496, + "eta_time": 5.249039966249306, + "step": 5859 + }, + { + "epoch": 0.6250666666666667, + "grad_norm": 1.9293113626420744, + "learning_rate": 3.255585490053201e-06, + "loss": 0.4917, + "step": 5860 + }, + { + "avg_step_time": 5.409866853193804, + "epoch": 0.6250666666666667, + "eta_time": 5.2821338858267275, + "step": 5860 + }, + { + "epoch": 0.6251733333333334, + "grad_norm": 1.8272360150378202, + "learning_rate": 3.2539666593904534e-06, + "loss": 0.5156, + "step": 5861 + }, + { + "avg_step_time": 5.41149434658012, + "epoch": 0.6251733333333334, + "eta_time": 5.282219759411817, + "step": 5861 + }, + { + "epoch": 0.62528, + "grad_norm": 1.9183939241418835, + "learning_rate": 3.2523480371469863e-06, + "loss": 0.4632, + "step": 5862 + }, + { + "avg_step_time": 5.44480216141903, + "epoch": 0.62528, + "eta_time": 5.31321944251807, + "step": 5862 + }, + { + "epoch": 0.6253866666666666, + "grad_norm": 1.7502391370518948, + "learning_rate": 3.25072962351601e-06, + "loss": 0.413, + "step": 5863 + }, + { + "avg_step_time": 5.446301874488291, + "epoch": 0.6253866666666666, + "eta_time": 5.3131700508896875, + "step": 5863 + }, + { + "epoch": 0.6254933333333333, + "grad_norm": 0.6345142097994354, + "learning_rate": 3.2491114186907097e-06, + "loss": 0.3979, + "step": 5864 + }, + { + "avg_step_time": 5.445810435998319, + "epoch": 0.6254933333333333, + "eta_time": 5.311177900219471, + "step": 5864 + }, + { + "epoch": 0.6256, + "grad_norm": 1.8122918244848025, + "learning_rate": 3.2474934228642475e-06, + "loss": 0.415, + "step": 5865 + }, + { + "avg_step_time": 5.48124662794248, + "epoch": 0.6256, + "eta_time": 5.344215462243918, + "step": 5865 + }, + { + "epoch": 0.6257066666666666, + "grad_norm": 0.6415205563246346, + "learning_rate": 3.245875636229755e-06, + "loss": 0.4166, + "step": 5866 + }, + { + "avg_step_time": 5.448646083022609, + "epoch": 0.6257066666666666, + "eta_time": 5.3109164181462045, + "step": 5866 + }, + { + "epoch": 0.6258133333333333, + "grad_norm": 1.9177425550346694, + "learning_rate": 3.2442580589803484e-06, + "loss": 0.4974, + "step": 5867 + }, + { + "avg_step_time": 5.45549734433492, + "epoch": 0.6258133333333333, + "eta_time": 5.316079078868583, + "step": 5867 + }, + { + "epoch": 0.62592, + "grad_norm": 1.7428109919155343, + "learning_rate": 3.242640691309111e-06, + "loss": 0.547, + "step": 5868 + }, + { + "avg_step_time": 5.4553777930712455, + "epoch": 0.62592, + "eta_time": 5.314447200083571, + "step": 5868 + }, + { + "epoch": 0.6260266666666666, + "grad_norm": 1.8920010028727536, + "learning_rate": 3.241023533409104e-06, + "loss": 0.4518, + "step": 5869 + }, + { + "avg_step_time": 5.454111202798709, + "epoch": 0.6260266666666666, + "eta_time": 5.311698299170076, + "step": 5869 + }, + { + "epoch": 0.6261333333333333, + "grad_norm": 1.9162786816077815, + "learning_rate": 3.2394065854733626e-06, + "loss": 0.4714, + "step": 5870 + }, + { + "avg_step_time": 5.452175395657318, + "epoch": 0.6261333333333333, + "eta_time": 5.308298544938584, + "step": 5870 + }, + { + "epoch": 0.62624, + "grad_norm": 1.9938811101537295, + "learning_rate": 3.2377898476948964e-06, + "loss": 0.4983, + "step": 5871 + }, + { + "avg_step_time": 5.453038071141099, + "epoch": 0.62624, + "eta_time": 5.307623722577335, + "step": 5871 + }, + { + "epoch": 0.6263466666666667, + "grad_norm": 1.8470853589986045, + "learning_rate": 3.236173320266694e-06, + "loss": 0.4632, + "step": 5872 + }, + { + "avg_step_time": 5.450653613215745, + "epoch": 0.6263466666666667, + "eta_time": 5.303788779748543, + "step": 5872 + }, + { + "epoch": 0.6264533333333333, + "grad_norm": 1.9098982346460174, + "learning_rate": 3.2345570033817153e-06, + "loss": 0.4432, + "step": 5873 + }, + { + "avg_step_time": 5.450043305002078, + "epoch": 0.6264533333333333, + "eta_time": 5.301681015032576, + "step": 5873 + }, + { + "epoch": 0.62656, + "grad_norm": 0.6427638607832258, + "learning_rate": 3.2329408972328934e-06, + "loss": 0.4601, + "step": 5874 + }, + { + "avg_step_time": 5.4381365920558125, + "epoch": 0.62656, + "eta_time": 5.288587835774278, + "step": 5874 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 1.620580872993639, + "learning_rate": 3.23132500201314e-06, + "loss": 0.4187, + "step": 5875 + }, + { + "avg_step_time": 5.435299882985125, + "epoch": 0.6266666666666667, + "eta_time": 5.284319330679982, + "step": 5875 + }, + { + "epoch": 0.6267733333333333, + "grad_norm": 2.240353383143468, + "learning_rate": 3.2297093179153394e-06, + "loss": 0.4776, + "step": 5876 + }, + { + "avg_step_time": 5.431053686623621, + "epoch": 0.6267733333333333, + "eta_time": 5.278682458193347, + "step": 5876 + }, + { + "epoch": 0.62688, + "grad_norm": 1.671749457522356, + "learning_rate": 3.2280938451323524e-06, + "loss": 0.4709, + "step": 5877 + }, + { + "avg_step_time": 5.467016578924777, + "epoch": 0.62688, + "eta_time": 5.312117775855241, + "step": 5877 + }, + { + "epoch": 0.6269866666666667, + "grad_norm": 1.7421308783799234, + "learning_rate": 3.2264785838570134e-06, + "loss": 0.5628, + "step": 5878 + }, + { + "avg_step_time": 5.468141478721542, + "epoch": 0.6269866666666667, + "eta_time": 5.311691875302564, + "step": 5878 + }, + { + "epoch": 0.6270933333333333, + "grad_norm": 0.6705221544890476, + "learning_rate": 3.2248635342821334e-06, + "loss": 0.4621, + "step": 5879 + }, + { + "avg_step_time": 5.429124061507408, + "epoch": 0.6270933333333333, + "eta_time": 5.2722826997305265, + "step": 5879 + }, + { + "epoch": 0.6272, + "grad_norm": 1.6514837478833528, + "learning_rate": 3.223248696600493e-06, + "loss": 0.541, + "step": 5880 + }, + { + "avg_step_time": 5.42660431669216, + "epoch": 0.6272, + "eta_time": 5.268328357455306, + "step": 5880 + }, + { + "epoch": 0.6273066666666667, + "grad_norm": 1.7367653375893115, + "learning_rate": 3.221634071004852e-06, + "loss": 0.4877, + "step": 5881 + }, + { + "avg_step_time": 5.435303442405932, + "epoch": 0.6273066666666667, + "eta_time": 5.275263952157313, + "step": 5881 + }, + { + "epoch": 0.6274133333333334, + "grad_norm": 1.6917626849295986, + "learning_rate": 3.2200196576879463e-06, + "loss": 0.4295, + "step": 5882 + }, + { + "avg_step_time": 5.437983211844858, + "epoch": 0.6274133333333334, + "eta_time": 5.276354266381691, + "step": 5882 + }, + { + "epoch": 0.62752, + "grad_norm": 2.2687739252630243, + "learning_rate": 3.2184054568424817e-06, + "loss": 0.5532, + "step": 5883 + }, + { + "avg_step_time": 5.449330679093949, + "epoch": 0.62752, + "eta_time": 5.28585075872113, + "step": 5883 + }, + { + "epoch": 0.6276266666666667, + "grad_norm": 2.087099285907105, + "learning_rate": 3.2167914686611425e-06, + "loss": 0.5595, + "step": 5884 + }, + { + "avg_step_time": 5.448884077746459, + "epoch": 0.6276266666666667, + "eta_time": 5.28390397650358, + "step": 5884 + }, + { + "epoch": 0.6277333333333334, + "grad_norm": 1.8439467958790527, + "learning_rate": 3.2151776933365842e-06, + "loss": 0.3913, + "step": 5885 + }, + { + "avg_step_time": 5.479257549902405, + "epoch": 0.6277333333333334, + "eta_time": 5.3118357914331655, + "step": 5885 + }, + { + "epoch": 0.62784, + "grad_norm": 1.8795694486856147, + "learning_rate": 3.2135641310614383e-06, + "loss": 0.5317, + "step": 5886 + }, + { + "avg_step_time": 5.479167206118805, + "epoch": 0.62784, + "eta_time": 5.310226217263475, + "step": 5886 + }, + { + "epoch": 0.6279466666666667, + "grad_norm": 0.6436956939619309, + "learning_rate": 3.2119507820283158e-06, + "loss": 0.4303, + "step": 5887 + }, + { + "avg_step_time": 5.451347028366243, + "epoch": 0.6279466666666667, + "eta_time": 5.281749565261515, + "step": 5887 + }, + { + "epoch": 0.6280533333333334, + "grad_norm": 2.0428727208958226, + "learning_rate": 3.2103376464297942e-06, + "loss": 0.5651, + "step": 5888 + }, + { + "avg_step_time": 5.445651574568315, + "epoch": 0.6280533333333334, + "eta_time": 5.274718622366588, + "step": 5888 + }, + { + "epoch": 0.62816, + "grad_norm": 1.7502577806501594, + "learning_rate": 3.20872472445843e-06, + "loss": 0.4745, + "step": 5889 + }, + { + "avg_step_time": 5.446842588559545, + "epoch": 0.62816, + "eta_time": 5.274359239921826, + "step": 5889 + }, + { + "epoch": 0.6282666666666666, + "grad_norm": 1.7850625022961828, + "learning_rate": 3.2071120163067527e-06, + "loss": 0.4984, + "step": 5890 + }, + { + "avg_step_time": 5.4552535336427015, + "epoch": 0.6282666666666666, + "eta_time": 5.280988490206893, + "step": 5890 + }, + { + "epoch": 0.6283733333333333, + "grad_norm": 1.8488303245739537, + "learning_rate": 3.2054995221672676e-06, + "loss": 0.4599, + "step": 5891 + }, + { + "avg_step_time": 5.455159943513196, + "epoch": 0.6283733333333333, + "eta_time": 5.279382567555548, + "step": 5891 + }, + { + "epoch": 0.62848, + "grad_norm": 1.682495479906437, + "learning_rate": 3.203887242232455e-06, + "loss": 0.4863, + "step": 5892 + }, + { + "avg_step_time": 5.469019292580961, + "epoch": 0.62848, + "eta_time": 5.2912761655720795, + "step": 5892 + }, + { + "epoch": 0.6285866666666666, + "grad_norm": 1.6681354684992176, + "learning_rate": 3.2022751766947656e-06, + "loss": 0.5362, + "step": 5893 + }, + { + "avg_step_time": 5.46215393808153, + "epoch": 0.6285866666666666, + "eta_time": 5.283116670111079, + "step": 5893 + }, + { + "epoch": 0.6286933333333333, + "grad_norm": 0.619889014154491, + "learning_rate": 3.200663325746629e-06, + "loss": 0.3978, + "step": 5894 + }, + { + "avg_step_time": 5.450442174468377, + "epoch": 0.6286933333333333, + "eta_time": 5.270274780367894, + "step": 5894 + }, + { + "epoch": 0.6288, + "grad_norm": 1.6084307740560908, + "learning_rate": 3.1990516895804467e-06, + "loss": 0.472, + "step": 5895 + }, + { + "avg_step_time": 5.4651118866120925, + "epoch": 0.6288, + "eta_time": 5.282941490391689, + "step": 5895 + }, + { + "epoch": 0.6289066666666666, + "grad_norm": 2.105432999952728, + "learning_rate": 3.1974402683885963e-06, + "loss": 0.5209, + "step": 5896 + }, + { + "avg_step_time": 5.4725053069567435, + "epoch": 0.6289066666666666, + "eta_time": 5.288568323028475, + "step": 5896 + }, + { + "epoch": 0.6290133333333333, + "grad_norm": 1.679601712003889, + "learning_rate": 3.1958290623634285e-06, + "loss": 0.4552, + "step": 5897 + }, + { + "avg_step_time": 5.472587566183071, + "epoch": 0.6290133333333333, + "eta_time": 5.2871276542179775, + "step": 5897 + }, + { + "epoch": 0.62912, + "grad_norm": 0.6559448708414192, + "learning_rate": 3.1942180716972698e-06, + "loss": 0.4727, + "step": 5898 + }, + { + "avg_step_time": 5.436543190118038, + "epoch": 0.62912, + "eta_time": 5.250794631122338, + "step": 5898 + }, + { + "epoch": 0.6292266666666667, + "grad_norm": 2.1611375651355424, + "learning_rate": 3.1926072965824172e-06, + "loss": 0.4812, + "step": 5899 + }, + { + "avg_step_time": 5.46250150420449, + "epoch": 0.6292266666666667, + "eta_time": 5.274348674615224, + "step": 5899 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 1.9856053045234754, + "learning_rate": 3.190996737211145e-06, + "loss": 0.466, + "step": 5900 + }, + { + "avg_step_time": 5.455074888287169, + "epoch": 0.6293333333333333, + "eta_time": 5.265662565777198, + "step": 5900 + }, + { + "epoch": 0.62944, + "grad_norm": 1.7547940761858647, + "learning_rate": 3.189386393775703e-06, + "loss": 0.5248, + "step": 5901 + }, + { + "avg_step_time": 5.424175934358076, + "epoch": 0.62944, + "eta_time": 5.234329776655543, + "step": 5901 + }, + { + "epoch": 0.6295466666666667, + "grad_norm": 1.9509063124123804, + "learning_rate": 3.1877762664683125e-06, + "loss": 0.4773, + "step": 5902 + }, + { + "avg_step_time": 5.406998280322913, + "epoch": 0.6295466666666667, + "eta_time": 5.2162513965448545, + "step": 5902 + }, + { + "epoch": 0.6296533333333333, + "grad_norm": 1.5167147468311637, + "learning_rate": 3.1861663554811707e-06, + "loss": 0.4944, + "step": 5903 + }, + { + "avg_step_time": 5.406438760083131, + "epoch": 0.6296533333333333, + "eta_time": 5.214209826391286, + "step": 5903 + }, + { + "epoch": 0.62976, + "grad_norm": 2.398970742394028, + "learning_rate": 3.1845566610064487e-06, + "loss": 0.5125, + "step": 5904 + }, + { + "avg_step_time": 5.437751868758538, + "epoch": 0.62976, + "eta_time": 5.242899093461358, + "step": 5904 + }, + { + "epoch": 0.6298666666666667, + "grad_norm": 0.6274674088840896, + "learning_rate": 3.182947183236288e-06, + "loss": 0.4214, + "step": 5905 + }, + { + "avg_step_time": 5.4403668774498835, + "epoch": 0.6298666666666667, + "eta_time": 5.2439091846530825, + "step": 5905 + }, + { + "epoch": 0.6299733333333334, + "grad_norm": 1.6922701505282947, + "learning_rate": 3.1813379223628127e-06, + "loss": 0.5115, + "step": 5906 + }, + { + "avg_step_time": 5.439239511586199, + "epoch": 0.6299733333333334, + "eta_time": 5.241311629359035, + "step": 5906 + }, + { + "epoch": 0.63008, + "grad_norm": 1.9254503068320128, + "learning_rate": 3.179728878578112e-06, + "loss": 0.4539, + "step": 5907 + }, + { + "avg_step_time": 5.436620856776382, + "epoch": 0.63008, + "eta_time": 5.237278092027914, + "step": 5907 + }, + { + "epoch": 0.6301866666666667, + "grad_norm": 1.7934887977476677, + "learning_rate": 3.178120052074255e-06, + "loss": 0.4434, + "step": 5908 + }, + { + "avg_step_time": 5.439042662129258, + "epoch": 0.6301866666666667, + "eta_time": 5.238100252667261, + "step": 5908 + }, + { + "epoch": 0.6302933333333334, + "grad_norm": 1.9926361273949582, + "learning_rate": 3.1765114430432826e-06, + "loss": 0.525, + "step": 5909 + }, + { + "avg_step_time": 5.4396152327759095, + "epoch": 0.6302933333333334, + "eta_time": 5.237140665778139, + "step": 5909 + }, + { + "epoch": 0.6304, + "grad_norm": 1.749655438927115, + "learning_rate": 3.1749030516772084e-06, + "loss": 0.4671, + "step": 5910 + }, + { + "avg_step_time": 5.4494413534800215, + "epoch": 0.6304, + "eta_time": 5.24508730272452, + "step": 5910 + }, + { + "epoch": 0.6305066666666667, + "grad_norm": 1.637609149088916, + "learning_rate": 3.173294878168025e-06, + "loss": 0.4476, + "step": 5911 + }, + { + "avg_step_time": 5.451999772678722, + "epoch": 0.6305066666666667, + "eta_time": 5.24603533682197, + "step": 5911 + }, + { + "epoch": 0.6306133333333334, + "grad_norm": 1.648845083019561, + "learning_rate": 3.1716869227076946e-06, + "loss": 0.4174, + "step": 5912 + }, + { + "avg_step_time": 5.481074441562999, + "epoch": 0.6306133333333334, + "eta_time": 5.272489108647963, + "step": 5912 + }, + { + "epoch": 0.63072, + "grad_norm": 1.8885894333668418, + "learning_rate": 3.170079185488153e-06, + "loss": 0.4069, + "step": 5913 + }, + { + "avg_step_time": 5.523465527428521, + "epoch": 0.63072, + "eta_time": 5.311732682210428, + "step": 5913 + }, + { + "epoch": 0.6308266666666666, + "grad_norm": 1.7925596534503185, + "learning_rate": 3.1684716667013125e-06, + "loss": 0.3427, + "step": 5914 + }, + { + "avg_step_time": 5.518023592053038, + "epoch": 0.6308266666666666, + "eta_time": 5.304966570026546, + "step": 5914 + }, + { + "epoch": 0.6309333333333333, + "grad_norm": 1.7671373501039689, + "learning_rate": 3.166864366539057e-06, + "loss": 0.5208, + "step": 5915 + }, + { + "avg_step_time": 5.528425500850485, + "epoch": 0.6309333333333333, + "eta_time": 5.313431175817411, + "step": 5915 + }, + { + "epoch": 0.63104, + "grad_norm": 1.8083522019611746, + "learning_rate": 3.165257285193248e-06, + "loss": 0.4863, + "step": 5916 + }, + { + "avg_step_time": 5.5432086881965095, + "epoch": 0.63104, + "eta_time": 5.326099681242146, + "step": 5916 + }, + { + "epoch": 0.6311466666666666, + "grad_norm": 1.9857826717737845, + "learning_rate": 3.163650422855717e-06, + "loss": 0.4975, + "step": 5917 + }, + { + "avg_step_time": 5.563225592025603, + "epoch": 0.6311466666666666, + "eta_time": 5.343787249229037, + "step": 5917 + }, + { + "epoch": 0.6312533333333333, + "grad_norm": 1.7681628177256437, + "learning_rate": 3.1620437797182717e-06, + "loss": 0.424, + "step": 5918 + }, + { + "avg_step_time": 5.605971131661926, + "epoch": 0.6312533333333333, + "eta_time": 5.383289500598689, + "step": 5918 + }, + { + "epoch": 0.63136, + "grad_norm": 1.831852262650519, + "learning_rate": 3.1604373559726915e-06, + "loss": 0.4279, + "step": 5919 + }, + { + "avg_step_time": 5.603963259494666, + "epoch": 0.63136, + "eta_time": 5.379804729114879, + "step": 5919 + }, + { + "epoch": 0.6314666666666666, + "grad_norm": 0.673747931941934, + "learning_rate": 3.15883115181073e-06, + "loss": 0.4483, + "step": 5920 + }, + { + "avg_step_time": 5.570902217518199, + "epoch": 0.6314666666666666, + "eta_time": 5.346518655979272, + "step": 5920 + }, + { + "epoch": 0.6315733333333333, + "grad_norm": 0.7045085509589054, + "learning_rate": 3.1572251674241182e-06, + "loss": 0.4571, + "step": 5921 + }, + { + "avg_step_time": 5.536827024787363, + "epoch": 0.6315733333333333, + "eta_time": 5.312277928782098, + "step": 5921 + }, + { + "epoch": 0.63168, + "grad_norm": 1.4713764804604956, + "learning_rate": 3.1556194030045563e-06, + "loss": 0.4808, + "step": 5922 + }, + { + "avg_step_time": 5.535324291749434, + "epoch": 0.63168, + "eta_time": 5.309298549836331, + "step": 5922 + }, + { + "epoch": 0.6317866666666667, + "grad_norm": 2.0602441185905573, + "learning_rate": 3.1540138587437206e-06, + "loss": 0.5903, + "step": 5923 + }, + { + "avg_step_time": 5.534346558830955, + "epoch": 0.6317866666666667, + "eta_time": 5.30682342252346, + "step": 5923 + }, + { + "epoch": 0.6318933333333333, + "grad_norm": 2.007746340600087, + "learning_rate": 3.1524085348332622e-06, + "loss": 0.5413, + "step": 5924 + }, + { + "avg_step_time": 5.532134325817378, + "epoch": 0.6318933333333333, + "eta_time": 5.303165432887713, + "step": 5924 + }, + { + "epoch": 0.632, + "grad_norm": 1.5710854690412372, + "learning_rate": 3.1508034314647994e-06, + "loss": 0.4803, + "step": 5925 + }, + { + "avg_step_time": 5.530017546933107, + "epoch": 0.632, + "eta_time": 5.2996001491442275, + "step": 5925 + }, + { + "epoch": 0.6321066666666667, + "grad_norm": 1.977545135285896, + "learning_rate": 3.149198548829935e-06, + "loss": 0.4923, + "step": 5926 + }, + { + "avg_step_time": 5.5246188014444675, + "epoch": 0.6321066666666667, + "eta_time": 5.292891735050547, + "step": 5926 + }, + { + "epoch": 0.6322133333333333, + "grad_norm": 1.9743076958617918, + "learning_rate": 3.1475938871202356e-06, + "loss": 0.4617, + "step": 5927 + }, + { + "avg_step_time": 5.553028431805697, + "epoch": 0.6322133333333333, + "eta_time": 5.318567231351679, + "step": 5927 + }, + { + "epoch": 0.63232, + "grad_norm": 1.8212596941280794, + "learning_rate": 3.1459894465272467e-06, + "loss": 0.4826, + "step": 5928 + }, + { + "avg_step_time": 5.553314206576107, + "epoch": 0.63232, + "eta_time": 5.317298352796622, + "step": 5928 + }, + { + "epoch": 0.6324266666666667, + "grad_norm": 1.7066167589215706, + "learning_rate": 3.1443852272424863e-06, + "loss": 0.4623, + "step": 5929 + }, + { + "avg_step_time": 5.555661307440864, + "epoch": 0.6324266666666667, + "eta_time": 5.318002462622561, + "step": 5929 + }, + { + "epoch": 0.6325333333333333, + "grad_norm": 2.034875952081678, + "learning_rate": 3.142781229457442e-06, + "loss": 0.4938, + "step": 5930 + }, + { + "avg_step_time": 5.55931463867727, + "epoch": 0.6325333333333333, + "eta_time": 5.319955258400887, + "step": 5930 + }, + { + "epoch": 0.63264, + "grad_norm": 1.9066865266844693, + "learning_rate": 3.1411774533635854e-06, + "loss": 0.4974, + "step": 5931 + }, + { + "avg_step_time": 5.559436008183643, + "epoch": 0.63264, + "eta_time": 5.318527114495685, + "step": 5931 + }, + { + "epoch": 0.6327466666666667, + "grad_norm": 2.3405387661216612, + "learning_rate": 3.139573899152351e-06, + "loss": 0.5004, + "step": 5932 + }, + { + "avg_step_time": 5.559218914821894, + "epoch": 0.6327466666666667, + "eta_time": 5.316775201036607, + "step": 5932 + }, + { + "epoch": 0.6328533333333334, + "grad_norm": 1.993484122742963, + "learning_rate": 3.1379705670151504e-06, + "loss": 0.4717, + "step": 5933 + }, + { + "avg_step_time": 5.563938721261843, + "epoch": 0.6328533333333334, + "eta_time": 5.319743632939796, + "step": 5933 + }, + { + "epoch": 0.63296, + "grad_norm": 1.9999850177063871, + "learning_rate": 3.136367457143369e-06, + "loss": 0.4556, + "step": 5934 + }, + { + "avg_step_time": 5.561594587383849, + "epoch": 0.63296, + "eta_time": 5.315957493107729, + "step": 5934 + }, + { + "epoch": 0.6330666666666667, + "grad_norm": 2.0686910595499364, + "learning_rate": 3.134764569728368e-06, + "loss": 0.5997, + "step": 5935 + }, + { + "avg_step_time": 5.5601248235413525, + "epoch": 0.6330666666666667, + "eta_time": 5.313008164717293, + "step": 5935 + }, + { + "epoch": 0.6331733333333334, + "grad_norm": 2.0071368226499864, + "learning_rate": 3.133161904961477e-06, + "loss": 0.5583, + "step": 5936 + }, + { + "avg_step_time": 5.560347523352112, + "epoch": 0.6331733333333334, + "eta_time": 5.311676425779976, + "step": 5936 + }, + { + "epoch": 0.63328, + "grad_norm": 1.8090636927710741, + "learning_rate": 3.1315594630340052e-06, + "loss": 0.5002, + "step": 5937 + }, + { + "avg_step_time": 5.558538335742372, + "epoch": 0.63328, + "eta_time": 5.3084041106339654, + "step": 5937 + }, + { + "epoch": 0.6333866666666667, + "grad_norm": 2.0228485442295048, + "learning_rate": 3.1299572441372274e-06, + "loss": 0.5059, + "step": 5938 + }, + { + "avg_step_time": 5.59543714860473, + "epoch": 0.6333866666666667, + "eta_time": 5.342088188820682, + "step": 5938 + }, + { + "epoch": 0.6334933333333334, + "grad_norm": 1.9144921203366085, + "learning_rate": 3.128355248462397e-06, + "loss": 0.5068, + "step": 5939 + }, + { + "avg_step_time": 5.595989020183833, + "epoch": 0.6334933333333334, + "eta_time": 5.3410606314865685, + "step": 5939 + }, + { + "epoch": 0.6336, + "grad_norm": 0.6171212307364726, + "learning_rate": 3.1267534762007435e-06, + "loss": 0.443, + "step": 5940 + }, + { + "avg_step_time": 5.563147650824653, + "epoch": 0.6336, + "eta_time": 5.3081700501618565, + "step": 5940 + }, + { + "epoch": 0.6337066666666666, + "grad_norm": 1.6528965265748141, + "learning_rate": 3.125151927543464e-06, + "loss": 0.3945, + "step": 5941 + }, + { + "avg_step_time": 5.562420722210046, + "epoch": 0.6337066666666666, + "eta_time": 5.305931322241472, + "step": 5941 + }, + { + "epoch": 0.6338133333333333, + "grad_norm": 1.985334624137309, + "learning_rate": 3.1235506026817296e-06, + "loss": 0.506, + "step": 5942 + }, + { + "avg_step_time": 5.563047421098959, + "epoch": 0.6338133333333333, + "eta_time": 5.30498383239798, + "step": 5942 + }, + { + "epoch": 0.63392, + "grad_norm": 1.9515783565676528, + "learning_rate": 3.1219495018066888e-06, + "loss": 0.4669, + "step": 5943 + }, + { + "avg_step_time": 5.599275083252878, + "epoch": 0.63392, + "eta_time": 5.337975579367743, + "step": 5943 + }, + { + "epoch": 0.6340266666666666, + "grad_norm": 1.62259880163052, + "learning_rate": 3.1203486251094562e-06, + "loss": 0.4931, + "step": 5944 + }, + { + "avg_step_time": 5.632967510608712, + "epoch": 0.6340266666666666, + "eta_time": 5.368530980249581, + "step": 5944 + }, + { + "epoch": 0.6341333333333333, + "grad_norm": 2.0216820083956812, + "learning_rate": 3.11874797278113e-06, + "loss": 0.4507, + "step": 5945 + }, + { + "avg_step_time": 5.610291608656295, + "epoch": 0.6341333333333333, + "eta_time": 5.345361171580859, + "step": 5945 + }, + { + "epoch": 0.63424, + "grad_norm": 1.890878390549518, + "learning_rate": 3.1171475450127717e-06, + "loss": 0.4189, + "step": 5946 + }, + { + "avg_step_time": 5.609080846863564, + "epoch": 0.63424, + "eta_time": 5.342649506637545, + "step": 5946 + }, + { + "epoch": 0.6343466666666666, + "grad_norm": 2.0025591071126163, + "learning_rate": 3.115547341995422e-06, + "loss": 0.6008, + "step": 5947 + }, + { + "avg_step_time": 5.613066126601865, + "epoch": 0.6343466666666666, + "eta_time": 5.344886300553109, + "step": 5947 + }, + { + "epoch": 0.6344533333333333, + "grad_norm": 1.9949836153818743, + "learning_rate": 3.113947363920091e-06, + "loss": 0.4626, + "step": 5948 + }, + { + "avg_step_time": 5.648640678386496, + "epoch": 0.6344533333333333, + "eta_time": 5.3771921124529225, + "step": 5948 + }, + { + "epoch": 0.63456, + "grad_norm": 2.1899474005052837, + "learning_rate": 3.112347610977764e-06, + "loss": 0.4781, + "step": 5949 + }, + { + "avg_step_time": 5.648370988441236, + "epoch": 0.63456, + "eta_time": 5.375366390666577, + "step": 5949 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 2.1535033703171105, + "learning_rate": 3.1107480833594018e-06, + "loss": 0.5144, + "step": 5950 + }, + { + "avg_step_time": 5.649765286782776, + "epoch": 0.6346666666666667, + "eta_time": 5.37512391867528, + "step": 5950 + }, + { + "epoch": 0.6347733333333333, + "grad_norm": 1.9387994904230055, + "learning_rate": 3.109148781255934e-06, + "loss": 0.4665, + "step": 5951 + }, + { + "avg_step_time": 5.643224075587109, + "epoch": 0.6347733333333333, + "eta_time": 5.3673331207806285, + "step": 5951 + }, + { + "epoch": 0.63488, + "grad_norm": 1.5896076128477528, + "learning_rate": 3.1075497048582635e-06, + "loss": 0.481, + "step": 5952 + }, + { + "avg_step_time": 5.646503181168527, + "epoch": 0.63488, + "eta_time": 5.368883441427742, + "step": 5952 + }, + { + "epoch": 0.6349866666666667, + "grad_norm": 1.627128152845809, + "learning_rate": 3.1059508543572703e-06, + "loss": 0.5226, + "step": 5953 + }, + { + "avg_step_time": 5.666145035714814, + "epoch": 0.6349866666666667, + "eta_time": 5.3859856422822485, + "step": 5953 + }, + { + "epoch": 0.6350933333333333, + "grad_norm": 1.751354562482537, + "learning_rate": 3.1043522299438023e-06, + "loss": 0.4369, + "step": 5954 + }, + { + "avg_step_time": 5.668533924854163, + "epoch": 0.6350933333333333, + "eta_time": 5.3866818213683585, + "step": 5954 + }, + { + "epoch": 0.6352, + "grad_norm": 1.7335064073989312, + "learning_rate": 3.102753831808685e-06, + "loss": 0.5287, + "step": 5955 + }, + { + "avg_step_time": 5.662491574431911, + "epoch": 0.6352, + "eta_time": 5.379366995710316, + "step": 5955 + }, + { + "epoch": 0.6353066666666667, + "grad_norm": 1.7401229974079224, + "learning_rate": 3.1011556601427138e-06, + "loss": 0.4731, + "step": 5956 + }, + { + "avg_step_time": 5.663876950138747, + "epoch": 0.6353066666666667, + "eta_time": 5.379109803478993, + "step": 5956 + }, + { + "epoch": 0.6354133333333334, + "grad_norm": 1.5167778169513206, + "learning_rate": 3.0995577151366594e-06, + "loss": 0.381, + "step": 5957 + }, + { + "avg_step_time": 5.667053299720841, + "epoch": 0.6354133333333334, + "eta_time": 5.380552271790509, + "step": 5957 + }, + { + "epoch": 0.63552, + "grad_norm": 1.9074922966133547, + "learning_rate": 3.097959996981263e-06, + "loss": 0.5489, + "step": 5958 + }, + { + "avg_step_time": 5.664153274863657, + "epoch": 0.63552, + "eta_time": 5.376225483391421, + "step": 5958 + }, + { + "epoch": 0.6356266666666667, + "grad_norm": 2.017904046780822, + "learning_rate": 3.0963625058672384e-06, + "loss": 0.551, + "step": 5959 + }, + { + "avg_step_time": 5.664532451918631, + "epoch": 0.6356266666666667, + "eta_time": 5.375011904376123, + "step": 5959 + }, + { + "epoch": 0.6357333333333334, + "grad_norm": 1.5951360453930095, + "learning_rate": 3.0947652419852768e-06, + "loss": 0.4678, + "step": 5960 + }, + { + "avg_step_time": 5.6632654233412305, + "epoch": 0.6357333333333334, + "eta_time": 5.372236505752861, + "step": 5960 + }, + { + "epoch": 0.63584, + "grad_norm": 1.7722675561104269, + "learning_rate": 3.093168205526038e-06, + "loss": 0.4764, + "step": 5961 + }, + { + "avg_step_time": 5.662989604352701, + "epoch": 0.63584, + "eta_time": 5.370401808127811, + "step": 5961 + }, + { + "epoch": 0.6359466666666667, + "grad_norm": 2.254224414418733, + "learning_rate": 3.091571396680156e-06, + "loss": 0.5368, + "step": 5962 + }, + { + "avg_step_time": 5.692259061216104, + "epoch": 0.6359466666666667, + "eta_time": 5.396577826647379, + "step": 5962 + }, + { + "epoch": 0.6360533333333334, + "grad_norm": 1.948958119327978, + "learning_rate": 3.089974815638239e-06, + "loss": 0.49, + "step": 5963 + }, + { + "avg_step_time": 5.727167466674188, + "epoch": 0.6360533333333334, + "eta_time": 5.428082054525647, + "step": 5963 + }, + { + "epoch": 0.63616, + "grad_norm": 1.7100267395695048, + "learning_rate": 3.0883784625908618e-06, + "loss": 0.5239, + "step": 5964 + }, + { + "avg_step_time": 5.7223449524002845, + "epoch": 0.63616, + "eta_time": 5.42192184239927, + "step": 5964 + }, + { + "epoch": 0.6362666666666666, + "grad_norm": 1.8215137708386433, + "learning_rate": 3.0867823377285835e-06, + "loss": 0.5227, + "step": 5965 + }, + { + "avg_step_time": 5.773749370767613, + "epoch": 0.6362666666666666, + "eta_time": 5.469023709532656, + "step": 5965 + }, + { + "epoch": 0.6363733333333333, + "grad_norm": 1.7201948548095385, + "learning_rate": 3.0851864412419236e-06, + "loss": 0.4675, + "step": 5966 + }, + { + "avg_step_time": 5.778836707876186, + "epoch": 0.6363733333333333, + "eta_time": 5.4722373158749775, + "step": 5966 + }, + { + "epoch": 0.63648, + "grad_norm": 2.1319610359356718, + "learning_rate": 3.083590773321383e-06, + "loss": 0.4229, + "step": 5967 + }, + { + "avg_step_time": 5.781131344612199, + "epoch": 0.63648, + "eta_time": 5.472804339566215, + "step": 5967 + }, + { + "epoch": 0.6365866666666666, + "grad_norm": 1.7520598478107448, + "learning_rate": 3.0819953341574305e-06, + "loss": 0.4742, + "step": 5968 + }, + { + "avg_step_time": 5.782953100975114, + "epoch": 0.6365866666666666, + "eta_time": 5.472922559728392, + "step": 5968 + }, + { + "epoch": 0.6366933333333333, + "grad_norm": 2.190501869395149, + "learning_rate": 3.0804001239405097e-06, + "loss": 0.5133, + "step": 5969 + }, + { + "avg_step_time": 5.781562504142221, + "epoch": 0.6366933333333333, + "eta_time": 5.470000524752336, + "step": 5969 + }, + { + "epoch": 0.6368, + "grad_norm": 0.6327991326765248, + "learning_rate": 3.0788051428610377e-06, + "loss": 0.4261, + "step": 5970 + }, + { + "avg_step_time": 5.752550782579364, + "epoch": 0.6368, + "eta_time": 5.440954281856316, + "step": 5970 + }, + { + "epoch": 0.6369066666666666, + "grad_norm": 1.8701766354948055, + "learning_rate": 3.077210391109404e-06, + "loss": 0.4391, + "step": 5971 + }, + { + "avg_step_time": 5.753622430743593, + "epoch": 0.6369066666666666, + "eta_time": 5.440369653958664, + "step": 5971 + }, + { + "epoch": 0.6370133333333333, + "grad_norm": 1.5389048739170634, + "learning_rate": 3.075615868875967e-06, + "loss": 0.4573, + "step": 5972 + }, + { + "avg_step_time": 5.753886757474957, + "epoch": 0.6370133333333333, + "eta_time": 5.4390212876909105, + "step": 5972 + }, + { + "epoch": 0.63712, + "grad_norm": 2.063099883640334, + "learning_rate": 3.0740215763510617e-06, + "loss": 0.4582, + "step": 5973 + }, + { + "avg_step_time": 5.792756704368976, + "epoch": 0.63712, + "eta_time": 5.4741550856286825, + "step": 5973 + }, + { + "epoch": 0.6372266666666667, + "grad_norm": 1.94904656628593, + "learning_rate": 3.072427513724993e-06, + "loss": 0.504, + "step": 5974 + }, + { + "avg_step_time": 5.7915046022395895, + "epoch": 0.6372266666666667, + "eta_time": 5.471363097838013, + "step": 5974 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 2.031282675719211, + "learning_rate": 3.070833681188043e-06, + "loss": 0.3906, + "step": 5975 + }, + { + "avg_step_time": 5.794452094068431, + "epoch": 0.6373333333333333, + "eta_time": 5.472538088842407, + "step": 5975 + }, + { + "epoch": 0.63744, + "grad_norm": 1.738042813022203, + "learning_rate": 3.069240078930461e-06, + "loss": 0.4533, + "step": 5976 + }, + { + "avg_step_time": 5.797292774373835, + "epoch": 0.63744, + "eta_time": 5.473610594471296, + "step": 5976 + }, + { + "epoch": 0.6375466666666667, + "grad_norm": 1.8954432635464937, + "learning_rate": 3.0676467071424733e-06, + "loss": 0.4907, + "step": 5977 + }, + { + "avg_step_time": 5.796802181186098, + "epoch": 0.6375466666666667, + "eta_time": 5.471537169908434, + "step": 5977 + }, + { + "epoch": 0.6376533333333333, + "grad_norm": 1.7631734815997415, + "learning_rate": 3.066053566014271e-06, + "loss": 0.4628, + "step": 5978 + }, + { + "avg_step_time": 5.828572781399043, + "epoch": 0.6376533333333333, + "eta_time": 5.49990603844793, + "step": 5978 + }, + { + "epoch": 0.63776, + "grad_norm": 1.9992240689117977, + "learning_rate": 3.0644606557360303e-06, + "loss": 0.5025, + "step": 5979 + }, + { + "avg_step_time": 5.826098287948454, + "epoch": 0.63776, + "eta_time": 5.495952718298042, + "step": 5979 + }, + { + "epoch": 0.6378666666666667, + "grad_norm": 2.072291918109032, + "learning_rate": 3.0628679764978875e-06, + "loss": 0.5302, + "step": 5980 + }, + { + "avg_step_time": 5.816280097672434, + "epoch": 0.6378666666666667, + "eta_time": 5.485075258777198, + "step": 5980 + }, + { + "epoch": 0.6379733333333333, + "grad_norm": 2.0293227488884935, + "learning_rate": 3.0612755284899577e-06, + "loss": 0.4499, + "step": 5981 + }, + { + "avg_step_time": 5.815883157229183, + "epoch": 0.6379733333333333, + "eta_time": 5.483085398787735, + "step": 5981 + }, + { + "epoch": 0.63808, + "grad_norm": 1.672449633052983, + "learning_rate": 3.0596833119023283e-06, + "loss": 0.4694, + "step": 5982 + }, + { + "avg_step_time": 5.814554527552441, + "epoch": 0.63808, + "eta_time": 5.480217642218175, + "step": 5982 + }, + { + "epoch": 0.6381866666666667, + "grad_norm": 1.582279112341622, + "learning_rate": 3.0580913269250545e-06, + "loss": 0.5273, + "step": 5983 + }, + { + "avg_step_time": 5.817818940287888, + "epoch": 0.6381866666666667, + "eta_time": 5.481678290404589, + "step": 5983 + }, + { + "epoch": 0.6382933333333334, + "grad_norm": 0.6593901497790015, + "learning_rate": 3.0564995737481706e-06, + "loss": 0.4496, + "step": 5984 + }, + { + "avg_step_time": 5.7525692539985736, + "epoch": 0.6382933333333334, + "eta_time": 5.418600650085879, + "step": 5984 + }, + { + "epoch": 0.6384, + "grad_norm": 1.964258415789006, + "learning_rate": 3.054908052561681e-06, + "loss": 0.4212, + "step": 5985 + }, + { + "avg_step_time": 5.751673859779281, + "epoch": 0.6384, + "eta_time": 5.416159551292156, + "step": 5985 + }, + { + "epoch": 0.6385066666666667, + "grad_norm": 0.6301191335748023, + "learning_rate": 3.053316763555557e-06, + "loss": 0.4483, + "step": 5986 + }, + { + "avg_step_time": 5.747815820905897, + "epoch": 0.6385066666666667, + "eta_time": 5.41092994918058, + "step": 5986 + }, + { + "epoch": 0.6386133333333334, + "grad_norm": 1.8426941569935997, + "learning_rate": 3.0517257069197497e-06, + "loss": 0.5719, + "step": 5987 + }, + { + "avg_step_time": 5.754748334788313, + "epoch": 0.6386133333333334, + "eta_time": 5.415857599517445, + "step": 5987 + }, + { + "epoch": 0.63872, + "grad_norm": 1.8250654947208333, + "learning_rate": 3.0501348828441767e-06, + "loss": 0.5322, + "step": 5988 + }, + { + "avg_step_time": 5.751241373293327, + "epoch": 0.63872, + "eta_time": 5.410959592040138, + "step": 5988 + }, + { + "epoch": 0.6388266666666667, + "grad_norm": 2.0080272804213672, + "learning_rate": 3.0485442915187335e-06, + "loss": 0.5086, + "step": 5989 + }, + { + "avg_step_time": 5.746203253967593, + "epoch": 0.6388266666666667, + "eta_time": 5.40462339387063, + "step": 5989 + }, + { + "epoch": 0.6389333333333334, + "grad_norm": 2.0723721489194036, + "learning_rate": 3.046953933133283e-06, + "loss": 0.5089, + "step": 5990 + }, + { + "avg_step_time": 5.743171063336459, + "epoch": 0.6389333333333334, + "eta_time": 5.400176124831643, + "step": 5990 + }, + { + "epoch": 0.63904, + "grad_norm": 1.6974940060300099, + "learning_rate": 3.0453638078776614e-06, + "loss": 0.4841, + "step": 5991 + }, + { + "avg_step_time": 5.7287496195899115, + "epoch": 0.63904, + "eta_time": 5.385024642414517, + "step": 5991 + }, + { + "epoch": 0.6391466666666666, + "grad_norm": 1.639161816899344, + "learning_rate": 3.043773915941679e-06, + "loss": 0.3865, + "step": 5992 + }, + { + "avg_step_time": 5.731723852831908, + "epoch": 0.6391466666666666, + "eta_time": 5.3862282761473175, + "step": 5992 + }, + { + "epoch": 0.6392533333333333, + "grad_norm": 0.6464985730588114, + "learning_rate": 3.042184257515114e-06, + "loss": 0.4481, + "step": 5993 + }, + { + "avg_step_time": 5.706633497970273, + "epoch": 0.6392533333333333, + "eta_time": 5.36106513614874, + "step": 5993 + }, + { + "epoch": 0.63936, + "grad_norm": 1.77650945899861, + "learning_rate": 3.0405948327877233e-06, + "loss": 0.5184, + "step": 5994 + }, + { + "avg_step_time": 5.691911328922618, + "epoch": 0.63936, + "eta_time": 5.345653389746492, + "step": 5994 + }, + { + "epoch": 0.6394666666666666, + "grad_norm": 1.7460253083831172, + "learning_rate": 3.039005641949231e-06, + "loss": 0.4677, + "step": 5995 + }, + { + "avg_step_time": 5.683800124158763, + "epoch": 0.6394666666666666, + "eta_time": 5.336456783237949, + "step": 5995 + }, + { + "epoch": 0.6395733333333333, + "grad_norm": 1.9382486624103004, + "learning_rate": 3.037416685189335e-06, + "loss": 0.463, + "step": 5996 + }, + { + "avg_step_time": 5.683289624223805, + "epoch": 0.6395733333333333, + "eta_time": 5.334398788958954, + "step": 5996 + }, + { + "epoch": 0.63968, + "grad_norm": 1.8523403700674346, + "learning_rate": 3.0358279626977034e-06, + "loss": 0.5396, + "step": 5997 + }, + { + "avg_step_time": 5.71672564805156, + "epoch": 0.63968, + "eta_time": 5.364194233088381, + "step": 5997 + }, + { + "epoch": 0.6397866666666666, + "grad_norm": 2.0152105849853186, + "learning_rate": 3.0342394746639768e-06, + "loss": 0.5532, + "step": 5998 + }, + { + "avg_step_time": 5.692796304972485, + "epoch": 0.6397866666666666, + "eta_time": 5.340159200525578, + "step": 5998 + }, + { + "epoch": 0.6398933333333333, + "grad_norm": 1.7536842240138029, + "learning_rate": 3.0326512212777715e-06, + "loss": 0.4857, + "step": 5999 + }, + { + "avg_step_time": 5.701639168190233, + "epoch": 0.6398933333333333, + "eta_time": 5.346870508836174, + "step": 5999 + }, + { + "epoch": 0.64, + "grad_norm": 1.8529678770140405, + "learning_rate": 3.0310632027286717e-06, + "loss": 0.5298, + "step": 6000 + }, + { + "avg_step_time": 5.701366142793135, + "epoch": 0.64, + "eta_time": 5.345030758868564, + "step": 6000 + }, + { + "epoch": 0.6401066666666667, + "grad_norm": 1.8773576048579916, + "learning_rate": 3.0294754192062346e-06, + "loss": 0.4207, + "step": 6001 + }, + { + "avg_step_time": 5.712025004203873, + "epoch": 0.6401066666666667, + "eta_time": 5.353436767828852, + "step": 6001 + }, + { + "epoch": 0.6402133333333333, + "grad_norm": 1.703253816946414, + "learning_rate": 3.0278878708999917e-06, + "loss": 0.4721, + "step": 6002 + }, + { + "avg_step_time": 5.7187520542530095, + "epoch": 0.6402133333333333, + "eta_time": 5.358152966387611, + "step": 6002 + }, + { + "epoch": 0.64032, + "grad_norm": 0.6487513087293723, + "learning_rate": 3.026300557999439e-06, + "loss": 0.4406, + "step": 6003 + }, + { + "avg_step_time": 5.686953142435864, + "epoch": 0.64032, + "eta_time": 5.326779443414925, + "step": 6003 + }, + { + "epoch": 0.6404266666666667, + "grad_norm": 1.776596362833933, + "learning_rate": 3.024713480694057e-06, + "loss": 0.4302, + "step": 6004 + }, + { + "avg_step_time": 5.718461684506349, + "epoch": 0.6404266666666667, + "eta_time": 5.3547039829085845, + "step": 6004 + }, + { + "epoch": 0.6405333333333333, + "grad_norm": 1.9480946331725364, + "learning_rate": 3.023126639173286e-06, + "loss": 0.4829, + "step": 6005 + }, + { + "avg_step_time": 5.724239662440136, + "epoch": 0.6405333333333333, + "eta_time": 5.358524350673128, + "step": 6005 + }, + { + "epoch": 0.64064, + "grad_norm": 1.8119316027558299, + "learning_rate": 3.021540033626544e-06, + "loss": 0.5267, + "step": 6006 + }, + { + "avg_step_time": 5.728989947925914, + "epoch": 0.64064, + "eta_time": 5.361379759600668, + "step": 6006 + }, + { + "epoch": 0.6407466666666667, + "grad_norm": 1.8939861952894963, + "learning_rate": 3.01995366424322e-06, + "loss": 0.5302, + "step": 6007 + }, + { + "avg_step_time": 5.737147820116293, + "epoch": 0.6407466666666667, + "eta_time": 5.367420516153244, + "step": 6007 + }, + { + "epoch": 0.6408533333333334, + "grad_norm": 0.65004993090913, + "learning_rate": 3.0183675312126737e-06, + "loss": 0.4276, + "step": 6008 + }, + { + "avg_step_time": 5.7028960531408135, + "epoch": 0.6408533333333334, + "eta_time": 5.3337919474792, + "step": 6008 + }, + { + "epoch": 0.64096, + "grad_norm": 2.1377857737616033, + "learning_rate": 3.0167816347242396e-06, + "loss": 0.4585, + "step": 6009 + }, + { + "avg_step_time": 5.697909451494313, + "epoch": 0.64096, + "eta_time": 5.327545337147183, + "step": 6009 + }, + { + "epoch": 0.6410666666666667, + "grad_norm": 1.7792304742069698, + "learning_rate": 3.015195974967221e-06, + "loss": 0.435, + "step": 6010 + }, + { + "avg_step_time": 5.696461044176661, + "epoch": 0.6410666666666667, + "eta_time": 5.3246087260151285, + "step": 6010 + }, + { + "epoch": 0.6411733333333334, + "grad_norm": 1.6802982319729551, + "learning_rate": 3.0136105521308933e-06, + "loss": 0.5321, + "step": 6011 + }, + { + "avg_step_time": 5.668165912531843, + "epoch": 0.6411733333333334, + "eta_time": 5.2965861471547555, + "step": 6011 + }, + { + "epoch": 0.64128, + "grad_norm": 1.9936887627415236, + "learning_rate": 3.012025366404504e-06, + "loss": 0.5352, + "step": 6012 + }, + { + "avg_step_time": 5.622534397876624, + "epoch": 0.64128, + "eta_time": 5.25238421668308, + "step": 6012 + }, + { + "epoch": 0.6413866666666667, + "grad_norm": 2.0982552697255885, + "learning_rate": 3.010440417977272e-06, + "loss": 0.5214, + "step": 6013 + }, + { + "avg_step_time": 5.621102017585677, + "epoch": 0.6413866666666667, + "eta_time": 5.2494847175341794, + "step": 6013 + }, + { + "epoch": 0.6414933333333334, + "grad_norm": 1.6680690377677077, + "learning_rate": 3.00885570703839e-06, + "loss": 0.4177, + "step": 6014 + }, + { + "avg_step_time": 5.6166521828584, + "epoch": 0.6414933333333334, + "eta_time": 5.243768885163078, + "step": 6014 + }, + { + "epoch": 0.6416, + "grad_norm": 1.6116716164505664, + "learning_rate": 3.00727123377702e-06, + "loss": 0.4683, + "step": 6015 + }, + { + "avg_step_time": 5.605775650101479, + "epoch": 0.6416, + "eta_time": 5.232057273428047, + "step": 6015 + }, + { + "epoch": 0.6417066666666666, + "grad_norm": 1.8214791853330117, + "learning_rate": 3.005686998382297e-06, + "loss": 0.4862, + "step": 6016 + }, + { + "avg_step_time": 5.584040425040505, + "epoch": 0.6417066666666666, + "eta_time": 5.210219941030849, + "step": 6016 + }, + { + "epoch": 0.6418133333333333, + "grad_norm": 0.6346416061463612, + "learning_rate": 3.004103001043325e-06, + "loss": 0.4421, + "step": 6017 + }, + { + "avg_step_time": 5.545357439253065, + "epoch": 0.6418133333333333, + "eta_time": 5.172586189169943, + "step": 6017 + }, + { + "epoch": 0.64192, + "grad_norm": 0.638459215657997, + "learning_rate": 3.002519241949181e-06, + "loss": 0.4484, + "step": 6018 + }, + { + "avg_step_time": 5.5155638299807155, + "epoch": 0.64192, + "eta_time": 5.143263271457017, + "step": 6018 + }, + { + "epoch": 0.6420266666666666, + "grad_norm": 1.8911508034972735, + "learning_rate": 3.000935721288917e-06, + "loss": 0.396, + "step": 6019 + }, + { + "avg_step_time": 5.547812112654098, + "epoch": 0.6420266666666666, + "eta_time": 5.171793736129764, + "step": 6019 + }, + { + "epoch": 0.6421333333333333, + "grad_norm": 1.8756323467732012, + "learning_rate": 2.999352439251552e-06, + "loss": 0.4543, + "step": 6020 + }, + { + "avg_step_time": 5.581750378464207, + "epoch": 0.6421333333333333, + "eta_time": 5.201881255485393, + "step": 6020 + }, + { + "epoch": 0.64224, + "grad_norm": 0.6415575413641321, + "learning_rate": 2.997769396026078e-06, + "loss": 0.4416, + "step": 6021 + }, + { + "avg_step_time": 5.551351814559012, + "epoch": 0.64224, + "eta_time": 5.172009440564146, + "step": 6021 + }, + { + "epoch": 0.6423466666666666, + "grad_norm": 1.9350981037872028, + "learning_rate": 2.9961865918014575e-06, + "loss": 0.4797, + "step": 6022 + }, + { + "avg_step_time": 5.562243531448672, + "epoch": 0.6423466666666666, + "eta_time": 5.180611822485388, + "step": 6022 + }, + { + "epoch": 0.6424533333333333, + "grad_norm": 1.773815267280365, + "learning_rate": 2.9946040267666276e-06, + "loss": 0.4988, + "step": 6023 + }, + { + "avg_step_time": 5.566603677441376, + "epoch": 0.6424533333333333, + "eta_time": 5.183126535217636, + "step": 6023 + }, + { + "epoch": 0.64256, + "grad_norm": 1.5593203183918212, + "learning_rate": 2.9930217011104957e-06, + "loss": 0.4427, + "step": 6024 + }, + { + "avg_step_time": 5.570611816464049, + "epoch": 0.64256, + "eta_time": 5.1853111658252855, + "step": 6024 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 1.7285547809589479, + "learning_rate": 2.991439615021937e-06, + "loss": 0.59, + "step": 6025 + }, + { + "avg_step_time": 5.571337374773893, + "epoch": 0.6426666666666667, + "eta_time": 5.184438945970149, + "step": 6025 + }, + { + "epoch": 0.6427733333333333, + "grad_norm": 2.2581471030183575, + "learning_rate": 2.989857768689802e-06, + "loss": 0.5741, + "step": 6026 + }, + { + "avg_step_time": 5.568085827008642, + "epoch": 0.6427733333333333, + "eta_time": 5.17986650962554, + "step": 6026 + }, + { + "epoch": 0.64288, + "grad_norm": 1.7543361106474589, + "learning_rate": 2.98827616230291e-06, + "loss": 0.4872, + "step": 6027 + }, + { + "avg_step_time": 5.567364266424468, + "epoch": 0.64288, + "eta_time": 5.1776487677747545, + "step": 6027 + }, + { + "epoch": 0.6429866666666667, + "grad_norm": 1.7121359220232608, + "learning_rate": 2.9866947960500557e-06, + "loss": 0.4556, + "step": 6028 + }, + { + "avg_step_time": 5.565839199104694, + "epoch": 0.6429866666666667, + "eta_time": 5.174684388723169, + "step": 6028 + }, + { + "epoch": 0.6430933333333333, + "grad_norm": 1.9335348144959335, + "learning_rate": 2.985113670120001e-06, + "loss": 0.4317, + "step": 6029 + }, + { + "avg_step_time": 5.562337468368838, + "epoch": 0.6430933333333333, + "eta_time": 5.169883658100592, + "step": 6029 + }, + { + "epoch": 0.6432, + "grad_norm": 1.858362084024284, + "learning_rate": 2.9835327847014816e-06, + "loss": 0.4944, + "step": 6030 + }, + { + "avg_step_time": 5.558130666463062, + "epoch": 0.6432, + "eta_time": 5.164429744255262, + "step": 6030 + }, + { + "epoch": 0.6433066666666667, + "grad_norm": 1.6860391778605122, + "learning_rate": 2.9819521399832017e-06, + "loss": 0.3953, + "step": 6031 + }, + { + "avg_step_time": 5.557795705217304, + "epoch": 0.6433066666666667, + "eta_time": 5.162574677290739, + "step": 6031 + }, + { + "epoch": 0.6434133333333333, + "grad_norm": 1.647787667322236, + "learning_rate": 2.9803717361538397e-06, + "loss": 0.4265, + "step": 6032 + }, + { + "avg_step_time": 5.553148989725595, + "epoch": 0.6434133333333333, + "eta_time": 5.156715853514629, + "step": 6032 + }, + { + "epoch": 0.64352, + "grad_norm": 1.8368916626047394, + "learning_rate": 2.9787915734020446e-06, + "loss": 0.4139, + "step": 6033 + }, + { + "avg_step_time": 5.5532117997757116, + "epoch": 0.64352, + "eta_time": 5.155231620791786, + "step": 6033 + }, + { + "epoch": 0.6436266666666667, + "grad_norm": 0.645944346411831, + "learning_rate": 2.977211651916435e-06, + "loss": 0.4207, + "step": 6034 + }, + { + "avg_step_time": 5.518897723669958, + "epoch": 0.6436266666666667, + "eta_time": 5.121843692994814, + "step": 6034 + }, + { + "epoch": 0.6437333333333334, + "grad_norm": 2.0165465996177625, + "learning_rate": 2.9756319718856043e-06, + "loss": 0.5205, + "step": 6035 + }, + { + "avg_step_time": 5.514311224523217, + "epoch": 0.6437333333333334, + "eta_time": 5.116055413863207, + "step": 6035 + }, + { + "epoch": 0.64384, + "grad_norm": 2.023986363176257, + "learning_rate": 2.9740525334981105e-06, + "loss": 0.48, + "step": 6036 + }, + { + "avg_step_time": 5.528000484813344, + "epoch": 0.64384, + "eta_time": 5.127220449664376, + "step": 6036 + }, + { + "epoch": 0.6439466666666667, + "grad_norm": 1.6914552213625353, + "learning_rate": 2.9724733369424887e-06, + "loss": 0.5845, + "step": 6037 + }, + { + "avg_step_time": 5.526465129370641, + "epoch": 0.6439466666666667, + "eta_time": 5.124261278288667, + "step": 6037 + }, + { + "epoch": 0.6440533333333334, + "grad_norm": 1.942550688218486, + "learning_rate": 2.9708943824072466e-06, + "loss": 0.4984, + "step": 6038 + }, + { + "avg_step_time": 5.52584433555603, + "epoch": 0.6440533333333334, + "eta_time": 5.122150707708465, + "step": 6038 + }, + { + "epoch": 0.64416, + "grad_norm": 1.9568843799005213, + "learning_rate": 2.9693156700808556e-06, + "loss": 0.4842, + "step": 6039 + }, + { + "avg_step_time": 5.553970991963088, + "epoch": 0.64416, + "eta_time": 5.146679785885795, + "step": 6039 + }, + { + "epoch": 0.6442666666666667, + "grad_norm": 1.9063512217828231, + "learning_rate": 2.9677372001517636e-06, + "loss": 0.4814, + "step": 6040 + }, + { + "avg_step_time": 5.566872565433233, + "epoch": 0.6442666666666667, + "eta_time": 5.157088890477731, + "step": 6040 + }, + { + "epoch": 0.6443733333333334, + "grad_norm": 1.822005184775475, + "learning_rate": 2.9661589728083895e-06, + "loss": 0.3962, + "step": 6041 + }, + { + "avg_step_time": 5.560811497948387, + "epoch": 0.6443733333333334, + "eta_time": 5.149929315044422, + "step": 6041 + }, + { + "epoch": 0.64448, + "grad_norm": 1.6422849268462594, + "learning_rate": 2.9645809882391187e-06, + "loss": 0.5118, + "step": 6042 + }, + { + "avg_step_time": 5.562174337078827, + "epoch": 0.64448, + "eta_time": 5.149646407078814, + "step": 6042 + }, + { + "epoch": 0.6445866666666666, + "grad_norm": 1.7687568903949586, + "learning_rate": 2.963003246632315e-06, + "loss": 0.418, + "step": 6043 + }, + { + "avg_step_time": 5.564104212654962, + "epoch": 0.6445866666666666, + "eta_time": 5.14988756571287, + "step": 6043 + }, + { + "epoch": 0.6446933333333333, + "grad_norm": 1.6935453144543715, + "learning_rate": 2.9614257481763065e-06, + "loss": 0.4275, + "step": 6044 + }, + { + "avg_step_time": 5.564160332535252, + "epoch": 0.6446933333333333, + "eta_time": 5.1483939076874785, + "step": 6044 + }, + { + "epoch": 0.6448, + "grad_norm": 1.8198713452743602, + "learning_rate": 2.959848493059396e-06, + "loss": 0.5016, + "step": 6045 + }, + { + "avg_step_time": 5.567796333871707, + "epoch": 0.6448, + "eta_time": 5.150211608831328, + "step": 6045 + }, + { + "epoch": 0.6449066666666666, + "grad_norm": 1.6528510357728454, + "learning_rate": 2.9582714814698567e-06, + "loss": 0.4766, + "step": 6046 + }, + { + "avg_step_time": 5.565749799362337, + "epoch": 0.6449066666666666, + "eta_time": 5.146772522799227, + "step": 6046 + }, + { + "epoch": 0.6450133333333333, + "grad_norm": 0.6462366698786223, + "learning_rate": 2.9566947135959294e-06, + "loss": 0.4444, + "step": 6047 + }, + { + "avg_step_time": 5.530363762017452, + "epoch": 0.6450133333333333, + "eta_time": 5.112514055553911, + "step": 6047 + }, + { + "epoch": 0.64512, + "grad_norm": 1.8533599590880185, + "learning_rate": 2.9551181896258317e-06, + "loss": 0.4001, + "step": 6048 + }, + { + "avg_step_time": 5.543316768877434, + "epoch": 0.64512, + "eta_time": 5.1229485805708945, + "step": 6048 + }, + { + "epoch": 0.6452266666666666, + "grad_norm": 1.7082132981760856, + "learning_rate": 2.9535419097477497e-06, + "loss": 0.4203, + "step": 6049 + }, + { + "avg_step_time": 5.542425353117664, + "epoch": 0.6452266666666666, + "eta_time": 5.120585201241487, + "step": 6049 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 1.6608179525014084, + "learning_rate": 2.951965874149837e-06, + "loss": 0.397, + "step": 6050 + }, + { + "avg_step_time": 5.54549108370386, + "epoch": 0.6453333333333333, + "eta_time": 5.121877181476482, + "step": 6050 + }, + { + "epoch": 0.64544, + "grad_norm": 1.8330493846255511, + "learning_rate": 2.9503900830202202e-06, + "loss": 0.4438, + "step": 6051 + }, + { + "avg_step_time": 5.538665472859084, + "epoch": 0.64544, + "eta_time": 5.114034453273221, + "step": 6051 + }, + { + "epoch": 0.6455466666666667, + "grad_norm": 1.734145072191302, + "learning_rate": 2.948814536546999e-06, + "loss": 0.4877, + "step": 6052 + }, + { + "avg_step_time": 5.517786001918291, + "epoch": 0.6455466666666667, + "eta_time": 5.093223023437356, + "step": 6052 + }, + { + "epoch": 0.6456533333333333, + "grad_norm": 1.8584662251031951, + "learning_rate": 2.9472392349182427e-06, + "loss": 0.5541, + "step": 6053 + }, + { + "avg_step_time": 5.518933243221706, + "epoch": 0.6456533333333333, + "eta_time": 5.09274895388403, + "step": 6053 + }, + { + "epoch": 0.64576, + "grad_norm": 1.9284190553226255, + "learning_rate": 2.9456641783219897e-06, + "loss": 0.4932, + "step": 6054 + }, + { + "avg_step_time": 5.55416599186984, + "epoch": 0.64576, + "eta_time": 5.123718127499927, + "step": 6054 + }, + { + "epoch": 0.6458666666666667, + "grad_norm": 2.1105124729497855, + "learning_rate": 2.944089366946251e-06, + "loss": 0.4922, + "step": 6055 + }, + { + "avg_step_time": 5.552410732616078, + "epoch": 0.6458666666666667, + "eta_time": 5.120556564523716, + "step": 6055 + }, + { + "epoch": 0.6459733333333333, + "grad_norm": 1.707298065739799, + "learning_rate": 2.9425148009790067e-06, + "loss": 0.4583, + "step": 6056 + }, + { + "avg_step_time": 5.554835011260678, + "epoch": 0.6459733333333333, + "eta_time": 5.121249278437276, + "step": 6056 + }, + { + "epoch": 0.64608, + "grad_norm": 2.0909064873570458, + "learning_rate": 2.9409404806082077e-06, + "loss": 0.5011, + "step": 6057 + }, + { + "avg_step_time": 5.560329013400608, + "epoch": 0.64608, + "eta_time": 5.124769907350894, + "step": 6057 + }, + { + "epoch": 0.6461866666666667, + "grad_norm": 1.9542301159304902, + "learning_rate": 2.939366406021778e-06, + "loss": 0.505, + "step": 6058 + }, + { + "avg_step_time": 5.557805865702003, + "epoch": 0.6461866666666667, + "eta_time": 5.120900571259317, + "step": 6058 + }, + { + "epoch": 0.6462933333333334, + "grad_norm": 1.8306601860288019, + "learning_rate": 2.9377925774076106e-06, + "loss": 0.5159, + "step": 6059 + }, + { + "avg_step_time": 5.555786195427481, + "epoch": 0.6462933333333334, + "eta_time": 5.11749639556598, + "step": 6059 + }, + { + "epoch": 0.6464, + "grad_norm": 1.4988009591919802, + "learning_rate": 2.936218994953568e-06, + "loss": 0.5292, + "step": 6060 + }, + { + "avg_step_time": 5.561972562712852, + "epoch": 0.6464, + "eta_time": 5.121649734831418, + "step": 6060 + }, + { + "epoch": 0.6465066666666667, + "grad_norm": 1.6791129555731445, + "learning_rate": 2.934645658847487e-06, + "loss": 0.4914, + "step": 6061 + }, + { + "avg_step_time": 5.531531066605539, + "epoch": 0.6465066666666667, + "eta_time": 5.092081654091876, + "step": 6061 + }, + { + "epoch": 0.6466133333333334, + "grad_norm": 0.6486343054248789, + "learning_rate": 2.933072569277167e-06, + "loss": 0.4258, + "step": 6062 + }, + { + "avg_step_time": 5.521117730574175, + "epoch": 0.6466133333333334, + "eta_time": 5.080961955942289, + "step": 6062 + }, + { + "epoch": 0.64672, + "grad_norm": 1.815930785154339, + "learning_rate": 2.93149972643039e-06, + "loss": 0.4875, + "step": 6063 + }, + { + "avg_step_time": 5.5213818790936715, + "epoch": 0.64672, + "eta_time": 5.079671328766177, + "step": 6063 + }, + { + "epoch": 0.6468266666666667, + "grad_norm": 0.6638799938722688, + "learning_rate": 2.9299271304948985e-06, + "loss": 0.4455, + "step": 6064 + }, + { + "avg_step_time": 5.471172537466492, + "epoch": 0.6468266666666667, + "eta_time": 5.031958964319876, + "step": 6064 + }, + { + "epoch": 0.6469333333333334, + "grad_norm": 1.6953338211912048, + "learning_rate": 2.9283547816584097e-06, + "loss": 0.4729, + "step": 6065 + }, + { + "avg_step_time": 5.458836984152746, + "epoch": 0.6469333333333334, + "eta_time": 5.019097338207107, + "step": 6065 + }, + { + "epoch": 0.64704, + "grad_norm": 2.1938026151703665, + "learning_rate": 2.9267826801086103e-06, + "loss": 0.5415, + "step": 6066 + }, + { + "avg_step_time": 5.460993964262683, + "epoch": 0.64704, + "eta_time": 5.0195636188181165, + "step": 6066 + }, + { + "epoch": 0.6471466666666666, + "grad_norm": 2.145760662697703, + "learning_rate": 2.9252108260331567e-06, + "loss": 0.5451, + "step": 6067 + }, + { + "avg_step_time": 5.461448705557621, + "epoch": 0.6471466666666666, + "eta_time": 5.018464532773503, + "step": 6067 + }, + { + "epoch": 0.6472533333333333, + "grad_norm": 1.9320923423925576, + "learning_rate": 2.9236392196196795e-06, + "loss": 0.5792, + "step": 6068 + }, + { + "avg_step_time": 5.48142012682828, + "epoch": 0.6472533333333333, + "eta_time": 5.0352934331725345, + "step": 6068 + }, + { + "epoch": 0.64736, + "grad_norm": 1.8857315649505282, + "learning_rate": 2.9220678610557773e-06, + "loss": 0.4566, + "step": 6069 + }, + { + "avg_step_time": 5.51013098341046, + "epoch": 0.64736, + "eta_time": 5.060136953098605, + "step": 6069 + }, + { + "epoch": 0.6474666666666666, + "grad_norm": 1.7361735152333657, + "learning_rate": 2.9204967505290162e-06, + "loss": 0.4766, + "step": 6070 + }, + { + "avg_step_time": 5.51756761772464, + "epoch": 0.6474666666666666, + "eta_time": 5.065433604605538, + "step": 6070 + }, + { + "epoch": 0.6475733333333333, + "grad_norm": 0.6468970700077438, + "learning_rate": 2.918925888226935e-06, + "loss": 0.4384, + "step": 6071 + }, + { + "avg_step_time": 5.489601214726766, + "epoch": 0.6475733333333333, + "eta_time": 5.03823400373812, + "step": 6071 + }, + { + "epoch": 0.64768, + "grad_norm": 1.6771077651017896, + "learning_rate": 2.9173552743370454e-06, + "loss": 0.4094, + "step": 6072 + }, + { + "avg_step_time": 5.4623256837478795, + "epoch": 0.64768, + "eta_time": 5.01168381483868, + "step": 6072 + }, + { + "epoch": 0.6477866666666666, + "grad_norm": 1.7970788095712376, + "learning_rate": 2.9157849090468294e-06, + "loss": 0.5675, + "step": 6073 + }, + { + "avg_step_time": 5.461783953387328, + "epoch": 0.6477866666666666, + "eta_time": 5.009669615023599, + "step": 6073 + }, + { + "epoch": 0.6478933333333333, + "grad_norm": 1.7073074008087639, + "learning_rate": 2.9142147925437336e-06, + "loss": 0.4535, + "step": 6074 + }, + { + "avg_step_time": 5.4625686684040105, + "epoch": 0.6478933333333333, + "eta_time": 5.008871992889344, + "step": 6074 + }, + { + "epoch": 0.648, + "grad_norm": 1.8380654111035726, + "learning_rate": 2.912644925015179e-06, + "loss": 0.4451, + "step": 6075 + }, + { + "avg_step_time": 5.493386314372824, + "epoch": 0.648, + "eta_time": 5.035604121508421, + "step": 6075 + }, + { + "epoch": 0.6481066666666667, + "grad_norm": 0.6238566543780864, + "learning_rate": 2.9110753066485566e-06, + "loss": 0.435, + "step": 6076 + }, + { + "avg_step_time": 5.495086814417983, + "epoch": 0.6481066666666667, + "eta_time": 5.03563650021248, + "step": 6076 + }, + { + "epoch": 0.6482133333333333, + "grad_norm": 1.568647944589773, + "learning_rate": 2.9095059376312294e-06, + "loss": 0.4747, + "step": 6077 + }, + { + "avg_step_time": 5.497621598869864, + "epoch": 0.6482133333333333, + "eta_time": 5.036432231409114, + "step": 6077 + }, + { + "epoch": 0.64832, + "grad_norm": 1.7504351470384847, + "learning_rate": 2.9079368181505263e-06, + "loss": 0.3893, + "step": 6078 + }, + { + "avg_step_time": 5.502031355193167, + "epoch": 0.64832, + "eta_time": 5.038943716131076, + "step": 6078 + }, + { + "epoch": 0.6484266666666667, + "grad_norm": 2.2210079447391338, + "learning_rate": 2.9063679483937513e-06, + "loss": 0.557, + "step": 6079 + }, + { + "avg_step_time": 5.504507765625462, + "epoch": 0.6484266666666667, + "eta_time": 5.039682665417089, + "step": 6079 + }, + { + "epoch": 0.6485333333333333, + "grad_norm": 1.5997440057318275, + "learning_rate": 2.904799328548175e-06, + "loss": 0.4308, + "step": 6080 + }, + { + "avg_step_time": 5.502427462375525, + "epoch": 0.6485333333333333, + "eta_time": 5.036249580146488, + "step": 6080 + }, + { + "epoch": 0.64864, + "grad_norm": 1.9656755411710762, + "learning_rate": 2.9032309588010372e-06, + "loss": 0.5206, + "step": 6081 + }, + { + "avg_step_time": 5.506328337120287, + "epoch": 0.64864, + "eta_time": 5.0382904284650625, + "step": 6081 + }, + { + "epoch": 0.6487466666666667, + "grad_norm": 1.9051580305163762, + "learning_rate": 2.901662839339552e-06, + "loss": 0.5199, + "step": 6082 + }, + { + "avg_step_time": 5.502572454587377, + "epoch": 0.6487466666666667, + "eta_time": 5.0333253035989545, + "step": 6082 + }, + { + "epoch": 0.6488533333333333, + "grad_norm": 2.0152302557017476, + "learning_rate": 2.900094970350903e-06, + "loss": 0.5728, + "step": 6083 + }, + { + "avg_step_time": 5.540502167711354, + "epoch": 0.6488533333333333, + "eta_time": 5.06648142669605, + "step": 6083 + }, + { + "epoch": 0.64896, + "grad_norm": 1.7173783665657674, + "learning_rate": 2.8985273520222414e-06, + "loss": 0.4346, + "step": 6084 + }, + { + "avg_step_time": 5.543989398262718, + "epoch": 0.64896, + "eta_time": 5.068130308245168, + "step": 6084 + }, + { + "epoch": 0.6490666666666667, + "grad_norm": 0.6591680663413659, + "learning_rate": 2.896959984540687e-06, + "loss": 0.4578, + "step": 6085 + }, + { + "avg_step_time": 5.545463056275339, + "epoch": 0.6490666666666667, + "eta_time": 5.067937070873851, + "step": 6085 + }, + { + "epoch": 0.6491733333333334, + "grad_norm": 1.9361235721215677, + "learning_rate": 2.895392868093334e-06, + "loss": 0.4842, + "step": 6086 + }, + { + "avg_step_time": 5.539465458706172, + "epoch": 0.6491733333333334, + "eta_time": 5.060917192690166, + "step": 6086 + }, + { + "epoch": 0.64928, + "grad_norm": 1.770867076282897, + "learning_rate": 2.893826002867247e-06, + "loss": 0.4785, + "step": 6087 + }, + { + "avg_step_time": 5.537326364806204, + "epoch": 0.64928, + "eta_time": 5.057424746523, + "step": 6087 + }, + { + "epoch": 0.6493866666666667, + "grad_norm": 1.986708489320714, + "learning_rate": 2.892259389049455e-06, + "loss": 0.4467, + "step": 6088 + }, + { + "avg_step_time": 5.53207753643845, + "epoch": 0.6493866666666667, + "eta_time": 5.051094128409218, + "step": 6088 + }, + { + "epoch": 0.6494933333333334, + "grad_norm": 1.6161315243643384, + "learning_rate": 2.890693026826964e-06, + "loss": 0.4474, + "step": 6089 + }, + { + "avg_step_time": 5.537145720587836, + "epoch": 0.6494933333333334, + "eta_time": 5.054183566069897, + "step": 6089 + }, + { + "epoch": 0.6496, + "grad_norm": 1.6420770491046701, + "learning_rate": 2.889126916386744e-06, + "loss": 0.4556, + "step": 6090 + }, + { + "avg_step_time": 5.53890029830162, + "epoch": 0.6496, + "eta_time": 5.054246522200228, + "step": 6090 + }, + { + "epoch": 0.6497066666666667, + "grad_norm": 1.7052900779301559, + "learning_rate": 2.8875610579157347e-06, + "loss": 0.4861, + "step": 6091 + }, + { + "avg_step_time": 5.5372230573133985, + "epoch": 0.6497066666666667, + "eta_time": 5.051177922282556, + "step": 6091 + }, + { + "epoch": 0.6498133333333334, + "grad_norm": 1.8144086886142694, + "learning_rate": 2.885995451600855e-06, + "loss": 0.5361, + "step": 6092 + }, + { + "avg_step_time": 5.571448458565606, + "epoch": 0.6498133333333334, + "eta_time": 5.080851469297468, + "step": 6092 + }, + { + "epoch": 0.64992, + "grad_norm": 0.6662356905981348, + "learning_rate": 2.884430097628984e-06, + "loss": 0.436, + "step": 6093 + }, + { + "avg_step_time": 5.542126125759548, + "epoch": 0.64992, + "eta_time": 5.052571651317455, + "step": 6093 + }, + { + "epoch": 0.6500266666666666, + "grad_norm": 1.9386942741535413, + "learning_rate": 2.8828649961869716e-06, + "loss": 0.5328, + "step": 6094 + }, + { + "avg_step_time": 5.542145307617958, + "epoch": 0.6500266666666666, + "eta_time": 5.051049653970701, + "step": 6094 + }, + { + "epoch": 0.6501333333333333, + "grad_norm": 2.0258111826887393, + "learning_rate": 2.881300147461643e-06, + "loss": 0.5262, + "step": 6095 + }, + { + "avg_step_time": 5.5506897454309945, + "epoch": 0.6501333333333333, + "eta_time": 5.057295101392684, + "step": 6095 + }, + { + "epoch": 0.65024, + "grad_norm": 1.9902297885007427, + "learning_rate": 2.879735551639787e-06, + "loss": 0.4682, + "step": 6096 + }, + { + "avg_step_time": 5.54945778365087, + "epoch": 0.65024, + "eta_time": 5.054631131275334, + "step": 6096 + }, + { + "epoch": 0.6503466666666666, + "grad_norm": 0.6600607607010723, + "learning_rate": 2.878171208908166e-06, + "loss": 0.4281, + "step": 6097 + }, + { + "avg_step_time": 5.512191613515218, + "epoch": 0.6503466666666666, + "eta_time": 5.019156696973023, + "step": 6097 + }, + { + "epoch": 0.6504533333333333, + "grad_norm": 1.732446403228205, + "learning_rate": 2.876607119453515e-06, + "loss": 0.5247, + "step": 6098 + }, + { + "avg_step_time": 5.506745449220292, + "epoch": 0.6504533333333333, + "eta_time": 5.012668010304138, + "step": 6098 + }, + { + "epoch": 0.65056, + "grad_norm": 1.843397624371162, + "learning_rate": 2.8750432834625312e-06, + "loss": 0.4527, + "step": 6099 + }, + { + "avg_step_time": 5.500919626216696, + "epoch": 0.65056, + "eta_time": 5.005836859857194, + "step": 6099 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 1.6075135804190037, + "learning_rate": 2.873479701121885e-06, + "loss": 0.4593, + "step": 6100 + }, + { + "avg_step_time": 5.493462959925334, + "epoch": 0.6506666666666666, + "eta_time": 4.997525331598742, + "step": 6100 + }, + { + "epoch": 0.6507733333333333, + "grad_norm": 0.6600843182107481, + "learning_rate": 2.8719163726182185e-06, + "loss": 0.4469, + "step": 6101 + }, + { + "avg_step_time": 5.456056139685891, + "epoch": 0.6507733333333333, + "eta_time": 4.961979944814336, + "step": 6101 + }, + { + "epoch": 0.65088, + "grad_norm": 1.7923131860858792, + "learning_rate": 2.8703532981381437e-06, + "loss": 0.4469, + "step": 6102 + }, + { + "avg_step_time": 5.492165560674185, + "epoch": 0.65088, + "eta_time": 4.993293855579614, + "step": 6102 + }, + { + "epoch": 0.6509866666666667, + "grad_norm": 1.6309465747385377, + "learning_rate": 2.868790477868237e-06, + "loss": 0.4951, + "step": 6103 + }, + { + "avg_step_time": 5.496235413984819, + "epoch": 0.6509866666666667, + "eta_time": 4.995467298488425, + "step": 6103 + }, + { + "epoch": 0.6510933333333333, + "grad_norm": 1.9396450790469928, + "learning_rate": 2.867227911995052e-06, + "loss": 0.5684, + "step": 6104 + }, + { + "avg_step_time": 5.526017490059439, + "epoch": 0.6510933333333333, + "eta_time": 5.021000891662339, + "step": 6104 + }, + { + "epoch": 0.6512, + "grad_norm": 1.6968120943846599, + "learning_rate": 2.8656656007051055e-06, + "loss": 0.5092, + "step": 6105 + }, + { + "avg_step_time": 5.5222178709627405, + "epoch": 0.6512, + "eta_time": 5.016014566124489, + "step": 6105 + }, + { + "epoch": 0.6513066666666667, + "grad_norm": 1.8576235498994198, + "learning_rate": 2.864103544184885e-06, + "loss": 0.4345, + "step": 6106 + }, + { + "avg_step_time": 5.515133029282695, + "epoch": 0.6513066666666667, + "eta_time": 5.008047186868092, + "step": 6106 + }, + { + "epoch": 0.6514133333333333, + "grad_norm": 1.7532279759533773, + "learning_rate": 2.8625417426208503e-06, + "loss": 0.4967, + "step": 6107 + }, + { + "avg_step_time": 5.559989180227722, + "epoch": 0.6514133333333333, + "eta_time": 5.04723462249561, + "step": 6107 + }, + { + "epoch": 0.65152, + "grad_norm": 1.6961691472673672, + "learning_rate": 2.860980196199432e-06, + "loss": 0.4926, + "step": 6108 + }, + { + "avg_step_time": 5.581584359660293, + "epoch": 0.65152, + "eta_time": 5.065287806391716, + "step": 6108 + }, + { + "epoch": 0.6516266666666667, + "grad_norm": 1.9401447261447173, + "learning_rate": 2.859418905107023e-06, + "loss": 0.4653, + "step": 6109 + }, + { + "avg_step_time": 5.581743018795746, + "epoch": 0.6516266666666667, + "eta_time": 5.063881305385252, + "step": 6109 + }, + { + "epoch": 0.6517333333333334, + "grad_norm": 1.755403664163631, + "learning_rate": 2.857857869529996e-06, + "loss": 0.553, + "step": 6110 + }, + { + "avg_step_time": 5.5815422077371615, + "epoch": 0.6517333333333334, + "eta_time": 5.062148696739397, + "step": 6110 + }, + { + "epoch": 0.65184, + "grad_norm": 1.7807239551450924, + "learning_rate": 2.8562970896546815e-06, + "loss": 0.5076, + "step": 6111 + }, + { + "avg_step_time": 5.579548544353909, + "epoch": 0.65184, + "eta_time": 5.05879068021421, + "step": 6111 + }, + { + "epoch": 0.6519466666666667, + "grad_norm": 1.6751024419525697, + "learning_rate": 2.8547365656673907e-06, + "loss": 0.3941, + "step": 6112 + }, + { + "avg_step_time": 5.579883647687508, + "epoch": 0.6519466666666667, + "eta_time": 5.057544539556761, + "step": 6112 + }, + { + "epoch": 0.6520533333333334, + "grad_norm": 1.988283983717633, + "learning_rate": 2.8531762977543954e-06, + "loss": 0.4476, + "step": 6113 + }, + { + "avg_step_time": 5.609088731534554, + "epoch": 0.6520533333333334, + "eta_time": 5.082457622851587, + "step": 6113 + }, + { + "epoch": 0.65216, + "grad_norm": 1.624992157693933, + "learning_rate": 2.8516162861019437e-06, + "loss": 0.484, + "step": 6114 + }, + { + "avg_step_time": 5.689696545552725, + "epoch": 0.65216, + "eta_time": 5.153916787513177, + "step": 6114 + }, + { + "epoch": 0.6522666666666667, + "grad_norm": 1.590368933400432, + "learning_rate": 2.850056530896247e-06, + "loss": 0.4361, + "step": 6115 + }, + { + "avg_step_time": 5.744335359997219, + "epoch": 0.6522666666666667, + "eta_time": 5.201814798219704, + "step": 6115 + }, + { + "epoch": 0.6523733333333334, + "grad_norm": 1.7105604601101916, + "learning_rate": 2.8484970323234897e-06, + "loss": 0.4793, + "step": 6116 + }, + { + "avg_step_time": 5.779289315445254, + "epoch": 0.6523733333333334, + "eta_time": 5.231862188621134, + "step": 6116 + }, + { + "epoch": 0.65248, + "grad_norm": 1.8332670392479835, + "learning_rate": 2.846937790569828e-06, + "loss": 0.5582, + "step": 6117 + }, + { + "avg_step_time": 5.81189358354819, + "epoch": 0.65248, + "eta_time": 5.259763693111111, + "step": 6117 + }, + { + "epoch": 0.6525866666666666, + "grad_norm": 1.8060772865469472, + "learning_rate": 2.8453788058213814e-06, + "loss": 0.485, + "step": 6118 + }, + { + "avg_step_time": 5.841548067150694, + "epoch": 0.6525866666666666, + "eta_time": 5.284978348530504, + "step": 6118 + }, + { + "epoch": 0.6526933333333333, + "grad_norm": 1.7774813130008396, + "learning_rate": 2.8438200782642416e-06, + "loss": 0.5233, + "step": 6119 + }, + { + "avg_step_time": 5.84337601517186, + "epoch": 0.6526933333333333, + "eta_time": 5.285008973722105, + "step": 6119 + }, + { + "epoch": 0.6528, + "grad_norm": 1.6506258780427852, + "learning_rate": 2.84226160808447e-06, + "loss": 0.4795, + "step": 6120 + }, + { + "avg_step_time": 5.874245747171267, + "epoch": 0.6528, + "eta_time": 5.311297196400688, + "step": 6120 + }, + { + "epoch": 0.6529066666666666, + "grad_norm": 0.6719334283293502, + "learning_rate": 2.8407033954680995e-06, + "loss": 0.4265, + "step": 6121 + }, + { + "avg_step_time": 5.827532972952332, + "epoch": 0.6529066666666666, + "eta_time": 5.267442303885247, + "step": 6121 + }, + { + "epoch": 0.6530133333333333, + "grad_norm": 1.7810983575376065, + "learning_rate": 2.8391454406011255e-06, + "loss": 0.4732, + "step": 6122 + }, + { + "avg_step_time": 5.858834232946839, + "epoch": 0.6530133333333333, + "eta_time": 5.294107711048907, + "step": 6122 + }, + { + "epoch": 0.65312, + "grad_norm": 0.6834156569744462, + "learning_rate": 2.837587743669521e-06, + "loss": 0.482, + "step": 6123 + }, + { + "avg_step_time": 5.821188514882868, + "epoch": 0.65312, + "eta_time": 5.258473625110857, + "step": 6123 + }, + { + "epoch": 0.6532266666666666, + "grad_norm": 1.837433765477211, + "learning_rate": 2.836030304859222e-06, + "loss": 0.4556, + "step": 6124 + }, + { + "avg_step_time": 5.82046564901718, + "epoch": 0.6532266666666666, + "eta_time": 5.256203840265236, + "step": 6124 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 2.0655785824460287, + "learning_rate": 2.8344731243561317e-06, + "loss": 0.5512, + "step": 6125 + }, + { + "avg_step_time": 5.877753741813429, + "epoch": 0.6533333333333333, + "eta_time": 5.306305461359345, + "step": 6125 + }, + { + "epoch": 0.65344, + "grad_norm": 1.7721781009915663, + "learning_rate": 2.8329162023461355e-06, + "loss": 0.458, + "step": 6126 + }, + { + "avg_step_time": 5.876963942941993, + "epoch": 0.65344, + "eta_time": 5.303959958505148, + "step": 6126 + }, + { + "epoch": 0.6535466666666667, + "grad_norm": 2.0636663272955422, + "learning_rate": 2.831359539015073e-06, + "loss": 0.4264, + "step": 6127 + }, + { + "avg_step_time": 5.878449957780163, + "epoch": 0.6535466666666667, + "eta_time": 5.303668184130547, + "step": 6127 + }, + { + "epoch": 0.6536533333333333, + "grad_norm": 0.6715038252858466, + "learning_rate": 2.8298031345487585e-06, + "loss": 0.4761, + "step": 6128 + }, + { + "avg_step_time": 5.848426250496296, + "epoch": 0.6536533333333333, + "eta_time": 5.274955565378186, + "step": 6128 + }, + { + "epoch": 0.65376, + "grad_norm": 1.8516175657522715, + "learning_rate": 2.82824698913298e-06, + "loss": 0.5054, + "step": 6129 + }, + { + "avg_step_time": 5.85370287028226, + "epoch": 0.65376, + "eta_time": 5.278088754704504, + "step": 6129 + }, + { + "epoch": 0.6538666666666667, + "grad_norm": 2.184605955875503, + "learning_rate": 2.8266911029534848e-06, + "loss": 0.5277, + "step": 6130 + }, + { + "avg_step_time": 5.853846655951606, + "epoch": 0.6538666666666667, + "eta_time": 5.276592332934156, + "step": 6130 + }, + { + "epoch": 0.6539733333333333, + "grad_norm": 1.8289249672640602, + "learning_rate": 2.825135476195998e-06, + "loss": 0.5044, + "step": 6131 + }, + { + "avg_step_time": 5.885766123280381, + "epoch": 0.6539733333333333, + "eta_time": 5.303729251089321, + "step": 6131 + }, + { + "epoch": 0.65408, + "grad_norm": 1.8428413490746423, + "learning_rate": 2.823580109046212e-06, + "loss": 0.4217, + "step": 6132 + }, + { + "avg_step_time": 5.884933652299823, + "epoch": 0.65408, + "eta_time": 5.301344398446757, + "step": 6132 + }, + { + "epoch": 0.6541866666666667, + "grad_norm": 1.942557007468895, + "learning_rate": 2.822025001689786e-06, + "loss": 0.4839, + "step": 6133 + }, + { + "avg_step_time": 5.917304571228798, + "epoch": 0.6541866666666667, + "eta_time": 5.328861505534379, + "step": 6133 + }, + { + "epoch": 0.6542933333333333, + "grad_norm": 0.6169446939897886, + "learning_rate": 2.820470154312346e-06, + "loss": 0.3993, + "step": 6134 + }, + { + "avg_step_time": 5.886966548784815, + "epoch": 0.6542933333333333, + "eta_time": 5.299905162392107, + "step": 6134 + }, + { + "epoch": 0.6544, + "grad_norm": 1.8618272579076143, + "learning_rate": 2.8189155670994913e-06, + "loss": 0.4881, + "step": 6135 + }, + { + "avg_step_time": 5.922448967442368, + "epoch": 0.6544, + "eta_time": 5.330204070698131, + "step": 6135 + }, + { + "epoch": 0.6545066666666667, + "grad_norm": 2.4133453003700263, + "learning_rate": 2.817361240236791e-06, + "loss": 0.5419, + "step": 6136 + }, + { + "avg_step_time": 5.96831207323556, + "epoch": 0.6545066666666667, + "eta_time": 5.369823001447216, + "step": 6136 + }, + { + "epoch": 0.6546133333333334, + "grad_norm": 1.561583656036567, + "learning_rate": 2.81580717390978e-06, + "loss": 0.4119, + "step": 6137 + }, + { + "avg_step_time": 5.99305035128738, + "epoch": 0.6546133333333334, + "eta_time": 5.39041584374126, + "step": 6137 + }, + { + "epoch": 0.65472, + "grad_norm": 1.920437721121921, + "learning_rate": 2.814253368303961e-06, + "loss": 0.4966, + "step": 6138 + }, + { + "avg_step_time": 5.997553555652349, + "epoch": 0.65472, + "eta_time": 5.392800238790737, + "step": 6138 + }, + { + "epoch": 0.6548266666666667, + "grad_norm": 1.9754935694676379, + "learning_rate": 2.8126998236048096e-06, + "loss": 0.5096, + "step": 6139 + }, + { + "avg_step_time": 5.9875823921627465, + "epoch": 0.6548266666666667, + "eta_time": 5.3821712836218465, + "step": 6139 + }, + { + "epoch": 0.6549333333333334, + "grad_norm": 0.642277922697903, + "learning_rate": 2.8111465399977667e-06, + "loss": 0.4338, + "step": 6140 + }, + { + "avg_step_time": 5.960077514552107, + "epoch": 0.6549333333333334, + "eta_time": 5.3557918776600175, + "step": 6140 + }, + { + "epoch": 0.65504, + "grad_norm": 1.6726318638981936, + "learning_rate": 2.809593517668243e-06, + "loss": 0.3499, + "step": 6141 + }, + { + "avg_step_time": 5.956306850067293, + "epoch": 0.65504, + "eta_time": 5.350748986977118, + "step": 6141 + }, + { + "epoch": 0.6551466666666667, + "grad_norm": 1.5502959288770524, + "learning_rate": 2.808040756801623e-06, + "loss": 0.4568, + "step": 6142 + }, + { + "avg_step_time": 5.980202294359303, + "epoch": 0.6551466666666667, + "eta_time": 5.370553893795452, + "step": 6142 + }, + { + "epoch": 0.6552533333333334, + "grad_norm": 1.8754665906744157, + "learning_rate": 2.806488257583253e-06, + "loss": 0.5161, + "step": 6143 + }, + { + "avg_step_time": 6.032623064638388, + "epoch": 0.6552533333333334, + "eta_time": 5.4159549291420195, + "step": 6143 + }, + { + "epoch": 0.65536, + "grad_norm": 1.5881840875839532, + "learning_rate": 2.804936020198447e-06, + "loss": 0.3825, + "step": 6144 + }, + { + "avg_step_time": 6.037399135454737, + "epoch": 0.65536, + "eta_time": 5.418565724070627, + "step": 6144 + }, + { + "epoch": 0.6554666666666666, + "grad_norm": 1.9599101979533198, + "learning_rate": 2.8033840448324956e-06, + "loss": 0.5031, + "step": 6145 + }, + { + "avg_step_time": 6.043988719131008, + "epoch": 0.6554666666666666, + "eta_time": 5.422800989664766, + "step": 6145 + }, + { + "epoch": 0.6555733333333333, + "grad_norm": 1.5910959042048112, + "learning_rate": 2.801832331670654e-06, + "loss": 0.433, + "step": 6146 + }, + { + "avg_step_time": 6.087534316862472, + "epoch": 0.6555733333333333, + "eta_time": 5.4601800858747005, + "step": 6146 + }, + { + "epoch": 0.65568, + "grad_norm": 1.7992624208449475, + "learning_rate": 2.800280880898143e-06, + "loss": 0.4803, + "step": 6147 + }, + { + "avg_step_time": 6.102297674525868, + "epoch": 0.65568, + "eta_time": 5.4717269148248615, + "step": 6147 + }, + { + "epoch": 0.6557866666666666, + "grad_norm": 0.6696529202486257, + "learning_rate": 2.7987296927001597e-06, + "loss": 0.4462, + "step": 6148 + }, + { + "avg_step_time": 6.063001334065139, + "epoch": 0.6557866666666666, + "eta_time": 5.434807029174501, + "step": 6148 + }, + { + "epoch": 0.6558933333333333, + "grad_norm": 2.044527063592809, + "learning_rate": 2.7971787672618618e-06, + "loss": 0.4747, + "step": 6149 + }, + { + "avg_step_time": 6.066442246388907, + "epoch": 0.6558933333333333, + "eta_time": 5.436206301902948, + "step": 6149 + }, + { + "epoch": 0.656, + "grad_norm": 1.7451626178818331, + "learning_rate": 2.795628104768376e-06, + "loss": 0.4794, + "step": 6150 + }, + { + "avg_step_time": 6.0655149016717465, + "epoch": 0.656, + "eta_time": 5.433690432747607, + "step": 6150 + }, + { + "epoch": 0.6561066666666666, + "grad_norm": 0.6382608102797807, + "learning_rate": 2.7940777054048085e-06, + "loss": 0.4336, + "step": 6151 + }, + { + "avg_step_time": 6.054014006046334, + "epoch": 0.6561066666666666, + "eta_time": 5.421705876525939, + "step": 6151 + }, + { + "epoch": 0.6562133333333333, + "grad_norm": 0.6567838449682193, + "learning_rate": 2.7925275693562213e-06, + "loss": 0.4707, + "step": 6152 + }, + { + "avg_step_time": 6.085768916390159, + "epoch": 0.6562133333333333, + "eta_time": 5.448453671534856, + "step": 6152 + }, + { + "epoch": 0.65632, + "grad_norm": 1.8357609584023453, + "learning_rate": 2.79097769680765e-06, + "loss": 0.4562, + "step": 6153 + }, + { + "avg_step_time": 6.0531085524896175, + "epoch": 0.65632, + "eta_time": 5.417532154478208, + "step": 6153 + }, + { + "epoch": 0.6564266666666667, + "grad_norm": 1.5383576294046646, + "learning_rate": 2.7894280879441015e-06, + "loss": 0.4261, + "step": 6154 + }, + { + "avg_step_time": 6.054194765861588, + "epoch": 0.6564266666666667, + "eta_time": 5.416822594677827, + "step": 6154 + }, + { + "epoch": 0.6565333333333333, + "grad_norm": 0.6369182083084204, + "learning_rate": 2.7878787429505444e-06, + "loss": 0.4494, + "step": 6155 + }, + { + "avg_step_time": 6.067275182165281, + "epoch": 0.6565333333333333, + "eta_time": 5.42684057960339, + "step": 6155 + }, + { + "epoch": 0.65664, + "grad_norm": 1.9466093812914012, + "learning_rate": 2.7863296620119217e-06, + "loss": 0.5142, + "step": 6156 + }, + { + "avg_step_time": 6.102055429208158, + "epoch": 0.65664, + "eta_time": 5.456254562950294, + "step": 6156 + }, + { + "epoch": 0.6567466666666667, + "grad_norm": 2.0948057536613134, + "learning_rate": 2.7847808453131454e-06, + "loss": 0.5875, + "step": 6157 + }, + { + "avg_step_time": 6.109316163592869, + "epoch": 0.6567466666666667, + "eta_time": 5.461049837344959, + "step": 6157 + }, + { + "epoch": 0.6568533333333333, + "grad_norm": 1.7895839938941838, + "learning_rate": 2.7832322930390914e-06, + "loss": 0.3482, + "step": 6158 + }, + { + "avg_step_time": 6.110775591147067, + "epoch": 0.6568533333333333, + "eta_time": 5.460656965755588, + "step": 6158 + }, + { + "epoch": 0.65696, + "grad_norm": 1.9342235983699423, + "learning_rate": 2.781684005374604e-06, + "loss": 0.4449, + "step": 6159 + }, + { + "avg_step_time": 6.138436011593751, + "epoch": 0.65696, + "eta_time": 5.483669503690417, + "step": 6159 + }, + { + "epoch": 0.6570666666666667, + "grad_norm": 1.822715566797211, + "learning_rate": 2.780135982504501e-06, + "loss": 0.478, + "step": 6160 + }, + { + "avg_step_time": 6.190524505846428, + "epoch": 0.6570666666666667, + "eta_time": 5.528482301748962, + "step": 6160 + }, + { + "epoch": 0.6571733333333334, + "grad_norm": 1.6479906382227105, + "learning_rate": 2.7785882246135665e-06, + "loss": 0.5724, + "step": 6161 + }, + { + "avg_step_time": 6.201700051625569, + "epoch": 0.6571733333333334, + "eta_time": 5.536739990534605, + "step": 6161 + }, + { + "epoch": 0.65728, + "grad_norm": 2.05618751786714, + "learning_rate": 2.777040731886549e-06, + "loss": 0.5224, + "step": 6162 + }, + { + "avg_step_time": 6.202697219270648, + "epoch": 0.65728, + "eta_time": 5.535907268199054, + "step": 6162 + }, + { + "epoch": 0.6573866666666667, + "grad_norm": 1.605075670193592, + "learning_rate": 2.7754935045081716e-06, + "loss": 0.392, + "step": 6163 + }, + { + "avg_step_time": 6.2381045144013685, + "epoch": 0.6573866666666667, + "eta_time": 5.565775472293666, + "step": 6163 + }, + { + "epoch": 0.6574933333333334, + "grad_norm": 0.6550072084062526, + "learning_rate": 2.7739465426631195e-06, + "loss": 0.4509, + "step": 6164 + }, + { + "avg_step_time": 6.250402999646736, + "epoch": 0.6574933333333334, + "eta_time": 5.575012231073797, + "step": 6164 + }, + { + "epoch": 0.6576, + "grad_norm": 1.9307455275709975, + "learning_rate": 2.7723998465360537e-06, + "loss": 0.4298, + "step": 6165 + }, + { + "avg_step_time": 6.246697433067091, + "epoch": 0.6576, + "eta_time": 5.569971877818157, + "step": 6165 + }, + { + "epoch": 0.6577066666666667, + "grad_norm": 1.7132077736609062, + "learning_rate": 2.7708534163115942e-06, + "loss": 0.4514, + "step": 6166 + }, + { + "avg_step_time": 6.29276346197032, + "epoch": 0.6577066666666667, + "eta_time": 5.60929943040632, + "step": 6166 + }, + { + "epoch": 0.6578133333333334, + "grad_norm": 1.8839479645829516, + "learning_rate": 2.769307252174338e-06, + "loss": 0.4906, + "step": 6167 + }, + { + "avg_step_time": 6.273662386518536, + "epoch": 0.6578133333333334, + "eta_time": 5.590530259986518, + "step": 6167 + }, + { + "epoch": 0.65792, + "grad_norm": 1.6659686966383591, + "learning_rate": 2.7677613543088432e-06, + "loss": 0.4864, + "step": 6168 + }, + { + "avg_step_time": 6.274605481311529, + "epoch": 0.65792, + "eta_time": 5.589627716268353, + "step": 6168 + }, + { + "epoch": 0.6580266666666666, + "grad_norm": 1.8967347354773758, + "learning_rate": 2.766215722899642e-06, + "loss": 0.422, + "step": 6169 + }, + { + "avg_step_time": 6.2653885345266325, + "epoch": 0.6580266666666666, + "eta_time": 5.579676567136774, + "step": 6169 + }, + { + "epoch": 0.6581333333333333, + "grad_norm": 1.9765892454662861, + "learning_rate": 2.7646703581312336e-06, + "loss": 0.6313, + "step": 6170 + }, + { + "avg_step_time": 6.331764707661638, + "epoch": 0.6581333333333333, + "eta_time": 5.637029413348764, + "step": 6170 + }, + { + "epoch": 0.65824, + "grad_norm": 1.9552687047167219, + "learning_rate": 2.7631252601880816e-06, + "loss": 0.4065, + "step": 6171 + }, + { + "avg_step_time": 6.343381850406377, + "epoch": 0.65824, + "eta_time": 5.645609846861676, + "step": 6171 + }, + { + "epoch": 0.6583466666666666, + "grad_norm": 0.6324138643760678, + "learning_rate": 2.7615804292546185e-06, + "loss": 0.4541, + "step": 6172 + }, + { + "avg_step_time": 6.353812150280885, + "epoch": 0.6583466666666666, + "eta_time": 5.653127865930466, + "step": 6172 + }, + { + "epoch": 0.6584533333333333, + "grad_norm": 1.8731690031072779, + "learning_rate": 2.7600358655152504e-06, + "loss": 0.5458, + "step": 6173 + }, + { + "avg_step_time": 6.352188112759831, + "epoch": 0.6584533333333333, + "eta_time": 5.649918426960271, + "step": 6173 + }, + { + "epoch": 0.65856, + "grad_norm": 1.736481806438975, + "learning_rate": 2.7584915691543444e-06, + "loss": 0.4602, + "step": 6174 + }, + { + "avg_step_time": 6.317789617210928, + "epoch": 0.65856, + "eta_time": 5.617567934636717, + "step": 6174 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 1.8996118484869091, + "learning_rate": 2.7569475403562408e-06, + "loss": 0.6168, + "step": 6175 + }, + { + "avg_step_time": 6.3149161579633, + "epoch": 0.6586666666666666, + "eta_time": 5.6132588070784895, + "step": 6175 + }, + { + "epoch": 0.6587733333333333, + "grad_norm": 1.5754932920495137, + "learning_rate": 2.7554037793052476e-06, + "loss": 0.4542, + "step": 6176 + }, + { + "avg_step_time": 6.31645161214501, + "epoch": 0.6587733333333333, + "eta_time": 5.6128690853477465, + "step": 6176 + }, + { + "epoch": 0.65888, + "grad_norm": 2.1018989640092833, + "learning_rate": 2.753860286185637e-06, + "loss": 0.5952, + "step": 6177 + }, + { + "avg_step_time": 6.344173017174307, + "epoch": 0.65888, + "eta_time": 5.635740363589843, + "step": 6177 + }, + { + "epoch": 0.6589866666666667, + "grad_norm": 1.7644514955267188, + "learning_rate": 2.7523170611816507e-06, + "loss": 0.5003, + "step": 6178 + }, + { + "avg_step_time": 6.34564058949249, + "epoch": 0.6589866666666667, + "eta_time": 5.635281379057636, + "step": 6178 + }, + { + "epoch": 0.6590933333333333, + "grad_norm": 2.1438478245663077, + "learning_rate": 2.7507741044775018e-06, + "loss": 0.4818, + "step": 6179 + }, + { + "avg_step_time": 6.37885867706453, + "epoch": 0.6590933333333333, + "eta_time": 5.663008981082844, + "step": 6179 + }, + { + "epoch": 0.6592, + "grad_norm": 1.8889761317870128, + "learning_rate": 2.7492314162573687e-06, + "loss": 0.4675, + "step": 6180 + }, + { + "avg_step_time": 6.43860833331792, + "epoch": 0.6592, + "eta_time": 5.714264895819654, + "step": 6180 + }, + { + "epoch": 0.6593066666666667, + "grad_norm": 0.6520887239856165, + "learning_rate": 2.7476889967053953e-06, + "loss": 0.4234, + "step": 6181 + }, + { + "avg_step_time": 6.42952907446659, + "epoch": 0.6593066666666667, + "eta_time": 5.704421073290635, + "step": 6181 + }, + { + "epoch": 0.6594133333333333, + "grad_norm": 1.9771004055284598, + "learning_rate": 2.7461468460057007e-06, + "loss": 0.5326, + "step": 6182 + }, + { + "avg_step_time": 6.4625152289265335, + "epoch": 0.6594133333333333, + "eta_time": 5.731891979434006, + "step": 6182 + }, + { + "epoch": 0.65952, + "grad_norm": 1.9180475009950537, + "learning_rate": 2.7446049643423633e-06, + "loss": 0.5407, + "step": 6183 + }, + { + "avg_step_time": 6.463318299765539, + "epoch": 0.65952, + "eta_time": 5.730808892458778, + "step": 6183 + }, + { + "epoch": 0.6596266666666667, + "grad_norm": 2.128295860319196, + "learning_rate": 2.7430633518994314e-06, + "loss": 0.4606, + "step": 6184 + }, + { + "avg_step_time": 6.493960811634256, + "epoch": 0.6596266666666667, + "eta_time": 5.756174708312476, + "step": 6184 + }, + { + "epoch": 0.6597333333333333, + "grad_norm": 2.0080640511688617, + "learning_rate": 2.74152200886093e-06, + "loss": 0.4449, + "step": 6185 + }, + { + "avg_step_time": 6.536708051508123, + "epoch": 0.6597333333333333, + "eta_time": 5.792249634530809, + "step": 6185 + }, + { + "epoch": 0.65984, + "grad_norm": 2.033678324336483, + "learning_rate": 2.7399809354108415e-06, + "loss": 0.5207, + "step": 6186 + }, + { + "avg_step_time": 6.582673308825252, + "epoch": 0.65984, + "eta_time": 5.831151439401037, + "step": 6186 + }, + { + "epoch": 0.6599466666666667, + "grad_norm": 1.7574877201948431, + "learning_rate": 2.738440131733117e-06, + "loss": 0.4468, + "step": 6187 + }, + { + "avg_step_time": 6.618301290454286, + "epoch": 0.6599466666666667, + "eta_time": 5.860873476102296, + "step": 6187 + }, + { + "epoch": 0.6600533333333334, + "grad_norm": 1.6671638599691205, + "learning_rate": 2.736899598011683e-06, + "loss": 0.4511, + "step": 6188 + }, + { + "avg_step_time": 6.615856435563829, + "epoch": 0.6600533333333334, + "eta_time": 5.856870683372756, + "step": 6188 + }, + { + "epoch": 0.66016, + "grad_norm": 2.078465947875194, + "learning_rate": 2.735359334430424e-06, + "loss": 0.5169, + "step": 6189 + }, + { + "avg_step_time": 6.615964106839113, + "epoch": 0.66016, + "eta_time": 5.855128234552614, + "step": 6189 + }, + { + "epoch": 0.6602666666666667, + "grad_norm": 1.944341102106376, + "learning_rate": 2.733819341173202e-06, + "loss": 0.5384, + "step": 6190 + }, + { + "avg_step_time": 6.616272112335822, + "epoch": 0.6602666666666667, + "eta_time": 5.853562966052665, + "step": 6190 + }, + { + "epoch": 0.6603733333333334, + "grad_norm": 2.3060717149193994, + "learning_rate": 2.7322796184238363e-06, + "loss": 0.5701, + "step": 6191 + }, + { + "avg_step_time": 6.64809969699744, + "epoch": 0.6603733333333334, + "eta_time": 5.87987484312218, + "step": 6191 + }, + { + "epoch": 0.66048, + "grad_norm": 1.9102067117654584, + "learning_rate": 2.7307401663661247e-06, + "loss": 0.4506, + "step": 6192 + }, + { + "avg_step_time": 6.709161399590848, + "epoch": 0.66048, + "eta_time": 5.932016870804908, + "step": 6192 + }, + { + "epoch": 0.6605866666666667, + "grad_norm": 1.8415303639439844, + "learning_rate": 2.7292009851838237e-06, + "loss": 0.483, + "step": 6193 + }, + { + "avg_step_time": 6.741890165540907, + "epoch": 0.6605866666666667, + "eta_time": 5.95908180743088, + "step": 6193 + }, + { + "epoch": 0.6606933333333334, + "grad_norm": 2.3174012169161187, + "learning_rate": 2.727662075060662e-06, + "loss": 0.4872, + "step": 6194 + }, + { + "avg_step_time": 6.7658854132950905, + "epoch": 0.6606933333333334, + "eta_time": 5.978411527692134, + "step": 6194 + }, + { + "epoch": 0.6608, + "grad_norm": 2.047488121834644, + "learning_rate": 2.7261234361803383e-06, + "loss": 0.5131, + "step": 6195 + }, + { + "avg_step_time": 6.786651127266161, + "epoch": 0.6608, + "eta_time": 5.994875162418443, + "step": 6195 + }, + { + "epoch": 0.6609066666666666, + "grad_norm": 0.6541900611269862, + "learning_rate": 2.724585068726513e-06, + "loss": 0.4506, + "step": 6196 + }, + { + "avg_step_time": 6.7862722777357005, + "epoch": 0.6609066666666666, + "eta_time": 5.992655436367165, + "step": 6196 + }, + { + "epoch": 0.6610133333333333, + "grad_norm": 1.9437578801262452, + "learning_rate": 2.7230469728828156e-06, + "loss": 0.5302, + "step": 6197 + }, + { + "avg_step_time": 6.785355064604017, + "epoch": 0.6610133333333333, + "eta_time": 5.9899606653643245, + "step": 6197 + }, + { + "epoch": 0.66112, + "grad_norm": 1.9558995376739894, + "learning_rate": 2.721509148832847e-06, + "loss": 0.5073, + "step": 6198 + }, + { + "avg_step_time": 6.792659540369053, + "epoch": 0.66112, + "eta_time": 5.99452204437569, + "step": 6198 + }, + { + "epoch": 0.6612266666666666, + "grad_norm": 1.8487665503058661, + "learning_rate": 2.7199715967601715e-06, + "loss": 0.4602, + "step": 6199 + }, + { + "avg_step_time": 6.790553649266561, + "epoch": 0.6612266666666666, + "eta_time": 5.990777330575165, + "step": 6199 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 1.601440196147416, + "learning_rate": 2.7184343168483218e-06, + "loss": 0.4256, + "step": 6200 + }, + { + "avg_step_time": 6.859488147677797, + "epoch": 0.6613333333333333, + "eta_time": 6.049687463576946, + "step": 6200 + }, + { + "epoch": 0.66144, + "grad_norm": 1.7299539711743763, + "learning_rate": 2.7168973092808025e-06, + "loss": 0.4671, + "step": 6201 + }, + { + "avg_step_time": 6.858366862692014, + "epoch": 0.66144, + "eta_time": 6.046793450606792, + "step": 6201 + }, + { + "epoch": 0.6615466666666666, + "grad_norm": 1.5548413320731862, + "learning_rate": 2.7153605742410806e-06, + "loss": 0.4602, + "step": 6202 + }, + { + "avg_step_time": 6.888847625616825, + "epoch": 0.6615466666666666, + "eta_time": 6.071753754467275, + "step": 6202 + }, + { + "epoch": 0.6616533333333333, + "grad_norm": 1.6104061387896473, + "learning_rate": 2.713824111912586e-06, + "loss": 0.452, + "step": 6203 + }, + { + "avg_step_time": 6.859315638590341, + "epoch": 0.6616533333333333, + "eta_time": 6.043819223780156, + "step": 6203 + }, + { + "epoch": 0.66176, + "grad_norm": 1.8413229621155305, + "learning_rate": 2.7122879224787315e-06, + "loss": 0.4812, + "step": 6204 + }, + { + "avg_step_time": 6.8601635104478005, + "epoch": 0.66176, + "eta_time": 6.042660692119437, + "step": 6204 + }, + { + "epoch": 0.6618666666666667, + "grad_norm": 1.8617196846309683, + "learning_rate": 2.710752006122884e-06, + "loss": 0.4404, + "step": 6205 + }, + { + "avg_step_time": 6.864656891485657, + "epoch": 0.6618666666666667, + "eta_time": 6.044711762780426, + "step": 6205 + }, + { + "epoch": 0.6619733333333333, + "grad_norm": 2.189183282194192, + "learning_rate": 2.7092163630283786e-06, + "loss": 0.5339, + "step": 6206 + }, + { + "avg_step_time": 6.885525450561985, + "epoch": 0.6619733333333333, + "eta_time": 6.061175042453037, + "step": 6206 + }, + { + "epoch": 0.66208, + "grad_norm": 1.6927593582130946, + "learning_rate": 2.7076809933785254e-06, + "loss": 0.5212, + "step": 6207 + }, + { + "avg_step_time": 6.913120125279282, + "epoch": 0.66208, + "eta_time": 6.083545710245768, + "step": 6207 + }, + { + "epoch": 0.6621866666666667, + "grad_norm": 1.9310716352538346, + "learning_rate": 2.7061458973565934e-06, + "loss": 0.4754, + "step": 6208 + }, + { + "avg_step_time": 6.911180965828173, + "epoch": 0.6621866666666667, + "eta_time": 6.079919477438285, + "step": 6208 + }, + { + "epoch": 0.6622933333333333, + "grad_norm": 1.738743284429359, + "learning_rate": 2.7046110751458256e-06, + "loss": 0.5365, + "step": 6209 + }, + { + "avg_step_time": 6.908784977113358, + "epoch": 0.6622933333333333, + "eta_time": 6.0758925659835805, + "step": 6209 + }, + { + "epoch": 0.6624, + "grad_norm": 0.6817624069482301, + "learning_rate": 2.70307652692943e-06, + "loss": 0.4545, + "step": 6210 + }, + { + "avg_step_time": 6.875348197089301, + "epoch": 0.6624, + "eta_time": 6.044576956607678, + "step": 6210 + }, + { + "epoch": 0.6625066666666667, + "grad_norm": 2.2458782823276535, + "learning_rate": 2.701542252890581e-06, + "loss": 0.5557, + "step": 6211 + }, + { + "avg_step_time": 6.8729037540127536, + "epoch": 0.6625066666666667, + "eta_time": 6.040518743804542, + "step": 6211 + }, + { + "epoch": 0.6626133333333334, + "grad_norm": 1.8621788987031873, + "learning_rate": 2.7000082532124182e-06, + "loss": 0.4712, + "step": 6212 + }, + { + "avg_step_time": 6.836673428313901, + "epoch": 0.6626133333333334, + "eta_time": 6.006777237154686, + "step": 6212 + }, + { + "epoch": 0.66272, + "grad_norm": 1.8753403988267865, + "learning_rate": 2.6984745280780524e-06, + "loss": 0.3985, + "step": 6213 + }, + { + "avg_step_time": 6.756171479369655, + "epoch": 0.66272, + "eta_time": 5.934170616046347, + "step": 6213 + }, + { + "epoch": 0.6628266666666667, + "grad_norm": 1.8147406518124873, + "learning_rate": 2.6969410776705627e-06, + "loss": 0.4405, + "step": 6214 + }, + { + "avg_step_time": 6.78427314276647, + "epoch": 0.6628266666666667, + "eta_time": 5.956968723412448, + "step": 6214 + }, + { + "epoch": 0.6629333333333334, + "grad_norm": 1.6705219751487652, + "learning_rate": 2.695407902172989e-06, + "loss": 0.4413, + "step": 6215 + }, + { + "avg_step_time": 6.8264952115338255, + "epoch": 0.6629333333333334, + "eta_time": 5.992145796790803, + "step": 6215 + }, + { + "epoch": 0.66304, + "grad_norm": 1.8247578581528021, + "learning_rate": 2.6938750017683457e-06, + "loss": 0.5741, + "step": 6216 + }, + { + "avg_step_time": 6.860978432375975, + "epoch": 0.66304, + "eta_time": 6.020508574409918, + "step": 6216 + }, + { + "epoch": 0.6631466666666667, + "grad_norm": 1.613477032774073, + "learning_rate": 2.6923423766396107e-06, + "loss": 0.3963, + "step": 6217 + }, + { + "avg_step_time": 6.836322991534917, + "epoch": 0.6631466666666667, + "eta_time": 5.99697444646313, + "step": 6217 + }, + { + "epoch": 0.6632533333333334, + "grad_norm": 1.5184196359425473, + "learning_rate": 2.690810026969725e-06, + "loss": 0.4785, + "step": 6218 + }, + { + "avg_step_time": 6.849225376591538, + "epoch": 0.6632533333333334, + "eta_time": 6.006390142749857, + "step": 6218 + }, + { + "epoch": 0.66336, + "grad_norm": 1.8178422544250061, + "learning_rate": 2.6892779529416045e-06, + "loss": 0.5456, + "step": 6219 + }, + { + "avg_step_time": 6.884999176468512, + "epoch": 0.66336, + "eta_time": 6.035849278037396, + "step": 6219 + }, + { + "epoch": 0.6634666666666666, + "grad_norm": 1.7397207755864994, + "learning_rate": 2.687746154738131e-06, + "loss": 0.5413, + "step": 6220 + }, + { + "avg_step_time": 6.927617713658496, + "epoch": 0.6634666666666666, + "eta_time": 6.071287190720155, + "step": 6220 + }, + { + "epoch": 0.6635733333333333, + "grad_norm": 2.4606518727050237, + "learning_rate": 2.6862146325421455e-06, + "loss": 0.6192, + "step": 6221 + }, + { + "avg_step_time": 6.947606079506151, + "epoch": 0.6635733333333333, + "eta_time": 6.086874881878445, + "step": 6221 + }, + { + "epoch": 0.66368, + "grad_norm": 1.811638966882826, + "learning_rate": 2.6846833865364674e-06, + "loss": 0.5586, + "step": 6222 + }, + { + "avg_step_time": 7.027918529028844, + "epoch": 0.66368, + "eta_time": 6.1552853116744295, + "step": 6222 + }, + { + "epoch": 0.6637866666666666, + "grad_norm": 1.7978180769086487, + "learning_rate": 2.6831524169038724e-06, + "loss": 0.5492, + "step": 6223 + }, + { + "avg_step_time": 7.0287473924232255, + "epoch": 0.6637866666666666, + "eta_time": 6.154058828032779, + "step": 6223 + }, + { + "epoch": 0.6638933333333333, + "grad_norm": 2.2685574438575458, + "learning_rate": 2.6816217238271124e-06, + "loss": 0.5832, + "step": 6224 + }, + { + "avg_step_time": 7.018591187217019, + "epoch": 0.6638933333333333, + "eta_time": 6.143216897478007, + "step": 6224 + }, + { + "epoch": 0.664, + "grad_norm": 0.6568439766516302, + "learning_rate": 2.6800913074888984e-06, + "loss": 0.4484, + "step": 6225 + }, + { + "avg_step_time": 7.0630621597020316, + "epoch": 0.664, + "eta_time": 6.180179389739277, + "step": 6225 + }, + { + "epoch": 0.6641066666666666, + "grad_norm": 1.868720579813439, + "learning_rate": 2.678561168071916e-06, + "loss": 0.428, + "step": 6226 + }, + { + "avg_step_time": 7.063003361827195, + "epoch": 0.6641066666666666, + "eta_time": 6.1781659962205095, + "step": 6226 + }, + { + "epoch": 0.6642133333333333, + "grad_norm": 1.9162500405772578, + "learning_rate": 2.6770313057588114e-06, + "loss": 0.4618, + "step": 6227 + }, + { + "avg_step_time": 7.10115560377487, + "epoch": 0.6642133333333333, + "eta_time": 6.209566066856469, + "step": 6227 + }, + { + "epoch": 0.66432, + "grad_norm": 0.6709180224985143, + "learning_rate": 2.6755017207321964e-06, + "loss": 0.4499, + "step": 6228 + }, + { + "avg_step_time": 7.063729765439274, + "epoch": 0.66432, + "eta_time": 6.174877103288165, + "step": 6228 + }, + { + "epoch": 0.6644266666666667, + "grad_norm": 2.0310288185343723, + "learning_rate": 2.6739724131746615e-06, + "loss": 0.5585, + "step": 6229 + }, + { + "avg_step_time": 7.060682968659834, + "epoch": 0.6644266666666667, + "eta_time": 6.170252394278844, + "step": 6229 + }, + { + "epoch": 0.6645333333333333, + "grad_norm": 1.7959333172340477, + "learning_rate": 2.6724433832687512e-06, + "loss": 0.5199, + "step": 6230 + }, + { + "avg_step_time": 7.029699301478838, + "epoch": 0.6645333333333333, + "eta_time": 6.141223417541929, + "step": 6230 + }, + { + "epoch": 0.66464, + "grad_norm": 1.8834202433768317, + "learning_rate": 2.6709146311969813e-06, + "loss": 0.566, + "step": 6231 + }, + { + "avg_step_time": 7.062746975156996, + "epoch": 0.66464, + "eta_time": 6.168132358303776, + "step": 6231 + }, + { + "epoch": 0.6647466666666667, + "grad_norm": 2.038588311706039, + "learning_rate": 2.6693861571418372e-06, + "loss": 0.4159, + "step": 6232 + }, + { + "avg_step_time": 7.069403303994073, + "epoch": 0.6647466666666667, + "eta_time": 6.171981829014825, + "step": 6232 + }, + { + "epoch": 0.6648533333333333, + "grad_norm": 1.9437006802757464, + "learning_rate": 2.667857961285766e-06, + "loss": 0.4677, + "step": 6233 + }, + { + "avg_step_time": 7.14346698317865, + "epoch": 0.6648533333333333, + "eta_time": 6.234659239207589, + "step": 6233 + }, + { + "epoch": 0.66496, + "grad_norm": 1.7529295561338265, + "learning_rate": 2.666330043811185e-06, + "loss": 0.4144, + "step": 6234 + }, + { + "avg_step_time": 7.126620865831471, + "epoch": 0.66496, + "eta_time": 6.217976705437959, + "step": 6234 + }, + { + "epoch": 0.6650666666666667, + "grad_norm": 1.8433034098475305, + "learning_rate": 2.6648024049004804e-06, + "loss": 0.4787, + "step": 6235 + }, + { + "avg_step_time": 7.082175719617593, + "epoch": 0.6650666666666667, + "eta_time": 6.177231044333123, + "step": 6235 + }, + { + "epoch": 0.6651733333333333, + "grad_norm": 1.6795916555107917, + "learning_rate": 2.663275044736001e-06, + "loss": 0.4305, + "step": 6236 + }, + { + "avg_step_time": 7.199470551327021, + "epoch": 0.6651733333333333, + "eta_time": 6.277538350170977, + "step": 6236 + }, + { + "epoch": 0.66528, + "grad_norm": 1.7713198105925825, + "learning_rate": 2.66174796350006e-06, + "loss": 0.4859, + "step": 6237 + }, + { + "avg_step_time": 7.198617060979207, + "epoch": 0.66528, + "eta_time": 6.274794538153542, + "step": 6237 + }, + { + "epoch": 0.6653866666666667, + "grad_norm": 1.964481754621299, + "learning_rate": 2.6602211613749446e-06, + "loss": 0.5355, + "step": 6238 + }, + { + "avg_step_time": 7.22888365177193, + "epoch": 0.6653866666666667, + "eta_time": 6.299168893224596, + "step": 6238 + }, + { + "epoch": 0.6654933333333334, + "grad_norm": 1.7082476990339748, + "learning_rate": 2.6586946385429056e-06, + "loss": 0.4429, + "step": 6239 + }, + { + "avg_step_time": 7.254301215663101, + "epoch": 0.6654933333333334, + "eta_time": 6.319302392310968, + "step": 6239 + }, + { + "epoch": 0.6656, + "grad_norm": 1.9301073233023318, + "learning_rate": 2.657168395186157e-06, + "loss": 0.4626, + "step": 6240 + }, + { + "avg_step_time": 7.2717788556609495, + "epoch": 0.6656, + "eta_time": 6.332507420138077, + "step": 6240 + }, + { + "epoch": 0.6657066666666667, + "grad_norm": 1.926823562098604, + "learning_rate": 2.6556424314868854e-06, + "loss": 0.4275, + "step": 6241 + }, + { + "avg_step_time": 7.244443284140693, + "epoch": 0.6657066666666667, + "eta_time": 6.306690347915814, + "step": 6241 + }, + { + "epoch": 0.6658133333333334, + "grad_norm": 1.4604327589143424, + "learning_rate": 2.65411674762724e-06, + "loss": 0.4664, + "step": 6242 + }, + { + "avg_step_time": 7.218301590042885, + "epoch": 0.6658133333333334, + "eta_time": 6.281927467112322, + "step": 6242 + }, + { + "epoch": 0.66592, + "grad_norm": 1.7727125836904063, + "learning_rate": 2.6525913437893346e-06, + "loss": 0.4597, + "step": 6243 + }, + { + "avg_step_time": 7.229360623793169, + "epoch": 0.66592, + "eta_time": 6.289543742700056, + "step": 6243 + }, + { + "epoch": 0.6660266666666667, + "grad_norm": 2.1392514527616195, + "learning_rate": 2.6510662201552554e-06, + "loss": 0.4681, + "step": 6244 + }, + { + "avg_step_time": 7.271294673283895, + "epoch": 0.6660266666666667, + "eta_time": 6.324006561681076, + "step": 6244 + }, + { + "epoch": 0.6661333333333334, + "grad_norm": 1.8079268409074671, + "learning_rate": 2.6495413769070537e-06, + "loss": 0.4267, + "step": 6245 + }, + { + "avg_step_time": 7.265836778313223, + "epoch": 0.6661333333333334, + "eta_time": 6.317241421144552, + "step": 6245 + }, + { + "epoch": 0.66624, + "grad_norm": 2.123184617890257, + "learning_rate": 2.648016814226742e-06, + "loss": 0.5269, + "step": 6246 + }, + { + "avg_step_time": 7.240138335661455, + "epoch": 0.66624, + "eta_time": 6.292886903412415, + "step": 6246 + }, + { + "epoch": 0.6663466666666666, + "grad_norm": 1.705554924287933, + "learning_rate": 2.6464925322963053e-06, + "loss": 0.4499, + "step": 6247 + }, + { + "avg_step_time": 7.307556369087913, + "epoch": 0.6663466666666666, + "eta_time": 6.34945453402972, + "step": 6247 + }, + { + "epoch": 0.6664533333333333, + "grad_norm": 1.8400379022950364, + "learning_rate": 2.6449685312976948e-06, + "loss": 0.4678, + "step": 6248 + }, + { + "avg_step_time": 7.301558566815926, + "epoch": 0.6664533333333333, + "eta_time": 6.3422148995648335, + "step": 6248 + }, + { + "epoch": 0.66656, + "grad_norm": 2.156938779660641, + "learning_rate": 2.6434448114128252e-06, + "loss": 0.5552, + "step": 6249 + }, + { + "avg_step_time": 7.348879163915461, + "epoch": 0.66656, + "eta_time": 6.381276740666592, + "step": 6249 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 1.7760949829318846, + "learning_rate": 2.641921372823576e-06, + "loss": 0.4923, + "step": 6250 + }, + { + "avg_step_time": 7.4039369159274635, + "epoch": 0.6666666666666666, + "eta_time": 6.4270285728537, + "step": 6250 + }, + { + "epoch": 0.6667733333333333, + "grad_norm": 1.9331561617859736, + "learning_rate": 2.6403982157117996e-06, + "loss": 0.5246, + "step": 6251 + }, + { + "avg_step_time": 7.419306075934208, + "epoch": 0.6667733333333333, + "eta_time": 6.438308939227351, + "step": 6251 + }, + { + "epoch": 0.66688, + "grad_norm": 1.7900869853266048, + "learning_rate": 2.6388753402593083e-06, + "loss": 0.5028, + "step": 6252 + }, + { + "avg_step_time": 7.416594543842354, + "epoch": 0.66688, + "eta_time": 6.433895766783243, + "step": 6252 + }, + { + "epoch": 0.6669866666666666, + "grad_norm": 1.8501227016052053, + "learning_rate": 2.6373527466478843e-06, + "loss": 0.4004, + "step": 6253 + }, + { + "avg_step_time": 7.418147014849113, + "epoch": 0.6669866666666666, + "eta_time": 6.433181938988592, + "step": 6253 + }, + { + "epoch": 0.6670933333333333, + "grad_norm": 1.8891051525077451, + "learning_rate": 2.635830435059279e-06, + "loss": 0.3851, + "step": 6254 + }, + { + "avg_step_time": 7.463355430448898, + "epoch": 0.6670933333333333, + "eta_time": 6.470314527341947, + "step": 6254 + }, + { + "epoch": 0.6672, + "grad_norm": 1.9437733622272226, + "learning_rate": 2.6343084056752032e-06, + "loss": 0.5338, + "step": 6255 + }, + { + "avg_step_time": 7.426128474148837, + "epoch": 0.6672, + "eta_time": 6.435978010928992, + "step": 6255 + }, + { + "epoch": 0.6673066666666667, + "grad_norm": 1.6723916071362797, + "learning_rate": 2.6327866586773364e-06, + "loss": 0.4449, + "step": 6256 + }, + { + "avg_step_time": 7.4488733537269365, + "epoch": 0.6673066666666667, + "eta_time": 6.453621108409532, + "step": 6256 + }, + { + "epoch": 0.6674133333333333, + "grad_norm": 1.9038464004779487, + "learning_rate": 2.631265194247327e-06, + "loss": 0.5875, + "step": 6257 + }, + { + "avg_step_time": 7.4997872029892125, + "epoch": 0.6674133333333333, + "eta_time": 6.49564902747788, + "step": 6257 + }, + { + "epoch": 0.66752, + "grad_norm": 2.1129461137547803, + "learning_rate": 2.6297440125667904e-06, + "loss": 0.4829, + "step": 6258 + }, + { + "avg_step_time": 7.518531112959891, + "epoch": 0.66752, + "eta_time": 6.509794855304438, + "step": 6258 + }, + { + "epoch": 0.6676266666666667, + "grad_norm": 1.9680088114924685, + "learning_rate": 2.628223113817302e-06, + "loss": 0.4404, + "step": 6259 + }, + { + "avg_step_time": 7.465151709739608, + "epoch": 0.6676266666666667, + "eta_time": 6.461503535430172, + "step": 6259 + }, + { + "epoch": 0.6677333333333333, + "grad_norm": 1.7778942917732228, + "learning_rate": 2.62670249818041e-06, + "loss": 0.495, + "step": 6260 + }, + { + "avg_step_time": 7.465897962300464, + "epoch": 0.6677333333333333, + "eta_time": 6.460075597934986, + "step": 6260 + }, + { + "epoch": 0.66784, + "grad_norm": 2.0233832448262334, + "learning_rate": 2.6251821658376265e-06, + "loss": 0.5155, + "step": 6261 + }, + { + "avg_step_time": 7.465241620034883, + "epoch": 0.66784, + "eta_time": 6.457434001330173, + "step": 6261 + }, + { + "epoch": 0.6679466666666667, + "grad_norm": 1.6653847294181656, + "learning_rate": 2.6236621169704234e-06, + "loss": 0.529, + "step": 6262 + }, + { + "avg_step_time": 7.463210847642687, + "epoch": 0.6679466666666667, + "eta_time": 6.453604269086578, + "step": 6262 + }, + { + "epoch": 0.6680533333333334, + "grad_norm": 1.720699806087258, + "learning_rate": 2.622142351760254e-06, + "loss": 0.4022, + "step": 6263 + }, + { + "avg_step_time": 7.459105956434, + "epoch": 0.6680533333333334, + "eta_time": 6.447982704561836, + "step": 6263 + }, + { + "epoch": 0.66816, + "grad_norm": 1.7665972301418904, + "learning_rate": 2.620622870388524e-06, + "loss": 0.472, + "step": 6264 + }, + { + "avg_step_time": 7.457921290638471, + "epoch": 0.66816, + "eta_time": 6.444886981993412, + "step": 6264 + }, + { + "epoch": 0.6682666666666667, + "grad_norm": 1.8252495430929032, + "learning_rate": 2.619103673036608e-06, + "loss": 0.4562, + "step": 6265 + }, + { + "avg_step_time": 7.410580863856306, + "epoch": 0.6682666666666667, + "eta_time": 6.401918468498086, + "step": 6265 + }, + { + "epoch": 0.6683733333333334, + "grad_norm": 1.6470526555351794, + "learning_rate": 2.617584759885853e-06, + "loss": 0.4317, + "step": 6266 + }, + { + "avg_step_time": 7.40784792707424, + "epoch": 0.6683733333333334, + "eta_time": 6.397499779242725, + "step": 6266 + }, + { + "epoch": 0.66848, + "grad_norm": 1.937307335240183, + "learning_rate": 2.616066131117563e-06, + "loss": 0.4819, + "step": 6267 + }, + { + "avg_step_time": 7.407747601017808, + "epoch": 0.66848, + "eta_time": 6.395355428878707, + "step": 6267 + }, + { + "epoch": 0.6685866666666667, + "grad_norm": 1.7655686268728594, + "learning_rate": 2.6145477869130143e-06, + "loss": 0.4419, + "step": 6268 + }, + { + "avg_step_time": 7.411012878321638, + "epoch": 0.6685866666666667, + "eta_time": 6.396115836929258, + "step": 6268 + }, + { + "epoch": 0.6686933333333334, + "grad_norm": 1.5605950953277752, + "learning_rate": 2.61302972745345e-06, + "loss": 0.439, + "step": 6269 + }, + { + "avg_step_time": 7.404922109661681, + "epoch": 0.6686933333333334, + "eta_time": 6.388802242391439, + "step": 6269 + }, + { + "epoch": 0.6688, + "grad_norm": 1.856522919245524, + "learning_rate": 2.6115119529200748e-06, + "loss": 0.4452, + "step": 6270 + }, + { + "avg_step_time": 7.39556192629265, + "epoch": 0.6688, + "eta_time": 6.378672161427411, + "step": 6270 + }, + { + "epoch": 0.6689066666666666, + "grad_norm": 1.746715949469467, + "learning_rate": 2.609994463494059e-06, + "loss": 0.5414, + "step": 6271 + }, + { + "avg_step_time": 7.3871169836834225, + "epoch": 0.6689066666666666, + "eta_time": 6.36933642148704, + "step": 6271 + }, + { + "epoch": 0.6690133333333333, + "grad_norm": 1.6835836686438916, + "learning_rate": 2.608477259356543e-06, + "loss": 0.4064, + "step": 6272 + }, + { + "avg_step_time": 7.390719827979502, + "epoch": 0.6690133333333333, + "eta_time": 6.370389896172332, + "step": 6272 + }, + { + "epoch": 0.66912, + "grad_norm": 1.8292877258745077, + "learning_rate": 2.6069603406886347e-06, + "loss": 0.4435, + "step": 6273 + }, + { + "avg_step_time": 7.3906302476170085, + "epoch": 0.66912, + "eta_time": 6.368259730029989, + "step": 6273 + }, + { + "epoch": 0.6692266666666666, + "grad_norm": 1.8548876431202024, + "learning_rate": 2.6054437076713997e-06, + "loss": 0.4163, + "step": 6274 + }, + { + "avg_step_time": 7.3884569635294906, + "epoch": 0.6692266666666666, + "eta_time": 6.364334734418041, + "step": 6274 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 1.8978245331785295, + "learning_rate": 2.603927360485878e-06, + "loss": 0.4345, + "step": 6275 + }, + { + "avg_step_time": 7.4071462009892315, + "epoch": 0.6693333333333333, + "eta_time": 6.378375895296283, + "step": 6275 + }, + { + "epoch": 0.66944, + "grad_norm": 1.9303940640387576, + "learning_rate": 2.60241129931307e-06, + "loss": 0.5026, + "step": 6276 + }, + { + "avg_step_time": 7.378868938696505, + "epoch": 0.66944, + "eta_time": 6.351976344727908, + "step": 6276 + }, + { + "epoch": 0.6695466666666666, + "grad_norm": 1.5798590354151634, + "learning_rate": 2.6008955243339417e-06, + "loss": 0.378, + "step": 6277 + }, + { + "avg_step_time": 7.376532865293099, + "epoch": 0.6695466666666666, + "eta_time": 6.347916337966117, + "step": 6277 + }, + { + "epoch": 0.6696533333333333, + "grad_norm": 0.6489617571924303, + "learning_rate": 2.5993800357294298e-06, + "loss": 0.4255, + "step": 6278 + }, + { + "avg_step_time": 7.358737675830572, + "epoch": 0.6696533333333333, + "eta_time": 6.3305584950131335, + "step": 6278 + }, + { + "epoch": 0.66976, + "grad_norm": 1.9981419273138945, + "learning_rate": 2.597864833680436e-06, + "loss": 0.5093, + "step": 6279 + }, + { + "avg_step_time": 7.2966023430679785, + "epoch": 0.66976, + "eta_time": 6.275078015038462, + "step": 6279 + }, + { + "epoch": 0.6698666666666667, + "grad_norm": 1.9524618189461904, + "learning_rate": 2.5963499183678233e-06, + "loss": 0.5056, + "step": 6280 + }, + { + "avg_step_time": 7.3087953726450605, + "epoch": 0.6698666666666667, + "eta_time": 6.283533799537906, + "step": 6280 + }, + { + "epoch": 0.6699733333333333, + "grad_norm": 1.7831865403126972, + "learning_rate": 2.5948352899724206e-06, + "loss": 0.4983, + "step": 6281 + }, + { + "avg_step_time": 7.27415494244508, + "epoch": 0.6699733333333333, + "eta_time": 6.251732053312522, + "step": 6281 + }, + { + "epoch": 0.67008, + "grad_norm": 1.7926798943065279, + "learning_rate": 2.593320948675029e-06, + "loss": 0.5013, + "step": 6282 + }, + { + "avg_step_time": 7.305010215200559, + "epoch": 0.67008, + "eta_time": 6.276221276559814, + "step": 6282 + }, + { + "epoch": 0.6701866666666667, + "grad_norm": 2.111526945773467, + "learning_rate": 2.5918068946564113e-06, + "loss": 0.4459, + "step": 6283 + }, + { + "avg_step_time": 7.306290896251948, + "epoch": 0.6701866666666667, + "eta_time": 6.27529206978084, + "step": 6283 + }, + { + "epoch": 0.6702933333333333, + "grad_norm": 1.907730991132021, + "learning_rate": 2.590293128097292e-06, + "loss": 0.4938, + "step": 6284 + }, + { + "avg_step_time": 7.265302576199926, + "epoch": 0.6702933333333333, + "eta_time": 6.2380695175094365, + "step": 6284 + }, + { + "epoch": 0.6704, + "grad_norm": 1.7965089724817953, + "learning_rate": 2.588779649178371e-06, + "loss": 0.4556, + "step": 6285 + }, + { + "avg_step_time": 7.2220193352362125, + "epoch": 0.6704, + "eta_time": 6.198899929411083, + "step": 6285 + }, + { + "epoch": 0.6705066666666667, + "grad_norm": 1.7467978634626258, + "learning_rate": 2.5872664580803054e-06, + "loss": 0.4737, + "step": 6286 + }, + { + "avg_step_time": 7.187966756146364, + "epoch": 0.6705066666666667, + "eta_time": 6.167674808260032, + "step": 6286 + }, + { + "epoch": 0.6706133333333333, + "grad_norm": 1.9456105837467086, + "learning_rate": 2.585753554983716e-06, + "loss": 0.4731, + "step": 6287 + }, + { + "avg_step_time": 7.185057269202338, + "epoch": 0.6706133333333333, + "eta_time": 6.16318245758245, + "step": 6287 + }, + { + "epoch": 0.67072, + "grad_norm": 1.863060529361675, + "learning_rate": 2.5842409400692026e-06, + "loss": 0.5281, + "step": 6288 + }, + { + "avg_step_time": 7.180650988010445, + "epoch": 0.67072, + "eta_time": 6.157408222218956, + "step": 6288 + }, + { + "epoch": 0.6708266666666667, + "grad_norm": 0.639777586463219, + "learning_rate": 2.582728613517318e-06, + "loss": 0.4536, + "step": 6289 + }, + { + "avg_step_time": 7.14577595392863, + "epoch": 0.6708266666666667, + "eta_time": 6.125517942728821, + "step": 6289 + }, + { + "epoch": 0.6709333333333334, + "grad_norm": 1.8032414164898487, + "learning_rate": 2.5812165755085828e-06, + "loss": 0.4728, + "step": 6290 + }, + { + "avg_step_time": 7.134624300581036, + "epoch": 0.6709333333333334, + "eta_time": 6.113976657581249, + "step": 6290 + }, + { + "epoch": 0.67104, + "grad_norm": 0.6357296337713275, + "learning_rate": 2.579704826223488e-06, + "loss": 0.4325, + "step": 6291 + }, + { + "avg_step_time": 7.06924962274956, + "epoch": 0.67104, + "eta_time": 6.055990510155456, + "step": 6291 + }, + { + "epoch": 0.6711466666666667, + "grad_norm": 1.6148267953319813, + "learning_rate": 2.578193365842484e-06, + "loss": 0.4847, + "step": 6292 + }, + { + "avg_step_time": 7.0385427571306325, + "epoch": 0.6711466666666667, + "eta_time": 6.027729811176039, + "step": 6292 + }, + { + "epoch": 0.6712533333333334, + "grad_norm": 2.1610833056625456, + "learning_rate": 2.576682194545991e-06, + "loss": 0.5164, + "step": 6293 + }, + { + "avg_step_time": 7.007196484190045, + "epoch": 0.6712533333333334, + "eta_time": 5.998938767853811, + "step": 6293 + }, + { + "epoch": 0.67136, + "grad_norm": 1.5952168749921607, + "learning_rate": 2.575171312514395e-06, + "loss": 0.3852, + "step": 6294 + }, + { + "avg_step_time": 6.986669410358775, + "epoch": 0.67136, + "eta_time": 5.979424570365386, + "step": 6294 + }, + { + "epoch": 0.6714666666666667, + "grad_norm": 1.4644281310205556, + "learning_rate": 2.5736607199280457e-06, + "loss": 0.3503, + "step": 6295 + }, + { + "avg_step_time": 7.023173996896455, + "epoch": 0.6714666666666667, + "eta_time": 6.008715530678078, + "step": 6295 + }, + { + "epoch": 0.6715733333333334, + "grad_norm": 1.783514840139265, + "learning_rate": 2.572150416967255e-06, + "loss": 0.5127, + "step": 6296 + }, + { + "avg_step_time": 7.024786089405869, + "epoch": 0.6715733333333334, + "eta_time": 6.008143435911297, + "step": 6296 + }, + { + "epoch": 0.67168, + "grad_norm": 1.7077550232311611, + "learning_rate": 2.570640403812306e-06, + "loss": 0.519, + "step": 6297 + }, + { + "avg_step_time": 7.050603664282597, + "epoch": 0.67168, + "eta_time": 6.02826613296162, + "step": 6297 + }, + { + "epoch": 0.6717866666666666, + "grad_norm": 1.619555095048342, + "learning_rate": 2.569130680643447e-06, + "loss": 0.4263, + "step": 6298 + }, + { + "avg_step_time": 7.050021359414766, + "epoch": 0.6717866666666666, + "eta_time": 6.025809923033121, + "step": 6298 + }, + { + "epoch": 0.6718933333333333, + "grad_norm": 0.6667339952670462, + "learning_rate": 2.5676212476408858e-06, + "loss": 0.4486, + "step": 6299 + }, + { + "avg_step_time": 6.975660772034616, + "epoch": 0.6718933333333333, + "eta_time": 5.960314592994022, + "step": 6299 + }, + { + "epoch": 0.672, + "grad_norm": 2.8398740799704374, + "learning_rate": 2.5661121049848026e-06, + "loss": 0.5877, + "step": 6300 + }, + { + "avg_step_time": 6.993408973770912, + "epoch": 0.672, + "eta_time": 5.973536831762654, + "step": 6300 + }, + { + "epoch": 0.6721066666666666, + "grad_norm": 1.8000834192047868, + "learning_rate": 2.564603252855336e-06, + "loss": 0.5017, + "step": 6301 + }, + { + "avg_step_time": 6.960314418330337, + "epoch": 0.6721066666666666, + "eta_time": 5.943335144985404, + "step": 6301 + }, + { + "epoch": 0.6722133333333333, + "grad_norm": 1.7128002482440454, + "learning_rate": 2.5630946914325983e-06, + "loss": 0.5027, + "step": 6302 + }, + { + "avg_step_time": 6.9555430677202015, + "epoch": 0.6722133333333333, + "eta_time": 5.937328846417827, + "step": 6302 + }, + { + "epoch": 0.67232, + "grad_norm": 1.8814485544724415, + "learning_rate": 2.5615864208966573e-06, + "loss": 0.5931, + "step": 6303 + }, + { + "avg_step_time": 6.955530657912746, + "epoch": 0.67232, + "eta_time": 5.935386161418877, + "step": 6303 + }, + { + "epoch": 0.6724266666666666, + "grad_norm": 0.6674957824931994, + "learning_rate": 2.560078441427556e-06, + "loss": 0.4377, + "step": 6304 + }, + { + "avg_step_time": 6.914046203247224, + "epoch": 0.6724266666666666, + "eta_time": 5.898065525047841, + "step": 6304 + }, + { + "epoch": 0.6725333333333333, + "grad_norm": 0.6368395708814956, + "learning_rate": 2.5585707532052933e-06, + "loss": 0.4236, + "step": 6305 + }, + { + "avg_step_time": 6.847851702661226, + "epoch": 0.6725333333333333, + "eta_time": 5.839695757547212, + "step": 6305 + }, + { + "epoch": 0.67264, + "grad_norm": 2.1242446620075004, + "learning_rate": 2.55706335640984e-06, + "loss": 0.4338, + "step": 6306 + }, + { + "avg_step_time": 6.791699248130875, + "epoch": 0.67264, + "eta_time": 5.789923609031571, + "step": 6306 + }, + { + "epoch": 0.6727466666666667, + "grad_norm": 1.6134922997985695, + "learning_rate": 2.5555562512211327e-06, + "loss": 0.4739, + "step": 6307 + }, + { + "avg_step_time": 6.804087299289125, + "epoch": 0.6727466666666667, + "eta_time": 5.798594398394177, + "step": 6307 + }, + { + "epoch": 0.6728533333333333, + "grad_norm": 2.1850746008099247, + "learning_rate": 2.5540494378190674e-06, + "loss": 0.5039, + "step": 6308 + }, + { + "avg_step_time": 6.803276731510355, + "epoch": 0.6728533333333333, + "eta_time": 5.796013815428405, + "step": 6308 + }, + { + "epoch": 0.67296, + "grad_norm": 2.1340441771973118, + "learning_rate": 2.552542916383507e-06, + "loss": 0.5201, + "step": 6309 + }, + { + "avg_step_time": 6.835314170278684, + "epoch": 0.67296, + "eta_time": 5.8214092350206785, + "step": 6309 + }, + { + "epoch": 0.6730666666666667, + "grad_norm": 1.8240784106237062, + "learning_rate": 2.551036687094285e-06, + "loss": 0.5035, + "step": 6310 + }, + { + "avg_step_time": 6.851742322998818, + "epoch": 0.6730666666666667, + "eta_time": 5.833497283330938, + "step": 6310 + }, + { + "epoch": 0.6731733333333333, + "grad_norm": 1.8295032959762905, + "learning_rate": 2.5495307501311904e-06, + "loss": 0.4205, + "step": 6311 + }, + { + "avg_step_time": 6.851431482970113, + "epoch": 0.6731733333333333, + "eta_time": 5.831329462172341, + "step": 6311 + }, + { + "epoch": 0.67328, + "grad_norm": 1.9746723211502635, + "learning_rate": 2.5480251056739874e-06, + "loss": 0.4499, + "step": 6312 + }, + { + "avg_step_time": 6.847226263296725, + "epoch": 0.67328, + "eta_time": 5.825848345688296, + "step": 6312 + }, + { + "epoch": 0.6733866666666667, + "grad_norm": 1.988962233897266, + "learning_rate": 2.5465197539024006e-06, + "loss": 0.4593, + "step": 6313 + }, + { + "avg_step_time": 6.785471586265949, + "epoch": 0.6733866666666667, + "eta_time": 5.77142055476287, + "step": 6313 + }, + { + "epoch": 0.6734933333333334, + "grad_norm": 1.7767599505620166, + "learning_rate": 2.5450146949961187e-06, + "loss": 0.4442, + "step": 6314 + }, + { + "avg_step_time": 6.742085061892115, + "epoch": 0.6734933333333334, + "eta_time": 5.732645104014379, + "step": 6314 + }, + { + "epoch": 0.6736, + "grad_norm": 0.6638814155593105, + "learning_rate": 2.543509929134794e-06, + "loss": 0.4805, + "step": 6315 + }, + { + "avg_step_time": 6.671754788870763, + "epoch": 0.6736, + "eta_time": 5.670991570540148, + "step": 6315 + }, + { + "epoch": 0.6737066666666667, + "grad_norm": 1.9078040756557142, + "learning_rate": 2.5420054564980497e-06, + "loss": 0.442, + "step": 6316 + }, + { + "avg_step_time": 6.6684566700097285, + "epoch": 0.6737066666666667, + "eta_time": 5.666335820433267, + "step": 6316 + }, + { + "epoch": 0.6738133333333334, + "grad_norm": 1.5527325438076782, + "learning_rate": 2.5405012772654702e-06, + "loss": 0.4671, + "step": 6317 + }, + { + "avg_step_time": 6.656431340207957, + "epoch": 0.6738133333333334, + "eta_time": 5.654268621765537, + "step": 6317 + }, + { + "epoch": 0.67392, + "grad_norm": 2.0367850662198403, + "learning_rate": 2.5389973916166037e-06, + "loss": 0.4567, + "step": 6318 + }, + { + "avg_step_time": 6.61971430585842, + "epoch": 0.67392, + "eta_time": 5.621240731391442, + "step": 6318 + }, + { + "epoch": 0.6740266666666667, + "grad_norm": 1.5935471737763147, + "learning_rate": 2.5374937997309677e-06, + "loss": 0.46, + "step": 6319 + }, + { + "avg_step_time": 6.619581193634958, + "epoch": 0.6740266666666667, + "eta_time": 5.6192889243745645, + "step": 6319 + }, + { + "epoch": 0.6741333333333334, + "grad_norm": 1.7369089292942521, + "learning_rate": 2.5359905017880406e-06, + "loss": 0.4977, + "step": 6320 + }, + { + "avg_step_time": 6.567709024506386, + "epoch": 0.6741333333333334, + "eta_time": 5.573430852740836, + "step": 6320 + }, + { + "epoch": 0.67424, + "grad_norm": 1.815160039750868, + "learning_rate": 2.534487497967262e-06, + "loss": 0.4391, + "step": 6321 + }, + { + "avg_step_time": 6.544160373283155, + "epoch": 0.67424, + "eta_time": 5.55162938333521, + "step": 6321 + }, + { + "epoch": 0.6743466666666666, + "grad_norm": 1.7417300319155151, + "learning_rate": 2.5329847884480495e-06, + "loss": 0.4355, + "step": 6322 + }, + { + "avg_step_time": 6.554218205538663, + "epoch": 0.6743466666666666, + "eta_time": 5.558341161530427, + "step": 6322 + }, + { + "epoch": 0.6744533333333333, + "grad_norm": 1.9881988599363325, + "learning_rate": 2.5314823734097748e-06, + "loss": 0.5178, + "step": 6323 + }, + { + "avg_step_time": 6.509586432967523, + "epoch": 0.6744533333333333, + "eta_time": 5.518682720393578, + "step": 6323 + }, + { + "epoch": 0.67456, + "grad_norm": 0.625274905516929, + "learning_rate": 2.529980253031774e-06, + "loss": 0.4305, + "step": 6324 + }, + { + "avg_step_time": 6.453798060465341, + "epoch": 0.67456, + "eta_time": 5.469593856244376, + "step": 6324 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 1.8354547565386101, + "learning_rate": 2.528478427493355e-06, + "loss": 0.5103, + "step": 6325 + }, + { + "avg_step_time": 6.457238558566932, + "epoch": 0.6746666666666666, + "eta_time": 5.470716001008095, + "step": 6325 + }, + { + "epoch": 0.6747733333333333, + "grad_norm": 1.8459299751419191, + "learning_rate": 2.526976896973784e-06, + "loss": 0.5181, + "step": 6326 + }, + { + "avg_step_time": 6.448181523217095, + "epoch": 0.6747733333333333, + "eta_time": 5.461251517858034, + "step": 6326 + }, + { + "epoch": 0.67488, + "grad_norm": 0.6478217273422421, + "learning_rate": 2.5254756616522953e-06, + "loss": 0.4646, + "step": 6327 + }, + { + "avg_step_time": 6.446755447773018, + "epoch": 0.67488, + "eta_time": 5.4582529457811555, + "step": 6327 + }, + { + "epoch": 0.6749866666666666, + "grad_norm": 1.7397897274208578, + "learning_rate": 2.523974721708089e-06, + "loss": 0.4946, + "step": 6328 + }, + { + "avg_step_time": 6.447018731724132, + "epoch": 0.6749866666666666, + "eta_time": 5.456685020989842, + "step": 6328 + }, + { + "epoch": 0.6750933333333333, + "grad_norm": 1.9401860389420262, + "learning_rate": 2.5224740773203282e-06, + "loss": 0.5551, + "step": 6329 + }, + { + "avg_step_time": 6.447838424432157, + "epoch": 0.6750933333333333, + "eta_time": 5.455587733561208, + "step": 6329 + }, + { + "epoch": 0.6752, + "grad_norm": 2.01305457308996, + "learning_rate": 2.5209737286681367e-06, + "loss": 0.624, + "step": 6330 + }, + { + "avg_step_time": 6.412615034315321, + "epoch": 0.6752, + "eta_time": 5.4240035498583765, + "step": 6330 + }, + { + "epoch": 0.6753066666666667, + "grad_norm": 1.8770943129593443, + "learning_rate": 2.5194736759306106e-06, + "loss": 0.4463, + "step": 6331 + }, + { + "avg_step_time": 6.407992350934732, + "epoch": 0.6753066666666667, + "eta_time": 5.418313532290369, + "step": 6331 + }, + { + "epoch": 0.6754133333333333, + "grad_norm": 1.6679921326592597, + "learning_rate": 2.5179739192868073e-06, + "loss": 0.4721, + "step": 6332 + }, + { + "avg_step_time": 6.3699759208794795, + "epoch": 0.6754133333333333, + "eta_time": 5.38439909089896, + "step": 6332 + }, + { + "epoch": 0.67552, + "grad_norm": 1.8659698246307672, + "learning_rate": 2.5164744589157488e-06, + "loss": 0.4567, + "step": 6333 + }, + { + "avg_step_time": 6.340240907187414, + "epoch": 0.67552, + "eta_time": 5.357503566573365, + "step": 6333 + }, + { + "epoch": 0.6756266666666667, + "grad_norm": 1.9305102080680419, + "learning_rate": 2.514975294996418e-06, + "loss": 0.4518, + "step": 6334 + }, + { + "avg_step_time": 6.339280778711492, + "epoch": 0.6756266666666667, + "eta_time": 5.354931346683792, + "step": 6334 + }, + { + "epoch": 0.6757333333333333, + "grad_norm": 1.6322568222067373, + "learning_rate": 2.5134764277077713e-06, + "loss": 0.4404, + "step": 6335 + }, + { + "avg_step_time": 6.199768295191755, + "epoch": 0.6757333333333333, + "eta_time": 5.235359893717482, + "step": 6335 + }, + { + "epoch": 0.67584, + "grad_norm": 0.6553407362463605, + "learning_rate": 2.5119778572287195e-06, + "loss": 0.4378, + "step": 6336 + }, + { + "avg_step_time": 6.162841777608852, + "epoch": 0.67584, + "eta_time": 5.202465600598139, + "step": 6336 + }, + { + "epoch": 0.6759466666666667, + "grad_norm": 1.7182861726793852, + "learning_rate": 2.5104795837381457e-06, + "loss": 0.381, + "step": 6337 + }, + { + "avg_step_time": 6.13188428589792, + "epoch": 0.6759466666666667, + "eta_time": 5.174629016821633, + "step": 6337 + }, + { + "epoch": 0.6760533333333333, + "grad_norm": 1.6481934171629893, + "learning_rate": 2.5089816074148953e-06, + "loss": 0.4284, + "step": 6338 + }, + { + "avg_step_time": 6.162841770384047, + "epoch": 0.6760533333333333, + "eta_time": 5.1990417935156525, + "step": 6338 + }, + { + "epoch": 0.67616, + "grad_norm": 1.882190676771427, + "learning_rate": 2.5074839284377774e-06, + "loss": 0.5094, + "step": 6339 + }, + { + "avg_step_time": 6.147403225754246, + "epoch": 0.67616, + "eta_time": 5.184310053719415, + "step": 6339 + }, + { + "epoch": 0.6762666666666667, + "grad_norm": 1.7236292425944773, + "learning_rate": 2.5059865469855617e-06, + "loss": 0.4446, + "step": 6340 + }, + { + "avg_step_time": 6.15182596986944, + "epoch": 0.6762666666666667, + "eta_time": 5.186331060709376, + "step": 6340 + }, + { + "epoch": 0.6763733333333334, + "grad_norm": 1.9323445055244348, + "learning_rate": 2.504489463236993e-06, + "loss": 0.4124, + "step": 6341 + }, + { + "avg_step_time": 6.122375358234752, + "epoch": 0.6763733333333334, + "eta_time": 5.159801899134511, + "step": 6341 + }, + { + "epoch": 0.67648, + "grad_norm": 1.9600547653836673, + "learning_rate": 2.5029926773707713e-06, + "loss": 0.4624, + "step": 6342 + }, + { + "avg_step_time": 6.101575509466306, + "epoch": 0.67648, + "eta_time": 5.140577366725363, + "step": 6342 + }, + { + "epoch": 0.6765866666666667, + "grad_norm": 1.830916444687645, + "learning_rate": 2.5014961895655628e-06, + "loss": 0.4645, + "step": 6343 + }, + { + "avg_step_time": 6.054463954887005, + "epoch": 0.6765866666666667, + "eta_time": 5.099204086449278, + "step": 6343 + }, + { + "epoch": 0.6766933333333334, + "grad_norm": 1.8163000237995692, + "learning_rate": 2.5000000000000015e-06, + "loss": 0.5323, + "step": 6344 + }, + { + "avg_step_time": 6.06760589281718, + "epoch": 0.6766933333333334, + "eta_time": 5.108587072535798, + "step": 6344 + }, + { + "epoch": 0.6768, + "grad_norm": 1.9464680687085654, + "learning_rate": 2.49850410885268e-06, + "loss": 0.523, + "step": 6345 + }, + { + "avg_step_time": 6.066847570014723, + "epoch": 0.6768, + "eta_time": 5.106263371429058, + "step": 6345 + }, + { + "epoch": 0.6769066666666667, + "grad_norm": 1.9204901615893784, + "learning_rate": 2.497008516302161e-06, + "loss": 0.4466, + "step": 6346 + }, + { + "avg_step_time": 6.034233878357242, + "epoch": 0.6769066666666667, + "eta_time": 5.07713733820669, + "step": 6346 + }, + { + "epoch": 0.6770133333333334, + "grad_norm": 1.9675279615212709, + "learning_rate": 2.4955132225269718e-06, + "loss": 0.5143, + "step": 6347 + }, + { + "avg_step_time": 6.0353438806052155, + "epoch": 0.6770133333333334, + "eta_time": 5.076394797353498, + "step": 6347 + }, + { + "epoch": 0.67712, + "grad_norm": 1.7567115312810795, + "learning_rate": 2.4940182277055987e-06, + "loss": 0.5155, + "step": 6348 + }, + { + "avg_step_time": 5.992890495242494, + "epoch": 0.67712, + "eta_time": 5.039022091416397, + "step": 6348 + }, + { + "epoch": 0.6772266666666666, + "grad_norm": 1.5835420847774366, + "learning_rate": 2.4925235320164935e-06, + "loss": 0.4398, + "step": 6349 + }, + { + "avg_step_time": 5.954619463043984, + "epoch": 0.6772266666666666, + "eta_time": 5.005188470880859, + "step": 6349 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 1.944686612662998, + "learning_rate": 2.491029135638076e-06, + "loss": 0.5513, + "step": 6350 + }, + { + "avg_step_time": 5.906699077047483, + "epoch": 0.6773333333333333, + "eta_time": 4.96326797446351, + "step": 6350 + }, + { + "epoch": 0.67744, + "grad_norm": 1.810902920983931, + "learning_rate": 2.4895350387487304e-06, + "loss": 0.4806, + "step": 6351 + }, + { + "avg_step_time": 5.910351741193521, + "epoch": 0.67744, + "eta_time": 4.964695462602558, + "step": 6351 + }, + { + "epoch": 0.6775466666666666, + "grad_norm": 1.6300788677973632, + "learning_rate": 2.488041241526799e-06, + "loss": 0.5288, + "step": 6352 + }, + { + "avg_step_time": 5.90692160827945, + "epoch": 0.6775466666666666, + "eta_time": 4.960173339396882, + "step": 6352 + }, + { + "epoch": 0.6776533333333333, + "grad_norm": 0.6477584694570234, + "learning_rate": 2.4865477441505963e-06, + "loss": 0.4392, + "step": 6353 + }, + { + "avg_step_time": 5.808967616822985, + "epoch": 0.6776533333333333, + "eta_time": 4.8763055938997395, + "step": 6353 + }, + { + "epoch": 0.67776, + "grad_norm": 1.9689403423313658, + "learning_rate": 2.485054546798395e-06, + "loss": 0.4491, + "step": 6354 + }, + { + "avg_step_time": 5.810578334211099, + "epoch": 0.67776, + "eta_time": 4.876043652125481, + "step": 6354 + }, + { + "epoch": 0.6778666666666666, + "grad_norm": 1.8322648877256744, + "learning_rate": 2.483561649648432e-06, + "loss": 0.4719, + "step": 6355 + }, + { + "avg_step_time": 5.780895387283479, + "epoch": 0.6778666666666666, + "eta_time": 4.84952890822114, + "step": 6355 + }, + { + "epoch": 0.6779733333333333, + "grad_norm": 1.8187347523092092, + "learning_rate": 2.4820690528789126e-06, + "loss": 0.5387, + "step": 6356 + }, + { + "avg_step_time": 5.7809106123567835, + "epoch": 0.6779733333333333, + "eta_time": 4.8479358718625365, + "step": 6356 + }, + { + "epoch": 0.67808, + "grad_norm": 1.9805424115731596, + "learning_rate": 2.4805767566680057e-06, + "loss": 0.4756, + "step": 6357 + }, + { + "avg_step_time": 5.733154867634629, + "epoch": 0.67808, + "eta_time": 4.806294830700364, + "step": 6357 + }, + { + "epoch": 0.6781866666666667, + "grad_norm": 1.9374765899327333, + "learning_rate": 2.479084761193839e-06, + "loss": 0.4949, + "step": 6358 + }, + { + "avg_step_time": 5.755866891205913, + "epoch": 0.6781866666666667, + "eta_time": 4.8237362252134, + "step": 6358 + }, + { + "epoch": 0.6782933333333333, + "grad_norm": 1.8926618303570002, + "learning_rate": 2.477593066634512e-06, + "loss": 0.5052, + "step": 6359 + }, + { + "avg_step_time": 5.755551709069146, + "epoch": 0.6782933333333333, + "eta_time": 4.82187332070904, + "step": 6359 + }, + { + "epoch": 0.6784, + "grad_norm": 1.6304359987712458, + "learning_rate": 2.4761016731680792e-06, + "loss": 0.3928, + "step": 6360 + }, + { + "avg_step_time": 5.794544005634809, + "epoch": 0.6784, + "eta_time": 4.852930604719153, + "step": 6360 + }, + { + "epoch": 0.6785066666666667, + "grad_norm": 1.7627558134088759, + "learning_rate": 2.4746105809725694e-06, + "loss": 0.4884, + "step": 6361 + }, + { + "avg_step_time": 5.798013506513653, + "epoch": 0.6785066666666667, + "eta_time": 4.85422575239782, + "step": 6361 + }, + { + "epoch": 0.6786133333333333, + "grad_norm": 1.5883004512739511, + "learning_rate": 2.4731197902259665e-06, + "loss": 0.4623, + "step": 6362 + }, + { + "avg_step_time": 5.8018730601879085, + "epoch": 0.6786133333333333, + "eta_time": 4.855845425096158, + "step": 6362 + }, + { + "epoch": 0.67872, + "grad_norm": 2.1864672109596097, + "learning_rate": 2.4716293011062248e-06, + "loss": 0.6101, + "step": 6363 + }, + { + "avg_step_time": 5.805400381184588, + "epoch": 0.67872, + "eta_time": 4.857184985591105, + "step": 6363 + }, + { + "epoch": 0.6788266666666667, + "grad_norm": 2.176169813700625, + "learning_rate": 2.4701391137912573e-06, + "loss": 0.5343, + "step": 6364 + }, + { + "avg_step_time": 5.803428459649134, + "epoch": 0.6788266666666667, + "eta_time": 4.853923081112095, + "step": 6364 + }, + { + "epoch": 0.6789333333333334, + "grad_norm": 0.6712950684066932, + "learning_rate": 2.4686492284589447e-06, + "loss": 0.4506, + "step": 6365 + }, + { + "avg_step_time": 5.770884742640486, + "epoch": 0.6789333333333334, + "eta_time": 4.825100854263295, + "step": 6365 + }, + { + "epoch": 0.67904, + "grad_norm": 0.6293622795716218, + "learning_rate": 2.467159645287133e-06, + "loss": 0.4437, + "step": 6366 + }, + { + "avg_step_time": 5.739236258497142, + "epoch": 0.67904, + "eta_time": 4.797044972727194, + "step": 6366 + }, + { + "epoch": 0.6791466666666667, + "grad_norm": 0.6382571514772184, + "learning_rate": 2.4656703644536277e-06, + "loss": 0.4396, + "step": 6367 + }, + { + "avg_step_time": 5.70275450716115, + "epoch": 0.6791466666666667, + "eta_time": 4.764968210427983, + "step": 6367 + }, + { + "epoch": 0.6792533333333334, + "grad_norm": 1.8375311455090662, + "learning_rate": 2.464181386136198e-06, + "loss": 0.5759, + "step": 6368 + }, + { + "avg_step_time": 5.6743977166185475, + "epoch": 0.6792533333333334, + "eta_time": 4.7396983149644365, + "step": 6368 + }, + { + "epoch": 0.67936, + "grad_norm": 2.12067310143055, + "learning_rate": 2.4626927105125834e-06, + "loss": 0.4185, + "step": 6369 + }, + { + "avg_step_time": 5.671454624696211, + "epoch": 0.67936, + "eta_time": 4.735664611621337, + "step": 6369 + }, + { + "epoch": 0.6794666666666667, + "grad_norm": 1.8352667498305106, + "learning_rate": 2.4612043377604795e-06, + "loss": 0.4765, + "step": 6370 + }, + { + "avg_step_time": 5.670367245722299, + "epoch": 0.6794666666666667, + "eta_time": 4.733181548165419, + "step": 6370 + }, + { + "epoch": 0.6795733333333334, + "grad_norm": 1.412228851718817, + "learning_rate": 2.459716268057551e-06, + "loss": 0.4362, + "step": 6371 + }, + { + "avg_step_time": 5.665905514148751, + "epoch": 0.6795733333333334, + "eta_time": 4.727883379028569, + "step": 6371 + }, + { + "epoch": 0.67968, + "grad_norm": 1.938274357703516, + "learning_rate": 2.4582285015814263e-06, + "loss": 0.4947, + "step": 6372 + }, + { + "avg_step_time": 5.665667456809921, + "epoch": 0.67968, + "eta_time": 4.726110936888942, + "step": 6372 + }, + { + "epoch": 0.6797866666666667, + "grad_norm": 2.1273363051169496, + "learning_rate": 2.456741038509694e-06, + "loss": 0.4993, + "step": 6373 + }, + { + "avg_step_time": 5.674187453106196, + "epoch": 0.6797866666666667, + "eta_time": 4.731641870618, + "step": 6373 + }, + { + "epoch": 0.6798933333333333, + "grad_norm": 1.8567000812954901, + "learning_rate": 2.4552538790199075e-06, + "loss": 0.6324, + "step": 6374 + }, + { + "avg_step_time": 5.656219357191914, + "epoch": 0.6798933333333333, + "eta_time": 4.715087303036927, + "step": 6374 + }, + { + "epoch": 0.68, + "grad_norm": 1.6676118679608336, + "learning_rate": 2.4537670232895866e-06, + "loss": 0.5329, + "step": 6375 + }, + { + "avg_step_time": 5.656971685814135, + "epoch": 0.68, + "eta_time": 4.71414307151178, + "step": 6375 + }, + { + "epoch": 0.6801066666666666, + "grad_norm": 1.900781491317735, + "learning_rate": 2.452280471496215e-06, + "loss": 0.4224, + "step": 6376 + }, + { + "avg_step_time": 5.65794334267125, + "epoch": 0.6801066666666666, + "eta_time": 4.713381134630855, + "step": 6376 + }, + { + "epoch": 0.6802133333333333, + "grad_norm": 1.7324360134943217, + "learning_rate": 2.4507942238172346e-06, + "loss": 0.4325, + "step": 6377 + }, + { + "avg_step_time": 5.6462553631175645, + "epoch": 0.6802133333333333, + "eta_time": 4.702075994062905, + "step": 6377 + }, + { + "epoch": 0.68032, + "grad_norm": 1.9081289985357277, + "learning_rate": 2.4493082804300585e-06, + "loss": 0.479, + "step": 6378 + }, + { + "avg_step_time": 5.64525216998476, + "epoch": 0.68032, + "eta_time": 4.699672431512313, + "step": 6378 + }, + { + "epoch": 0.6804266666666666, + "grad_norm": 2.192207621348607, + "learning_rate": 2.447822641512058e-06, + "loss": 0.5035, + "step": 6379 + }, + { + "avg_step_time": 5.643682369078048, + "epoch": 0.6804266666666666, + "eta_time": 4.696797882710509, + "step": 6379 + }, + { + "epoch": 0.6805333333333333, + "grad_norm": 1.9220283161868081, + "learning_rate": 2.4463373072405655e-06, + "loss": 0.5021, + "step": 6380 + }, + { + "avg_step_time": 5.653230804385561, + "epoch": 0.6805333333333333, + "eta_time": 4.703173960870765, + "step": 6380 + }, + { + "epoch": 0.68064, + "grad_norm": 1.5667598510684413, + "learning_rate": 2.4448522777928903e-06, + "loss": 0.4474, + "step": 6381 + }, + { + "avg_step_time": 5.6453767834287705, + "epoch": 0.68064, + "eta_time": 4.695071691551594, + "step": 6381 + }, + { + "epoch": 0.6807466666666667, + "grad_norm": 1.7665342515634757, + "learning_rate": 2.443367553346291e-06, + "loss": 0.5389, + "step": 6382 + }, + { + "avg_step_time": 5.644040818166251, + "epoch": 0.6807466666666667, + "eta_time": 4.692392824658775, + "step": 6382 + }, + { + "epoch": 0.6808533333333333, + "grad_norm": 1.798352998625687, + "learning_rate": 2.4418831340779934e-06, + "loss": 0.4539, + "step": 6383 + }, + { + "avg_step_time": 5.664999872747094, + "epoch": 0.6808533333333333, + "eta_time": 4.708244338683141, + "step": 6383 + }, + { + "epoch": 0.68096, + "grad_norm": 2.22538235687971, + "learning_rate": 2.4403990201651915e-06, + "loss": 0.5007, + "step": 6384 + }, + { + "avg_step_time": 5.6639595826466875, + "epoch": 0.68096, + "eta_time": 4.705806419915623, + "step": 6384 + }, + { + "epoch": 0.6810666666666667, + "grad_norm": 1.791971779812789, + "learning_rate": 2.438915211785041e-06, + "loss": 0.4996, + "step": 6385 + }, + { + "avg_step_time": 5.6635220243473245, + "epoch": 0.6810666666666667, + "eta_time": 4.703869681332917, + "step": 6385 + }, + { + "epoch": 0.6811733333333333, + "grad_norm": 0.6566698562017537, + "learning_rate": 2.4374317091146593e-06, + "loss": 0.4428, + "step": 6386 + }, + { + "avg_step_time": 5.628909886485398, + "epoch": 0.6811733333333333, + "eta_time": 4.67355879186246, + "step": 6386 + }, + { + "epoch": 0.68128, + "grad_norm": 0.6467950335463044, + "learning_rate": 2.435948512331125e-06, + "loss": 0.427, + "step": 6387 + }, + { + "avg_step_time": 5.60334590227917, + "epoch": 0.68128, + "eta_time": 4.6507770988917105, + "step": 6387 + }, + { + "epoch": 0.6813866666666667, + "grad_norm": 1.860333799506506, + "learning_rate": 2.4344656216114878e-06, + "loss": 0.4203, + "step": 6388 + }, + { + "avg_step_time": 5.63588065812082, + "epoch": 0.6813866666666667, + "eta_time": 4.676215423835247, + "step": 6388 + }, + { + "epoch": 0.6814933333333333, + "grad_norm": 1.9694158936595594, + "learning_rate": 2.4329830371327513e-06, + "loss": 0.4595, + "step": 6389 + }, + { + "avg_step_time": 5.624808908712985, + "epoch": 0.6814933333333333, + "eta_time": 4.665466500393603, + "step": 6389 + }, + { + "epoch": 0.6816, + "grad_norm": 1.8919747176854975, + "learning_rate": 2.4315007590718913e-06, + "loss": 0.4987, + "step": 6390 + }, + { + "avg_step_time": 5.663381393509682, + "epoch": 0.6816, + "eta_time": 4.6958870721184445, + "step": 6390 + }, + { + "epoch": 0.6817066666666667, + "grad_norm": 2.0812829037044405, + "learning_rate": 2.430018787605844e-06, + "loss": 0.5362, + "step": 6391 + }, + { + "avg_step_time": 5.664004626900259, + "epoch": 0.6817066666666667, + "eta_time": 4.6948305018528815, + "step": 6391 + }, + { + "epoch": 0.6818133333333334, + "grad_norm": 1.8967212455742406, + "learning_rate": 2.4285371229115073e-06, + "loss": 0.571, + "step": 6392 + }, + { + "avg_step_time": 5.6632322735256615, + "epoch": 0.6818133333333334, + "eta_time": 4.692617186646402, + "step": 6392 + }, + { + "epoch": 0.68192, + "grad_norm": 1.7988890210905029, + "learning_rate": 2.427055765165741e-06, + "loss": 0.5175, + "step": 6393 + }, + { + "avg_step_time": 5.6619989173580905, + "epoch": 0.68192, + "eta_time": 4.690022436544951, + "step": 6393 + }, + { + "epoch": 0.6820266666666667, + "grad_norm": 2.0324249008324844, + "learning_rate": 2.425574714545373e-06, + "loss": 0.4877, + "step": 6394 + }, + { + "avg_step_time": 5.671903419976283, + "epoch": 0.6820266666666667, + "eta_time": 4.696651137485917, + "step": 6394 + }, + { + "epoch": 0.6821333333333334, + "grad_norm": 1.8457203287295247, + "learning_rate": 2.4240939712271933e-06, + "loss": 0.4672, + "step": 6395 + }, + { + "avg_step_time": 5.672999521698615, + "epoch": 0.6821333333333334, + "eta_time": 4.695982937406076, + "step": 6395 + }, + { + "epoch": 0.68224, + "grad_norm": 1.675312889960941, + "learning_rate": 2.4226135353879516e-06, + "loss": 0.5082, + "step": 6396 + }, + { + "avg_step_time": 5.689204430339312, + "epoch": 0.68224, + "eta_time": 4.7078166661057805, + "step": 6396 + }, + { + "epoch": 0.6823466666666667, + "grad_norm": 1.9686825360253497, + "learning_rate": 2.4211334072043668e-06, + "loss": 0.4702, + "step": 6397 + }, + { + "avg_step_time": 5.689351496070322, + "epoch": 0.6823466666666667, + "eta_time": 4.706357987582616, + "step": 6397 + }, + { + "epoch": 0.6824533333333334, + "grad_norm": 0.6467857647505768, + "learning_rate": 2.419653586853116e-06, + "loss": 0.4242, + "step": 6398 + }, + { + "avg_step_time": 5.690376120384293, + "epoch": 0.6824533333333334, + "eta_time": 4.705624919551122, + "step": 6398 + }, + { + "epoch": 0.68256, + "grad_norm": 0.6241466440143556, + "learning_rate": 2.4181740745108377e-06, + "loss": 0.4285, + "step": 6399 + }, + { + "avg_step_time": 5.639988617463545, + "epoch": 0.68256, + "eta_time": 4.662390590436531, + "step": 6399 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 1.7055600130117416, + "learning_rate": 2.416694870354145e-06, + "loss": 0.4258, + "step": 6400 + }, + { + "avg_step_time": 5.649388159164275, + "epoch": 0.6826666666666666, + "eta_time": 4.668591603753811, + "step": 6400 + }, + { + "epoch": 0.6827733333333333, + "grad_norm": 1.9048009046222454, + "learning_rate": 2.4152159745596015e-06, + "loss": 0.5057, + "step": 6401 + }, + { + "avg_step_time": 5.64974631926026, + "epoch": 0.6827733333333333, + "eta_time": 4.667318209300005, + "step": 6401 + }, + { + "epoch": 0.68288, + "grad_norm": 1.7102577857582706, + "learning_rate": 2.413737387303739e-06, + "loss": 0.4896, + "step": 6402 + }, + { + "avg_step_time": 5.673575651766074, + "epoch": 0.68288, + "eta_time": 4.685427892416817, + "step": 6402 + }, + { + "epoch": 0.6829866666666666, + "grad_norm": 0.6652734290078731, + "learning_rate": 2.4122591087630548e-06, + "loss": 0.4523, + "step": 6403 + }, + { + "avg_step_time": 5.698081649915136, + "epoch": 0.6829866666666666, + "eta_time": 4.7040829620966065, + "step": 6403 + }, + { + "epoch": 0.6830933333333333, + "grad_norm": 1.96840919638484, + "learning_rate": 2.4107811391140036e-06, + "loss": 0.4938, + "step": 6404 + }, + { + "avg_step_time": 5.733439756162239, + "epoch": 0.6830933333333333, + "eta_time": 4.731680420988337, + "step": 6404 + }, + { + "epoch": 0.6832, + "grad_norm": 2.1964956585851207, + "learning_rate": 2.4093034785330087e-06, + "loss": 0.5059, + "step": 6405 + }, + { + "avg_step_time": 5.73262253433767, + "epoch": 0.6832, + "eta_time": 4.729413590828577, + "step": 6405 + }, + { + "epoch": 0.6833066666666666, + "grad_norm": 1.6030571029068172, + "learning_rate": 2.4078261271964567e-06, + "loss": 0.372, + "step": 6406 + }, + { + "avg_step_time": 5.722741218528363, + "epoch": 0.6833066666666666, + "eta_time": 4.719671854947419, + "step": 6406 + }, + { + "epoch": 0.6834133333333333, + "grad_norm": 1.8799121015498566, + "learning_rate": 2.406349085280692e-06, + "loss": 0.5323, + "step": 6407 + }, + { + "avg_step_time": 5.78633775373902, + "epoch": 0.6834133333333333, + "eta_time": 4.770514014749281, + "step": 6407 + }, + { + "epoch": 0.68352, + "grad_norm": 1.9039235219843629, + "learning_rate": 2.4048723529620246e-06, + "loss": 0.4583, + "step": 6408 + }, + { + "avg_step_time": 5.789087562850027, + "epoch": 0.68352, + "eta_time": 4.7711729997155645, + "step": 6408 + }, + { + "epoch": 0.6836266666666667, + "grad_norm": 1.7006886354235133, + "learning_rate": 2.4033959304167288e-06, + "loss": 0.41, + "step": 6409 + }, + { + "avg_step_time": 5.775042271373247, + "epoch": 0.6836266666666667, + "eta_time": 4.75799316024807, + "step": 6409 + }, + { + "epoch": 0.6837333333333333, + "grad_norm": 0.6498422759280054, + "learning_rate": 2.4019198178210435e-06, + "loss": 0.4359, + "step": 6410 + }, + { + "avg_step_time": 5.744496256414086, + "epoch": 0.6837333333333333, + "eta_time": 4.731230944518824, + "step": 6410 + }, + { + "epoch": 0.68384, + "grad_norm": 2.0950533977982957, + "learning_rate": 2.4004440153511642e-06, + "loss": 0.5378, + "step": 6411 + }, + { + "avg_step_time": 5.77721700283012, + "epoch": 0.68384, + "eta_time": 4.756575332330133, + "step": 6411 + }, + { + "epoch": 0.6839466666666667, + "grad_norm": 0.6580262721777123, + "learning_rate": 2.398968523183258e-06, + "loss": 0.4519, + "step": 6412 + }, + { + "avg_step_time": 5.722851673762004, + "epoch": 0.6839466666666667, + "eta_time": 4.710224863710227, + "step": 6412 + }, + { + "epoch": 0.6840533333333333, + "grad_norm": 1.6597071132441592, + "learning_rate": 2.397493341493448e-06, + "loss": 0.4386, + "step": 6413 + }, + { + "avg_step_time": 5.757908715142144, + "epoch": 0.6840533333333333, + "eta_time": 4.737479337291953, + "step": 6413 + }, + { + "epoch": 0.68416, + "grad_norm": 1.598031043753734, + "learning_rate": 2.396018470457821e-06, + "loss": 0.3438, + "step": 6414 + }, + { + "avg_step_time": 5.788732892335063, + "epoch": 0.68416, + "eta_time": 4.761232803945589, + "step": 6414 + }, + { + "epoch": 0.6842666666666667, + "grad_norm": 2.0453000891334834, + "learning_rate": 2.3945439102524306e-06, + "loss": 0.5398, + "step": 6415 + }, + { + "avg_step_time": 5.802670223544342, + "epoch": 0.6842666666666667, + "eta_time": 4.771084406025348, + "step": 6415 + }, + { + "epoch": 0.6843733333333333, + "grad_norm": 0.6438924371608267, + "learning_rate": 2.3930696610532915e-06, + "loss": 0.4618, + "step": 6416 + }, + { + "avg_step_time": 5.768297643372507, + "epoch": 0.6843733333333333, + "eta_time": 4.741220201872013, + "step": 6416 + }, + { + "epoch": 0.68448, + "grad_norm": 1.9963058384519532, + "learning_rate": 2.3915957230363783e-06, + "loss": 0.4191, + "step": 6417 + }, + { + "avg_step_time": 5.769946050162267, + "epoch": 0.68448, + "eta_time": 4.7409723378833295, + "step": 6417 + }, + { + "epoch": 0.6845866666666667, + "grad_norm": 1.7749200823155054, + "learning_rate": 2.3901220963776343e-06, + "loss": 0.5356, + "step": 6418 + }, + { + "avg_step_time": 5.832782687562885, + "epoch": 0.6845866666666667, + "eta_time": 4.7909828908676255, + "step": 6418 + }, + { + "epoch": 0.6846933333333334, + "grad_norm": 2.125979873003792, + "learning_rate": 2.388648781252959e-06, + "loss": 0.5132, + "step": 6419 + }, + { + "avg_step_time": 5.827829406719015, + "epoch": 0.6846933333333334, + "eta_time": 4.785295479517059, + "step": 6419 + }, + { + "epoch": 0.6848, + "grad_norm": 1.893358869232077, + "learning_rate": 2.3871757778382216e-06, + "loss": 0.5212, + "step": 6420 + }, + { + "avg_step_time": 5.806547877764461, + "epoch": 0.6848, + "eta_time": 4.7662080496649954, + "step": 6420 + }, + { + "epoch": 0.6849066666666667, + "grad_norm": 1.7686281248850684, + "learning_rate": 2.385703086309247e-06, + "loss": 0.5353, + "step": 6421 + }, + { + "avg_step_time": 5.796750952499082, + "epoch": 0.6849066666666667, + "eta_time": 4.75655619824508, + "step": 6421 + }, + { + "epoch": 0.6850133333333334, + "grad_norm": 0.6166411099194234, + "learning_rate": 2.384230706841829e-06, + "loss": 0.4404, + "step": 6422 + }, + { + "avg_step_time": 5.761655535360779, + "epoch": 0.6850133333333334, + "eta_time": 4.726157998866772, + "step": 6422 + }, + { + "epoch": 0.68512, + "grad_norm": 1.9200448086769926, + "learning_rate": 2.3827586396117207e-06, + "loss": 0.462, + "step": 6423 + }, + { + "avg_step_time": 5.770246366057733, + "epoch": 0.68512, + "eta_time": 4.731602020167341, + "step": 6423 + }, + { + "epoch": 0.6852266666666667, + "grad_norm": 2.2375382499096275, + "learning_rate": 2.3812868847946357e-06, + "loss": 0.5209, + "step": 6424 + }, + { + "avg_step_time": 5.767636402688845, + "epoch": 0.6852266666666667, + "eta_time": 4.727859728981884, + "step": 6424 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 1.5887441265470679, + "learning_rate": 2.3798154425662597e-06, + "loss": 0.4384, + "step": 6425 + }, + { + "avg_step_time": 5.7683612529677575, + "epoch": 0.6853333333333333, + "eta_time": 4.7268515822930235, + "step": 6425 + }, + { + "epoch": 0.68544, + "grad_norm": 1.8043683828544594, + "learning_rate": 2.378344313102231e-06, + "loss": 0.5421, + "step": 6426 + }, + { + "avg_step_time": 5.802188049663197, + "epoch": 0.68544, + "eta_time": 4.7529590440157685, + "step": 6426 + }, + { + "epoch": 0.6855466666666666, + "grad_norm": 1.6327366783629296, + "learning_rate": 2.376873496578153e-06, + "loss": 0.4109, + "step": 6427 + }, + { + "avg_step_time": 5.805264964248195, + "epoch": 0.6855466666666666, + "eta_time": 4.7538669762787995, + "step": 6427 + }, + { + "epoch": 0.6856533333333333, + "grad_norm": 1.7446883487955385, + "learning_rate": 2.3754029931695954e-06, + "loss": 0.3713, + "step": 6428 + }, + { + "avg_step_time": 5.80495562457075, + "epoch": 0.6856533333333333, + "eta_time": 4.752001173780555, + "step": 6428 + }, + { + "epoch": 0.68576, + "grad_norm": 2.0757297842798303, + "learning_rate": 2.373932803052089e-06, + "loss": 0.5049, + "step": 6429 + }, + { + "avg_step_time": 5.807926081647777, + "epoch": 0.68576, + "eta_time": 4.752819510148431, + "step": 6429 + }, + { + "epoch": 0.6858666666666666, + "grad_norm": 1.6537487374183288, + "learning_rate": 2.372462926401124e-06, + "loss": 0.4299, + "step": 6430 + }, + { + "avg_step_time": 5.8089615624360365, + "epoch": 0.6858666666666666, + "eta_time": 4.7520532781594795, + "step": 6430 + }, + { + "epoch": 0.6859733333333333, + "grad_norm": 1.8360400613955405, + "learning_rate": 2.3709933633921576e-06, + "loss": 0.4622, + "step": 6431 + }, + { + "avg_step_time": 5.819474562250003, + "epoch": 0.6859733333333333, + "eta_time": 4.759036975351114, + "step": 6431 + }, + { + "epoch": 0.68608, + "grad_norm": 0.6527780821206771, + "learning_rate": 2.369524114200607e-06, + "loss": 0.4634, + "step": 6432 + }, + { + "avg_step_time": 5.784038242667612, + "epoch": 0.68608, + "eta_time": 4.728451263380773, + "step": 6432 + }, + { + "epoch": 0.6861866666666666, + "grad_norm": 0.6329418268653499, + "learning_rate": 2.3680551790018507e-06, + "loss": 0.4481, + "step": 6433 + }, + { + "avg_step_time": 5.748810411703707, + "epoch": 0.6861866666666666, + "eta_time": 4.698055619786753, + "step": 6433 + }, + { + "epoch": 0.6862933333333333, + "grad_norm": 2.024622264961072, + "learning_rate": 2.3665865579712327e-06, + "loss": 0.5355, + "step": 6434 + }, + { + "avg_step_time": 5.7785197339876735, + "epoch": 0.6862933333333333, + "eta_time": 4.720729593793819, + "step": 6434 + }, + { + "epoch": 0.6864, + "grad_norm": 2.0243010003289976, + "learning_rate": 2.3651182512840604e-06, + "loss": 0.4464, + "step": 6435 + }, + { + "avg_step_time": 5.815505504608154, + "epoch": 0.6864, + "eta_time": 4.7493294954299925, + "step": 6435 + }, + { + "epoch": 0.6865066666666667, + "grad_norm": 1.8823075035624286, + "learning_rate": 2.363650259115598e-06, + "loss": 0.4059, + "step": 6436 + }, + { + "avg_step_time": 5.814601751288983, + "epoch": 0.6865066666666667, + "eta_time": 4.7469762630662, + "step": 6436 + }, + { + "epoch": 0.6866133333333333, + "grad_norm": 1.7916813888308665, + "learning_rate": 2.3621825816410797e-06, + "loss": 0.5433, + "step": 6437 + }, + { + "avg_step_time": 5.7837708502104785, + "epoch": 0.6866133333333333, + "eta_time": 4.720199654977329, + "step": 6437 + }, + { + "epoch": 0.68672, + "grad_norm": 1.9990815673017206, + "learning_rate": 2.360715219035694e-06, + "loss": 0.5058, + "step": 6438 + }, + { + "avg_step_time": 5.782872089231857, + "epoch": 0.68672, + "eta_time": 4.717859812798324, + "step": 6438 + }, + { + "epoch": 0.6868266666666667, + "grad_norm": 1.9350756646038278, + "learning_rate": 2.3592481714745995e-06, + "loss": 0.5596, + "step": 6439 + }, + { + "avg_step_time": 5.780354225274288, + "epoch": 0.6868266666666667, + "eta_time": 4.714200001501475, + "step": 6439 + }, + { + "epoch": 0.6869333333333333, + "grad_norm": 1.8700815499640484, + "learning_rate": 2.357781439132911e-06, + "loss": 0.5077, + "step": 6440 + }, + { + "avg_step_time": 5.78269163285843, + "epoch": 0.6869333333333333, + "eta_time": 4.7144999840109705, + "step": 6440 + }, + { + "epoch": 0.68704, + "grad_norm": 2.1945645104995006, + "learning_rate": 2.356315022185712e-06, + "loss": 0.477, + "step": 6441 + }, + { + "avg_step_time": 5.786958443998087, + "epoch": 0.68704, + "eta_time": 4.716371131858441, + "step": 6441 + }, + { + "epoch": 0.6871466666666667, + "grad_norm": 0.6564646084357962, + "learning_rate": 2.3548489208080392e-06, + "loss": 0.4133, + "step": 6442 + }, + { + "avg_step_time": 5.754424957313923, + "epoch": 0.6871466666666667, + "eta_time": 4.688257888833815, + "step": 6442 + }, + { + "epoch": 0.6872533333333334, + "grad_norm": 1.6422523931546327, + "learning_rate": 2.353383135174901e-06, + "loss": 0.5015, + "step": 6443 + }, + { + "avg_step_time": 5.739462057749431, + "epoch": 0.6872533333333334, + "eta_time": 4.674472987033703, + "step": 6443 + }, + { + "epoch": 0.68736, + "grad_norm": 1.8133970262051995, + "learning_rate": 2.3519176654612657e-06, + "loss": 0.4517, + "step": 6444 + }, + { + "avg_step_time": 5.738196288696443, + "epoch": 0.68736, + "eta_time": 4.67184814504702, + "step": 6444 + }, + { + "epoch": 0.6874666666666667, + "grad_norm": 1.8027114568771365, + "learning_rate": 2.35045251184206e-06, + "loss": 0.4107, + "step": 6445 + }, + { + "avg_step_time": 5.74292565837051, + "epoch": 0.6874666666666667, + "eta_time": 4.674103383062665, + "step": 6445 + }, + { + "epoch": 0.6875733333333334, + "grad_norm": 2.119557568204543, + "learning_rate": 2.3489876744921743e-06, + "loss": 0.4509, + "step": 6446 + }, + { + "avg_step_time": 5.7429738213317565, + "epoch": 0.6875733333333334, + "eta_time": 4.672547311855754, + "step": 6446 + }, + { + "epoch": 0.68768, + "grad_norm": 1.7465494227110732, + "learning_rate": 2.3475231535864653e-06, + "loss": 0.523, + "step": 6447 + }, + { + "avg_step_time": 5.741416146056821, + "epoch": 0.68768, + "eta_time": 4.669685132126215, + "step": 6447 + }, + { + "epoch": 0.6877866666666667, + "grad_norm": 1.750209383127939, + "learning_rate": 2.346058949299745e-06, + "loss": 0.5193, + "step": 6448 + }, + { + "avg_step_time": 5.737112093453455, + "epoch": 0.6877866666666667, + "eta_time": 4.664590860427295, + "step": 6448 + }, + { + "epoch": 0.6878933333333334, + "grad_norm": 1.8213939277638016, + "learning_rate": 2.3445950618067935e-06, + "loss": 0.4371, + "step": 6449 + }, + { + "avg_step_time": 5.735820835286921, + "epoch": 0.6878933333333334, + "eta_time": 4.661947712235981, + "step": 6449 + }, + { + "epoch": 0.688, + "grad_norm": 1.9466224293534593, + "learning_rate": 2.3431314912823543e-06, + "loss": 0.4449, + "step": 6450 + }, + { + "avg_step_time": 5.730865355693933, + "epoch": 0.688, + "eta_time": 4.6563281015013205, + "step": 6450 + }, + { + "epoch": 0.6881066666666666, + "grad_norm": 1.9336338961420096, + "learning_rate": 2.3416682379011264e-06, + "loss": 0.4733, + "step": 6451 + }, + { + "avg_step_time": 5.732226410297432, + "epoch": 0.6881066666666666, + "eta_time": 4.655841673252692, + "step": 6451 + }, + { + "epoch": 0.6882133333333333, + "grad_norm": 2.006086035730382, + "learning_rate": 2.340205301837773e-06, + "loss": 0.5585, + "step": 6452 + }, + { + "avg_step_time": 5.7689725485715, + "epoch": 0.6882133333333333, + "eta_time": 4.684085210965137, + "step": 6452 + }, + { + "epoch": 0.68832, + "grad_norm": 2.27763072002771, + "learning_rate": 2.338742683266923e-06, + "loss": 0.5634, + "step": 6453 + }, + { + "avg_step_time": 5.765752122859762, + "epoch": 0.68832, + "eta_time": 4.679868806387841, + "step": 6453 + }, + { + "epoch": 0.6884266666666666, + "grad_norm": 1.7474246343112148, + "learning_rate": 2.337280382363166e-06, + "loss": 0.4742, + "step": 6454 + }, + { + "avg_step_time": 5.765634630665635, + "epoch": 0.6884266666666666, + "eta_time": 4.678171876715089, + "step": 6454 + }, + { + "epoch": 0.6885333333333333, + "grad_norm": 1.9291297806682492, + "learning_rate": 2.3358183993010513e-06, + "loss": 0.5179, + "step": 6455 + }, + { + "avg_step_time": 5.713300921700218, + "epoch": 0.6885333333333333, + "eta_time": 4.6341218587123985, + "step": 6455 + }, + { + "epoch": 0.68864, + "grad_norm": 1.8256056990792073, + "learning_rate": 2.3343567342550933e-06, + "loss": 0.3931, + "step": 6456 + }, + { + "avg_step_time": 5.71004647919626, + "epoch": 0.68864, + "eta_time": 4.629896020214968, + "step": 6456 + }, + { + "epoch": 0.6887466666666666, + "grad_norm": 1.9835808879754275, + "learning_rate": 2.3328953873997666e-06, + "loss": 0.5592, + "step": 6457 + }, + { + "avg_step_time": 5.692354809154164, + "epoch": 0.6887466666666666, + "eta_time": 4.6139698147532915, + "step": 6457 + }, + { + "epoch": 0.6888533333333333, + "grad_norm": 1.7026732504219106, + "learning_rate": 2.331434358909504e-06, + "loss": 0.466, + "step": 6458 + }, + { + "avg_step_time": 5.691455614687216, + "epoch": 0.6888533333333333, + "eta_time": 4.611660007789614, + "step": 6458 + }, + { + "epoch": 0.68896, + "grad_norm": 2.1528978221895945, + "learning_rate": 2.329973648958712e-06, + "loss": 0.5061, + "step": 6459 + }, + { + "avg_step_time": 5.653238335041085, + "epoch": 0.68896, + "eta_time": 4.579123051383278, + "step": 6459 + }, + { + "epoch": 0.6890666666666667, + "grad_norm": 1.6771956076106276, + "learning_rate": 2.328513257721748e-06, + "loss": 0.4189, + "step": 6460 + }, + { + "avg_step_time": 5.6496529868154814, + "epoch": 0.6890666666666667, + "eta_time": 4.574649571268647, + "step": 6460 + }, + { + "epoch": 0.6891733333333333, + "grad_norm": 1.8436109647476608, + "learning_rate": 2.327053185372933e-06, + "loss": 0.4959, + "step": 6461 + }, + { + "avg_step_time": 5.636849518978234, + "epoch": 0.6891733333333333, + "eta_time": 4.562716527306271, + "step": 6461 + }, + { + "epoch": 0.68928, + "grad_norm": 1.9876323828246942, + "learning_rate": 2.3255934320865555e-06, + "loss": 0.5766, + "step": 6462 + }, + { + "avg_step_time": 5.635980160549433, + "epoch": 0.68928, + "eta_time": 4.56044727991125, + "step": 6462 + }, + { + "epoch": 0.6893866666666667, + "grad_norm": 1.7662550644735497, + "learning_rate": 2.3241339980368584e-06, + "loss": 0.4273, + "step": 6463 + }, + { + "avg_step_time": 5.64204132195675, + "epoch": 0.6893866666666667, + "eta_time": 4.563784535982793, + "step": 6463 + }, + { + "epoch": 0.6894933333333333, + "grad_norm": 1.7429873440561447, + "learning_rate": 2.322674883398053e-06, + "loss": 0.4511, + "step": 6464 + }, + { + "avg_step_time": 5.693917276883366, + "epoch": 0.6894933333333333, + "eta_time": 4.604164775835411, + "step": 6464 + }, + { + "epoch": 0.6896, + "grad_norm": 1.9738037480311912, + "learning_rate": 2.3212160883443107e-06, + "loss": 0.5099, + "step": 6465 + }, + { + "avg_step_time": 5.735164731439918, + "epoch": 0.6896, + "eta_time": 4.6359248245806, + "step": 6465 + }, + { + "epoch": 0.6897066666666667, + "grad_norm": 1.832759413209211, + "learning_rate": 2.319757613049763e-06, + "loss": 0.5067, + "step": 6466 + }, + { + "avg_step_time": 5.777426093515723, + "epoch": 0.6897066666666667, + "eta_time": 4.668481251677011, + "step": 6466 + }, + { + "epoch": 0.6898133333333333, + "grad_norm": 1.877313778763918, + "learning_rate": 2.318299457688502e-06, + "loss": 0.463, + "step": 6467 + }, + { + "avg_step_time": 5.776795994151723, + "epoch": 0.6898133333333333, + "eta_time": 4.666367430831447, + "step": 6467 + }, + { + "epoch": 0.68992, + "grad_norm": 2.1369723215197163, + "learning_rate": 2.316841622434585e-06, + "loss": 0.5814, + "step": 6468 + }, + { + "avg_step_time": 5.778885976232663, + "epoch": 0.68992, + "eta_time": 4.666450425807875, + "step": 6468 + }, + { + "epoch": 0.6900266666666667, + "grad_norm": 1.878532243557994, + "learning_rate": 2.315384107462033e-06, + "loss": 0.4887, + "step": 6469 + }, + { + "avg_step_time": 5.777588184433754, + "epoch": 0.6900266666666667, + "eta_time": 4.663797573323469, + "step": 6469 + }, + { + "epoch": 0.6901333333333334, + "grad_norm": 1.7201921204360204, + "learning_rate": 2.313926912944821e-06, + "loss": 0.4433, + "step": 6470 + }, + { + "avg_step_time": 5.782463745637373, + "epoch": 0.6901333333333334, + "eta_time": 4.666126994743491, + "step": 6470 + }, + { + "epoch": 0.69024, + "grad_norm": 0.6567795510523349, + "learning_rate": 2.3124700390568945e-06, + "loss": 0.4341, + "step": 6471 + }, + { + "avg_step_time": 5.747218408969918, + "epoch": 0.69024, + "eta_time": 4.636089516569067, + "step": 6471 + }, + { + "epoch": 0.6903466666666667, + "grad_norm": 1.9730545265412893, + "learning_rate": 2.311013485972152e-06, + "loss": 0.4377, + "step": 6472 + }, + { + "avg_step_time": 5.86310143181772, + "epoch": 0.6903466666666667, + "eta_time": 4.7279398490463445, + "step": 6472 + }, + { + "epoch": 0.6904533333333334, + "grad_norm": 1.5933966184341217, + "learning_rate": 2.309557253864463e-06, + "loss": 0.5309, + "step": 6473 + }, + { + "avg_step_time": 5.859336920458861, + "epoch": 0.6904533333333334, + "eta_time": 4.723276595325448, + "step": 6473 + }, + { + "epoch": 0.69056, + "grad_norm": 1.577948547050819, + "learning_rate": 2.30810134290765e-06, + "loss": 0.4188, + "step": 6474 + }, + { + "avg_step_time": 5.857640781787911, + "epoch": 0.69056, + "eta_time": 4.720282196657425, + "step": 6474 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 2.1695579573907597, + "learning_rate": 2.306645753275504e-06, + "loss": 0.5579, + "step": 6475 + }, + { + "avg_step_time": 5.856255637274848, + "epoch": 0.6906666666666667, + "eta_time": 4.717539263360294, + "step": 6475 + }, + { + "epoch": 0.6907733333333334, + "grad_norm": 1.8323120232985637, + "learning_rate": 2.305190485141775e-06, + "loss": 0.4475, + "step": 6476 + }, + { + "avg_step_time": 5.85204318075469, + "epoch": 0.6907733333333334, + "eta_time": 4.712520328057735, + "step": 6476 + }, + { + "epoch": 0.69088, + "grad_norm": 0.6643643699473306, + "learning_rate": 2.3037355386801683e-06, + "loss": 0.4442, + "step": 6477 + }, + { + "avg_step_time": 5.816831111907959, + "epoch": 0.69088, + "eta_time": 4.682549045085907, + "step": 6477 + }, + { + "epoch": 0.6909866666666666, + "grad_norm": 1.921724725964239, + "learning_rate": 2.3022809140643664e-06, + "loss": 0.4678, + "step": 6478 + }, + { + "avg_step_time": 5.817936979158961, + "epoch": 0.6909866666666666, + "eta_time": 4.681823174617641, + "step": 6478 + }, + { + "epoch": 0.6910933333333333, + "grad_norm": 1.632658383690424, + "learning_rate": 2.300826611467999e-06, + "loss": 0.4857, + "step": 6479 + }, + { + "avg_step_time": 5.808156579431861, + "epoch": 0.6910933333333333, + "eta_time": 4.672339292787409, + "step": 6479 + }, + { + "epoch": 0.6912, + "grad_norm": 0.6755446057798303, + "learning_rate": 2.2993726310646603e-06, + "loss": 0.4375, + "step": 6480 + }, + { + "avg_step_time": 5.746505465170349, + "epoch": 0.6912, + "eta_time": 4.621148144907822, + "step": 6480 + }, + { + "epoch": 0.6913066666666666, + "grad_norm": 1.7705679988656093, + "learning_rate": 2.297918973027913e-06, + "loss": 0.5311, + "step": 6481 + }, + { + "avg_step_time": 5.751905573738946, + "epoch": 0.6913066666666666, + "eta_time": 4.623892980666809, + "step": 6481 + }, + { + "epoch": 0.6914133333333333, + "grad_norm": 1.9720171775902229, + "learning_rate": 2.296465637531271e-06, + "loss": 0.4338, + "step": 6482 + }, + { + "avg_step_time": 5.728874507576529, + "epoch": 0.6914133333333333, + "eta_time": 4.603787208449694, + "step": 6482 + }, + { + "epoch": 0.69152, + "grad_norm": 1.8808696910846554, + "learning_rate": 2.2950126247482178e-06, + "loss": 0.479, + "step": 6483 + }, + { + "avg_step_time": 5.7308488614631425, + "epoch": 0.69152, + "eta_time": 4.603781918708725, + "step": 6483 + }, + { + "epoch": 0.6916266666666666, + "grad_norm": 1.8647890202529747, + "learning_rate": 2.2935599348521974e-06, + "loss": 0.5738, + "step": 6484 + }, + { + "avg_step_time": 5.732087091966108, + "epoch": 0.6916266666666666, + "eta_time": 4.603184384131672, + "step": 6484 + }, + { + "epoch": 0.6917333333333333, + "grad_norm": 1.7605279217926597, + "learning_rate": 2.2921075680166116e-06, + "loss": 0.3504, + "step": 6485 + }, + { + "avg_step_time": 5.771471526887682, + "epoch": 0.6917333333333333, + "eta_time": 4.633209086862611, + "step": 6485 + }, + { + "epoch": 0.69184, + "grad_norm": 0.6559639622116038, + "learning_rate": 2.2906555244148233e-06, + "loss": 0.4579, + "step": 6486 + }, + { + "avg_step_time": 5.764735506038473, + "epoch": 0.69184, + "eta_time": 4.626200243595875, + "step": 6486 + }, + { + "epoch": 0.6919466666666667, + "grad_norm": 1.5758473379847489, + "learning_rate": 2.2892038042201615e-06, + "loss": 0.4189, + "step": 6487 + }, + { + "avg_step_time": 5.764718725223734, + "epoch": 0.6919466666666667, + "eta_time": 4.62458546623504, + "step": 6487 + }, + { + "epoch": 0.6920533333333333, + "grad_norm": 2.008525087437119, + "learning_rate": 2.2877524076059155e-06, + "loss": 0.4722, + "step": 6488 + }, + { + "avg_step_time": 5.7558965971975615, + "epoch": 0.6920533333333333, + "eta_time": 4.6159092989192665, + "step": 6488 + }, + { + "epoch": 0.69216, + "grad_norm": 1.764086419020775, + "learning_rate": 2.2863013347453305e-06, + "loss": 0.3741, + "step": 6489 + }, + { + "avg_step_time": 5.7513284635062165, + "epoch": 0.69216, + "eta_time": 4.61064831824415, + "step": 6489 + }, + { + "epoch": 0.6922666666666667, + "grad_norm": 0.6403627640166438, + "learning_rate": 2.2848505858116216e-06, + "loss": 0.4263, + "step": 6490 + }, + { + "avg_step_time": 5.713259684919107, + "epoch": 0.6922666666666667, + "eta_time": 4.578542830831007, + "step": 6490 + }, + { + "epoch": 0.6923733333333333, + "grad_norm": 2.074714818613465, + "learning_rate": 2.283400160977959e-06, + "loss": 0.4974, + "step": 6491 + }, + { + "avg_step_time": 5.716462376141789, + "epoch": 0.6923733333333333, + "eta_time": 4.579521525775811, + "step": 6491 + }, + { + "epoch": 0.69248, + "grad_norm": 2.499075279962371, + "learning_rate": 2.2819500604174733e-06, + "loss": 0.4865, + "step": 6492 + }, + { + "avg_step_time": 5.7204399060721345, + "epoch": 0.69248, + "eta_time": 4.581118958112768, + "step": 6492 + }, + { + "epoch": 0.6925866666666667, + "grad_norm": 2.143513699134013, + "learning_rate": 2.280500284303262e-06, + "loss": 0.4658, + "step": 6493 + }, + { + "avg_step_time": 5.707384309383354, + "epoch": 0.6925866666666667, + "eta_time": 4.569078216567452, + "step": 6493 + }, + { + "epoch": 0.6926933333333334, + "grad_norm": 1.7374835113123837, + "learning_rate": 2.2790508328083823e-06, + "loss": 0.43, + "step": 6494 + }, + { + "avg_step_time": 5.705347215286409, + "epoch": 0.6926933333333334, + "eta_time": 4.56586259090004, + "step": 6494 + }, + { + "epoch": 0.6928, + "grad_norm": 1.838308025567713, + "learning_rate": 2.277601706105847e-06, + "loss": 0.4565, + "step": 6495 + }, + { + "avg_step_time": 5.657850441306528, + "epoch": 0.6928, + "eta_time": 4.526280353045222, + "step": 6495 + }, + { + "epoch": 0.6929066666666667, + "grad_norm": 1.7814917550303526, + "learning_rate": 2.2761529043686386e-06, + "loss": 0.4944, + "step": 6496 + }, + { + "avg_step_time": 5.662687128240412, + "epoch": 0.6929066666666667, + "eta_time": 4.528576733945597, + "step": 6496 + }, + { + "epoch": 0.6930133333333334, + "grad_norm": 1.7979768131159353, + "learning_rate": 2.2747044277696934e-06, + "loss": 0.5003, + "step": 6497 + }, + { + "avg_step_time": 5.697440821715076, + "epoch": 0.6930133333333334, + "eta_time": 4.554787412471108, + "step": 6497 + }, + { + "epoch": 0.69312, + "grad_norm": 2.3660336937180513, + "learning_rate": 2.2732562764819157e-06, + "loss": 0.5502, + "step": 6498 + }, + { + "avg_step_time": 5.729865570261021, + "epoch": 0.69312, + "eta_time": 4.579117568233599, + "step": 6498 + }, + { + "epoch": 0.6932266666666667, + "grad_norm": 1.8741150590956681, + "learning_rate": 2.271808450678163e-06, + "loss": 0.4775, + "step": 6499 + }, + { + "avg_step_time": 5.746481982144442, + "epoch": 0.6932266666666667, + "eta_time": 4.590800605735393, + "step": 6499 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 1.6989177643775613, + "learning_rate": 2.2703609505312628e-06, + "loss": 0.46, + "step": 6500 + }, + { + "avg_step_time": 5.745787772265348, + "epoch": 0.6933333333333334, + "eta_time": 4.5886499570174655, + "step": 6500 + }, + { + "epoch": 0.69344, + "grad_norm": 1.8342854643806652, + "learning_rate": 2.2689137762139952e-06, + "loss": 0.4913, + "step": 6501 + }, + { + "avg_step_time": 5.719196155817822, + "epoch": 0.69344, + "eta_time": 4.565824931061227, + "step": 6501 + }, + { + "epoch": 0.6935466666666666, + "grad_norm": 1.9003811003165862, + "learning_rate": 2.2674669278991076e-06, + "loss": 0.436, + "step": 6502 + }, + { + "avg_step_time": 5.728447557699801, + "epoch": 0.6935466666666666, + "eta_time": 4.57161939813098, + "step": 6502 + }, + { + "epoch": 0.6936533333333333, + "grad_norm": 1.5033546542239762, + "learning_rate": 2.2660204057593076e-06, + "loss": 0.3691, + "step": 6503 + }, + { + "avg_step_time": 5.728152484604807, + "epoch": 0.6936533333333333, + "eta_time": 4.569792759940279, + "step": 6503 + }, + { + "epoch": 0.69376, + "grad_norm": 1.9191487771430278, + "learning_rate": 2.264574209967262e-06, + "loss": 0.5469, + "step": 6504 + }, + { + "avg_step_time": 5.729060897923479, + "epoch": 0.69376, + "eta_time": 4.568926066093975, + "step": 6504 + }, + { + "epoch": 0.6938666666666666, + "grad_norm": 2.0126113552916354, + "learning_rate": 2.263128340695596e-06, + "loss": 0.4885, + "step": 6505 + }, + { + "avg_step_time": 5.731899129019843, + "epoch": 0.6938666666666666, + "eta_time": 4.569597361190819, + "step": 6505 + }, + { + "epoch": 0.6939733333333333, + "grad_norm": 2.005895741705384, + "learning_rate": 2.2616827981169036e-06, + "loss": 0.4899, + "step": 6506 + }, + { + "avg_step_time": 5.671274635526869, + "epoch": 0.6939733333333333, + "eta_time": 4.51969081370183, + "step": 6506 + }, + { + "epoch": 0.69408, + "grad_norm": 1.7520544822360022, + "learning_rate": 2.260237582403732e-06, + "loss": 0.5144, + "step": 6507 + }, + { + "avg_step_time": 5.674554559919569, + "epoch": 0.69408, + "eta_time": 4.520728466069256, + "step": 6507 + }, + { + "epoch": 0.6941866666666666, + "grad_norm": 2.091456573534621, + "learning_rate": 2.2587926937285935e-06, + "loss": 0.5303, + "step": 6508 + }, + { + "avg_step_time": 5.669934200518059, + "epoch": 0.6941866666666666, + "eta_time": 4.515472598023687, + "step": 6508 + }, + { + "epoch": 0.6942933333333333, + "grad_norm": 2.162185161176266, + "learning_rate": 2.2573481322639635e-06, + "loss": 0.496, + "step": 6509 + }, + { + "avg_step_time": 5.716932400308474, + "epoch": 0.6942933333333333, + "eta_time": 4.551313405356691, + "step": 6509 + }, + { + "epoch": 0.6944, + "grad_norm": 1.9381546817616915, + "learning_rate": 2.2559038981822724e-06, + "loss": 0.4832, + "step": 6510 + }, + { + "avg_step_time": 5.685585657755534, + "epoch": 0.6944, + "eta_time": 4.524778585963779, + "step": 6510 + }, + { + "epoch": 0.6945066666666667, + "grad_norm": 1.6585962228943336, + "learning_rate": 2.2544599916559135e-06, + "loss": 0.4768, + "step": 6511 + }, + { + "avg_step_time": 5.723484395730375, + "epoch": 0.6945066666666667, + "eta_time": 4.553349808158832, + "step": 6511 + }, + { + "epoch": 0.6946133333333333, + "grad_norm": 1.5803326017247266, + "learning_rate": 2.253016412857244e-06, + "loss": 0.3858, + "step": 6512 + }, + { + "avg_step_time": 5.6845443417327575, + "epoch": 0.6946133333333333, + "eta_time": 4.520791791772468, + "step": 6512 + }, + { + "epoch": 0.69472, + "grad_norm": 1.537576274158537, + "learning_rate": 2.2515731619585814e-06, + "loss": 0.396, + "step": 6513 + }, + { + "avg_step_time": 5.688615938629767, + "epoch": 0.69472, + "eta_time": 4.522449671210665, + "step": 6513 + }, + { + "epoch": 0.6948266666666667, + "grad_norm": 1.9351012497341968, + "learning_rate": 2.2501302391321985e-06, + "loss": 0.5167, + "step": 6514 + }, + { + "avg_step_time": 5.675404100707083, + "epoch": 0.6948266666666667, + "eta_time": 4.510369758923046, + "step": 6514 + }, + { + "epoch": 0.6949333333333333, + "grad_norm": 2.0602432274160845, + "learning_rate": 2.2486876445503375e-06, + "loss": 0.5187, + "step": 6515 + }, + { + "avg_step_time": 5.708898387774073, + "epoch": 0.6949333333333333, + "eta_time": 4.535402608064958, + "step": 6515 + }, + { + "epoch": 0.69504, + "grad_norm": 2.439972814410065, + "learning_rate": 2.247245378385195e-06, + "loss": 0.4831, + "step": 6516 + }, + { + "avg_step_time": 5.710115512212117, + "epoch": 0.69504, + "eta_time": 4.5347834026151235, + "step": 6516 + }, + { + "epoch": 0.6951466666666667, + "grad_norm": 4.378123421311369, + "learning_rate": 2.245803440808927e-06, + "loss": 0.5202, + "step": 6517 + }, + { + "avg_step_time": 5.64169331271239, + "epoch": 0.6951466666666667, + "eta_time": 4.478877635481114, + "step": 6517 + }, + { + "epoch": 0.6952533333333333, + "grad_norm": 2.2831553638285493, + "learning_rate": 2.2443618319936605e-06, + "loss": 0.4921, + "step": 6518 + }, + { + "avg_step_time": 5.680157396528456, + "epoch": 0.6952533333333333, + "eta_time": 4.507836022744944, + "step": 6518 + }, + { + "epoch": 0.69536, + "grad_norm": 0.656268240142034, + "learning_rate": 2.242920552111473e-06, + "loss": 0.4237, + "step": 6519 + }, + { + "avg_step_time": 5.644938201615305, + "epoch": 0.69536, + "eta_time": 4.478317639948142, + "step": 6519 + }, + { + "epoch": 0.6954666666666667, + "grad_norm": 2.0621930391630654, + "learning_rate": 2.2414796013344053e-06, + "loss": 0.4923, + "step": 6520 + }, + { + "avg_step_time": 5.664706088075734, + "epoch": 0.6954666666666667, + "eta_time": 4.492426633737839, + "step": 6520 + }, + { + "epoch": 0.6955733333333334, + "grad_norm": 1.8099381865076791, + "learning_rate": 2.2400389798344602e-06, + "loss": 0.4902, + "step": 6521 + }, + { + "avg_step_time": 5.6979283756679955, + "epoch": 0.6955733333333334, + "eta_time": 4.517190995599016, + "step": 6521 + }, + { + "epoch": 0.69568, + "grad_norm": 1.7962999437661504, + "learning_rate": 2.238598687783603e-06, + "loss": 0.4827, + "step": 6522 + }, + { + "avg_step_time": 5.721072933890603, + "epoch": 0.69568, + "eta_time": 4.533950300108303, + "step": 6522 + }, + { + "epoch": 0.6957866666666667, + "grad_norm": 0.6637456280027089, + "learning_rate": 2.2371587253537536e-06, + "loss": 0.4552, + "step": 6523 + }, + { + "avg_step_time": 5.686807772125861, + "epoch": 0.6957866666666667, + "eta_time": 4.505215490584154, + "step": 6523 + }, + { + "epoch": 0.6958933333333334, + "grad_norm": 2.1210442076139766, + "learning_rate": 2.235719092716801e-06, + "loss": 0.5308, + "step": 6524 + }, + { + "avg_step_time": 5.684900584847036, + "epoch": 0.6958933333333334, + "eta_time": 4.502125435388583, + "step": 6524 + }, + { + "epoch": 0.696, + "grad_norm": 1.7293634378908405, + "learning_rate": 2.234279790044588e-06, + "loss": 0.4257, + "step": 6525 + }, + { + "avg_step_time": 5.68572490865534, + "epoch": 0.696, + "eta_time": 4.501198886018811, + "step": 6525 + }, + { + "epoch": 0.6961066666666667, + "grad_norm": 1.847971906973162, + "learning_rate": 2.232840817508918e-06, + "loss": 0.4785, + "step": 6526 + }, + { + "avg_step_time": 5.687829742527971, + "epoch": 0.6961066666666667, + "eta_time": 4.501285260128387, + "step": 6526 + }, + { + "epoch": 0.6962133333333334, + "grad_norm": 2.0806085629012467, + "learning_rate": 2.2314021752815596e-06, + "loss": 0.4689, + "step": 6527 + }, + { + "avg_step_time": 5.689924644701408, + "epoch": 0.6962133333333334, + "eta_time": 4.501362607808225, + "step": 6527 + }, + { + "epoch": 0.69632, + "grad_norm": 1.734044452117933, + "learning_rate": 2.2299638635342408e-06, + "loss": 0.5427, + "step": 6528 + }, + { + "avg_step_time": 5.6931858977886165, + "epoch": 0.69632, + "eta_time": 4.502361180834497, + "step": 6528 + }, + { + "epoch": 0.6964266666666666, + "grad_norm": 1.604333988935474, + "learning_rate": 2.2285258824386487e-06, + "loss": 0.4719, + "step": 6529 + }, + { + "avg_step_time": 5.688869936297638, + "epoch": 0.6964266666666666, + "eta_time": 4.4973677329730775, + "step": 6529 + }, + { + "epoch": 0.6965333333333333, + "grad_norm": 1.7244651118901224, + "learning_rate": 2.227088232166427e-06, + "loss": 0.4971, + "step": 6530 + }, + { + "avg_step_time": 5.674108228298149, + "epoch": 0.6965333333333333, + "eta_time": 4.484121641530065, + "step": 6530 + }, + { + "epoch": 0.69664, + "grad_norm": 1.811620402283844, + "learning_rate": 2.225650912889188e-06, + "loss": 0.4944, + "step": 6531 + }, + { + "avg_step_time": 5.707677188545767, + "epoch": 0.69664, + "eta_time": 4.509064978951156, + "step": 6531 + }, + { + "epoch": 0.6967466666666666, + "grad_norm": 1.9103571979327736, + "learning_rate": 2.2242139247785016e-06, + "loss": 0.5748, + "step": 6532 + }, + { + "avg_step_time": 5.747785231079718, + "epoch": 0.6967466666666666, + "eta_time": 4.539153725544344, + "step": 6532 + }, + { + "epoch": 0.6968533333333333, + "grad_norm": 1.9319499554428343, + "learning_rate": 2.222777268005894e-06, + "loss": 0.4248, + "step": 6533 + }, + { + "avg_step_time": 5.719539904835249, + "epoch": 0.6968533333333333, + "eta_time": 4.5152590026504935, + "step": 6533 + }, + { + "epoch": 0.69696, + "grad_norm": 1.8457006028749878, + "learning_rate": 2.221340942742858e-06, + "loss": 0.4744, + "step": 6534 + }, + { + "avg_step_time": 5.717617511749268, + "epoch": 0.69696, + "eta_time": 4.512153153022131, + "step": 6534 + }, + { + "epoch": 0.6970666666666666, + "grad_norm": 2.148733906150638, + "learning_rate": 2.219904949160842e-06, + "loss": 0.4977, + "step": 6535 + }, + { + "avg_step_time": 5.719149418551512, + "epoch": 0.6970666666666666, + "eta_time": 4.511773430190638, + "step": 6535 + }, + { + "epoch": 0.6971733333333333, + "grad_norm": 1.8048583428676812, + "learning_rate": 2.2184692874312542e-06, + "loss": 0.4672, + "step": 6536 + }, + { + "avg_step_time": 5.721427693511501, + "epoch": 0.6971733333333333, + "eta_time": 4.511981450521986, + "step": 6536 + }, + { + "epoch": 0.69728, + "grad_norm": 0.6117124930757232, + "learning_rate": 2.2170339577254714e-06, + "loss": 0.462, + "step": 6537 + }, + { + "avg_step_time": 5.685609959592723, + "epoch": 0.69728, + "eta_time": 4.48215585147893, + "step": 6537 + }, + { + "epoch": 0.6973866666666667, + "grad_norm": 1.7599153030915884, + "learning_rate": 2.2155989602148224e-06, + "loss": 0.446, + "step": 6538 + }, + { + "avg_step_time": 5.683110704325666, + "epoch": 0.6973866666666667, + "eta_time": 4.478606963381088, + "step": 6538 + }, + { + "epoch": 0.6974933333333333, + "grad_norm": 2.2980047865076747, + "learning_rate": 2.2141642950705973e-06, + "loss": 0.4433, + "step": 6539 + }, + { + "avg_step_time": 5.683780479912806, + "epoch": 0.6974933333333333, + "eta_time": 4.477555955842422, + "step": 6539 + }, + { + "epoch": 0.6976, + "grad_norm": 1.7862528642566602, + "learning_rate": 2.212729962464051e-06, + "loss": 0.414, + "step": 6540 + }, + { + "avg_step_time": 5.6807587267172455, + "epoch": 0.6976, + "eta_time": 4.4735974972898305, + "step": 6540 + }, + { + "epoch": 0.6977066666666667, + "grad_norm": 1.901876347931697, + "learning_rate": 2.2112959625663926e-06, + "loss": 0.4593, + "step": 6541 + }, + { + "avg_step_time": 5.712097213725851, + "epoch": 0.6977066666666667, + "eta_time": 4.496689862138629, + "step": 6541 + }, + { + "epoch": 0.6978133333333333, + "grad_norm": 1.6369866702816005, + "learning_rate": 2.209862295548797e-06, + "loss": 0.492, + "step": 6542 + }, + { + "avg_step_time": 5.714258509452897, + "epoch": 0.6978133333333333, + "eta_time": 4.496803988133349, + "step": 6542 + }, + { + "epoch": 0.69792, + "grad_norm": 1.7257811012172648, + "learning_rate": 2.208428961582399e-06, + "loss": 0.4261, + "step": 6543 + }, + { + "avg_step_time": 5.7129742978799225, + "epoch": 0.69792, + "eta_time": 4.494206447665539, + "step": 6543 + }, + { + "epoch": 0.6980266666666667, + "grad_norm": 1.7579045037399206, + "learning_rate": 2.206995960838289e-06, + "loss": 0.4634, + "step": 6544 + }, + { + "avg_step_time": 5.807548944396202, + "epoch": 0.6980266666666667, + "eta_time": 4.566991961551569, + "step": 6544 + }, + { + "epoch": 0.6981333333333334, + "grad_norm": 1.7657828222024636, + "learning_rate": 2.2055632934875194e-06, + "loss": 0.4213, + "step": 6545 + }, + { + "avg_step_time": 5.807688045983363, + "epoch": 0.6981333333333334, + "eta_time": 4.565488102814699, + "step": 6545 + }, + { + "epoch": 0.69824, + "grad_norm": 1.9892643267541419, + "learning_rate": 2.2041309597011057e-06, + "loss": 0.5431, + "step": 6546 + }, + { + "avg_step_time": 5.831750713213526, + "epoch": 0.69824, + "eta_time": 4.582784102133629, + "step": 6546 + }, + { + "epoch": 0.6983466666666667, + "grad_norm": 0.652958422588148, + "learning_rate": 2.202698959650023e-06, + "loss": 0.4032, + "step": 6547 + }, + { + "avg_step_time": 5.806405354027796, + "epoch": 0.6983466666666667, + "eta_time": 4.5612539836640575, + "step": 6547 + }, + { + "epoch": 0.6984533333333334, + "grad_norm": 1.7475633148687144, + "learning_rate": 2.2012672935052025e-06, + "loss": 0.5312, + "step": 6548 + }, + { + "avg_step_time": 5.80649316431296, + "epoch": 0.6984533333333334, + "eta_time": 4.559710048753539, + "step": 6548 + }, + { + "epoch": 0.69856, + "grad_norm": 0.6750461343226405, + "learning_rate": 2.1998359614375412e-06, + "loss": 0.4307, + "step": 6549 + }, + { + "avg_step_time": 5.772467832372646, + "epoch": 0.69856, + "eta_time": 4.531387248412527, + "step": 6549 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 1.7383777048080586, + "learning_rate": 2.198404963617892e-06, + "loss": 0.4454, + "step": 6550 + }, + { + "avg_step_time": 5.773665396854131, + "epoch": 0.6986666666666667, + "eta_time": 4.530723540586922, + "step": 6550 + }, + { + "epoch": 0.6987733333333334, + "grad_norm": 1.7739477910825372, + "learning_rate": 2.196974300217067e-06, + "loss": 0.509, + "step": 6551 + }, + { + "avg_step_time": 5.774455658113114, + "epoch": 0.6987733333333334, + "eta_time": 4.52973966069762, + "step": 6551 + }, + { + "epoch": 0.69888, + "grad_norm": 0.6354301293167555, + "learning_rate": 2.1955439714058422e-06, + "loss": 0.4431, + "step": 6552 + }, + { + "avg_step_time": 5.739996235780041, + "epoch": 0.69888, + "eta_time": 4.501113714890849, + "step": 6552 + }, + { + "epoch": 0.6989866666666666, + "grad_norm": 1.6332218623428993, + "learning_rate": 2.194113977354955e-06, + "loss": 0.4364, + "step": 6553 + }, + { + "avg_step_time": 5.740761282468083, + "epoch": 0.6989866666666666, + "eta_time": 4.500118983090259, + "step": 6553 + }, + { + "epoch": 0.6990933333333333, + "grad_norm": 1.909623877739445, + "learning_rate": 2.1926843182350955e-06, + "loss": 0.478, + "step": 6554 + }, + { + "avg_step_time": 5.748577573082664, + "epoch": 0.6990933333333333, + "eta_time": 4.504649259351721, + "step": 6554 + }, + { + "epoch": 0.6992, + "grad_norm": 1.761100506598103, + "learning_rate": 2.191254994216922e-06, + "loss": 0.4053, + "step": 6555 + }, + { + "avg_step_time": 5.751119416169446, + "epoch": 0.6992, + "eta_time": 4.5050435426660655, + "step": 6555 + }, + { + "epoch": 0.6993066666666666, + "grad_norm": 1.7874774805687133, + "learning_rate": 2.189826005471045e-06, + "loss": 0.5237, + "step": 6556 + }, + { + "avg_step_time": 5.751791477203369, + "epoch": 0.6993066666666666, + "eta_time": 4.503972270621194, + "step": 6556 + }, + { + "epoch": 0.6994133333333333, + "grad_norm": 1.7776955614325087, + "learning_rate": 2.1883973521680435e-06, + "loss": 0.511, + "step": 6557 + }, + { + "avg_step_time": 5.767494102921149, + "epoch": 0.6994133333333333, + "eta_time": 4.514666217231055, + "step": 6557 + }, + { + "epoch": 0.69952, + "grad_norm": 1.851934132945336, + "learning_rate": 2.186969034478448e-06, + "loss": 0.5003, + "step": 6558 + }, + { + "avg_step_time": 5.766079972488711, + "epoch": 0.69952, + "eta_time": 4.511957578472416, + "step": 6558 + }, + { + "epoch": 0.6996266666666666, + "grad_norm": 1.8109498661344319, + "learning_rate": 2.1855410525727556e-06, + "loss": 0.4973, + "step": 6559 + }, + { + "avg_step_time": 5.769327322642009, + "epoch": 0.6996266666666666, + "eta_time": 4.512896039044415, + "step": 6559 + }, + { + "epoch": 0.6997333333333333, + "grad_norm": 0.6694217530742257, + "learning_rate": 2.1841134066214186e-06, + "loss": 0.4484, + "step": 6560 + }, + { + "avg_step_time": 5.735795863951095, + "epoch": 0.6997333333333333, + "eta_time": 4.485073710283981, + "step": 6560 + }, + { + "epoch": 0.69984, + "grad_norm": 1.6864125221242707, + "learning_rate": 2.182686096794852e-06, + "loss": 0.389, + "step": 6561 + }, + { + "avg_step_time": 5.735675115777989, + "epoch": 0.69984, + "eta_time": 4.483386048833127, + "step": 6561 + }, + { + "epoch": 0.6999466666666667, + "grad_norm": 1.8616172395998778, + "learning_rate": 2.181259123263432e-06, + "loss": 0.5179, + "step": 6562 + }, + { + "avg_step_time": 5.732345222222684, + "epoch": 0.6999466666666667, + "eta_time": 4.479190863920114, + "step": 6562 + }, + { + "epoch": 0.7000533333333333, + "grad_norm": 1.6697985892495215, + "learning_rate": 2.179832486197492e-06, + "loss": 0.493, + "step": 6563 + }, + { + "avg_step_time": 5.714166614744398, + "epoch": 0.7000533333333333, + "eta_time": 4.463399033517013, + "step": 6563 + }, + { + "epoch": 0.70016, + "grad_norm": 1.90909981543531, + "learning_rate": 2.1784061857673217e-06, + "loss": 0.474, + "step": 6564 + }, + { + "avg_step_time": 5.70466919137974, + "epoch": 0.70016, + "eta_time": 4.454395860269013, + "step": 6564 + }, + { + "epoch": 0.7002666666666667, + "grad_norm": 1.8994342273806248, + "learning_rate": 2.176980222143178e-06, + "loss": 0.5047, + "step": 6565 + }, + { + "avg_step_time": 5.700459593474263, + "epoch": 0.7002666666666667, + "eta_time": 4.4495254049063, + "step": 6565 + }, + { + "epoch": 0.7003733333333333, + "grad_norm": 1.6304821217895549, + "learning_rate": 2.1755545954952755e-06, + "loss": 0.4773, + "step": 6566 + }, + { + "avg_step_time": 5.697133960145893, + "epoch": 0.7003733333333333, + "eta_time": 4.4453470261249475, + "step": 6566 + }, + { + "epoch": 0.70048, + "grad_norm": 1.669290645711831, + "learning_rate": 2.174129305993784e-06, + "loss": 0.3864, + "step": 6567 + }, + { + "avg_step_time": 5.694423261314932, + "epoch": 0.70048, + "eta_time": 4.441650143825647, + "step": 6567 + }, + { + "epoch": 0.7005866666666667, + "grad_norm": 1.9236431234651614, + "learning_rate": 2.1727043538088406e-06, + "loss": 0.5029, + "step": 6568 + }, + { + "avg_step_time": 5.693375115442758, + "epoch": 0.7005866666666667, + "eta_time": 4.439251096957729, + "step": 6568 + }, + { + "epoch": 0.7006933333333333, + "grad_norm": 2.2374217405511674, + "learning_rate": 2.1712797391105354e-06, + "loss": 0.4717, + "step": 6569 + }, + { + "avg_step_time": 5.6900993284552985, + "epoch": 0.7006933333333333, + "eta_time": 4.435116309901547, + "step": 6569 + }, + { + "epoch": 0.7008, + "grad_norm": 0.6645548028413968, + "learning_rate": 2.1698554620689178e-06, + "loss": 0.4502, + "step": 6570 + }, + { + "avg_step_time": 5.690313816070557, + "epoch": 0.7008, + "eta_time": 4.433702848354975, + "step": 6570 + }, + { + "epoch": 0.7009066666666667, + "grad_norm": 1.7246094692577656, + "learning_rate": 2.1684315228540066e-06, + "loss": 0.4091, + "step": 6571 + }, + { + "avg_step_time": 5.570948396066223, + "epoch": 0.7009066666666667, + "eta_time": 4.339149806269359, + "step": 6571 + }, + { + "epoch": 0.7010133333333334, + "grad_norm": 1.8901779775025953, + "learning_rate": 2.16700792163577e-06, + "loss": 0.4742, + "step": 6572 + }, + { + "avg_step_time": 5.59864499352195, + "epoch": 0.7010133333333334, + "eta_time": 4.359167199122785, + "step": 6572 + }, + { + "epoch": 0.70112, + "grad_norm": 1.7218959563690008, + "learning_rate": 2.165584658584138e-06, + "loss": 0.4565, + "step": 6573 + }, + { + "avg_step_time": 5.602345859161531, + "epoch": 0.70112, + "eta_time": 4.360492527047391, + "step": 6573 + }, + { + "epoch": 0.7012266666666667, + "grad_norm": 2.18300357804844, + "learning_rate": 2.1641617338690054e-06, + "loss": 0.5161, + "step": 6574 + }, + { + "avg_step_time": 5.603543703002159, + "epoch": 0.7012266666666667, + "eta_time": 4.35986830891918, + "step": 6574 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 1.6347125547048271, + "learning_rate": 2.162739147660219e-06, + "loss": 0.4607, + "step": 6575 + }, + { + "avg_step_time": 5.6009447863607695, + "epoch": 0.7013333333333334, + "eta_time": 4.3562903893917095, + "step": 6575 + }, + { + "epoch": 0.70144, + "grad_norm": 1.8509491247418264, + "learning_rate": 2.16131690012759e-06, + "loss": 0.4096, + "step": 6576 + }, + { + "avg_step_time": 5.645287239190304, + "epoch": 0.70144, + "eta_time": 4.389210828470461, + "step": 6576 + }, + { + "epoch": 0.7015466666666667, + "grad_norm": 1.8155241640634758, + "learning_rate": 2.1598949914408917e-06, + "loss": 0.509, + "step": 6577 + }, + { + "avg_step_time": 5.643211087795219, + "epoch": 0.7015466666666667, + "eta_time": 4.386029062125284, + "step": 6577 + }, + { + "epoch": 0.7016533333333334, + "grad_norm": 1.7269592998740222, + "learning_rate": 2.1584734217698507e-06, + "loss": 0.554, + "step": 6578 + }, + { + "avg_step_time": 5.645821027081422, + "epoch": 0.7016533333333334, + "eta_time": 4.386489281318538, + "step": 6578 + }, + { + "epoch": 0.70176, + "grad_norm": 1.6907444443716901, + "learning_rate": 2.157052191284154e-06, + "loss": 0.416, + "step": 6579 + }, + { + "avg_step_time": 5.679748544789324, + "epoch": 0.70176, + "eta_time": 4.411271369786375, + "step": 6579 + }, + { + "epoch": 0.7018666666666666, + "grad_norm": 0.6417671919073652, + "learning_rate": 2.155631300153453e-06, + "loss": 0.4262, + "step": 6580 + }, + { + "avg_step_time": 5.6405846494616885, + "epoch": 0.7018666666666666, + "eta_time": 4.379287248679283, + "step": 6580 + }, + { + "epoch": 0.7019733333333333, + "grad_norm": 1.6517958517509876, + "learning_rate": 2.1542107485473557e-06, + "loss": 0.5095, + "step": 6581 + }, + { + "avg_step_time": 5.640299325037485, + "epoch": 0.7019733333333333, + "eta_time": 4.377498976154092, + "step": 6581 + }, + { + "epoch": 0.70208, + "grad_norm": 1.888564299241924, + "learning_rate": 2.1527905366354292e-06, + "loss": 0.5017, + "step": 6582 + }, + { + "avg_step_time": 5.638575134855328, + "epoch": 0.70208, + "eta_time": 4.374594542125259, + "step": 6582 + }, + { + "epoch": 0.7021866666666666, + "grad_norm": 2.2506210523096755, + "learning_rate": 2.1513706645871973e-06, + "loss": 0.5145, + "step": 6583 + }, + { + "avg_step_time": 5.6381044195155905, + "epoch": 0.7021866666666666, + "eta_time": 4.372663205357647, + "step": 6583 + }, + { + "epoch": 0.7022933333333333, + "grad_norm": 1.9416517267838103, + "learning_rate": 2.149951132572151e-06, + "loss": 0.5199, + "step": 6584 + }, + { + "avg_step_time": 5.639318820201989, + "epoch": 0.7022933333333333, + "eta_time": 4.372038563106598, + "step": 6584 + }, + { + "epoch": 0.7024, + "grad_norm": 0.6991481119197605, + "learning_rate": 2.1485319407597315e-06, + "loss": 0.4556, + "step": 6585 + }, + { + "avg_step_time": 5.637694792314009, + "epoch": 0.7024, + "eta_time": 4.369213464043357, + "step": 6585 + }, + { + "epoch": 0.7025066666666666, + "grad_norm": 1.708545588365339, + "learning_rate": 2.147113089319347e-06, + "loss": 0.4389, + "step": 6586 + }, + { + "avg_step_time": 5.642044799496429, + "epoch": 0.7025066666666666, + "eta_time": 4.371017484943207, + "step": 6586 + }, + { + "epoch": 0.7026133333333333, + "grad_norm": 1.9817342191221354, + "learning_rate": 2.145694578420362e-06, + "loss": 0.5181, + "step": 6587 + }, + { + "avg_step_time": 5.641110983761874, + "epoch": 0.7026133333333333, + "eta_time": 4.368727061868918, + "step": 6587 + }, + { + "epoch": 0.70272, + "grad_norm": 2.005172432277083, + "learning_rate": 2.1442764082321e-06, + "loss": 0.5045, + "step": 6588 + }, + { + "avg_step_time": 5.64275824421584, + "epoch": 0.70272, + "eta_time": 4.3684353407304295, + "step": 6588 + }, + { + "epoch": 0.7028266666666667, + "grad_norm": 1.8847004433450232, + "learning_rate": 2.1428585789238416e-06, + "loss": 0.4954, + "step": 6589 + }, + { + "avg_step_time": 5.6813690132564965, + "epoch": 0.7028266666666667, + "eta_time": 4.396748353036833, + "step": 6589 + }, + { + "epoch": 0.7029333333333333, + "grad_norm": 1.8291101027108765, + "learning_rate": 2.1414410906648308e-06, + "loss": 0.526, + "step": 6590 + }, + { + "avg_step_time": 5.67755916865185, + "epoch": 0.7029333333333333, + "eta_time": 4.392222856859834, + "step": 6590 + }, + { + "epoch": 0.70304, + "grad_norm": 1.6722044993001937, + "learning_rate": 2.140023943624272e-06, + "loss": 0.4361, + "step": 6591 + }, + { + "avg_step_time": 5.6907202836238975, + "epoch": 0.70304, + "eta_time": 4.4008236860024805, + "step": 6591 + }, + { + "epoch": 0.7031466666666667, + "grad_norm": 1.8057916993310124, + "learning_rate": 2.138607137971322e-06, + "loss": 0.4812, + "step": 6592 + }, + { + "avg_step_time": 5.692317497850668, + "epoch": 0.7031466666666667, + "eta_time": 4.400477665699558, + "step": 6592 + }, + { + "epoch": 0.7032533333333333, + "grad_norm": 2.1517094405074357, + "learning_rate": 2.137190673875105e-06, + "loss": 0.4225, + "step": 6593 + }, + { + "avg_step_time": 5.692184171291313, + "epoch": 0.7032533333333333, + "eta_time": 4.398793434592343, + "step": 6593 + }, + { + "epoch": 0.70336, + "grad_norm": 0.6596201710762645, + "learning_rate": 2.135774551504698e-06, + "loss": 0.4483, + "step": 6594 + }, + { + "avg_step_time": 5.67320052060214, + "epoch": 0.70336, + "eta_time": 4.3825474021651525, + "step": 6594 + }, + { + "epoch": 0.7034666666666667, + "grad_norm": 1.8747087457232965, + "learning_rate": 2.134358771029137e-06, + "loss": 0.4936, + "step": 6595 + }, + { + "avg_step_time": 5.665219880113698, + "epoch": 0.7034666666666667, + "eta_time": 4.374808685198912, + "step": 6595 + }, + { + "epoch": 0.7035733333333334, + "grad_norm": 1.8168146853914862, + "learning_rate": 2.1329433326174265e-06, + "loss": 0.4769, + "step": 6596 + }, + { + "avg_step_time": 5.664530361541594, + "epoch": 0.7035733333333334, + "eta_time": 4.372702742978913, + "step": 6596 + }, + { + "epoch": 0.70368, + "grad_norm": 1.6890310638042607, + "learning_rate": 2.1315282364385197e-06, + "loss": 0.4562, + "step": 6597 + }, + { + "avg_step_time": 5.661739508310954, + "epoch": 0.70368, + "eta_time": 4.368975653913286, + "step": 6597 + }, + { + "epoch": 0.7037866666666667, + "grad_norm": 1.9753269051464735, + "learning_rate": 2.130113482661332e-06, + "loss": 0.4565, + "step": 6598 + }, + { + "avg_step_time": 5.63499530878934, + "epoch": 0.7037866666666667, + "eta_time": 4.3467727701411105, + "step": 6598 + }, + { + "epoch": 0.7038933333333334, + "grad_norm": 1.7040948179033693, + "learning_rate": 2.1286990714547417e-06, + "loss": 0.5035, + "step": 6599 + }, + { + "avg_step_time": 5.635587829532045, + "epoch": 0.7038933333333334, + "eta_time": 4.34566439299471, + "step": 6599 + }, + { + "epoch": 0.704, + "grad_norm": 1.7210759368111967, + "learning_rate": 2.1272850029875802e-06, + "loss": 0.5761, + "step": 6600 + }, + { + "avg_step_time": 5.635930299758911, + "epoch": 0.704, + "eta_time": 4.344362939397494, + "step": 6600 + }, + { + "epoch": 0.7041066666666667, + "grad_norm": 1.7377249267267532, + "learning_rate": 2.1258712774286416e-06, + "loss": 0.4973, + "step": 6601 + }, + { + "avg_step_time": 5.636301621042117, + "epoch": 0.7041066666666667, + "eta_time": 4.343083526880787, + "step": 6601 + }, + { + "epoch": 0.7042133333333334, + "grad_norm": 1.9191094935785447, + "learning_rate": 2.1244578949466814e-06, + "loss": 0.4547, + "step": 6602 + }, + { + "avg_step_time": 5.636475900206903, + "epoch": 0.7042133333333334, + "eta_time": 4.341652130909373, + "step": 6602 + }, + { + "epoch": 0.70432, + "grad_norm": 1.6047718766343029, + "learning_rate": 2.1230448557104087e-06, + "loss": 0.4066, + "step": 6603 + }, + { + "avg_step_time": 5.6378842700611465, + "epoch": 0.70432, + "eta_time": 4.341170887947083, + "step": 6603 + }, + { + "epoch": 0.7044266666666666, + "grad_norm": 2.0518466777617967, + "learning_rate": 2.1216321598884935e-06, + "loss": 0.4752, + "step": 6604 + }, + { + "avg_step_time": 5.633279482523601, + "epoch": 0.7044266666666666, + "eta_time": 4.3360604016869155, + "step": 6604 + }, + { + "epoch": 0.7045333333333333, + "grad_norm": 1.8766915971337634, + "learning_rate": 2.1202198076495663e-06, + "loss": 0.4269, + "step": 6605 + }, + { + "avg_step_time": 5.6354000062653515, + "epoch": 0.7045333333333333, + "eta_time": 4.336127227043062, + "step": 6605 + }, + { + "epoch": 0.70464, + "grad_norm": 1.7982135243760669, + "learning_rate": 2.1188077991622174e-06, + "loss": 0.5101, + "step": 6606 + }, + { + "avg_step_time": 5.632580152665726, + "epoch": 0.70464, + "eta_time": 4.332392900758721, + "step": 6606 + }, + { + "epoch": 0.7047466666666666, + "grad_norm": 2.169712855505479, + "learning_rate": 2.1173961345949915e-06, + "loss": 0.4245, + "step": 6607 + }, + { + "avg_step_time": 5.635673436251554, + "epoch": 0.7047466666666666, + "eta_time": 4.333206686540083, + "step": 6607 + }, + { + "epoch": 0.7048533333333333, + "grad_norm": 1.6908397741111458, + "learning_rate": 2.1159848141163988e-06, + "loss": 0.4122, + "step": 6608 + }, + { + "avg_step_time": 5.6658433230236325, + "epoch": 0.7048533333333333, + "eta_time": 4.354830131890664, + "step": 6608 + }, + { + "epoch": 0.70496, + "grad_norm": 0.6193485989562793, + "learning_rate": 2.1145738378949004e-06, + "loss": 0.4168, + "step": 6609 + }, + { + "avg_step_time": 5.636213919129035, + "epoch": 0.70496, + "eta_time": 4.3304910278641415, + "step": 6609 + }, + { + "epoch": 0.7050666666666666, + "grad_norm": 1.696340694514535, + "learning_rate": 2.1131632060989255e-06, + "loss": 0.4879, + "step": 6610 + }, + { + "avg_step_time": 5.636454307671749, + "epoch": 0.7050666666666666, + "eta_time": 4.329110044642329, + "step": 6610 + }, + { + "epoch": 0.7051733333333333, + "grad_norm": 1.771030412882958, + "learning_rate": 2.111752918896853e-06, + "loss": 0.5273, + "step": 6611 + }, + { + "avg_step_time": 5.637332706740408, + "epoch": 0.7051733333333333, + "eta_time": 4.328218778175136, + "step": 6611 + }, + { + "epoch": 0.70528, + "grad_norm": 1.8033419322504844, + "learning_rate": 2.110342976457029e-06, + "loss": 0.4452, + "step": 6612 + }, + { + "avg_step_time": 5.633609742829294, + "epoch": 0.70528, + "eta_time": 4.323795477621483, + "step": 6612 + }, + { + "epoch": 0.7053866666666667, + "grad_norm": 1.6655716334730544, + "learning_rate": 2.1089333789477502e-06, + "loss": 0.3897, + "step": 6613 + }, + { + "avg_step_time": 5.65868170574458, + "epoch": 0.7053866666666667, + "eta_time": 4.341466353129592, + "step": 6613 + }, + { + "epoch": 0.7054933333333333, + "grad_norm": 2.2661160473243984, + "learning_rate": 2.107524126537279e-06, + "loss": 0.4546, + "step": 6614 + }, + { + "avg_step_time": 5.655711600274751, + "epoch": 0.7054933333333333, + "eta_time": 4.337616591210718, + "step": 6614 + }, + { + "epoch": 0.7056, + "grad_norm": 2.1091345400873083, + "learning_rate": 2.1061152193938355e-06, + "loss": 0.4983, + "step": 6615 + }, + { + "avg_step_time": 5.6577032310794095, + "epoch": 0.7056, + "eta_time": 4.337572477160881, + "step": 6615 + }, + { + "epoch": 0.7057066666666667, + "grad_norm": 0.6519859276742438, + "learning_rate": 2.1047066576855964e-06, + "loss": 0.4543, + "step": 6616 + }, + { + "avg_step_time": 5.622169781212855, + "epoch": 0.7057066666666667, + "eta_time": 4.308768451768407, + "step": 6616 + }, + { + "epoch": 0.7058133333333333, + "grad_norm": 1.7770939042156384, + "learning_rate": 2.103298441580694e-06, + "loss": 0.5708, + "step": 6617 + }, + { + "avg_step_time": 5.585742519359396, + "epoch": 0.7058133333333333, + "eta_time": 4.279299407887004, + "step": 6617 + }, + { + "epoch": 0.70592, + "grad_norm": 1.9311806077631988, + "learning_rate": 2.1018905712472285e-06, + "loss": 0.5263, + "step": 6618 + }, + { + "avg_step_time": 5.649671113852299, + "epoch": 0.70592, + "eta_time": 4.326706461358552, + "step": 6618 + }, + { + "epoch": 0.7060266666666667, + "grad_norm": 1.7761226259825584, + "learning_rate": 2.10048304685325e-06, + "loss": 0.4989, + "step": 6619 + }, + { + "avg_step_time": 5.6284160758509785, + "epoch": 0.7060266666666667, + "eta_time": 4.308865195845916, + "step": 6619 + }, + { + "epoch": 0.7061333333333333, + "grad_norm": 1.90424685824746, + "learning_rate": 2.099075868566772e-06, + "loss": 0.5214, + "step": 6620 + }, + { + "avg_step_time": 5.630235992296778, + "epoch": 0.7061333333333333, + "eta_time": 4.30869448854934, + "step": 6620 + }, + { + "epoch": 0.70624, + "grad_norm": 1.502417164101008, + "learning_rate": 2.0976690365557673e-06, + "loss": 0.4168, + "step": 6621 + }, + { + "avg_step_time": 5.608049026643387, + "epoch": 0.70624, + "eta_time": 4.290157505382191, + "step": 6621 + }, + { + "epoch": 0.7063466666666667, + "grad_norm": 1.5324264096991222, + "learning_rate": 2.096262550988164e-06, + "loss": 0.4259, + "step": 6622 + }, + { + "avg_step_time": 5.647623317410248, + "epoch": 0.7063466666666667, + "eta_time": 4.318863053564003, + "step": 6622 + }, + { + "epoch": 0.7064533333333334, + "grad_norm": 1.707887364684662, + "learning_rate": 2.0948564120318488e-06, + "loss": 0.4088, + "step": 6623 + }, + { + "avg_step_time": 5.648279240637114, + "epoch": 0.7064533333333334, + "eta_time": 4.317795686175928, + "step": 6623 + }, + { + "epoch": 0.70656, + "grad_norm": 1.8302498300689571, + "learning_rate": 2.093450619854671e-06, + "loss": 0.4961, + "step": 6624 + }, + { + "avg_step_time": 5.647717189307165, + "epoch": 0.70656, + "eta_time": 4.315797218828892, + "step": 6624 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 0.6286213174323222, + "learning_rate": 2.0920451746244367e-06, + "loss": 0.4197, + "step": 6625 + }, + { + "avg_step_time": 5.609192458066073, + "epoch": 0.7066666666666667, + "eta_time": 4.2847997943560285, + "step": 6625 + }, + { + "epoch": 0.7067733333333334, + "grad_norm": 2.092139599253816, + "learning_rate": 2.090640076508908e-06, + "loss": 0.5097, + "step": 6626 + }, + { + "avg_step_time": 5.606130474745625, + "epoch": 0.7067733333333334, + "eta_time": 4.280903520854368, + "step": 6626 + }, + { + "epoch": 0.70688, + "grad_norm": 1.859086744546186, + "learning_rate": 2.0892353256758107e-06, + "loss": 0.4856, + "step": 6627 + }, + { + "avg_step_time": 5.599885458898062, + "epoch": 0.70688, + "eta_time": 4.274579233625521, + "step": 6627 + }, + { + "epoch": 0.7069866666666667, + "grad_norm": 1.927864858597134, + "learning_rate": 2.087830922292824e-06, + "loss": 0.4726, + "step": 6628 + }, + { + "avg_step_time": 5.604249999980734, + "epoch": 0.7069866666666667, + "eta_time": 4.276354097207521, + "step": 6628 + }, + { + "epoch": 0.7070933333333334, + "grad_norm": 0.631437366680064, + "learning_rate": 2.0864268665275854e-06, + "loss": 0.4284, + "step": 6629 + }, + { + "avg_step_time": 5.592289792166816, + "epoch": 0.7070933333333334, + "eta_time": 4.265674380358354, + "step": 6629 + }, + { + "epoch": 0.7072, + "grad_norm": 1.6542179611342933, + "learning_rate": 2.0850231585476965e-06, + "loss": 0.4337, + "step": 6630 + }, + { + "avg_step_time": 5.596950636969672, + "epoch": 0.7072, + "eta_time": 4.267674860689375, + "step": 6630 + }, + { + "epoch": 0.7073066666666666, + "grad_norm": 1.8076371224159395, + "learning_rate": 2.083619798520715e-06, + "loss": 0.4382, + "step": 6631 + }, + { + "avg_step_time": 5.592307321953051, + "epoch": 0.7073066666666666, + "eta_time": 4.262580914288659, + "step": 6631 + }, + { + "epoch": 0.7074133333333333, + "grad_norm": 1.808256799875425, + "learning_rate": 2.082216786614153e-06, + "loss": 0.5562, + "step": 6632 + }, + { + "avg_step_time": 5.593810972541269, + "epoch": 0.7074133333333333, + "eta_time": 4.262173193800195, + "step": 6632 + }, + { + "epoch": 0.70752, + "grad_norm": 1.7928431896281194, + "learning_rate": 2.0808141229954876e-06, + "loss": 0.4907, + "step": 6633 + }, + { + "avg_step_time": 5.594927445806638, + "epoch": 0.70752, + "eta_time": 4.2614697378893895, + "step": 6633 + }, + { + "epoch": 0.7076266666666666, + "grad_norm": 1.3861190038325917, + "learning_rate": 2.079411807832147e-06, + "loss": 0.387, + "step": 6634 + }, + { + "avg_step_time": 5.597575794566762, + "epoch": 0.7076266666666666, + "eta_time": 4.261932014696526, + "step": 6634 + }, + { + "epoch": 0.7077333333333333, + "grad_norm": 1.7847887506182945, + "learning_rate": 2.0780098412915257e-06, + "loss": 0.4773, + "step": 6635 + }, + { + "avg_step_time": 5.596122414174706, + "epoch": 0.7077333333333333, + "eta_time": 4.2592709485663045, + "step": 6635 + }, + { + "epoch": 0.70784, + "grad_norm": 2.108342110147915, + "learning_rate": 2.0766082235409695e-06, + "loss": 0.447, + "step": 6636 + }, + { + "avg_step_time": 5.635221040610111, + "epoch": 0.70784, + "eta_time": 4.287464008397526, + "step": 6636 + }, + { + "epoch": 0.7079466666666666, + "grad_norm": 1.7425741862438724, + "learning_rate": 2.0752069547477887e-06, + "loss": 0.5245, + "step": 6637 + }, + { + "avg_step_time": 5.636513630549113, + "epoch": 0.7079466666666666, + "eta_time": 4.286881755678742, + "step": 6637 + }, + { + "epoch": 0.7080533333333333, + "grad_norm": 1.9009712478667264, + "learning_rate": 2.0738060350792454e-06, + "loss": 0.5041, + "step": 6638 + }, + { + "avg_step_time": 5.636634749595565, + "epoch": 0.7080533333333333, + "eta_time": 4.285408141567517, + "step": 6638 + }, + { + "epoch": 0.70816, + "grad_norm": 1.6983975018082587, + "learning_rate": 2.072405464702566e-06, + "loss": 0.4715, + "step": 6639 + }, + { + "avg_step_time": 5.650954029776833, + "epoch": 0.70816, + "eta_time": 4.294725062630393, + "step": 6639 + }, + { + "epoch": 0.7082666666666667, + "grad_norm": 1.8493479053227044, + "learning_rate": 2.0710052437849342e-06, + "loss": 0.5083, + "step": 6640 + }, + { + "avg_step_time": 5.655259577914922, + "epoch": 0.7082666666666667, + "eta_time": 4.296426373777031, + "step": 6640 + }, + { + "epoch": 0.7083733333333333, + "grad_norm": 1.934101118299264, + "learning_rate": 2.0696053724934882e-06, + "loss": 0.4727, + "step": 6641 + }, + { + "avg_step_time": 5.6520751172846015, + "epoch": 0.7083733333333333, + "eta_time": 4.292437047404473, + "step": 6641 + }, + { + "epoch": 0.70848, + "grad_norm": 2.0848922414740323, + "learning_rate": 2.068205850995326e-06, + "loss": 0.519, + "step": 6642 + }, + { + "avg_step_time": 5.654680223175974, + "epoch": 0.70848, + "eta_time": 4.292844736094427, + "step": 6642 + }, + { + "epoch": 0.7085866666666667, + "grad_norm": 1.5307408662147035, + "learning_rate": 2.066806679457508e-06, + "loss": 0.3788, + "step": 6643 + }, + { + "avg_step_time": 5.558317413233747, + "epoch": 0.7085866666666667, + "eta_time": 4.218145325820722, + "step": 6643 + }, + { + "epoch": 0.7086933333333333, + "grad_norm": 1.7465415628491017, + "learning_rate": 2.065407858047046e-06, + "loss": 0.5022, + "step": 6644 + }, + { + "avg_step_time": 5.5582882780017275, + "epoch": 0.7086933333333333, + "eta_time": 4.216579246450755, + "step": 6644 + }, + { + "epoch": 0.7088, + "grad_norm": 0.6195664646212357, + "learning_rate": 2.064009386930915e-06, + "loss": 0.4499, + "step": 6645 + }, + { + "avg_step_time": 5.499461251075822, + "epoch": 0.7088, + "eta_time": 4.170424782065831, + "step": 6645 + }, + { + "epoch": 0.7089066666666667, + "grad_norm": 1.9126329538438376, + "learning_rate": 2.062611266276049e-06, + "loss": 0.5078, + "step": 6646 + }, + { + "avg_step_time": 5.525790038734976, + "epoch": 0.7089066666666667, + "eta_time": 4.188855837696597, + "step": 6646 + }, + { + "epoch": 0.7090133333333334, + "grad_norm": 1.8898276923277306, + "learning_rate": 2.0612134962493353e-06, + "loss": 0.495, + "step": 6647 + }, + { + "avg_step_time": 5.55420166795904, + "epoch": 0.7090133333333334, + "eta_time": 4.208850597275628, + "step": 6647 + }, + { + "epoch": 0.70912, + "grad_norm": 1.8037451694055942, + "learning_rate": 2.0598160770176208e-06, + "loss": 0.449, + "step": 6648 + }, + { + "avg_step_time": 5.616867368871516, + "epoch": 0.70912, + "eta_time": 4.254777031920173, + "step": 6648 + }, + { + "epoch": 0.7092266666666667, + "grad_norm": 1.8803537742469931, + "learning_rate": 2.058419008747713e-06, + "loss": 0.458, + "step": 6649 + }, + { + "avg_step_time": 5.616231802738074, + "epoch": 0.7092266666666667, + "eta_time": 4.252735526184442, + "step": 6649 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 1.7983426159304496, + "learning_rate": 2.0570222916063782e-06, + "loss": 0.4228, + "step": 6650 + }, + { + "avg_step_time": 5.626567580483177, + "epoch": 0.7093333333333334, + "eta_time": 4.25899907133796, + "step": 6650 + }, + { + "epoch": 0.70944, + "grad_norm": 1.936464027666695, + "learning_rate": 2.0556259257603355e-06, + "loss": 0.4474, + "step": 6651 + }, + { + "avg_step_time": 5.69354845297457, + "epoch": 0.70944, + "eta_time": 4.308118329417424, + "step": 6651 + }, + { + "epoch": 0.7095466666666667, + "grad_norm": 0.6602765233433268, + "learning_rate": 2.054229911376269e-06, + "loss": 0.4736, + "step": 6652 + }, + { + "avg_step_time": 5.657960638855442, + "epoch": 0.7095466666666667, + "eta_time": 4.279618561000936, + "step": 6652 + }, + { + "epoch": 0.7096533333333334, + "grad_norm": 1.8743134094292082, + "learning_rate": 2.0528342486208127e-06, + "loss": 0.4707, + "step": 6653 + }, + { + "avg_step_time": 5.654092940417203, + "epoch": 0.7096533333333334, + "eta_time": 4.27512249550434, + "step": 6653 + }, + { + "epoch": 0.70976, + "grad_norm": 1.9247056703733132, + "learning_rate": 2.0514389376605646e-06, + "loss": 0.5114, + "step": 6654 + }, + { + "avg_step_time": 5.6521758382970635, + "epoch": 0.70976, + "eta_time": 4.272102904446197, + "step": 6654 + }, + { + "epoch": 0.7098666666666666, + "grad_norm": 1.788579841365938, + "learning_rate": 2.050043978662083e-06, + "loss": 0.4729, + "step": 6655 + }, + { + "avg_step_time": 5.64735343480351, + "epoch": 0.7098666666666666, + "eta_time": 4.266889261851541, + "step": 6655 + }, + { + "epoch": 0.7099733333333333, + "grad_norm": 1.9581166332133673, + "learning_rate": 2.0486493717918765e-06, + "loss": 0.5417, + "step": 6656 + }, + { + "avg_step_time": 5.637411293357309, + "epoch": 0.7099733333333333, + "eta_time": 4.257811474066257, + "step": 6656 + }, + { + "epoch": 0.71008, + "grad_norm": 1.9409997160931574, + "learning_rate": 2.0472551172164152e-06, + "loss": 0.4723, + "step": 6657 + }, + { + "avg_step_time": 5.6428442771988685, + "epoch": 0.71008, + "eta_time": 4.2603474292851455, + "step": 6657 + }, + { + "epoch": 0.7101866666666666, + "grad_norm": 1.9134344728527803, + "learning_rate": 2.045861215102128e-06, + "loss": 0.3825, + "step": 6658 + }, + { + "avg_step_time": 5.641160020924578, + "epoch": 0.7101866666666666, + "eta_time": 4.257508826903355, + "step": 6658 + }, + { + "epoch": 0.7102933333333333, + "grad_norm": 1.6698520379739825, + "learning_rate": 2.0444676656154037e-06, + "loss": 0.4563, + "step": 6659 + }, + { + "avg_step_time": 5.705755204865427, + "epoch": 0.7102933333333333, + "eta_time": 4.3046753156706945, + "step": 6659 + }, + { + "epoch": 0.7104, + "grad_norm": 1.893605993314267, + "learning_rate": 2.0430744689225833e-06, + "loss": 0.421, + "step": 6660 + }, + { + "avg_step_time": 5.704757998688052, + "epoch": 0.7104, + "eta_time": 4.302338324010573, + "step": 6660 + }, + { + "epoch": 0.7105066666666666, + "grad_norm": 2.2790994036119976, + "learning_rate": 2.0416816251899726e-06, + "loss": 0.5049, + "step": 6661 + }, + { + "avg_step_time": 5.705319158958666, + "epoch": 0.7105066666666666, + "eta_time": 4.301176721503839, + "step": 6661 + }, + { + "epoch": 0.7106133333333333, + "grad_norm": 1.7589410658959472, + "learning_rate": 2.040289134583829e-06, + "loss": 0.4754, + "step": 6662 + }, + { + "avg_step_time": 5.706759915207371, + "epoch": 0.7106133333333333, + "eta_time": 4.300677680543777, + "step": 6662 + }, + { + "epoch": 0.71072, + "grad_norm": 2.1513505996265994, + "learning_rate": 2.0388969972703688e-06, + "loss": 0.4989, + "step": 6663 + }, + { + "avg_step_time": 5.708703334885414, + "epoch": 0.71072, + "eta_time": 4.3005565122803455, + "step": 6663 + }, + { + "epoch": 0.7108266666666667, + "grad_norm": 1.7385367859446306, + "learning_rate": 2.0375052134157697e-06, + "loss": 0.4449, + "step": 6664 + }, + { + "avg_step_time": 5.705918148310498, + "epoch": 0.7108266666666667, + "eta_time": 4.296873361130489, + "step": 6664 + }, + { + "epoch": 0.7109333333333333, + "grad_norm": 1.7839699064800585, + "learning_rate": 2.0361137831861664e-06, + "loss": 0.5309, + "step": 6665 + }, + { + "avg_step_time": 5.706796077766803, + "epoch": 0.7109333333333333, + "eta_time": 4.295949269652232, + "step": 6665 + }, + { + "epoch": 0.71104, + "grad_norm": 1.8649918702204036, + "learning_rate": 2.0347227067476478e-06, + "loss": 0.4482, + "step": 6666 + }, + { + "avg_step_time": 5.707177521002413, + "epoch": 0.71104, + "eta_time": 4.294651084554316, + "step": 6666 + }, + { + "epoch": 0.7111466666666667, + "grad_norm": 1.8438863033117243, + "learning_rate": 2.033331984266265e-06, + "loss": 0.4391, + "step": 6667 + }, + { + "avg_step_time": 5.70739185208022, + "epoch": 0.7111466666666667, + "eta_time": 4.2932269820647875, + "step": 6667 + }, + { + "epoch": 0.7112533333333333, + "grad_norm": 1.900112518101162, + "learning_rate": 2.0319416159080217e-06, + "loss": 0.5753, + "step": 6668 + }, + { + "avg_step_time": 5.7137834929456615, + "epoch": 0.7112533333333333, + "eta_time": 4.296447754278863, + "step": 6668 + }, + { + "epoch": 0.71136, + "grad_norm": 1.9036376274428577, + "learning_rate": 2.030551601838887e-06, + "loss": 0.4606, + "step": 6669 + }, + { + "avg_step_time": 5.747710199067087, + "epoch": 0.71136, + "eta_time": 4.32036216629876, + "step": 6669 + }, + { + "epoch": 0.7114666666666667, + "grad_norm": 2.00240205017497, + "learning_rate": 2.0291619422247786e-06, + "loss": 0.4694, + "step": 6670 + }, + { + "avg_step_time": 5.747142242662834, + "epoch": 0.7114666666666667, + "eta_time": 4.318338824000824, + "step": 6670 + }, + { + "epoch": 0.7115733333333333, + "grad_norm": 1.6173888817848858, + "learning_rate": 2.0277726372315805e-06, + "loss": 0.3954, + "step": 6671 + }, + { + "avg_step_time": 5.720006412929958, + "epoch": 0.7115733333333333, + "eta_time": 4.296360372378502, + "step": 6671 + }, + { + "epoch": 0.71168, + "grad_norm": 1.8442070961933574, + "learning_rate": 2.0263836870251277e-06, + "loss": 0.4565, + "step": 6672 + }, + { + "avg_step_time": 5.714445680078834, + "epoch": 0.71168, + "eta_time": 4.290596298125858, + "step": 6672 + }, + { + "epoch": 0.7117866666666667, + "grad_norm": 1.8018155020302193, + "learning_rate": 2.024995091771212e-06, + "loss": 0.437, + "step": 6673 + }, + { + "avg_step_time": 5.713127095289905, + "epoch": 0.7117866666666667, + "eta_time": 4.288019280964812, + "step": 6673 + }, + { + "epoch": 0.7118933333333334, + "grad_norm": 1.723965703282145, + "learning_rate": 2.023606851635594e-06, + "loss": 0.4814, + "step": 6674 + }, + { + "avg_step_time": 5.715990353112269, + "epoch": 0.7118933333333334, + "eta_time": 4.288580539932288, + "step": 6674 + }, + { + "epoch": 0.712, + "grad_norm": 1.9571503856717616, + "learning_rate": 2.0222189667839805e-06, + "loss": 0.4388, + "step": 6675 + }, + { + "avg_step_time": 5.708097554216481, + "epoch": 0.712, + "eta_time": 4.28107316566236, + "step": 6675 + }, + { + "epoch": 0.7121066666666667, + "grad_norm": 2.1034460427320485, + "learning_rate": 2.020831437382037e-06, + "loss": 0.5931, + "step": 6676 + }, + { + "avg_step_time": 5.708873339373656, + "epoch": 0.7121066666666667, + "eta_time": 4.280069206380416, + "step": 6676 + }, + { + "epoch": 0.7122133333333334, + "grad_norm": 1.6562798626074373, + "learning_rate": 2.019444263595394e-06, + "loss": 0.4451, + "step": 6677 + }, + { + "avg_step_time": 5.729181754468668, + "epoch": 0.7122133333333334, + "eta_time": 4.293703437099018, + "step": 6677 + }, + { + "epoch": 0.71232, + "grad_norm": 1.7687696154759422, + "learning_rate": 2.01805744558963e-06, + "loss": 0.3791, + "step": 6678 + }, + { + "avg_step_time": 5.760538635831891, + "epoch": 0.71232, + "eta_time": 4.315603528010725, + "step": 6678 + }, + { + "epoch": 0.7124266666666667, + "grad_norm": 2.139417041814903, + "learning_rate": 2.0166709835302883e-06, + "loss": 0.5527, + "step": 6679 + }, + { + "avg_step_time": 5.799036799055157, + "epoch": 0.7124266666666667, + "eta_time": 4.342834225070196, + "step": 6679 + }, + { + "epoch": 0.7125333333333334, + "grad_norm": 0.6752426109838231, + "learning_rate": 2.015284877582868e-06, + "loss": 0.4437, + "step": 6680 + }, + { + "avg_step_time": 5.764284726345178, + "epoch": 0.7125333333333334, + "eta_time": 4.3152075937500705, + "step": 6680 + }, + { + "epoch": 0.71264, + "grad_norm": 2.6405204454912767, + "learning_rate": 2.013899127912824e-06, + "loss": 0.4966, + "step": 6681 + }, + { + "avg_step_time": 5.76519037497164, + "epoch": 0.71264, + "eta_time": 4.314284130603777, + "step": 6681 + }, + { + "epoch": 0.7127466666666666, + "grad_norm": 1.8096184856529502, + "learning_rate": 2.012513734685567e-06, + "loss": 0.4829, + "step": 6682 + }, + { + "avg_step_time": 5.766789872236926, + "epoch": 0.7127466666666666, + "eta_time": 4.313879201648345, + "step": 6682 + }, + { + "epoch": 0.7128533333333333, + "grad_norm": 0.660484578294322, + "learning_rate": 2.0111286980664703e-06, + "loss": 0.4167, + "step": 6683 + }, + { + "avg_step_time": 5.728769791246664, + "epoch": 0.7128533333333333, + "eta_time": 4.283846743898895, + "step": 6683 + }, + { + "epoch": 0.71296, + "grad_norm": 1.5406128574595879, + "learning_rate": 2.009744018220863e-06, + "loss": 0.4523, + "step": 6684 + }, + { + "avg_step_time": 5.763205246491865, + "epoch": 0.71296, + "eta_time": 4.307995921752669, + "step": 6684 + }, + { + "epoch": 0.7130666666666666, + "grad_norm": 1.5541376990607365, + "learning_rate": 2.0083596953140266e-06, + "loss": 0.4666, + "step": 6685 + }, + { + "avg_step_time": 5.760834638518516, + "epoch": 0.7130666666666666, + "eta_time": 4.304623660448558, + "step": 6685 + }, + { + "epoch": 0.7131733333333333, + "grad_norm": 1.9037007530340588, + "learning_rate": 2.006975729511208e-06, + "loss": 0.5218, + "step": 6686 + }, + { + "avg_step_time": 5.76005057614259, + "epoch": 0.7131733333333333, + "eta_time": 4.30243777756873, + "step": 6686 + }, + { + "epoch": 0.71328, + "grad_norm": 0.6462066417622554, + "learning_rate": 2.005592120977606e-06, + "loss": 0.4678, + "step": 6687 + }, + { + "avg_step_time": 5.730748672678013, + "epoch": 0.71328, + "eta_time": 4.278959008932916, + "step": 6687 + }, + { + "epoch": 0.7133866666666666, + "grad_norm": 1.900708694159545, + "learning_rate": 2.0042088698783767e-06, + "loss": 0.5021, + "step": 6688 + }, + { + "avg_step_time": 5.725696542046287, + "epoch": 0.7133866666666666, + "eta_time": 4.273596280132881, + "step": 6688 + }, + { + "epoch": 0.7134933333333333, + "grad_norm": 0.6409083495054136, + "learning_rate": 2.0028259763786363e-06, + "loss": 0.4495, + "step": 6689 + }, + { + "avg_step_time": 5.698300833653922, + "epoch": 0.7134933333333333, + "eta_time": 4.251565566442898, + "step": 6689 + }, + { + "epoch": 0.7136, + "grad_norm": 2.059456347928885, + "learning_rate": 2.0014434406434584e-06, + "loss": 0.504, + "step": 6690 + }, + { + "avg_step_time": 5.680950882458927, + "epoch": 0.7136, + "eta_time": 4.237042533167283, + "step": 6690 + }, + { + "epoch": 0.7137066666666667, + "grad_norm": 1.691505524852978, + "learning_rate": 2.00006126283787e-06, + "loss": 0.5233, + "step": 6691 + }, + { + "avg_step_time": 5.683371510168518, + "epoch": 0.7137066666666667, + "eta_time": 4.237269203692307, + "step": 6691 + }, + { + "epoch": 0.7138133333333333, + "grad_norm": 1.868379928045334, + "learning_rate": 1.9986794431268606e-06, + "loss": 0.4894, + "step": 6692 + }, + { + "avg_step_time": 5.686522194833467, + "epoch": 0.7138133333333333, + "eta_time": 4.238038624649498, + "step": 6692 + }, + { + "epoch": 0.71392, + "grad_norm": 1.6576991647612713, + "learning_rate": 1.9972979816753717e-06, + "loss": 0.5315, + "step": 6693 + }, + { + "avg_step_time": 5.708558997722587, + "epoch": 0.71392, + "eta_time": 4.252876453303328, + "step": 6693 + }, + { + "epoch": 0.7140266666666667, + "grad_norm": 1.9803270355097293, + "learning_rate": 1.9959168786483074e-06, + "loss": 0.5057, + "step": 6694 + }, + { + "avg_step_time": 5.711227130408239, + "epoch": 0.7140266666666667, + "eta_time": 4.25327776017347, + "step": 6694 + }, + { + "epoch": 0.7141333333333333, + "grad_norm": 1.7956185354357577, + "learning_rate": 1.9945361342105225e-06, + "loss": 0.4684, + "step": 6695 + }, + { + "avg_step_time": 5.760967317253653, + "epoch": 0.7141333333333333, + "eta_time": 4.288720113955497, + "step": 6695 + }, + { + "epoch": 0.71424, + "grad_norm": 1.9967778028506946, + "learning_rate": 1.9931557485268365e-06, + "loss": 0.4986, + "step": 6696 + }, + { + "avg_step_time": 5.7741985899029356, + "epoch": 0.71424, + "eta_time": 4.2969661173194345, + "step": 6696 + }, + { + "epoch": 0.7143466666666667, + "grad_norm": 1.8002898236412699, + "learning_rate": 1.9917757217620193e-06, + "loss": 0.5074, + "step": 6697 + }, + { + "avg_step_time": 5.7765419049696485, + "epoch": 0.7143466666666667, + "eta_time": 4.2971053393079774, + "step": 6697 + }, + { + "epoch": 0.7144533333333334, + "grad_norm": 1.7300297811031093, + "learning_rate": 1.9903960540808026e-06, + "loss": 0.5028, + "step": 6698 + }, + { + "avg_step_time": 5.78672183402861, + "epoch": 0.7144533333333334, + "eta_time": 4.303070652692941, + "step": 6698 + }, + { + "epoch": 0.71456, + "grad_norm": 2.420846388730007, + "learning_rate": 1.9890167456478748e-06, + "loss": 0.5483, + "step": 6699 + }, + { + "avg_step_time": 5.788195992961074, + "epoch": 0.71456, + "eta_time": 4.302559021434399, + "step": 6699 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 1.6258694438162973, + "learning_rate": 1.9876377966278786e-06, + "loss": 0.4312, + "step": 6700 + }, + { + "avg_step_time": 5.792040795990915, + "epoch": 0.7146666666666667, + "eta_time": 4.303808091465472, + "step": 6700 + }, + { + "epoch": 0.7147733333333334, + "grad_norm": 1.9703646401579578, + "learning_rate": 1.9862592071854137e-06, + "loss": 0.5558, + "step": 6701 + }, + { + "avg_step_time": 5.793915623366231, + "epoch": 0.7147733333333334, + "eta_time": 4.303591771355917, + "step": 6701 + }, + { + "epoch": 0.71488, + "grad_norm": 1.8088254905291197, + "learning_rate": 1.984880977485041e-06, + "loss": 0.5014, + "step": 6702 + }, + { + "avg_step_time": 5.793913535397462, + "epoch": 0.71488, + "eta_time": 4.301980800032616, + "step": 6702 + }, + { + "epoch": 0.7149866666666667, + "grad_norm": 1.9293998944613655, + "learning_rate": 1.983503107691277e-06, + "loss": 0.4617, + "step": 6703 + }, + { + "avg_step_time": 5.7948280079196195, + "epoch": 0.7149866666666667, + "eta_time": 4.301050121433673, + "step": 6703 + }, + { + "epoch": 0.7150933333333334, + "grad_norm": 0.6402312312022433, + "learning_rate": 1.982125597968591e-06, + "loss": 0.4486, + "step": 6704 + }, + { + "avg_step_time": 5.756569188050549, + "epoch": 0.7150933333333334, + "eta_time": 4.271054528134171, + "step": 6704 + }, + { + "epoch": 0.7152, + "grad_norm": 1.6040876192701603, + "learning_rate": 1.980748448481416e-06, + "loss": 0.5201, + "step": 6705 + }, + { + "avg_step_time": 5.7583575609958535, + "epoch": 0.7152, + "eta_time": 4.270781857738592, + "step": 6705 + }, + { + "epoch": 0.7153066666666666, + "grad_norm": 1.7421590222842132, + "learning_rate": 1.9793716593941374e-06, + "loss": 0.427, + "step": 6706 + }, + { + "avg_step_time": 5.7594554063045615, + "epoch": 0.7153066666666666, + "eta_time": 4.269996244285243, + "step": 6706 + }, + { + "epoch": 0.7154133333333333, + "grad_norm": 2.0213281491383115, + "learning_rate": 1.977995230871095e-06, + "loss": 0.5169, + "step": 6707 + }, + { + "avg_step_time": 5.709583513664477, + "epoch": 0.7154133333333333, + "eta_time": 4.231435781793562, + "step": 6707 + }, + { + "epoch": 0.71552, + "grad_norm": 1.711373745700932, + "learning_rate": 1.9766191630765964e-06, + "loss": 0.5257, + "step": 6708 + }, + { + "avg_step_time": 5.739542342195607, + "epoch": 0.71552, + "eta_time": 4.252044285176579, + "step": 6708 + }, + { + "epoch": 0.7156266666666666, + "grad_norm": 1.7326014550917048, + "learning_rate": 1.975243456174895e-06, + "loss": 0.4718, + "step": 6709 + }, + { + "avg_step_time": 5.738780751372829, + "epoch": 0.7156266666666666, + "eta_time": 4.249885967544434, + "step": 6709 + }, + { + "epoch": 0.7157333333333333, + "grad_norm": 1.7272060400318876, + "learning_rate": 1.9738681103302044e-06, + "loss": 0.4214, + "step": 6710 + }, + { + "avg_step_time": 5.735895848033404, + "epoch": 0.7157333333333333, + "eta_time": 4.246156231946951, + "step": 6710 + }, + { + "epoch": 0.71584, + "grad_norm": 2.1718834879676554, + "learning_rate": 1.9724931257066988e-06, + "loss": 0.5789, + "step": 6711 + }, + { + "avg_step_time": 5.739441503177989, + "epoch": 0.71584, + "eta_time": 4.247186712351712, + "step": 6711 + }, + { + "epoch": 0.7159466666666666, + "grad_norm": 1.9600042484726778, + "learning_rate": 1.9711185024685024e-06, + "loss": 0.5479, + "step": 6712 + }, + { + "avg_step_time": 5.743465103284277, + "epoch": 0.7159466666666666, + "eta_time": 4.24856876945723, + "step": 6712 + }, + { + "epoch": 0.7160533333333333, + "grad_norm": 1.7685778286902138, + "learning_rate": 1.9697442407797035e-06, + "loss": 0.4427, + "step": 6713 + }, + { + "avg_step_time": 5.743579850052342, + "epoch": 0.7160533333333333, + "eta_time": 4.247058211344259, + "step": 6713 + }, + { + "epoch": 0.71616, + "grad_norm": 0.6187806591682425, + "learning_rate": 1.9683703408043447e-06, + "loss": 0.4261, + "step": 6714 + }, + { + "avg_step_time": 5.708613390874381, + "epoch": 0.71616, + "eta_time": 4.219616731421313, + "step": 6714 + }, + { + "epoch": 0.7162666666666667, + "grad_norm": 2.0836964296676164, + "learning_rate": 1.9669968027064234e-06, + "loss": 0.4348, + "step": 6715 + }, + { + "avg_step_time": 5.743142869737413, + "epoch": 0.7162666666666667, + "eta_time": 4.243544453750422, + "step": 6715 + }, + { + "epoch": 0.7163733333333333, + "grad_norm": 0.633289820433364, + "learning_rate": 1.965623626649893e-06, + "loss": 0.4424, + "step": 6716 + }, + { + "avg_step_time": 5.7229481730798275, + "epoch": 0.7163733333333333, + "eta_time": 4.227033108949795, + "step": 6716 + }, + { + "epoch": 0.71648, + "grad_norm": 1.6401193571502781, + "learning_rate": 1.9642508127986676e-06, + "loss": 0.433, + "step": 6717 + }, + { + "avg_step_time": 5.697548521889581, + "epoch": 0.71648, + "eta_time": 4.20668999199514, + "step": 6717 + }, + { + "epoch": 0.7165866666666667, + "grad_norm": 2.0291700267017916, + "learning_rate": 1.9628783613166184e-06, + "loss": 0.5169, + "step": 6718 + }, + { + "avg_step_time": 5.698274841212263, + "epoch": 0.7165866666666667, + "eta_time": 4.2056434036391614, + "step": 6718 + }, + { + "epoch": 0.7166933333333333, + "grad_norm": 2.1450462822253424, + "learning_rate": 1.961506272367567e-06, + "loss": 0.4328, + "step": 6719 + }, + { + "avg_step_time": 5.700211871754039, + "epoch": 0.7166933333333333, + "eta_time": 4.205489647605202, + "step": 6719 + }, + { + "epoch": 0.7168, + "grad_norm": 1.8886057690129758, + "learning_rate": 1.9601345461153005e-06, + "loss": 0.5261, + "step": 6720 + }, + { + "avg_step_time": 5.705230019309304, + "epoch": 0.7168, + "eta_time": 4.207607139240611, + "step": 6720 + }, + { + "epoch": 0.7169066666666667, + "grad_norm": 2.486887274738298, + "learning_rate": 1.9587631827235557e-06, + "loss": 0.4966, + "step": 6721 + }, + { + "avg_step_time": 5.699737789654972, + "epoch": 0.7169066666666667, + "eta_time": 4.201973359373415, + "step": 6721 + }, + { + "epoch": 0.7170133333333333, + "grad_norm": 2.002291920452584, + "learning_rate": 1.9573921823560273e-06, + "loss": 0.466, + "step": 6722 + }, + { + "avg_step_time": 5.698561627455432, + "epoch": 0.7170133333333333, + "eta_time": 4.199523332677573, + "step": 6722 + }, + { + "epoch": 0.71712, + "grad_norm": 1.5592812428622096, + "learning_rate": 1.9560215451763685e-06, + "loss": 0.4541, + "step": 6723 + }, + { + "avg_step_time": 5.699002436917238, + "epoch": 0.71712, + "eta_time": 4.198265128529031, + "step": 6723 + }, + { + "epoch": 0.7172266666666667, + "grad_norm": 1.9116658269119278, + "learning_rate": 1.954651271348192e-06, + "loss": 0.4178, + "step": 6724 + }, + { + "avg_step_time": 5.7372370344219785, + "epoch": 0.7172266666666667, + "eta_time": 4.224837605070185, + "step": 6724 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 1.9241520400204826, + "learning_rate": 1.9532813610350604e-06, + "loss": 0.467, + "step": 6725 + }, + { + "avg_step_time": 5.747703012793955, + "epoch": 0.7173333333333334, + "eta_time": 4.230948051084439, + "step": 6725 + }, + { + "epoch": 0.71744, + "grad_norm": 1.8067314040356452, + "learning_rate": 1.951911814400495e-06, + "loss": 0.3913, + "step": 6726 + }, + { + "avg_step_time": 5.748525956664422, + "epoch": 0.71744, + "eta_time": 4.229957016445571, + "step": 6726 + }, + { + "epoch": 0.7175466666666667, + "grad_norm": 1.8357174653975001, + "learning_rate": 1.950542631607977e-06, + "loss": 0.5747, + "step": 6727 + }, + { + "avg_step_time": 5.745002484080767, + "epoch": 0.7175466666666667, + "eta_time": 4.225768493846076, + "step": 6727 + }, + { + "epoch": 0.7176533333333334, + "grad_norm": 1.9634351453011785, + "learning_rate": 1.9491738128209437e-06, + "loss": 0.4476, + "step": 6728 + }, + { + "avg_step_time": 5.7552573680877686, + "epoch": 0.7176533333333334, + "eta_time": 4.231712848146756, + "step": 6728 + }, + { + "epoch": 0.71776, + "grad_norm": 2.022162757984091, + "learning_rate": 1.9478053582027826e-06, + "loss": 0.4823, + "step": 6729 + }, + { + "avg_step_time": 5.75194157494439, + "epoch": 0.71776, + "eta_time": 4.227677057584127, + "step": 6729 + }, + { + "epoch": 0.7178666666666667, + "grad_norm": 2.036338453694526, + "learning_rate": 1.9464372679168483e-06, + "loss": 0.4511, + "step": 6730 + }, + { + "avg_step_time": 5.749975009398027, + "epoch": 0.7178666666666667, + "eta_time": 4.224634416627162, + "step": 6730 + }, + { + "epoch": 0.7179733333333334, + "grad_norm": 1.681451677922448, + "learning_rate": 1.945069542126442e-06, + "loss": 0.4988, + "step": 6731 + }, + { + "avg_step_time": 5.7460513283507995, + "epoch": 0.7179733333333334, + "eta_time": 4.220155475599865, + "step": 6731 + }, + { + "epoch": 0.71808, + "grad_norm": 1.724236074769934, + "learning_rate": 1.9437021809948232e-06, + "loss": 0.5436, + "step": 6732 + }, + { + "avg_step_time": 5.744667477077908, + "epoch": 0.71808, + "eta_time": 4.217543372754697, + "step": 6732 + }, + { + "epoch": 0.7181866666666666, + "grad_norm": 1.986794927693358, + "learning_rate": 1.942335184685217e-06, + "loss": 0.5481, + "step": 6733 + }, + { + "avg_step_time": 5.750983587419144, + "epoch": 0.7181866666666666, + "eta_time": 4.220582954989272, + "step": 6733 + }, + { + "epoch": 0.7182933333333333, + "grad_norm": 1.9628192599593794, + "learning_rate": 1.9409685533607936e-06, + "loss": 0.5103, + "step": 6734 + }, + { + "avg_step_time": 5.749465431829895, + "epoch": 0.7182933333333333, + "eta_time": 4.217871723739654, + "step": 6734 + }, + { + "epoch": 0.7184, + "grad_norm": 0.6875926967610775, + "learning_rate": 1.9396022871846836e-06, + "loss": 0.4434, + "step": 6735 + }, + { + "avg_step_time": 5.712631423063953, + "epoch": 0.7184, + "eta_time": 4.189263043580232, + "step": 6735 + }, + { + "epoch": 0.7185066666666666, + "grad_norm": 1.6006350753443472, + "learning_rate": 1.9382363863199773e-06, + "loss": 0.4295, + "step": 6736 + }, + { + "avg_step_time": 5.718895478682085, + "epoch": 0.7185066666666666, + "eta_time": 4.19226810228945, + "step": 6736 + }, + { + "epoch": 0.7186133333333333, + "grad_norm": 1.8972700171329688, + "learning_rate": 1.936870850929715e-06, + "loss": 0.3878, + "step": 6737 + }, + { + "avg_step_time": 5.718761480215824, + "epoch": 0.7186133333333333, + "eta_time": 4.190581329113707, + "step": 6737 + }, + { + "epoch": 0.71872, + "grad_norm": 2.2558429207522477, + "learning_rate": 1.935505681176899e-06, + "loss": 0.4359, + "step": 6738 + }, + { + "avg_step_time": 5.712013215729685, + "epoch": 0.71872, + "eta_time": 4.184049680521994, + "step": 6738 + }, + { + "epoch": 0.7188266666666666, + "grad_norm": 1.7312616564195813, + "learning_rate": 1.934140877224488e-06, + "loss": 0.4087, + "step": 6739 + }, + { + "avg_step_time": 5.70976008790912, + "epoch": 0.7188266666666666, + "eta_time": 4.180813219924567, + "step": 6739 + }, + { + "epoch": 0.7189333333333333, + "grad_norm": 1.9148841683872804, + "learning_rate": 1.9327764392353927e-06, + "loss": 0.5384, + "step": 6740 + }, + { + "avg_step_time": 5.7113082794227985, + "epoch": 0.7189333333333333, + "eta_time": 4.180360365633076, + "step": 6740 + }, + { + "epoch": 0.71904, + "grad_norm": 0.6340592927142389, + "learning_rate": 1.9314123673724805e-06, + "loss": 0.4295, + "step": 6741 + }, + { + "avg_step_time": 5.678607389180347, + "epoch": 0.71904, + "eta_time": 4.154847739750287, + "step": 6741 + }, + { + "epoch": 0.7191466666666667, + "grad_norm": 0.6206484835429528, + "learning_rate": 1.9300486617985792e-06, + "loss": 0.4207, + "step": 6742 + }, + { + "avg_step_time": 5.64134648833612, + "epoch": 0.7191466666666667, + "eta_time": 4.12601813994139, + "step": 6742 + }, + { + "epoch": 0.7192533333333333, + "grad_norm": 0.6464101408497135, + "learning_rate": 1.9286853226764725e-06, + "loss": 0.4044, + "step": 6743 + }, + { + "avg_step_time": 5.605457522652366, + "epoch": 0.7192533333333333, + "eta_time": 4.098212277672507, + "step": 6743 + }, + { + "epoch": 0.71936, + "grad_norm": 0.6491071416811897, + "learning_rate": 1.9273223501688943e-06, + "loss": 0.4496, + "step": 6744 + }, + { + "avg_step_time": 5.607383988120339, + "epoch": 0.71936, + "eta_time": 4.098063131317947, + "step": 6744 + }, + { + "epoch": 0.7194666666666667, + "grad_norm": 1.8679122451216503, + "learning_rate": 1.925959744438543e-06, + "loss": 0.4464, + "step": 6745 + }, + { + "avg_step_time": 5.605822536680433, + "epoch": 0.7194666666666667, + "eta_time": 4.0953647976304275, + "step": 6745 + }, + { + "epoch": 0.7195733333333333, + "grad_norm": 2.0816581809451544, + "learning_rate": 1.9245975056480652e-06, + "loss": 0.4994, + "step": 6746 + }, + { + "avg_step_time": 5.578754523787835, + "epoch": 0.7195733333333333, + "eta_time": 4.074040456399505, + "step": 6746 + }, + { + "epoch": 0.71968, + "grad_norm": 0.6243270183808075, + "learning_rate": 1.9232356339600717e-06, + "loss": 0.4454, + "step": 6747 + }, + { + "avg_step_time": 5.518330000867747, + "epoch": 0.71968, + "eta_time": 4.028380900633455, + "step": 6747 + }, + { + "epoch": 0.7197866666666667, + "grad_norm": 1.8514677283968648, + "learning_rate": 1.9218741295371216e-06, + "loss": 0.5088, + "step": 6748 + }, + { + "avg_step_time": 5.519995648451526, + "epoch": 0.7197866666666667, + "eta_time": 4.028063491245044, + "step": 6748 + }, + { + "epoch": 0.7198933333333334, + "grad_norm": 1.5795649848595756, + "learning_rate": 1.9205129925417375e-06, + "loss": 0.4716, + "step": 6749 + }, + { + "avg_step_time": 5.508042321060643, + "epoch": 0.7198933333333334, + "eta_time": 4.017810870862569, + "step": 6749 + }, + { + "epoch": 0.72, + "grad_norm": 1.98523148741401, + "learning_rate": 1.919152223136391e-06, + "loss": 0.5244, + "step": 6750 + }, + { + "avg_step_time": 5.476725373605285, + "epoch": 0.72, + "eta_time": 3.993445584920521, + "step": 6750 + }, + { + "epoch": 0.7201066666666667, + "grad_norm": 2.0676779846765383, + "learning_rate": 1.917791821483516e-06, + "loss": 0.4983, + "step": 6751 + }, + { + "avg_step_time": 5.513389953459152, + "epoch": 0.7201066666666667, + "eta_time": 4.018648677188004, + "step": 6751 + }, + { + "epoch": 0.7202133333333334, + "grad_norm": 1.739412506198821, + "learning_rate": 1.9164317877455014e-06, + "loss": 0.4825, + "step": 6752 + }, + { + "avg_step_time": 5.513682594202986, + "epoch": 0.7202133333333334, + "eta_time": 4.017330401276231, + "step": 6752 + }, + { + "epoch": 0.72032, + "grad_norm": 1.8710811882570344, + "learning_rate": 1.9150721220846884e-06, + "loss": 0.4231, + "step": 6753 + }, + { + "avg_step_time": 5.513394543618867, + "epoch": 0.72032, + "eta_time": 4.015589025935742, + "step": 6753 + }, + { + "epoch": 0.7204266666666667, + "grad_norm": 2.2649720148516166, + "learning_rate": 1.913712824663375e-06, + "loss": 0.5237, + "step": 6754 + }, + { + "avg_step_time": 5.511732477130312, + "epoch": 0.7204266666666667, + "eta_time": 4.012847450710708, + "step": 6754 + }, + { + "epoch": 0.7205333333333334, + "grad_norm": 1.8963534885369528, + "learning_rate": 1.912353895643821e-06, + "loss": 0.4939, + "step": 6755 + }, + { + "avg_step_time": 5.537412530243999, + "epoch": 0.7205333333333334, + "eta_time": 4.030005785899799, + "step": 6755 + }, + { + "epoch": 0.72064, + "grad_norm": 1.592906687359052, + "learning_rate": 1.910995335188234e-06, + "loss": 0.4876, + "step": 6756 + }, + { + "avg_step_time": 5.5355232219503385, + "epoch": 0.72064, + "eta_time": 4.027093143968871, + "step": 6756 + }, + { + "epoch": 0.7207466666666666, + "grad_norm": 2.1539031347380546, + "learning_rate": 1.9096371434587836e-06, + "loss": 0.4684, + "step": 6757 + }, + { + "avg_step_time": 5.534518388786701, + "epoch": 0.7207466666666666, + "eta_time": 4.024824761623218, + "step": 6757 + }, + { + "epoch": 0.7208533333333333, + "grad_norm": 2.0072280478535216, + "learning_rate": 1.9082793206175954e-06, + "loss": 0.482, + "step": 6758 + }, + { + "avg_step_time": 5.509626268136381, + "epoch": 0.7208533333333333, + "eta_time": 4.005192206586918, + "step": 6758 + }, + { + "epoch": 0.72096, + "grad_norm": 1.6900627795743377, + "learning_rate": 1.906921866826747e-06, + "loss": 0.4602, + "step": 6759 + }, + { + "avg_step_time": 5.512222993253458, + "epoch": 0.72096, + "eta_time": 4.005548708430846, + "step": 6759 + }, + { + "epoch": 0.7210666666666666, + "grad_norm": 1.6822223797486955, + "learning_rate": 1.9055647822482725e-06, + "loss": 0.4465, + "step": 6760 + }, + { + "avg_step_time": 5.524684472517534, + "epoch": 0.7210666666666666, + "eta_time": 4.0130694154537085, + "step": 6760 + }, + { + "epoch": 0.7211733333333333, + "grad_norm": 2.110808608868513, + "learning_rate": 1.9042080670441648e-06, + "loss": 0.5579, + "step": 6761 + }, + { + "avg_step_time": 5.528855542943935, + "epoch": 0.7211733333333333, + "eta_time": 4.014563441459846, + "step": 6761 + }, + { + "epoch": 0.72128, + "grad_norm": 1.8051849415298824, + "learning_rate": 1.9028517213763737e-06, + "loss": 0.4962, + "step": 6762 + }, + { + "avg_step_time": 5.52975379336964, + "epoch": 0.72128, + "eta_time": 4.01367962835413, + "step": 6762 + }, + { + "epoch": 0.7213866666666666, + "grad_norm": 1.9266969589298484, + "learning_rate": 1.9014957454067984e-06, + "loss": 0.4871, + "step": 6763 + }, + { + "avg_step_time": 5.528459117870138, + "epoch": 0.7213866666666666, + "eta_time": 4.011204226632445, + "step": 6763 + }, + { + "epoch": 0.7214933333333333, + "grad_norm": 1.6232574637796124, + "learning_rate": 1.9001401392973018e-06, + "loss": 0.4253, + "step": 6764 + }, + { + "avg_step_time": 5.528717994689941, + "epoch": 0.7214933333333333, + "eta_time": 4.009856301148733, + "step": 6764 + }, + { + "epoch": 0.7216, + "grad_norm": 1.8305813538734883, + "learning_rate": 1.8987849032096973e-06, + "loss": 0.5007, + "step": 6765 + }, + { + "avg_step_time": 5.528272556536125, + "epoch": 0.7216, + "eta_time": 4.007997603488691, + "step": 6765 + }, + { + "epoch": 0.7217066666666667, + "grad_norm": 0.6493061682913879, + "learning_rate": 1.8974300373057518e-06, + "loss": 0.434, + "step": 6766 + }, + { + "avg_step_time": 5.518004496892293, + "epoch": 0.7217066666666667, + "eta_time": 3.999020481219998, + "step": 6766 + }, + { + "epoch": 0.7218133333333333, + "grad_norm": 1.892778845072579, + "learning_rate": 1.8960755417471998e-06, + "loss": 0.4398, + "step": 6767 + }, + { + "avg_step_time": 5.511551457222062, + "epoch": 0.7218133333333333, + "eta_time": 3.992812833454205, + "step": 6767 + }, + { + "epoch": 0.72192, + "grad_norm": 1.8716315919650197, + "learning_rate": 1.89472141669572e-06, + "loss": 0.4882, + "step": 6768 + }, + { + "avg_step_time": 5.516130023532444, + "epoch": 0.72192, + "eta_time": 3.9945974920414113, + "step": 6768 + }, + { + "epoch": 0.7220266666666667, + "grad_norm": 2.143426468700522, + "learning_rate": 1.8933676623129481e-06, + "loss": 0.5339, + "step": 6769 + }, + { + "avg_step_time": 5.518625952980735, + "epoch": 0.7220266666666667, + "eta_time": 3.99487200929661, + "step": 6769 + }, + { + "epoch": 0.7221333333333333, + "grad_norm": 1.9693917275767927, + "learning_rate": 1.8920142787604829e-06, + "loss": 0.4696, + "step": 6770 + }, + { + "avg_step_time": 5.52048529759802, + "epoch": 0.7221333333333333, + "eta_time": 3.9946845000674562, + "step": 6770 + }, + { + "epoch": 0.72224, + "grad_norm": 1.8422137954663163, + "learning_rate": 1.8906612661998698e-06, + "loss": 0.448, + "step": 6771 + }, + { + "avg_step_time": 5.521609388216578, + "epoch": 0.72224, + "eta_time": 3.9939641241433246, + "step": 6771 + }, + { + "epoch": 0.7223466666666667, + "grad_norm": 1.7612873504976811, + "learning_rate": 1.8893086247926157e-06, + "loss": 0.4739, + "step": 6772 + }, + { + "avg_step_time": 5.5225990757797705, + "epoch": 0.7223466666666667, + "eta_time": 3.9931459428485394, + "step": 6772 + }, + { + "epoch": 0.7224533333333333, + "grad_norm": 0.620988585887124, + "learning_rate": 1.8879563547001844e-06, + "loss": 0.3941, + "step": 6773 + }, + { + "avg_step_time": 5.4871918673467155, + "epoch": 0.7224533333333333, + "eta_time": 3.966020344121154, + "step": 6773 + }, + { + "epoch": 0.72256, + "grad_norm": 2.324796697739909, + "learning_rate": 1.8866044560839902e-06, + "loss": 0.5377, + "step": 6774 + }, + { + "avg_step_time": 5.485262068835172, + "epoch": 0.72256, + "eta_time": 3.9631018447334116, + "step": 6774 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 1.772420183415062, + "learning_rate": 1.8852529291054046e-06, + "loss": 0.4392, + "step": 6775 + }, + { + "avg_step_time": 5.487227596417822, + "epoch": 0.7226666666666667, + "eta_time": 3.9629977085239823, + "step": 6775 + }, + { + "epoch": 0.7227733333333334, + "grad_norm": 1.8310228838136853, + "learning_rate": 1.883901773925757e-06, + "loss": 0.4394, + "step": 6776 + }, + { + "avg_step_time": 5.464033974541558, + "epoch": 0.7227733333333334, + "eta_time": 3.9447289721759753, + "step": 6776 + }, + { + "epoch": 0.72288, + "grad_norm": 1.7866997662266035, + "learning_rate": 1.8825509907063328e-06, + "loss": 0.559, + "step": 6777 + }, + { + "avg_step_time": 5.431272104533032, + "epoch": 0.72288, + "eta_time": 3.9195680354380045, + "step": 6777 + }, + { + "epoch": 0.7229866666666667, + "grad_norm": 1.9430995173255585, + "learning_rate": 1.88120057960837e-06, + "loss": 0.4351, + "step": 6778 + }, + { + "avg_step_time": 5.42982303253328, + "epoch": 0.7229866666666667, + "eta_time": 3.91701400430248, + "step": 6778 + }, + { + "epoch": 0.7230933333333334, + "grad_norm": 1.6496250271748454, + "learning_rate": 1.8798505407930612e-06, + "loss": 0.4218, + "step": 6779 + }, + { + "avg_step_time": 5.465587839935765, + "epoch": 0.7230933333333334, + "eta_time": 3.941296120131457, + "step": 6779 + }, + { + "epoch": 0.7232, + "grad_norm": 1.9467557726914921, + "learning_rate": 1.8785008744215606e-06, + "loss": 0.4874, + "step": 6780 + }, + { + "avg_step_time": 5.467329071025656, + "epoch": 0.7232, + "eta_time": 3.94103303869766, + "step": 6780 + }, + { + "epoch": 0.7233066666666667, + "grad_norm": 1.8546391494732266, + "learning_rate": 1.877151580654971e-06, + "loss": 0.4706, + "step": 6781 + }, + { + "avg_step_time": 5.469379776656026, + "epoch": 0.7233066666666667, + "eta_time": 3.9409919835127027, + "step": 6781 + }, + { + "epoch": 0.7234133333333334, + "grad_norm": 1.6129537042545978, + "learning_rate": 1.8758026596543555e-06, + "loss": 0.4221, + "step": 6782 + }, + { + "avg_step_time": 5.5012014201193145, + "epoch": 0.7234133333333334, + "eta_time": 3.9623931339914953, + "step": 6782 + }, + { + "epoch": 0.72352, + "grad_norm": 1.7936576695051911, + "learning_rate": 1.874454111580733e-06, + "loss": 0.4552, + "step": 6783 + }, + { + "avg_step_time": 5.503249878835196, + "epoch": 0.72352, + "eta_time": 3.9623399127613412, + "step": 6783 + }, + { + "epoch": 0.7236266666666666, + "grad_norm": 0.6429007721437914, + "learning_rate": 1.8731059365950737e-06, + "loss": 0.4534, + "step": 6784 + }, + { + "avg_step_time": 5.468284857393515, + "epoch": 0.7236266666666666, + "eta_time": 3.935646129307388, + "step": 6784 + }, + { + "epoch": 0.7237333333333333, + "grad_norm": 2.0029233093301557, + "learning_rate": 1.8717581348583052e-06, + "loss": 0.5814, + "step": 6785 + }, + { + "avg_step_time": 5.47361170402681, + "epoch": 0.7237333333333333, + "eta_time": 3.9379595315081772, + "step": 6785 + }, + { + "epoch": 0.72384, + "grad_norm": 2.0845218223627886, + "learning_rate": 1.8704107065313116e-06, + "loss": 0.537, + "step": 6786 + }, + { + "avg_step_time": 5.511660645706485, + "epoch": 0.72384, + "eta_time": 3.9638026143705805, + "step": 6786 + }, + { + "epoch": 0.7239466666666666, + "grad_norm": 1.7896092517431672, + "learning_rate": 1.8690636517749333e-06, + "loss": 0.3974, + "step": 6787 + }, + { + "avg_step_time": 5.514298860472862, + "epoch": 0.7239466666666666, + "eta_time": 3.964168180806602, + "step": 6787 + }, + { + "epoch": 0.7240533333333333, + "grad_norm": 0.6843570403381675, + "learning_rate": 1.867716970749962e-06, + "loss": 0.4707, + "step": 6788 + }, + { + "avg_step_time": 5.507373068067762, + "epoch": 0.7240533333333333, + "eta_time": 3.9576594797475835, + "step": 6788 + }, + { + "epoch": 0.72416, + "grad_norm": 1.8037186121571782, + "learning_rate": 1.8663706636171503e-06, + "loss": 0.455, + "step": 6789 + }, + { + "avg_step_time": 5.509080296815044, + "epoch": 0.72416, + "eta_time": 3.9573560132121397, + "step": 6789 + }, + { + "epoch": 0.7242666666666666, + "grad_norm": 1.651808756050202, + "learning_rate": 1.8650247305371998e-06, + "loss": 0.4222, + "step": 6790 + }, + { + "avg_step_time": 5.507096126826123, + "epoch": 0.7242666666666666, + "eta_time": 3.9544009688459796, + "step": 6790 + }, + { + "epoch": 0.7243733333333333, + "grad_norm": 0.6749982490343882, + "learning_rate": 1.863679171670773e-06, + "loss": 0.4633, + "step": 6791 + }, + { + "avg_step_time": 5.468764673579823, + "epoch": 0.7243733333333333, + "eta_time": 3.9253577545917397, + "step": 6791 + }, + { + "epoch": 0.72448, + "grad_norm": 0.6496146013203483, + "learning_rate": 1.8623339871784869e-06, + "loss": 0.4299, + "step": 6792 + }, + { + "avg_step_time": 5.433353633591623, + "epoch": 0.72448, + "eta_time": 3.898431232101989, + "step": 6792 + }, + { + "epoch": 0.7245866666666667, + "grad_norm": 1.6254049008926978, + "learning_rate": 1.860989177220911e-06, + "loss": 0.4397, + "step": 6793 + }, + { + "avg_step_time": 5.432084028166954, + "epoch": 0.7245866666666667, + "eta_time": 3.8960113779797427, + "step": 6793 + }, + { + "epoch": 0.7246933333333333, + "grad_norm": 1.7581891543544375, + "learning_rate": 1.85964474195857e-06, + "loss": 0.4505, + "step": 6794 + }, + { + "avg_step_time": 5.382103175827951, + "epoch": 0.7246933333333333, + "eta_time": 3.8586689713366504, + "step": 6794 + }, + { + "epoch": 0.7248, + "grad_norm": 1.9838357118982886, + "learning_rate": 1.8583006815519473e-06, + "loss": 0.4047, + "step": 6795 + }, + { + "avg_step_time": 5.373083485497369, + "epoch": 0.7248, + "eta_time": 3.8507098312731145, + "step": 6795 + }, + { + "epoch": 0.7249066666666667, + "grad_norm": 1.967544441790754, + "learning_rate": 1.856956996161481e-06, + "loss": 0.5012, + "step": 6796 + }, + { + "avg_step_time": 5.377490664973403, + "epoch": 0.7249066666666667, + "eta_time": 3.852374562490669, + "step": 6796 + }, + { + "epoch": 0.7250133333333333, + "grad_norm": 1.943388369325247, + "learning_rate": 1.85561368594756e-06, + "loss": 0.4301, + "step": 6797 + }, + { + "avg_step_time": 5.38109631008572, + "epoch": 0.7250133333333333, + "eta_time": 3.853462857611385, + "step": 6797 + }, + { + "epoch": 0.72512, + "grad_norm": 1.8606417058971731, + "learning_rate": 1.8542707510705355e-06, + "loss": 0.4751, + "step": 6798 + }, + { + "avg_step_time": 5.380341043375959, + "epoch": 0.72512, + "eta_time": 3.8514274635499572, + "step": 6798 + }, + { + "epoch": 0.7252266666666667, + "grad_norm": 2.055995152287474, + "learning_rate": 1.852928191690707e-06, + "loss": 0.4898, + "step": 6799 + }, + { + "avg_step_time": 5.382914100030456, + "epoch": 0.7252266666666667, + "eta_time": 3.851774089355126, + "step": 6799 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 2.075091637945218, + "learning_rate": 1.8515860079683322e-06, + "loss": 0.5199, + "step": 6800 + }, + { + "avg_step_time": 5.380944728851318, + "epoch": 0.7253333333333334, + "eta_time": 3.848870187997818, + "step": 6800 + }, + { + "epoch": 0.72544, + "grad_norm": 1.703529431011093, + "learning_rate": 1.8502442000636246e-06, + "loss": 0.481, + "step": 6801 + }, + { + "avg_step_time": 5.380983836723097, + "epoch": 0.72544, + "eta_time": 3.847403443257014, + "step": 6801 + }, + { + "epoch": 0.7255466666666667, + "grad_norm": 0.6416106821706934, + "learning_rate": 1.8489027681367544e-06, + "loss": 0.4393, + "step": 6802 + }, + { + "avg_step_time": 5.348558293448554, + "epoch": 0.7255466666666667, + "eta_time": 3.8227334691786474, + "step": 6802 + }, + { + "epoch": 0.7256533333333334, + "grad_norm": 1.7817328830438168, + "learning_rate": 1.8475617123478406e-06, + "loss": 0.4104, + "step": 6803 + }, + { + "avg_step_time": 5.386126703686184, + "epoch": 0.7256533333333334, + "eta_time": 3.8480883005224626, + "step": 6803 + }, + { + "epoch": 0.72576, + "grad_norm": 1.5488085618560294, + "learning_rate": 1.846221032856965e-06, + "loss": 0.3848, + "step": 6804 + }, + { + "avg_step_time": 5.384636801902694, + "epoch": 0.72576, + "eta_time": 3.8455281160255073, + "step": 6804 + }, + { + "epoch": 0.7258666666666667, + "grad_norm": 1.971938732390756, + "learning_rate": 1.8448807298241584e-06, + "loss": 0.4356, + "step": 6805 + }, + { + "avg_step_time": 5.383324358198378, + "epoch": 0.7258666666666667, + "eta_time": 3.8430954446027306, + "step": 6805 + }, + { + "epoch": 0.7259733333333334, + "grad_norm": 1.9630646505597382, + "learning_rate": 1.8435408034094116e-06, + "loss": 0.4219, + "step": 6806 + }, + { + "avg_step_time": 5.384995157068426, + "epoch": 0.7259733333333334, + "eta_time": 3.8427923773635513, + "step": 6806 + }, + { + "epoch": 0.72608, + "grad_norm": 2.1499581092223603, + "learning_rate": 1.8422012537726646e-06, + "loss": 0.5212, + "step": 6807 + }, + { + "avg_step_time": 5.387074210427024, + "epoch": 0.72608, + "eta_time": 3.842779603437944, + "step": 6807 + }, + { + "epoch": 0.7261866666666666, + "grad_norm": 2.0087384024349397, + "learning_rate": 1.8408620810738191e-06, + "loss": 0.4588, + "step": 6808 + }, + { + "avg_step_time": 5.38605703247918, + "epoch": 0.7261866666666666, + "eta_time": 3.840557889548349, + "step": 6808 + }, + { + "epoch": 0.7262933333333333, + "grad_norm": 0.6666278019843614, + "learning_rate": 1.8395232854727263e-06, + "loss": 0.4486, + "step": 6809 + }, + { + "avg_step_time": 5.354905942473748, + "epoch": 0.7262933333333333, + "eta_time": 3.816857957885455, + "step": 6809 + }, + { + "epoch": 0.7264, + "grad_norm": 1.8523303173685712, + "learning_rate": 1.8381848671291953e-06, + "loss": 0.4887, + "step": 6810 + }, + { + "avg_step_time": 5.35381173124217, + "epoch": 0.7264, + "eta_time": 3.8145908585100465, + "step": 6810 + }, + { + "epoch": 0.7265066666666666, + "grad_norm": 1.726957721073318, + "learning_rate": 1.836846826202991e-06, + "loss": 0.5106, + "step": 6811 + }, + { + "avg_step_time": 5.333573589421282, + "epoch": 0.7265066666666666, + "eta_time": 3.79868963424338, + "step": 6811 + }, + { + "epoch": 0.7266133333333333, + "grad_norm": 1.6252049402250388, + "learning_rate": 1.8355091628538308e-06, + "loss": 0.4807, + "step": 6812 + }, + { + "avg_step_time": 5.339939697824343, + "epoch": 0.7266133333333333, + "eta_time": 3.8017404015343867, + "step": 6812 + }, + { + "epoch": 0.72672, + "grad_norm": 0.6303158188798008, + "learning_rate": 1.8341718772413852e-06, + "loss": 0.4309, + "step": 6813 + }, + { + "avg_step_time": 5.339271037265508, + "epoch": 0.72672, + "eta_time": 3.79978122152062, + "step": 6813 + }, + { + "epoch": 0.7268266666666666, + "grad_norm": 1.8487301806494918, + "learning_rate": 1.8328349695252872e-06, + "loss": 0.3953, + "step": 6814 + }, + { + "avg_step_time": 5.343542922626842, + "epoch": 0.7268266666666666, + "eta_time": 3.801337062457595, + "step": 6814 + }, + { + "epoch": 0.7269333333333333, + "grad_norm": 1.725584307423187, + "learning_rate": 1.8314984398651153e-06, + "loss": 0.4314, + "step": 6815 + }, + { + "avg_step_time": 5.362762441538801, + "epoch": 0.7269333333333333, + "eta_time": 3.813519958427592, + "step": 6815 + }, + { + "epoch": 0.72704, + "grad_norm": 1.8076901963805379, + "learning_rate": 1.8301622884204096e-06, + "loss": 0.5315, + "step": 6816 + }, + { + "avg_step_time": 5.35781967037856, + "epoch": 0.72704, + "eta_time": 3.808516815694093, + "step": 6816 + }, + { + "epoch": 0.7271466666666667, + "grad_norm": 1.7979276617284752, + "learning_rate": 1.8288265153506646e-06, + "loss": 0.524, + "step": 6817 + }, + { + "avg_step_time": 5.356799698839284, + "epoch": 0.7271466666666667, + "eta_time": 3.80630378600858, + "step": 6817 + }, + { + "epoch": 0.7272533333333333, + "grad_norm": 2.0972911110763426, + "learning_rate": 1.8274911208153262e-06, + "loss": 0.4537, + "step": 6818 + }, + { + "avg_step_time": 5.35571435966877, + "epoch": 0.7272533333333333, + "eta_time": 3.804044893798068, + "step": 6818 + }, + { + "epoch": 0.72736, + "grad_norm": 1.8875116364843498, + "learning_rate": 1.8261561049737946e-06, + "loss": 0.4449, + "step": 6819 + }, + { + "avg_step_time": 5.3683112510527025, + "epoch": 0.72736, + "eta_time": 3.811500988247419, + "step": 6819 + }, + { + "epoch": 0.7274666666666667, + "grad_norm": 1.6786418022957, + "learning_rate": 1.8248214679854298e-06, + "loss": 0.4546, + "step": 6820 + }, + { + "avg_step_time": 5.367365690192791, + "epoch": 0.7274666666666667, + "eta_time": 3.8093387051229395, + "step": 6820 + }, + { + "epoch": 0.7275733333333333, + "grad_norm": 1.9343038597146562, + "learning_rate": 1.8234872100095445e-06, + "loss": 0.4967, + "step": 6821 + }, + { + "avg_step_time": 5.368256503885442, + "epoch": 0.7275733333333333, + "eta_time": 3.8084797530342835, + "step": 6821 + }, + { + "epoch": 0.72768, + "grad_norm": 1.6676488978503958, + "learning_rate": 1.8221533312054024e-06, + "loss": 0.3889, + "step": 6822 + }, + { + "avg_step_time": 5.367880334757795, + "epoch": 0.72768, + "eta_time": 3.8067218040657367, + "step": 6822 + }, + { + "epoch": 0.7277866666666667, + "grad_norm": 0.6769325528242863, + "learning_rate": 1.820819831732229e-06, + "loss": 0.446, + "step": 6823 + }, + { + "avg_step_time": 5.330677889814281, + "epoch": 0.7277866666666667, + "eta_time": 3.7788583263350124, + "step": 6823 + }, + { + "epoch": 0.7278933333333333, + "grad_norm": 1.818557190741047, + "learning_rate": 1.8194867117491978e-06, + "loss": 0.4959, + "step": 6824 + }, + { + "avg_step_time": 5.324028268004909, + "epoch": 0.7278933333333333, + "eta_time": 3.772665586577923, + "step": 6824 + }, + { + "epoch": 0.728, + "grad_norm": 1.809505228340761, + "learning_rate": 1.818153971415439e-06, + "loss": 0.4051, + "step": 6825 + }, + { + "avg_step_time": 5.322822327565665, + "epoch": 0.728, + "eta_time": 3.770332482025679, + "step": 6825 + }, + { + "epoch": 0.7281066666666667, + "grad_norm": 2.0850780722400795, + "learning_rate": 1.8168216108900389e-06, + "loss": 0.5079, + "step": 6826 + }, + { + "avg_step_time": 5.331933621204261, + "epoch": 0.7281066666666667, + "eta_time": 3.775305222347128, + "step": 6826 + }, + { + "epoch": 0.7282133333333334, + "grad_norm": 1.655728131699054, + "learning_rate": 1.8154896303320402e-06, + "loss": 0.4348, + "step": 6827 + }, + { + "avg_step_time": 5.3370748264621, + "epoch": 0.7282133333333334, + "eta_time": 3.777462960507064, + "step": 6827 + }, + { + "epoch": 0.72832, + "grad_norm": 1.9080396766368397, + "learning_rate": 1.8141580299004342e-06, + "loss": 0.4466, + "step": 6828 + }, + { + "avg_step_time": 5.337430905814123, + "epoch": 0.72832, + "eta_time": 3.7762323658634918, + "step": 6828 + }, + { + "epoch": 0.7284266666666667, + "grad_norm": 2.6113694148072253, + "learning_rate": 1.812826809754174e-06, + "loss": 0.5248, + "step": 6829 + }, + { + "avg_step_time": 5.39179735472708, + "epoch": 0.7284266666666667, + "eta_time": 3.813198906981985, + "step": 6829 + }, + { + "epoch": 0.7285333333333334, + "grad_norm": 1.811002289478342, + "learning_rate": 1.8114959700521606e-06, + "loss": 0.5165, + "step": 6830 + }, + { + "avg_step_time": 5.391271241987594, + "epoch": 0.7285333333333334, + "eta_time": 3.81132925301623, + "step": 6830 + }, + { + "epoch": 0.72864, + "grad_norm": 1.8903763212974638, + "learning_rate": 1.8101655109532552e-06, + "loss": 0.512, + "step": 6831 + }, + { + "avg_step_time": 5.392900719787136, + "epoch": 0.72864, + "eta_time": 3.8109831753162426, + "step": 6831 + }, + { + "epoch": 0.7287466666666667, + "grad_norm": 1.9397014117962574, + "learning_rate": 1.8088354326162683e-06, + "loss": 0.42, + "step": 6832 + }, + { + "avg_step_time": 5.389212273588084, + "epoch": 0.7287466666666667, + "eta_time": 3.8068796699262495, + "step": 6832 + }, + { + "epoch": 0.7288533333333334, + "grad_norm": 1.6623278280218965, + "learning_rate": 1.8075057351999714e-06, + "loss": 0.5282, + "step": 6833 + }, + { + "avg_step_time": 5.396324718841399, + "epoch": 0.7288533333333334, + "eta_time": 3.810404843137454, + "step": 6833 + }, + { + "epoch": 0.72896, + "grad_norm": 1.8410616991130209, + "learning_rate": 1.8061764188630831e-06, + "loss": 0.3884, + "step": 6834 + }, + { + "avg_step_time": 5.431737076152455, + "epoch": 0.72896, + "eta_time": 3.833901086250941, + "step": 6834 + }, + { + "epoch": 0.7290666666666666, + "grad_norm": 2.1460969404320815, + "learning_rate": 1.8048474837642821e-06, + "loss": 0.4213, + "step": 6835 + }, + { + "avg_step_time": 5.427923985201903, + "epoch": 0.7290666666666666, + "eta_time": 3.8297019228924536, + "step": 6835 + }, + { + "epoch": 0.7291733333333333, + "grad_norm": 1.9610018836243313, + "learning_rate": 1.8035189300622019e-06, + "loss": 0.4953, + "step": 6836 + }, + { + "avg_step_time": 5.428149615875398, + "epoch": 0.7291733333333333, + "eta_time": 3.8283532985298985, + "step": 6836 + }, + { + "epoch": 0.72928, + "grad_norm": 1.7557104686941243, + "learning_rate": 1.8021907579154257e-06, + "loss": 0.4701, + "step": 6837 + }, + { + "avg_step_time": 5.421762608518504, + "epoch": 0.72928, + "eta_time": 3.8223426390055457, + "step": 6837 + }, + { + "epoch": 0.7293866666666666, + "grad_norm": 1.757933185338754, + "learning_rate": 1.8008629674824928e-06, + "loss": 0.4183, + "step": 6838 + }, + { + "avg_step_time": 5.421239946827744, + "epoch": 0.7293866666666666, + "eta_time": 3.8204682625283293, + "step": 6838 + }, + { + "epoch": 0.7294933333333333, + "grad_norm": 1.7680105996377633, + "learning_rate": 1.7995355589219e-06, + "loss": 0.4209, + "step": 6839 + }, + { + "avg_step_time": 5.42047370323027, + "epoch": 0.7294933333333333, + "eta_time": 3.818422586497768, + "step": 6839 + }, + { + "epoch": 0.7296, + "grad_norm": 1.9574217997130283, + "learning_rate": 1.7982085323920973e-06, + "loss": 0.499, + "step": 6840 + }, + { + "avg_step_time": 5.449682845009698, + "epoch": 0.7296, + "eta_time": 3.8374850033609955, + "step": 6840 + }, + { + "epoch": 0.7297066666666666, + "grad_norm": 1.5801825125613036, + "learning_rate": 1.7968818880514855e-06, + "loss": 0.474, + "step": 6841 + }, + { + "avg_step_time": 5.4968022288698135, + "epoch": 0.7297066666666666, + "eta_time": 3.869138013321141, + "step": 6841 + }, + { + "epoch": 0.7298133333333333, + "grad_norm": 2.1204377400906056, + "learning_rate": 1.7955556260584256e-06, + "loss": 0.4953, + "step": 6842 + }, + { + "avg_step_time": 5.539848997135355, + "epoch": 0.7298133333333333, + "eta_time": 3.8978993082621813, + "step": 6842 + }, + { + "epoch": 0.72992, + "grad_norm": 0.641599575777067, + "learning_rate": 1.7942297465712282e-06, + "loss": 0.4157, + "step": 6843 + }, + { + "avg_step_time": 5.5369713330509684, + "epoch": 0.72992, + "eta_time": 3.8943365042458478, + "step": 6843 + }, + { + "epoch": 0.7300266666666667, + "grad_norm": 2.083733141033828, + "learning_rate": 1.792904249748157e-06, + "loss": 0.4648, + "step": 6844 + }, + { + "avg_step_time": 5.534801420539316, + "epoch": 0.7300266666666667, + "eta_time": 3.891272887606947, + "step": 6844 + }, + { + "epoch": 0.7301333333333333, + "grad_norm": 1.9304646903368214, + "learning_rate": 1.7915791357474394e-06, + "loss": 0.5235, + "step": 6845 + }, + { + "avg_step_time": 5.545378740387734, + "epoch": 0.7301333333333333, + "eta_time": 3.897168948105824, + "step": 6845 + }, + { + "epoch": 0.73024, + "grad_norm": 1.8883450167269016, + "learning_rate": 1.7902544047272468e-06, + "loss": 0.4977, + "step": 6846 + }, + { + "avg_step_time": 5.582773331439856, + "epoch": 0.73024, + "eta_time": 3.921898265336499, + "step": 6846 + }, + { + "epoch": 0.7303466666666667, + "grad_norm": 1.5190113042510935, + "learning_rate": 1.7889300568457085e-06, + "loss": 0.3882, + "step": 6847 + }, + { + "avg_step_time": 5.580131542803061, + "epoch": 0.7303466666666667, + "eta_time": 3.918492372279483, + "step": 6847 + }, + { + "epoch": 0.7304533333333333, + "grad_norm": 1.9183372297343129, + "learning_rate": 1.78760609226091e-06, + "loss": 0.4899, + "step": 6848 + }, + { + "avg_step_time": 5.5807800461547545, + "epoch": 0.7304533333333333, + "eta_time": 3.9173975490647406, + "step": 6848 + }, + { + "epoch": 0.73056, + "grad_norm": 1.4752580876342036, + "learning_rate": 1.7862825111308873e-06, + "loss": 0.4428, + "step": 6849 + }, + { + "avg_step_time": 5.587401390075684, + "epoch": 0.73056, + "eta_time": 3.920493308703105, + "step": 6849 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 1.75406568602393, + "learning_rate": 1.784959313613634e-06, + "loss": 0.49, + "step": 6850 + }, + { + "avg_step_time": 5.587644969574129, + "epoch": 0.7306666666666667, + "eta_time": 3.9191120967151876, + "step": 6850 + }, + { + "epoch": 0.7307733333333334, + "grad_norm": 1.8420113020785214, + "learning_rate": 1.783636499867098e-06, + "loss": 0.5049, + "step": 6851 + }, + { + "avg_step_time": 5.585933109726569, + "epoch": 0.7307733333333334, + "eta_time": 3.916359769152739, + "step": 6851 + }, + { + "epoch": 0.73088, + "grad_norm": 1.915993602947003, + "learning_rate": 1.7823140700491786e-06, + "loss": 0.4774, + "step": 6852 + }, + { + "avg_step_time": 5.5843479055346865, + "epoch": 0.73088, + "eta_time": 3.913697157128893, + "step": 6852 + }, + { + "epoch": 0.7309866666666667, + "grad_norm": 1.8031358360693555, + "learning_rate": 1.7809920243177287e-06, + "loss": 0.4268, + "step": 6853 + }, + { + "avg_step_time": 5.587092399597168, + "epoch": 0.7309866666666667, + "eta_time": 3.914068619940016, + "step": 6853 + }, + { + "epoch": 0.7310933333333334, + "grad_norm": 1.8937918678198675, + "learning_rate": 1.7796703628305596e-06, + "loss": 0.5299, + "step": 6854 + }, + { + "avg_step_time": 5.553574749917695, + "epoch": 0.7310933333333334, + "eta_time": 3.8890449845951416, + "step": 6854 + }, + { + "epoch": 0.7312, + "grad_norm": 1.8866180883855985, + "learning_rate": 1.7783490857454354e-06, + "loss": 0.497, + "step": 6855 + }, + { + "avg_step_time": 5.550640310903992, + "epoch": 0.7312, + "eta_time": 3.8854482176327942, + "step": 6855 + }, + { + "epoch": 0.7313066666666667, + "grad_norm": 2.063040544087124, + "learning_rate": 1.7770281932200706e-06, + "loss": 0.4579, + "step": 6856 + }, + { + "avg_step_time": 5.554757433708268, + "epoch": 0.7313066666666667, + "eta_time": 3.8867872154197576, + "step": 6856 + }, + { + "epoch": 0.7314133333333334, + "grad_norm": 2.0587381095216615, + "learning_rate": 1.7757076854121396e-06, + "loss": 0.5179, + "step": 6857 + }, + { + "avg_step_time": 5.561001418816923, + "epoch": 0.7314133333333334, + "eta_time": 3.8896115479391695, + "step": 6857 + }, + { + "epoch": 0.73152, + "grad_norm": 1.6863390137370367, + "learning_rate": 1.7743875624792662e-06, + "loss": 0.4185, + "step": 6858 + }, + { + "avg_step_time": 5.5582763257652825, + "epoch": 0.73152, + "eta_time": 3.88616153109756, + "step": 6858 + }, + { + "epoch": 0.7316266666666666, + "grad_norm": 1.8689105796502343, + "learning_rate": 1.7730678245790283e-06, + "loss": 0.4812, + "step": 6859 + }, + { + "avg_step_time": 5.547250309375801, + "epoch": 0.7316266666666666, + "eta_time": 3.876911605108199, + "step": 6859 + }, + { + "epoch": 0.7317333333333333, + "grad_norm": 1.7989882739861156, + "learning_rate": 1.771748471868961e-06, + "loss": 0.4569, + "step": 6860 + }, + { + "avg_step_time": 5.546312211739896, + "epoch": 0.7317333333333333, + "eta_time": 3.874715336812733, + "step": 6860 + }, + { + "epoch": 0.73184, + "grad_norm": 1.8978871531932935, + "learning_rate": 1.770429504506554e-06, + "loss": 0.5426, + "step": 6861 + }, + { + "avg_step_time": 5.567213780952223, + "epoch": 0.73184, + "eta_time": 3.887770957031636, + "step": 6861 + }, + { + "epoch": 0.7319466666666666, + "grad_norm": 1.946016835826234, + "learning_rate": 1.7691109226492448e-06, + "loss": 0.496, + "step": 6862 + }, + { + "avg_step_time": 5.568622707116483, + "epoch": 0.7319466666666666, + "eta_time": 3.887208017495478, + "step": 6862 + }, + { + "epoch": 0.7320533333333333, + "grad_norm": 1.790693761855838, + "learning_rate": 1.767792726454433e-06, + "loss": 0.4399, + "step": 6863 + }, + { + "avg_step_time": 5.568322740419947, + "epoch": 0.7320533333333333, + "eta_time": 3.8854518677596963, + "step": 6863 + }, + { + "epoch": 0.73216, + "grad_norm": 1.9014520537068857, + "learning_rate": 1.7664749160794642e-06, + "loss": 0.4604, + "step": 6864 + }, + { + "avg_step_time": 5.569468828162762, + "epoch": 0.73216, + "eta_time": 3.8847045076435265, + "step": 6864 + }, + { + "epoch": 0.7322666666666666, + "grad_norm": 1.7414218124265552, + "learning_rate": 1.765157491681646e-06, + "loss": 0.4611, + "step": 6865 + }, + { + "avg_step_time": 5.595991886023319, + "epoch": 0.7322666666666666, + "eta_time": 3.901649898310703, + "step": 6865 + }, + { + "epoch": 0.7323733333333333, + "grad_norm": 2.070583838397362, + "learning_rate": 1.7638404534182313e-06, + "loss": 0.5673, + "step": 6866 + }, + { + "avg_step_time": 5.595800727304786, + "epoch": 0.7323733333333333, + "eta_time": 3.8999622291132523, + "step": 6866 + }, + { + "epoch": 0.73248, + "grad_norm": 2.1115440417200224, + "learning_rate": 1.7625238014464358e-06, + "loss": 0.4437, + "step": 6867 + }, + { + "avg_step_time": 5.592148248595421, + "epoch": 0.73248, + "eta_time": 3.8958632798548094, + "step": 6867 + }, + { + "epoch": 0.7325866666666667, + "grad_norm": 1.8495306120906985, + "learning_rate": 1.761207535923422e-06, + "loss": 0.4499, + "step": 6868 + }, + { + "avg_step_time": 5.58779587167682, + "epoch": 0.7325866666666667, + "eta_time": 3.8912789584149414, + "step": 6868 + }, + { + "epoch": 0.7326933333333333, + "grad_norm": 1.9324260340577275, + "learning_rate": 1.7598916570063064e-06, + "loss": 0.396, + "step": 6869 + }, + { + "avg_step_time": 5.586036108961009, + "epoch": 0.7326933333333333, + "eta_time": 3.8885018025156355, + "step": 6869 + }, + { + "epoch": 0.7328, + "grad_norm": 1.7172894574824853, + "learning_rate": 1.7585761648521688e-06, + "loss": 0.5075, + "step": 6870 + }, + { + "avg_step_time": 5.583670057431616, + "epoch": 0.7328, + "eta_time": 3.885303748296166, + "step": 6870 + }, + { + "epoch": 0.7329066666666667, + "grad_norm": 1.8901175172679459, + "learning_rate": 1.7572610596180316e-06, + "loss": 0.5484, + "step": 6871 + }, + { + "avg_step_time": 5.583944580771706, + "epoch": 0.7329066666666667, + "eta_time": 3.8839436750700975, + "step": 6871 + }, + { + "epoch": 0.7330133333333333, + "grad_norm": 1.7264900706763882, + "learning_rate": 1.7559463414608747e-06, + "loss": 0.4305, + "step": 6872 + }, + { + "avg_step_time": 5.619211495524705, + "epoch": 0.7330133333333333, + "eta_time": 3.9069128814717597, + "step": 6872 + }, + { + "epoch": 0.73312, + "grad_norm": 2.1540525004881386, + "learning_rate": 1.7546320105376346e-06, + "loss": 0.5507, + "step": 6873 + }, + { + "avg_step_time": 5.620829760426223, + "epoch": 0.73312, + "eta_time": 3.906476683496225, + "step": 6873 + }, + { + "epoch": 0.7332266666666667, + "grad_norm": 2.3156186208842082, + "learning_rate": 1.7533180670051974e-06, + "loss": 0.4469, + "step": 6874 + }, + { + "avg_step_time": 5.657934138269136, + "epoch": 0.7332266666666667, + "eta_time": 3.9306925777253077, + "step": 6874 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 2.097140187241999, + "learning_rate": 1.752004511020406e-06, + "loss": 0.4759, + "step": 6875 + }, + { + "avg_step_time": 5.65769578952982, + "epoch": 0.7333333333333333, + "eta_time": 3.928955409395708, + "step": 6875 + }, + { + "epoch": 0.73344, + "grad_norm": 0.6289040844996839, + "learning_rate": 1.750691342740058e-06, + "loss": 0.424, + "step": 6876 + }, + { + "avg_step_time": 5.63000099586718, + "epoch": 0.73344, + "eta_time": 3.908159024631134, + "step": 6876 + }, + { + "epoch": 0.7335466666666667, + "grad_norm": 1.8287354029089666, + "learning_rate": 1.7493785623209009e-06, + "loss": 0.4597, + "step": 6877 + }, + { + "avg_step_time": 5.6358805304825905, + "epoch": 0.7335466666666667, + "eta_time": 3.910674879207086, + "step": 6877 + }, + { + "epoch": 0.7336533333333334, + "grad_norm": 0.6528161573850796, + "learning_rate": 1.7480661699196356e-06, + "loss": 0.4572, + "step": 6878 + }, + { + "avg_step_time": 5.60475980633437, + "epoch": 0.7336533333333334, + "eta_time": 3.8875236767824783, + "step": 6878 + }, + { + "epoch": 0.73376, + "grad_norm": 2.033753028309985, + "learning_rate": 1.746754165692921e-06, + "loss": 0.4632, + "step": 6879 + }, + { + "avg_step_time": 5.623073394852455, + "epoch": 0.73376, + "eta_time": 3.8986642204310358, + "step": 6879 + }, + { + "epoch": 0.7338666666666667, + "grad_norm": 1.8034124950288148, + "learning_rate": 1.7454425497973692e-06, + "loss": 0.3999, + "step": 6880 + }, + { + "avg_step_time": 5.6199981756884645, + "epoch": 0.7338666666666667, + "eta_time": 3.8949709578729776, + "step": 6880 + }, + { + "epoch": 0.7339733333333334, + "grad_norm": 1.811099686737478, + "learning_rate": 1.7441313223895412e-06, + "loss": 0.4574, + "step": 6881 + }, + { + "avg_step_time": 5.620898299747044, + "epoch": 0.7339733333333334, + "eta_time": 3.8940334332136466, + "step": 6881 + }, + { + "epoch": 0.73408, + "grad_norm": 1.5024785002337793, + "learning_rate": 1.742820483625957e-06, + "loss": 0.4349, + "step": 6882 + }, + { + "avg_step_time": 5.624986571494979, + "epoch": 0.73408, + "eta_time": 3.895303200760273, + "step": 6882 + }, + { + "epoch": 0.7341866666666667, + "grad_norm": 1.5197434842421647, + "learning_rate": 1.7415100336630858e-06, + "loss": 0.4502, + "step": 6883 + }, + { + "avg_step_time": 5.660381914389254, + "epoch": 0.7341866666666667, + "eta_time": 3.9182421474050058, + "step": 6883 + }, + { + "epoch": 0.7342933333333334, + "grad_norm": 1.8157754360308753, + "learning_rate": 1.740199972657355e-06, + "loss": 0.4364, + "step": 6884 + }, + { + "avg_step_time": 5.69083337591152, + "epoch": 0.7342933333333334, + "eta_time": 3.937740538720999, + "step": 6884 + }, + { + "epoch": 0.7344, + "grad_norm": 0.6423502608182051, + "learning_rate": 1.7388903007651398e-06, + "loss": 0.4532, + "step": 6885 + }, + { + "avg_step_time": 5.6553343594676315, + "epoch": 0.7344, + "eta_time": 3.911606265298445, + "step": 6885 + }, + { + "epoch": 0.7345066666666666, + "grad_norm": 0.6247561965339697, + "learning_rate": 1.7375810181427755e-06, + "loss": 0.42, + "step": 6886 + }, + { + "avg_step_time": 5.62096166129064, + "epoch": 0.7345066666666666, + "eta_time": 3.886270437486779, + "step": 6886 + }, + { + "epoch": 0.7346133333333333, + "grad_norm": 1.7758886515850187, + "learning_rate": 1.7362721249465448e-06, + "loss": 0.4877, + "step": 6887 + }, + { + "avg_step_time": 5.66424295155689, + "epoch": 0.7346133333333333, + "eta_time": 3.9146212398537616, + "step": 6887 + }, + { + "epoch": 0.73472, + "grad_norm": 1.7890568093078798, + "learning_rate": 1.7349636213326876e-06, + "loss": 0.5696, + "step": 6888 + }, + { + "avg_step_time": 5.675950050354004, + "epoch": 0.73472, + "eta_time": 3.9211354931195577, + "step": 6888 + }, + { + "epoch": 0.7348266666666666, + "grad_norm": 2.068549141005807, + "learning_rate": 1.7336555074573985e-06, + "loss": 0.5007, + "step": 6889 + }, + { + "avg_step_time": 5.694123788313433, + "epoch": 0.7348266666666666, + "eta_time": 3.9321088160408872, + "step": 6889 + }, + { + "epoch": 0.7349333333333333, + "grad_norm": 1.8534932814838547, + "learning_rate": 1.732347783476822e-06, + "loss": 0.4936, + "step": 6890 + }, + { + "avg_step_time": 5.739171832498878, + "epoch": 0.7349333333333333, + "eta_time": 3.961622778822142, + "step": 6890 + }, + { + "epoch": 0.73504, + "grad_norm": 1.9355166438531612, + "learning_rate": 1.7310404495470557e-06, + "loss": 0.5511, + "step": 6891 + }, + { + "avg_step_time": 5.771434735770177, + "epoch": 0.73504, + "eta_time": 3.9822899676814223, + "step": 6891 + }, + { + "epoch": 0.7351466666666666, + "grad_norm": 1.6601312965565398, + "learning_rate": 1.729733505824156e-06, + "loss": 0.4675, + "step": 6892 + }, + { + "avg_step_time": 5.790246436090181, + "epoch": 0.7351466666666666, + "eta_time": 3.9936616391144217, + "step": 6892 + }, + { + "epoch": 0.7352533333333333, + "grad_norm": 1.911815701035206, + "learning_rate": 1.7284269524641262e-06, + "loss": 0.4632, + "step": 6893 + }, + { + "avg_step_time": 5.788672220827353, + "epoch": 0.7352533333333333, + "eta_time": 3.9909679033593024, + "step": 6893 + }, + { + "epoch": 0.73536, + "grad_norm": 2.3094508759721153, + "learning_rate": 1.727120789622927e-06, + "loss": 0.6001, + "step": 6894 + }, + { + "avg_step_time": 5.787437913393734, + "epoch": 0.73536, + "eta_time": 3.9885092953138486, + "step": 6894 + }, + { + "epoch": 0.7354666666666667, + "grad_norm": 1.728679084236953, + "learning_rate": 1.7258150174564737e-06, + "loss": 0.4519, + "step": 6895 + }, + { + "avg_step_time": 5.796327504244718, + "epoch": 0.7354666666666667, + "eta_time": 3.99302561403525, + "step": 6895 + }, + { + "epoch": 0.7355733333333333, + "grad_norm": 2.474757704167454, + "learning_rate": 1.7245096361206304e-06, + "loss": 0.5202, + "step": 6896 + }, + { + "avg_step_time": 5.78186934162872, + "epoch": 0.7355733333333333, + "eta_time": 3.9814594716382214, + "step": 6896 + }, + { + "epoch": 0.73568, + "grad_norm": 1.5756502168792432, + "learning_rate": 1.7232046457712164e-06, + "loss": 0.3649, + "step": 6897 + }, + { + "avg_step_time": 5.781274841289328, + "epoch": 0.73568, + "eta_time": 3.9794441824208207, + "step": 6897 + }, + { + "epoch": 0.7357866666666667, + "grad_norm": 0.630168676128889, + "learning_rate": 1.7219000465640057e-06, + "loss": 0.4485, + "step": 6898 + }, + { + "avg_step_time": 5.740925945416845, + "epoch": 0.7357866666666667, + "eta_time": 3.95007599077709, + "step": 6898 + }, + { + "epoch": 0.7358933333333333, + "grad_norm": 2.2783529130746274, + "learning_rate": 1.7205958386547273e-06, + "loss": 0.5936, + "step": 6899 + }, + { + "avg_step_time": 5.742089261912336, + "epoch": 0.7358933333333333, + "eta_time": 3.9492813923597065, + "step": 6899 + }, + { + "epoch": 0.736, + "grad_norm": 1.71394649479624, + "learning_rate": 1.7192920221990566e-06, + "loss": 0.4067, + "step": 6900 + }, + { + "avg_step_time": 5.741589832787562, + "epoch": 0.736, + "eta_time": 3.9473430100414486, + "step": 6900 + }, + { + "epoch": 0.7361066666666667, + "grad_norm": 2.2159390144090274, + "learning_rate": 1.7179885973526305e-06, + "loss": 0.5228, + "step": 6901 + }, + { + "avg_step_time": 5.780288339865328, + "epoch": 0.7361066666666667, + "eta_time": 3.9723425980074505, + "step": 6901 + }, + { + "epoch": 0.7362133333333334, + "grad_norm": 2.145334089889002, + "learning_rate": 1.7166855642710333e-06, + "loss": 0.5304, + "step": 6902 + }, + { + "avg_step_time": 5.776731659667661, + "epoch": 0.7362133333333334, + "eta_time": 3.968293720655035, + "step": 6902 + }, + { + "epoch": 0.73632, + "grad_norm": 1.6499065218341196, + "learning_rate": 1.7153829231098018e-06, + "loss": 0.3955, + "step": 6903 + }, + { + "avg_step_time": 5.775838871194859, + "epoch": 0.73632, + "eta_time": 3.9660760248871365, + "step": 6903 + }, + { + "epoch": 0.7364266666666667, + "grad_norm": 0.6478485362639982, + "learning_rate": 1.7140806740244354e-06, + "loss": 0.4539, + "step": 6904 + }, + { + "avg_step_time": 5.742565297117137, + "epoch": 0.7364266666666667, + "eta_time": 3.941633013660124, + "step": 6904 + }, + { + "epoch": 0.7365333333333334, + "grad_norm": 2.1783110731423205, + "learning_rate": 1.7127788171703757e-06, + "loss": 0.4764, + "step": 6905 + }, + { + "avg_step_time": 5.746134151111949, + "epoch": 0.7365333333333334, + "eta_time": 3.942486487012921, + "step": 6905 + }, + { + "epoch": 0.73664, + "grad_norm": 1.7946346470379801, + "learning_rate": 1.7114773527030215e-06, + "loss": 0.5037, + "step": 6906 + }, + { + "avg_step_time": 5.764098945290152, + "epoch": 0.73664, + "eta_time": 3.9532111933114957, + "step": 6906 + }, + { + "epoch": 0.7367466666666667, + "grad_norm": 1.9039629135600469, + "learning_rate": 1.7101762807777277e-06, + "loss": 0.4764, + "step": 6907 + }, + { + "avg_step_time": 5.767357281964235, + "epoch": 0.7367466666666667, + "eta_time": 3.9538438255243697, + "step": 6907 + }, + { + "epoch": 0.7368533333333334, + "grad_norm": 2.018180893888504, + "learning_rate": 1.7088756015497966e-06, + "loss": 0.4634, + "step": 6908 + }, + { + "avg_step_time": 5.800856118250375, + "epoch": 0.7368533333333334, + "eta_time": 3.9751977899232434, + "step": 6908 + }, + { + "epoch": 0.73696, + "grad_norm": 1.8802655082211965, + "learning_rate": 1.7075753151744885e-06, + "loss": 0.4727, + "step": 6909 + }, + { + "avg_step_time": 5.805895053979122, + "epoch": 0.73696, + "eta_time": 3.9770381119756983, + "step": 6909 + }, + { + "epoch": 0.7370666666666666, + "grad_norm": 1.9106674080753068, + "learning_rate": 1.706275421807016e-06, + "loss": 0.5255, + "step": 6910 + }, + { + "avg_step_time": 5.795405676870635, + "epoch": 0.7370666666666666, + "eta_time": 3.968243053746143, + "step": 6910 + }, + { + "epoch": 0.7371733333333333, + "grad_norm": 2.1147384648944048, + "learning_rate": 1.704975921602543e-06, + "loss": 0.4818, + "step": 6911 + }, + { + "avg_step_time": 5.790244401103318, + "epoch": 0.7371733333333333, + "eta_time": 3.9631006123107158, + "step": 6911 + }, + { + "epoch": 0.73728, + "grad_norm": 1.9886931510791253, + "learning_rate": 1.7036768147161853e-06, + "loss": 0.4573, + "step": 6912 + }, + { + "avg_step_time": 5.820203472869565, + "epoch": 0.73728, + "eta_time": 3.981989209354927, + "step": 6912 + }, + { + "epoch": 0.7373866666666666, + "grad_norm": 1.8073067227834911, + "learning_rate": 1.7023781013030162e-06, + "loss": 0.4772, + "step": 6913 + }, + { + "avg_step_time": 5.820624363542807, + "epoch": 0.7373866666666666, + "eta_time": 3.980660328622886, + "step": 6913 + }, + { + "epoch": 0.7374933333333333, + "grad_norm": 1.4794914349980814, + "learning_rate": 1.70107978151806e-06, + "loss": 0.4216, + "step": 6914 + }, + { + "avg_step_time": 5.821631975848265, + "epoch": 0.7374933333333333, + "eta_time": 3.9797323034896057, + "step": 6914 + }, + { + "epoch": 0.7376, + "grad_norm": 1.9683253460972843, + "learning_rate": 1.6997818555162915e-06, + "loss": 0.4833, + "step": 6915 + }, + { + "avg_step_time": 5.8227988734389795, + "epoch": 0.7376, + "eta_time": 3.978912563516636, + "step": 6915 + }, + { + "epoch": 0.7377066666666666, + "grad_norm": 1.7433048417205939, + "learning_rate": 1.6984843234526433e-06, + "loss": 0.5387, + "step": 6916 + }, + { + "avg_step_time": 5.8249945207075635, + "epoch": 0.7377066666666666, + "eta_time": 3.978794868449972, + "step": 6916 + }, + { + "epoch": 0.7378133333333333, + "grad_norm": 1.6469301831161103, + "learning_rate": 1.697187185481996e-06, + "loss": 0.41, + "step": 6917 + }, + { + "avg_step_time": 5.833825434097136, + "epoch": 0.7378133333333333, + "eta_time": 3.983206365836322, + "step": 6917 + }, + { + "epoch": 0.73792, + "grad_norm": 1.857693486164994, + "learning_rate": 1.6958904417591853e-06, + "loss": 0.4025, + "step": 6918 + }, + { + "avg_step_time": 5.817608243287212, + "epoch": 0.73792, + "eta_time": 3.970517626043522, + "step": 6918 + }, + { + "epoch": 0.7380266666666667, + "grad_norm": 1.7685211280221598, + "learning_rate": 1.6945940924390009e-06, + "loss": 0.4944, + "step": 6919 + }, + { + "avg_step_time": 5.820904071884926, + "epoch": 0.7380266666666667, + "eta_time": 3.971150111263716, + "step": 6919 + }, + { + "epoch": 0.7381333333333333, + "grad_norm": 1.8062089329454576, + "learning_rate": 1.6932981376761858e-06, + "loss": 0.5169, + "step": 6920 + }, + { + "avg_step_time": 5.819846777000812, + "epoch": 0.7381333333333333, + "eta_time": 3.9688121770936093, + "step": 6920 + }, + { + "epoch": 0.73824, + "grad_norm": 2.007362737117702, + "learning_rate": 1.6920025776254334e-06, + "loss": 0.4039, + "step": 6921 + }, + { + "avg_step_time": 5.822913384196734, + "epoch": 0.73824, + "eta_time": 3.969285956894107, + "step": 6921 + }, + { + "epoch": 0.7383466666666667, + "grad_norm": 2.122940859165975, + "learning_rate": 1.690707412441388e-06, + "loss": 0.5618, + "step": 6922 + }, + { + "avg_step_time": 5.854776637722748, + "epoch": 0.7383466666666667, + "eta_time": 3.989379747870528, + "step": 6922 + }, + { + "epoch": 0.7384533333333333, + "grad_norm": 1.8436293771949746, + "learning_rate": 1.689412642278656e-06, + "loss": 0.506, + "step": 6923 + }, + { + "avg_step_time": 5.853955579526497, + "epoch": 0.7384533333333333, + "eta_time": 3.9871941891663805, + "step": 6923 + }, + { + "epoch": 0.73856, + "grad_norm": 1.764916147843102, + "learning_rate": 1.6881182672917879e-06, + "loss": 0.4335, + "step": 6924 + }, + { + "avg_step_time": 5.856252846091684, + "epoch": 0.73856, + "eta_time": 3.9871321460474216, + "step": 6924 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 1.594945235040291, + "learning_rate": 1.686824287635288e-06, + "loss": 0.4049, + "step": 6925 + }, + { + "avg_step_time": 5.859651242843782, + "epoch": 0.7386666666666667, + "eta_time": 3.9878182069353514, + "step": 6925 + }, + { + "epoch": 0.7387733333333333, + "grad_norm": 2.144274033446138, + "learning_rate": 1.685530703463618e-06, + "loss": 0.4918, + "step": 6926 + }, + { + "avg_step_time": 5.856499382943818, + "epoch": 0.7387733333333333, + "eta_time": 3.9840463857859474, + "step": 6926 + }, + { + "epoch": 0.73888, + "grad_norm": 1.7569091035879316, + "learning_rate": 1.6842375149311868e-06, + "loss": 0.4781, + "step": 6927 + }, + { + "avg_step_time": 5.853912382414847, + "epoch": 0.73888, + "eta_time": 3.9806604200420956, + "step": 6927 + }, + { + "epoch": 0.7389866666666667, + "grad_norm": 2.0891940673066736, + "learning_rate": 1.6829447221923606e-06, + "loss": 0.5215, + "step": 6928 + }, + { + "avg_step_time": 5.800897776478469, + "epoch": 0.7389866666666667, + "eta_time": 3.9429991275118925, + "step": 6928 + }, + { + "epoch": 0.7390933333333334, + "grad_norm": 1.8539196831038847, + "learning_rate": 1.6816523254014577e-06, + "loss": 0.5117, + "step": 6929 + }, + { + "avg_step_time": 5.799783514003561, + "epoch": 0.7390933333333334, + "eta_time": 3.9406306875701977, + "step": 6929 + }, + { + "epoch": 0.7392, + "grad_norm": 1.6049231425520334, + "learning_rate": 1.680360324712746e-06, + "loss": 0.4678, + "step": 6930 + }, + { + "avg_step_time": 5.810722276417896, + "epoch": 0.7392, + "eta_time": 3.9464488794004873, + "step": 6930 + }, + { + "epoch": 0.7393066666666667, + "grad_norm": 1.9915936008168342, + "learning_rate": 1.6790687202804473e-06, + "loss": 0.4459, + "step": 6931 + }, + { + "avg_step_time": 5.805267796371922, + "epoch": 0.7393066666666667, + "eta_time": 3.9411318039813827, + "step": 6931 + }, + { + "epoch": 0.7394133333333334, + "grad_norm": 1.8539753738193077, + "learning_rate": 1.6777775122587387e-06, + "loss": 0.5111, + "step": 6932 + }, + { + "avg_step_time": 5.803239875369602, + "epoch": 0.7394133333333334, + "eta_time": 3.938143059868872, + "step": 6932 + }, + { + "epoch": 0.73952, + "grad_norm": 1.7148657497064415, + "learning_rate": 1.6764867008017493e-06, + "loss": 0.4709, + "step": 6933 + }, + { + "avg_step_time": 5.8274580300456345, + "epoch": 0.73952, + "eta_time": 3.9529590303809554, + "step": 6933 + }, + { + "epoch": 0.7396266666666667, + "grad_norm": 1.7501006919195357, + "learning_rate": 1.6751962860635562e-06, + "loss": 0.5167, + "step": 6934 + }, + { + "avg_step_time": 5.828715801239014, + "epoch": 0.7396266666666667, + "eta_time": 3.9521931307845644, + "step": 6934 + }, + { + "epoch": 0.7397333333333334, + "grad_norm": 2.053005418767407, + "learning_rate": 1.673906268198197e-06, + "loss": 0.4732, + "step": 6935 + }, + { + "avg_step_time": 5.828283355693625, + "epoch": 0.7397333333333334, + "eta_time": 3.9502809410812345, + "step": 6935 + }, + { + "epoch": 0.73984, + "grad_norm": 1.678756216882824, + "learning_rate": 1.672616647359655e-06, + "loss": 0.4011, + "step": 6936 + }, + { + "avg_step_time": 5.830395898433647, + "epoch": 0.73984, + "eta_time": 3.950093221188796, + "step": 6936 + }, + { + "epoch": 0.7399466666666666, + "grad_norm": 2.0250095895722082, + "learning_rate": 1.6713274237018679e-06, + "loss": 0.4927, + "step": 6937 + }, + { + "avg_step_time": 5.8341857062445746, + "epoch": 0.7399466666666666, + "eta_time": 3.951040208840076, + "step": 6937 + }, + { + "epoch": 0.7400533333333333, + "grad_norm": 0.6455055272086483, + "learning_rate": 1.6700385973787282e-06, + "loss": 0.4288, + "step": 6938 + }, + { + "avg_step_time": 5.799448728561401, + "epoch": 0.7400533333333333, + "eta_time": 3.9259045976400375, + "step": 6938 + }, + { + "epoch": 0.74016, + "grad_norm": 1.5457098809777705, + "learning_rate": 1.668750168544081e-06, + "loss": 0.4586, + "step": 6939 + }, + { + "avg_step_time": 5.802079790770406, + "epoch": 0.74016, + "eta_time": 3.9260739917546412, + "step": 6939 + }, + { + "epoch": 0.7402666666666666, + "grad_norm": 1.841220478371325, + "learning_rate": 1.667462137351719e-06, + "loss": 0.483, + "step": 6940 + }, + { + "avg_step_time": 5.788949566658097, + "epoch": 0.7402666666666666, + "eta_time": 3.915581165225685, + "step": 6940 + }, + { + "epoch": 0.7403733333333333, + "grad_norm": 1.777350660457109, + "learning_rate": 1.6661745039553955e-06, + "loss": 0.4914, + "step": 6941 + }, + { + "avg_step_time": 5.7824692629804515, + "epoch": 0.7403733333333333, + "eta_time": 3.9095917183595605, + "step": 6941 + }, + { + "epoch": 0.74048, + "grad_norm": 1.778058776019714, + "learning_rate": 1.664887268508808e-06, + "loss": 0.5074, + "step": 6942 + }, + { + "avg_step_time": 5.816033534329347, + "epoch": 0.74048, + "eta_time": 3.9306693302842506, + "step": 6942 + }, + { + "epoch": 0.7405866666666666, + "grad_norm": 1.939899350329214, + "learning_rate": 1.663600431165613e-06, + "loss": 0.4142, + "step": 6943 + }, + { + "avg_step_time": 5.81867281355039, + "epoch": 0.7405866666666666, + "eta_time": 3.930836745154041, + "step": 6943 + }, + { + "epoch": 0.7406933333333333, + "grad_norm": 1.8360075996072363, + "learning_rate": 1.6623139920794135e-06, + "loss": 0.4039, + "step": 6944 + }, + { + "avg_step_time": 5.804813503014921, + "epoch": 0.7406933333333333, + "eta_time": 3.9198615627303535, + "step": 6944 + }, + { + "epoch": 0.7408, + "grad_norm": 0.659929458795033, + "learning_rate": 1.6610279514037725e-06, + "loss": 0.444, + "step": 6945 + }, + { + "avg_step_time": 5.766281578275892, + "epoch": 0.7408, + "eta_time": 3.8922400653362272, + "step": 6945 + }, + { + "epoch": 0.7409066666666667, + "grad_norm": 1.7730351977359036, + "learning_rate": 1.6597423092921972e-06, + "loss": 0.4718, + "step": 6946 + }, + { + "avg_step_time": 5.7690879142645635, + "epoch": 0.7409066666666667, + "eta_time": 3.8925318177079515, + "step": 6946 + }, + { + "epoch": 0.7410133333333333, + "grad_norm": 1.7587648782475929, + "learning_rate": 1.658457065898153e-06, + "loss": 0.483, + "step": 6947 + }, + { + "avg_step_time": 5.767121599178122, + "epoch": 0.7410133333333333, + "eta_time": 3.889603123001244, + "step": 6947 + }, + { + "epoch": 0.74112, + "grad_norm": 1.9716960635164156, + "learning_rate": 1.657172221375058e-06, + "loss": 0.4164, + "step": 6948 + }, + { + "avg_step_time": 5.760301710379244, + "epoch": 0.74112, + "eta_time": 3.8834034030806737, + "step": 6948 + }, + { + "epoch": 0.7412266666666667, + "grad_norm": 1.9635404772639622, + "learning_rate": 1.6558877758762782e-06, + "loss": 0.4857, + "step": 6949 + }, + { + "avg_step_time": 5.757139374511411, + "epoch": 0.7412266666666667, + "eta_time": 3.8796722562679675, + "step": 6949 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 1.9904772212801742, + "learning_rate": 1.6546037295551332e-06, + "loss": 0.4574, + "step": 6950 + }, + { + "avg_step_time": 5.755772963918821, + "epoch": 0.7413333333333333, + "eta_time": 3.87715262152865, + "step": 6950 + }, + { + "epoch": 0.74144, + "grad_norm": 0.6544696332428405, + "learning_rate": 1.6533200825648993e-06, + "loss": 0.4485, + "step": 6951 + }, + { + "avg_step_time": 5.722652334155458, + "epoch": 0.74144, + "eta_time": 3.853252571664675, + "step": 6951 + }, + { + "epoch": 0.7415466666666667, + "grad_norm": 1.9034737438269471, + "learning_rate": 1.6520368350587984e-06, + "loss": 0.4357, + "step": 6952 + }, + { + "avg_step_time": 5.726273459617538, + "epoch": 0.7415466666666667, + "eta_time": 3.854100164625915, + "step": 6952 + }, + { + "epoch": 0.7416533333333334, + "grad_norm": 1.9176382606843798, + "learning_rate": 1.6507539871900109e-06, + "loss": 0.4982, + "step": 6953 + }, + { + "avg_step_time": 5.732146636404172, + "epoch": 0.7416533333333334, + "eta_time": 3.8564608759363628, + "step": 6953 + }, + { + "epoch": 0.74176, + "grad_norm": 0.6129779369493608, + "learning_rate": 1.6494715391116671e-06, + "loss": 0.3954, + "step": 6954 + }, + { + "avg_step_time": 5.69653348730068, + "epoch": 0.74176, + "eta_time": 3.8309187702097076, + "step": 6954 + }, + { + "epoch": 0.7418666666666667, + "grad_norm": 0.6628697462276153, + "learning_rate": 1.6481894909768492e-06, + "loss": 0.4308, + "step": 6955 + }, + { + "avg_step_time": 5.658936710068674, + "epoch": 0.7418666666666667, + "eta_time": 3.804063010657275, + "step": 6955 + }, + { + "epoch": 0.7419733333333334, + "grad_norm": 1.7509395731111548, + "learning_rate": 1.6469078429385893e-06, + "loss": 0.4674, + "step": 6956 + }, + { + "avg_step_time": 5.673848026930684, + "epoch": 0.7419733333333334, + "eta_time": 3.8125106603181456, + "step": 6956 + }, + { + "epoch": 0.74208, + "grad_norm": 1.7054882853174074, + "learning_rate": 1.6456265951498763e-06, + "loss": 0.4941, + "step": 6957 + }, + { + "avg_step_time": 5.67328670771435, + "epoch": 0.74208, + "eta_time": 3.8105575720148055, + "step": 6957 + }, + { + "epoch": 0.7421866666666667, + "grad_norm": 2.0400270026047513, + "learning_rate": 1.6443457477636505e-06, + "loss": 0.5614, + "step": 6958 + }, + { + "avg_step_time": 5.6729665838106715, + "epoch": 0.7421866666666667, + "eta_time": 3.8087667314084426, + "step": 6958 + }, + { + "epoch": 0.7422933333333334, + "grad_norm": 1.7567511690463697, + "learning_rate": 1.6430653009328002e-06, + "loss": 0.4654, + "step": 6959 + }, + { + "avg_step_time": 5.668895699761131, + "epoch": 0.7422933333333334, + "eta_time": 3.804458891839692, + "step": 6959 + }, + { + "epoch": 0.7424, + "grad_norm": 2.172673406734448, + "learning_rate": 1.641785254810172e-06, + "loss": 0.5562, + "step": 6960 + }, + { + "avg_step_time": 5.651981775206749, + "epoch": 0.7424, + "eta_time": 3.7915377742011938, + "step": 6960 + }, + { + "epoch": 0.7425066666666666, + "grad_norm": 1.9492686843009932, + "learning_rate": 1.64050560954856e-06, + "loss": 0.4659, + "step": 6961 + }, + { + "avg_step_time": 5.652229790735727, + "epoch": 0.7425066666666666, + "eta_time": 3.790134087454457, + "step": 6961 + }, + { + "epoch": 0.7426133333333333, + "grad_norm": 1.8049793638462919, + "learning_rate": 1.639226365300709e-06, + "loss": 0.4859, + "step": 6962 + }, + { + "avg_step_time": 5.653134793946237, + "epoch": 0.7426133333333333, + "eta_time": 3.78917062716452, + "step": 6962 + }, + { + "epoch": 0.74272, + "grad_norm": 1.7994375316319908, + "learning_rate": 1.6379475222193248e-06, + "loss": 0.4721, + "step": 6963 + }, + { + "avg_step_time": 5.657888398025975, + "epoch": 0.74272, + "eta_time": 3.790785226677403, + "step": 6963 + }, + { + "epoch": 0.7428266666666666, + "grad_norm": 1.6077606257718475, + "learning_rate": 1.6366690804570567e-06, + "loss": 0.4596, + "step": 6964 + }, + { + "avg_step_time": 5.641647550794813, + "epoch": 0.7428266666666666, + "eta_time": 3.7783367347128594, + "step": 6964 + }, + { + "epoch": 0.7429333333333333, + "grad_norm": 1.8891461350960432, + "learning_rate": 1.635391040166507e-06, + "loss": 0.5161, + "step": 6965 + }, + { + "avg_step_time": 5.645140219216395, + "epoch": 0.7429333333333333, + "eta_time": 3.7791077578643084, + "step": 6965 + }, + { + "epoch": 0.74304, + "grad_norm": 1.8357236814112499, + "learning_rate": 1.6341134015002352e-06, + "loss": 0.4908, + "step": 6966 + }, + { + "avg_step_time": 5.645554092195299, + "epoch": 0.74304, + "eta_time": 3.777816613360688, + "step": 6966 + }, + { + "epoch": 0.7431466666666666, + "grad_norm": 1.6831909746355447, + "learning_rate": 1.6328361646107465e-06, + "loss": 0.4189, + "step": 6967 + }, + { + "avg_step_time": 5.644012718489676, + "epoch": 0.7431466666666666, + "eta_time": 3.775217396145316, + "step": 6967 + }, + { + "epoch": 0.7432533333333333, + "grad_norm": 1.8637585081074264, + "learning_rate": 1.6315593296505039e-06, + "loss": 0.5684, + "step": 6968 + }, + { + "avg_step_time": 5.646683497862383, + "epoch": 0.7432533333333333, + "eta_time": 3.7754353275985433, + "step": 6968 + }, + { + "epoch": 0.74336, + "grad_norm": 1.6919688257762822, + "learning_rate": 1.6302828967719175e-06, + "loss": 0.4282, + "step": 6969 + }, + { + "avg_step_time": 5.646638995469218, + "epoch": 0.74336, + "eta_time": 3.773837061971928, + "step": 6969 + }, + { + "epoch": 0.7434666666666667, + "grad_norm": 1.6001782483793021, + "learning_rate": 1.6290068661273539e-06, + "loss": 0.3923, + "step": 6970 + }, + { + "avg_step_time": 5.646091892261698, + "epoch": 0.7434666666666667, + "eta_time": 3.771903055802606, + "step": 6970 + }, + { + "epoch": 0.7435733333333333, + "grad_norm": 1.9360851139823896, + "learning_rate": 1.6277312378691268e-06, + "loss": 0.486, + "step": 6971 + }, + { + "avg_step_time": 5.687137716948384, + "epoch": 0.7435733333333333, + "eta_time": 3.7977441865399766, + "step": 6971 + }, + { + "epoch": 0.74368, + "grad_norm": 1.8462973616726548, + "learning_rate": 1.626456012149506e-06, + "loss": 0.4694, + "step": 6972 + }, + { + "avg_step_time": 5.707923641108503, + "epoch": 0.74368, + "eta_time": 3.810039030439926, + "step": 6972 + }, + { + "epoch": 0.7437866666666667, + "grad_norm": 1.927595462447402, + "learning_rate": 1.6251811891207132e-06, + "loss": 0.4634, + "step": 6973 + }, + { + "avg_step_time": 5.70510024494595, + "epoch": 0.7437866666666667, + "eta_time": 3.806569663433381, + "step": 6973 + }, + { + "epoch": 0.7438933333333333, + "grad_norm": 1.7544327041639425, + "learning_rate": 1.6239067689349186e-06, + "loss": 0.4963, + "step": 6974 + }, + { + "avg_step_time": 5.704326716336337, + "epoch": 0.7438933333333333, + "eta_time": 3.8044690127565404, + "step": 6974 + }, + { + "epoch": 0.744, + "grad_norm": 1.9530376439090298, + "learning_rate": 1.6226327517442453e-06, + "loss": 0.4711, + "step": 6975 + }, + { + "avg_step_time": 5.739309354261919, + "epoch": 0.744, + "eta_time": 3.8262062361746128, + "step": 6975 + }, + { + "epoch": 0.7441066666666667, + "grad_norm": 2.0725333802326067, + "learning_rate": 1.6213591377007708e-06, + "loss": 0.4905, + "step": 6976 + }, + { + "avg_step_time": 5.7305267049808695, + "epoch": 0.7441066666666667, + "eta_time": 3.8187593236803075, + "step": 6976 + }, + { + "epoch": 0.7442133333333333, + "grad_norm": 2.1899619240623944, + "learning_rate": 1.6200859269565244e-06, + "loss": 0.592, + "step": 6977 + }, + { + "avg_step_time": 5.763017760382758, + "epoch": 0.7442133333333333, + "eta_time": 3.838810163721626, + "step": 6977 + }, + { + "epoch": 0.74432, + "grad_norm": 1.7987605488662144, + "learning_rate": 1.6188131196634827e-06, + "loss": 0.5874, + "step": 6978 + }, + { + "avg_step_time": 5.776063707139757, + "epoch": 0.74432, + "eta_time": 3.845895751670555, + "step": 6978 + }, + { + "epoch": 0.7444266666666667, + "grad_norm": 1.5158109930306858, + "learning_rate": 1.6175407159735807e-06, + "loss": 0.5062, + "step": 6979 + }, + { + "avg_step_time": 5.793172556944568, + "epoch": 0.7444266666666667, + "eta_time": 3.85567817956644, + "step": 6979 + }, + { + "epoch": 0.7445333333333334, + "grad_norm": 1.6956358940477563, + "learning_rate": 1.6162687160386998e-06, + "loss": 0.429, + "step": 6980 + }, + { + "avg_step_time": 5.793267767838757, + "epoch": 0.7445333333333334, + "eta_time": 3.8541323066593955, + "step": 6980 + }, + { + "epoch": 0.74464, + "grad_norm": 2.3023082865022144, + "learning_rate": 1.6149971200106723e-06, + "loss": 0.5007, + "step": 6981 + }, + { + "avg_step_time": 5.787909897890958, + "epoch": 0.74464, + "eta_time": 3.848960082097487, + "step": 6981 + }, + { + "epoch": 0.7447466666666667, + "grad_norm": 0.6386821948896992, + "learning_rate": 1.6137259280412909e-06, + "loss": 0.4335, + "step": 6982 + }, + { + "avg_step_time": 5.75729988560532, + "epoch": 0.7447466666666667, + "eta_time": 3.8270051739593147, + "step": 6982 + }, + { + "epoch": 0.7448533333333334, + "grad_norm": 1.8078866866113779, + "learning_rate": 1.6124551402822925e-06, + "loss": 0.5101, + "step": 6983 + }, + { + "avg_step_time": 5.730324099762271, + "epoch": 0.7448533333333334, + "eta_time": 3.8074820129531535, + "step": 6983 + }, + { + "epoch": 0.74496, + "grad_norm": 1.8667173336613707, + "learning_rate": 1.6111847568853645e-06, + "loss": 0.5237, + "step": 6984 + }, + { + "avg_step_time": 5.763028270066386, + "epoch": 0.74496, + "eta_time": 3.8276112760357583, + "step": 6984 + }, + { + "epoch": 0.7450666666666667, + "grad_norm": 0.6226214380158231, + "learning_rate": 1.6099147780021534e-06, + "loss": 0.4251, + "step": 6985 + }, + { + "avg_step_time": 5.762744352070972, + "epoch": 0.7450666666666667, + "eta_time": 3.8258219448471174, + "step": 6985 + }, + { + "epoch": 0.7451733333333334, + "grad_norm": 2.04139541770659, + "learning_rate": 1.6086452037842493e-06, + "loss": 0.564, + "step": 6986 + }, + { + "avg_step_time": 5.754168715139832, + "epoch": 0.7451733333333334, + "eta_time": 3.8185302945747384, + "step": 6986 + }, + { + "epoch": 0.74528, + "grad_norm": 1.7948991876302893, + "learning_rate": 1.6073760343831996e-06, + "loss": 0.4628, + "step": 6987 + }, + { + "avg_step_time": 5.745973700224751, + "epoch": 0.74528, + "eta_time": 3.8114958878157514, + "step": 6987 + }, + { + "epoch": 0.7453866666666666, + "grad_norm": 1.6097458912767921, + "learning_rate": 1.6061072699505037e-06, + "loss": 0.3867, + "step": 6988 + }, + { + "avg_step_time": 5.728136298632381, + "epoch": 0.7453866666666666, + "eta_time": 3.7980725957876373, + "step": 6988 + }, + { + "epoch": 0.7454933333333333, + "grad_norm": 0.6721941176042445, + "learning_rate": 1.6048389106376083e-06, + "loss": 0.4316, + "step": 6989 + }, + { + "avg_step_time": 5.682742015279905, + "epoch": 0.7454933333333333, + "eta_time": 3.7663951245716256, + "step": 6989 + }, + { + "epoch": 0.7456, + "grad_norm": 2.088527461122074, + "learning_rate": 1.603570956595913e-06, + "loss": 0.4255, + "step": 6990 + }, + { + "avg_step_time": 5.681813878242416, + "epoch": 0.7456, + "eta_time": 3.7642016943356005, + "step": 6990 + }, + { + "epoch": 0.7457066666666666, + "grad_norm": 1.8005487788424028, + "learning_rate": 1.6023034079767707e-06, + "loss": 0.5272, + "step": 6991 + }, + { + "avg_step_time": 5.6677983577805335, + "epoch": 0.7457066666666666, + "eta_time": 3.753342023596887, + "step": 6991 + }, + { + "epoch": 0.7458133333333333, + "grad_norm": 2.282129955200495, + "learning_rate": 1.6010362649314881e-06, + "loss": 0.4864, + "step": 6992 + }, + { + "avg_step_time": 5.669442766844624, + "epoch": 0.7458133333333333, + "eta_time": 3.7528561426085387, + "step": 6992 + }, + { + "epoch": 0.74592, + "grad_norm": 2.1861751666136784, + "learning_rate": 1.5997695276113168e-06, + "loss": 0.5116, + "step": 6993 + }, + { + "avg_step_time": 5.669427717574919, + "epoch": 0.74592, + "eta_time": 3.751271339795405, + "step": 6993 + }, + { + "epoch": 0.7460266666666666, + "grad_norm": 1.8332543764006308, + "learning_rate": 1.5985031961674669e-06, + "loss": 0.5326, + "step": 6994 + }, + { + "avg_step_time": 5.6540462344583835, + "epoch": 0.7460266666666666, + "eta_time": 3.7395233567348365, + "step": 6994 + }, + { + "epoch": 0.7461333333333333, + "grad_norm": 2.0144020098314073, + "learning_rate": 1.597237270751096e-06, + "loss": 0.537, + "step": 6995 + }, + { + "avg_step_time": 5.654236437094332, + "epoch": 0.7461333333333333, + "eta_time": 3.738078533412364, + "step": 6995 + }, + { + "epoch": 0.74624, + "grad_norm": 1.8658300617338066, + "learning_rate": 1.595971751513311e-06, + "loss": 0.4782, + "step": 6996 + }, + { + "avg_step_time": 5.658151342411234, + "epoch": 0.74624, + "eta_time": 3.73909501211009, + "step": 6996 + }, + { + "epoch": 0.7463466666666667, + "grad_norm": 1.9945184308960726, + "learning_rate": 1.5947066386051774e-06, + "loss": 0.4434, + "step": 6997 + }, + { + "avg_step_time": 5.691158075525303, + "epoch": 0.7463466666666667, + "eta_time": 3.759326084333103, + "step": 6997 + }, + { + "epoch": 0.7464533333333333, + "grad_norm": 1.6339612137812864, + "learning_rate": 1.5934419321777083e-06, + "loss": 0.4899, + "step": 6998 + }, + { + "avg_step_time": 5.692027166636303, + "epoch": 0.7464533333333333, + "eta_time": 3.758319048637359, + "step": 6998 + }, + { + "epoch": 0.74656, + "grad_norm": 1.9959224217921576, + "learning_rate": 1.5921776323818655e-06, + "loss": 0.465, + "step": 6999 + }, + { + "avg_step_time": 5.693113001910123, + "epoch": 0.74656, + "eta_time": 3.757454581260681, + "step": 6999 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 1.7559196203632572, + "learning_rate": 1.590913739368568e-06, + "loss": 0.3763, + "step": 7000 + }, + { + "avg_step_time": 5.686112206391614, + "epoch": 0.7466666666666667, + "eta_time": 3.751254580605578, + "step": 7000 + }, + { + "epoch": 0.7467733333333333, + "grad_norm": 1.7034663786529494, + "learning_rate": 1.589650253288681e-06, + "loss": 0.4858, + "step": 7001 + }, + { + "avg_step_time": 5.692807399865353, + "epoch": 0.7467733333333333, + "eta_time": 3.75409021313343, + "step": 7001 + }, + { + "epoch": 0.74688, + "grad_norm": 1.9118798176905147, + "learning_rate": 1.5883871742930257e-06, + "loss": 0.473, + "step": 7002 + }, + { + "avg_step_time": 5.695416532381617, + "epoch": 0.74688, + "eta_time": 3.754228730928216, + "step": 7002 + }, + { + "epoch": 0.7469866666666667, + "grad_norm": 1.7542242806655879, + "learning_rate": 1.5871245025323695e-06, + "loss": 0.387, + "step": 7003 + }, + { + "avg_step_time": 5.729566203223334, + "epoch": 0.7469866666666667, + "eta_time": 3.7751475094571525, + "step": 7003 + }, + { + "epoch": 0.7470933333333334, + "grad_norm": 1.7917565613087811, + "learning_rate": 1.5858622381574373e-06, + "loss": 0.4295, + "step": 7004 + }, + { + "avg_step_time": 5.728885510955194, + "epoch": 0.7470933333333334, + "eta_time": 3.773107651798546, + "step": 7004 + }, + { + "epoch": 0.7472, + "grad_norm": 1.9782664040720725, + "learning_rate": 1.5846003813188993e-06, + "loss": 0.4778, + "step": 7005 + }, + { + "avg_step_time": 5.709156652893683, + "epoch": 0.7472, + "eta_time": 3.7585281298216744, + "step": 7005 + }, + { + "epoch": 0.7473066666666667, + "grad_norm": 1.7541439746393268, + "learning_rate": 1.5833389321673808e-06, + "loss": 0.414, + "step": 7006 + }, + { + "avg_step_time": 5.706264963053694, + "epoch": 0.7473066666666667, + "eta_time": 3.7550393604095, + "step": 7006 + }, + { + "epoch": 0.7474133333333334, + "grad_norm": 2.168928285797157, + "learning_rate": 1.5820778908534595e-06, + "loss": 0.4177, + "step": 7007 + }, + { + "avg_step_time": 5.708999910739937, + "epoch": 0.7474133333333334, + "eta_time": 3.7552532746200473, + "step": 7007 + }, + { + "epoch": 0.74752, + "grad_norm": 1.8043661444584504, + "learning_rate": 1.5808172575276615e-06, + "loss": 0.4202, + "step": 7008 + }, + { + "avg_step_time": 5.708450914633395, + "epoch": 0.74752, + "eta_time": 3.753306476371457, + "step": 7008 + }, + { + "epoch": 0.7476266666666667, + "grad_norm": 2.0872202966181748, + "learning_rate": 1.579557032340463e-06, + "loss": 0.4408, + "step": 7009 + }, + { + "avg_step_time": 5.711161786859686, + "epoch": 0.7476266666666667, + "eta_time": 3.75350244103056, + "step": 7009 + }, + { + "epoch": 0.7477333333333334, + "grad_norm": 2.0336720530788206, + "learning_rate": 1.578297215442297e-06, + "loss": 0.5238, + "step": 7010 + }, + { + "avg_step_time": 5.733304960559113, + "epoch": 0.7477333333333334, + "eta_time": 3.766462842145084, + "step": 7010 + }, + { + "epoch": 0.74784, + "grad_norm": 1.884974293194816, + "learning_rate": 1.5770378069835412e-06, + "loss": 0.44, + "step": 7011 + }, + { + "avg_step_time": 5.736138500348486, + "epoch": 0.74784, + "eta_time": 3.7667309485621723, + "step": 7011 + }, + { + "epoch": 0.7479466666666666, + "grad_norm": 1.721489642582542, + "learning_rate": 1.5757788071145291e-06, + "loss": 0.4668, + "step": 7012 + }, + { + "avg_step_time": 5.730713781684336, + "epoch": 0.7479466666666666, + "eta_time": 3.7615768517000236, + "step": 7012 + }, + { + "epoch": 0.7480533333333333, + "grad_norm": 2.045000889915717, + "learning_rate": 1.5745202159855466e-06, + "loss": 0.4717, + "step": 7013 + }, + { + "avg_step_time": 5.728956653614237, + "epoch": 0.7480533333333333, + "eta_time": 3.7588321155102298, + "step": 7013 + }, + { + "epoch": 0.74816, + "grad_norm": 2.02376472216819, + "learning_rate": 1.5732620337468258e-06, + "loss": 0.4793, + "step": 7014 + }, + { + "avg_step_time": 5.728049309566767, + "epoch": 0.74816, + "eta_time": 3.7566456721908716, + "step": 7014 + }, + { + "epoch": 0.7482666666666666, + "grad_norm": 1.6100476744724457, + "learning_rate": 1.5720042605485497e-06, + "loss": 0.459, + "step": 7015 + }, + { + "avg_step_time": 5.724196224501639, + "epoch": 0.7482666666666666, + "eta_time": 3.7525286360621855, + "step": 7015 + }, + { + "epoch": 0.7483733333333333, + "grad_norm": 2.0069295048563496, + "learning_rate": 1.5707468965408618e-06, + "loss": 0.5341, + "step": 7016 + }, + { + "avg_step_time": 5.717597479772086, + "epoch": 0.7483733333333333, + "eta_time": 3.746614570772875, + "step": 7016 + }, + { + "epoch": 0.74848, + "grad_norm": 1.7937338146273623, + "learning_rate": 1.5694899418738462e-06, + "loss": 0.4081, + "step": 7017 + }, + { + "avg_step_time": 5.720856377572725, + "epoch": 0.74848, + "eta_time": 3.7471609273101345, + "step": 7017 + }, + { + "epoch": 0.7485866666666666, + "grad_norm": 1.9021859268630632, + "learning_rate": 1.5682333966975421e-06, + "loss": 0.5322, + "step": 7018 + }, + { + "avg_step_time": 5.719353133981878, + "epoch": 0.7485866666666666, + "eta_time": 3.7445875935542463, + "step": 7018 + }, + { + "epoch": 0.7486933333333333, + "grad_norm": 2.172397314057241, + "learning_rate": 1.566977261161942e-06, + "loss": 0.4961, + "step": 7019 + }, + { + "avg_step_time": 5.719989181769015, + "epoch": 0.7486933333333333, + "eta_time": 3.7434151422910555, + "step": 7019 + }, + { + "epoch": 0.7488, + "grad_norm": 1.8182910058546646, + "learning_rate": 1.5657215354169841e-06, + "loss": 0.4532, + "step": 7020 + }, + { + "avg_step_time": 5.718101631511342, + "epoch": 0.7488, + "eta_time": 3.7405914839470027, + "step": 7020 + }, + { + "epoch": 0.7489066666666667, + "grad_norm": 1.7780655952672804, + "learning_rate": 1.5644662196125649e-06, + "loss": 0.5318, + "step": 7021 + }, + { + "avg_step_time": 5.724006864759657, + "epoch": 0.7489066666666667, + "eta_time": 3.7428644887900644, + "step": 7021 + }, + { + "epoch": 0.7490133333333333, + "grad_norm": 1.65386397307202, + "learning_rate": 1.5632113138985245e-06, + "loss": 0.5255, + "step": 7022 + }, + { + "avg_step_time": 5.7223122770136055, + "epoch": 0.7490133333333333, + "eta_time": 3.7401668855036148, + "step": 7022 + }, + { + "epoch": 0.74912, + "grad_norm": 1.6321494623669566, + "learning_rate": 1.561956818424661e-06, + "loss": 0.4829, + "step": 7023 + }, + { + "avg_step_time": 5.720799708607221, + "epoch": 0.74912, + "eta_time": 3.737589142956718, + "step": 7023 + }, + { + "epoch": 0.7492266666666667, + "grad_norm": 1.7158900237888084, + "learning_rate": 1.5607027333407165e-06, + "loss": 0.467, + "step": 7024 + }, + { + "avg_step_time": 5.7120264178574685, + "epoch": 0.7492266666666667, + "eta_time": 3.730270585661919, + "step": 7024 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 1.8476243214972314, + "learning_rate": 1.5594490587963896e-06, + "loss": 0.4722, + "step": 7025 + }, + { + "avg_step_time": 5.711876719889014, + "epoch": 0.7493333333333333, + "eta_time": 3.728586192149773, + "step": 7025 + }, + { + "epoch": 0.74944, + "grad_norm": 1.7046828578297137, + "learning_rate": 1.5581957949413295e-06, + "loss": 0.4118, + "step": 7026 + }, + { + "avg_step_time": 5.714725479935154, + "epoch": 0.74944, + "eta_time": 3.7288583756576883, + "step": 7026 + }, + { + "epoch": 0.7495466666666667, + "grad_norm": 1.7027431492159446, + "learning_rate": 1.5569429419251337e-06, + "loss": 0.44, + "step": 7027 + }, + { + "avg_step_time": 5.7157230810685595, + "epoch": 0.7495466666666667, + "eta_time": 3.727921609541383, + "step": 7027 + }, + { + "epoch": 0.7496533333333333, + "grad_norm": 1.8963640897573288, + "learning_rate": 1.5556904998973498e-06, + "loss": 0.4598, + "step": 7028 + }, + { + "avg_step_time": 5.7141803298333675, + "epoch": 0.7496533333333333, + "eta_time": 3.7253281205885873, + "step": 7028 + }, + { + "epoch": 0.74976, + "grad_norm": 1.8608380325387768, + "learning_rate": 1.554438469007482e-06, + "loss": 0.5047, + "step": 7029 + }, + { + "avg_step_time": 5.702682911747634, + "epoch": 0.74976, + "eta_time": 3.7162483641555415, + "step": 7029 + }, + { + "epoch": 0.7498666666666667, + "grad_norm": 1.8951339925555197, + "learning_rate": 1.553186849404979e-06, + "loss": 0.4319, + "step": 7030 + }, + { + "avg_step_time": 5.704039229287042, + "epoch": 0.7498666666666667, + "eta_time": 3.71554777574392, + "step": 7030 + }, + { + "epoch": 0.7499733333333334, + "grad_norm": 1.977463220202103, + "learning_rate": 1.5519356412392433e-06, + "loss": 0.4661, + "step": 7031 + }, + { + "avg_step_time": 5.699015321153583, + "epoch": 0.7499733333333334, + "eta_time": 3.710692197995555, + "step": 7031 + }, + { + "epoch": 0.75008, + "grad_norm": 1.779899462672832, + "learning_rate": 1.5506848446596317e-06, + "loss": 0.4437, + "step": 7032 + }, + { + "avg_step_time": 5.673966400551073, + "epoch": 0.75008, + "eta_time": 3.6928064656919903, + "step": 7032 + }, + { + "epoch": 0.7501866666666667, + "grad_norm": 1.8982994579813781, + "learning_rate": 1.549434459815446e-06, + "loss": 0.4312, + "step": 7033 + }, + { + "avg_step_time": 5.6678796946400345, + "epoch": 0.7501866666666667, + "eta_time": 3.6872706235686006, + "step": 7033 + }, + { + "epoch": 0.7502933333333334, + "grad_norm": 2.0578550983419923, + "learning_rate": 1.5481844868559392e-06, + "loss": 0.4723, + "step": 7034 + }, + { + "avg_step_time": 5.669998968490447, + "epoch": 0.7502933333333334, + "eta_time": 3.68707432923226, + "step": 7034 + }, + { + "epoch": 0.7504, + "grad_norm": 1.9716258234552277, + "learning_rate": 1.546934925930319e-06, + "loss": 0.4931, + "step": 7035 + }, + { + "avg_step_time": 5.668301124765415, + "epoch": 0.7504, + "eta_time": 3.68439573109752, + "step": 7035 + }, + { + "epoch": 0.7505066666666667, + "grad_norm": 1.836471078038559, + "learning_rate": 1.5456857771877443e-06, + "loss": 0.4672, + "step": 7036 + }, + { + "avg_step_time": 5.666209786829322, + "epoch": 0.7505066666666667, + "eta_time": 3.681462414276051, + "step": 7036 + }, + { + "epoch": 0.7506133333333334, + "grad_norm": 1.7450071073080131, + "learning_rate": 1.544437040777319e-06, + "loss": 0.4256, + "step": 7037 + }, + { + "avg_step_time": 5.701696814912738, + "epoch": 0.7506133333333334, + "eta_time": 3.7029353203516617, + "step": 7037 + }, + { + "epoch": 0.75072, + "grad_norm": 1.8246611738311385, + "learning_rate": 1.5431887168481051e-06, + "loss": 0.5289, + "step": 7038 + }, + { + "avg_step_time": 5.70210666126675, + "epoch": 0.75072, + "eta_time": 3.701617574272332, + "step": 7038 + }, + { + "epoch": 0.7508266666666666, + "grad_norm": 1.769901931643997, + "learning_rate": 1.5419408055491091e-06, + "loss": 0.5011, + "step": 7039 + }, + { + "avg_step_time": 5.71192956211591, + "epoch": 0.7508266666666666, + "eta_time": 3.7064076269729904, + "step": 7039 + }, + { + "epoch": 0.7509333333333333, + "grad_norm": 2.2090878752616714, + "learning_rate": 1.5406933070292884e-06, + "loss": 0.5545, + "step": 7040 + }, + { + "avg_step_time": 5.708805390078612, + "epoch": 0.7509333333333333, + "eta_time": 3.7027946071759885, + "step": 7040 + }, + { + "epoch": 0.75104, + "grad_norm": 1.9588446965544974, + "learning_rate": 1.5394462214375593e-06, + "loss": 0.4297, + "step": 7041 + }, + { + "avg_step_time": 5.709852859227344, + "epoch": 0.75104, + "eta_time": 3.701887937065728, + "step": 7041 + }, + { + "epoch": 0.7511466666666666, + "grad_norm": 1.9213195269406596, + "learning_rate": 1.5381995489227801e-06, + "loss": 0.4769, + "step": 7042 + }, + { + "avg_step_time": 5.71120466126336, + "epoch": 0.7511466666666666, + "eta_time": 3.7011779096465056, + "step": 7042 + }, + { + "epoch": 0.7512533333333333, + "grad_norm": 1.648078308264909, + "learning_rate": 1.5369532896337614e-06, + "loss": 0.3249, + "step": 7043 + }, + { + "avg_step_time": 5.718476324370413, + "epoch": 0.7512533333333333, + "eta_time": 3.7043018856755006, + "step": 7043 + }, + { + "epoch": 0.75136, + "grad_norm": 1.825616313864167, + "learning_rate": 1.5357074437192688e-06, + "loss": 0.4008, + "step": 7044 + }, + { + "avg_step_time": 5.753331692531855, + "epoch": 0.75136, + "eta_time": 3.7252822709143762, + "step": 7044 + }, + { + "epoch": 0.7514666666666666, + "grad_norm": 1.8400282143955033, + "learning_rate": 1.5344620113280123e-06, + "loss": 0.4411, + "step": 7045 + }, + { + "avg_step_time": 5.751087805237433, + "epoch": 0.7514666666666666, + "eta_time": 3.722231829500894, + "step": 7045 + }, + { + "epoch": 0.7515733333333333, + "grad_norm": 1.9703661186355044, + "learning_rate": 1.5332169926086576e-06, + "loss": 0.5157, + "step": 7046 + }, + { + "avg_step_time": 5.754677789379852, + "epoch": 0.7515733333333333, + "eta_time": 3.7229568254071324, + "step": 7046 + }, + { + "epoch": 0.75168, + "grad_norm": 1.9024027617195773, + "learning_rate": 1.5319723877098202e-06, + "loss": 0.4729, + "step": 7047 + }, + { + "avg_step_time": 5.756105919076939, + "epoch": 0.75168, + "eta_time": 3.7222818276697534, + "step": 7047 + }, + { + "epoch": 0.7517866666666667, + "grad_norm": 2.178564671804337, + "learning_rate": 1.5307281967800646e-06, + "loss": 0.5146, + "step": 7048 + }, + { + "avg_step_time": 5.75572295863219, + "epoch": 0.7517866666666667, + "eta_time": 3.7204353679825295, + "step": 7048 + }, + { + "epoch": 0.7518933333333333, + "grad_norm": 1.7897517073085096, + "learning_rate": 1.5294844199679044e-06, + "loss": 0.435, + "step": 7049 + }, + { + "avg_step_time": 5.753924210866292, + "epoch": 0.7518933333333333, + "eta_time": 3.717674365131943, + "step": 7049 + }, + { + "epoch": 0.752, + "grad_norm": 1.7902949155757464, + "learning_rate": 1.5282410574218072e-06, + "loss": 0.4241, + "step": 7050 + }, + { + "avg_step_time": 5.790797479224928, + "epoch": 0.752, + "eta_time": 3.7398900386660987, + "step": 7050 + }, + { + "epoch": 0.7521066666666667, + "grad_norm": 0.6506358509756831, + "learning_rate": 1.526998109290192e-06, + "loss": 0.4195, + "step": 7051 + }, + { + "avg_step_time": 5.75207547948818, + "epoch": 0.7521066666666667, + "eta_time": 3.713284281758481, + "step": 7051 + }, + { + "epoch": 0.7522133333333333, + "grad_norm": 1.9107606541357238, + "learning_rate": 1.5257555757214222e-06, + "loss": 0.4803, + "step": 7052 + }, + { + "avg_step_time": 5.768465456336435, + "epoch": 0.7522133333333333, + "eta_time": 3.7222625708526498, + "step": 7052 + }, + { + "epoch": 0.75232, + "grad_norm": 1.967347396181142, + "learning_rate": 1.5245134568638197e-06, + "loss": 0.5065, + "step": 7053 + }, + { + "avg_step_time": 5.803809252652255, + "epoch": 0.75232, + "eta_time": 3.743456967960704, + "step": 7053 + }, + { + "epoch": 0.7524266666666667, + "grad_norm": 1.7083993625492537, + "learning_rate": 1.5232717528656504e-06, + "loss": 0.4957, + "step": 7054 + }, + { + "avg_step_time": 5.840784927811286, + "epoch": 0.7524266666666667, + "eta_time": 3.765683838180554, + "step": 7054 + }, + { + "epoch": 0.7525333333333334, + "grad_norm": 0.6590729949987908, + "learning_rate": 1.5220304638751327e-06, + "loss": 0.4289, + "step": 7055 + }, + { + "avg_step_time": 5.78590540452437, + "epoch": 0.7525333333333334, + "eta_time": 3.728694594026816, + "step": 7055 + }, + { + "epoch": 0.75264, + "grad_norm": 1.7940346646638894, + "learning_rate": 1.5207895900404363e-06, + "loss": 0.5537, + "step": 7056 + }, + { + "avg_step_time": 5.79136270224446, + "epoch": 0.75264, + "eta_time": 3.730602807362473, + "step": 7056 + }, + { + "epoch": 0.7527466666666667, + "grad_norm": 1.937976487226293, + "learning_rate": 1.5195491315096833e-06, + "loss": 0.506, + "step": 7057 + }, + { + "avg_step_time": 5.7882778500065655, + "epoch": 0.7527466666666667, + "eta_time": 3.727007793420894, + "step": 7057 + }, + { + "epoch": 0.7528533333333334, + "grad_norm": 1.8715555277605174, + "learning_rate": 1.518309088430941e-06, + "loss": 0.5044, + "step": 7058 + }, + { + "avg_step_time": 5.788265719558254, + "epoch": 0.7528533333333334, + "eta_time": 3.725392131171243, + "step": 7058 + }, + { + "epoch": 0.75296, + "grad_norm": 0.6562000408341121, + "learning_rate": 1.5170694609522306e-06, + "loss": 0.4477, + "step": 7059 + }, + { + "avg_step_time": 5.749470758919764, + "epoch": 0.75296, + "eta_time": 3.6988261882383813, + "step": 7059 + }, + { + "epoch": 0.7530666666666667, + "grad_norm": 1.848999355109062, + "learning_rate": 1.5158302492215248e-06, + "loss": 0.426, + "step": 7060 + }, + { + "avg_step_time": 5.775708133524114, + "epoch": 0.7530666666666667, + "eta_time": 3.71410120253009, + "step": 7060 + }, + { + "epoch": 0.7531733333333334, + "grad_norm": 0.6141697484838649, + "learning_rate": 1.5145914533867445e-06, + "loss": 0.4159, + "step": 7061 + }, + { + "avg_step_time": 5.741275192511202, + "epoch": 0.7531733333333334, + "eta_time": 3.690364109853034, + "step": 7061 + }, + { + "epoch": 0.75328, + "grad_norm": 2.0316024306180633, + "learning_rate": 1.5133530735957586e-06, + "loss": 0.473, + "step": 7062 + }, + { + "avg_step_time": 5.764706142020948, + "epoch": 0.75328, + "eta_time": 3.703823696248459, + "step": 7062 + }, + { + "epoch": 0.7533866666666666, + "grad_norm": 1.824557810243191, + "learning_rate": 1.5121151099963928e-06, + "loss": 0.4973, + "step": 7063 + }, + { + "avg_step_time": 5.765458783718071, + "epoch": 0.7533866666666666, + "eta_time": 3.70270575221005, + "step": 7063 + }, + { + "epoch": 0.7534933333333333, + "grad_norm": 2.0019530289502625, + "learning_rate": 1.5108775627364163e-06, + "loss": 0.5286, + "step": 7064 + }, + { + "avg_step_time": 5.764120793101763, + "epoch": 0.7534933333333333, + "eta_time": 3.700245320238382, + "step": 7064 + }, + { + "epoch": 0.7536, + "grad_norm": 1.850856670096033, + "learning_rate": 1.5096404319635533e-06, + "loss": 0.4793, + "step": 7065 + }, + { + "avg_step_time": 5.837886280483669, + "epoch": 0.7536, + "eta_time": 3.745977029977021, + "step": 7065 + }, + { + "epoch": 0.7537066666666666, + "grad_norm": 1.7288950727994177, + "learning_rate": 1.5084037178254784e-06, + "loss": 0.4266, + "step": 7066 + }, + { + "avg_step_time": 5.843145570369682, + "epoch": 0.7537066666666666, + "eta_time": 3.7477286449954432, + "step": 7066 + }, + { + "epoch": 0.7538133333333333, + "grad_norm": 1.9000984465345492, + "learning_rate": 1.5071674204698133e-06, + "loss": 0.4874, + "step": 7067 + }, + { + "avg_step_time": 5.841271265588626, + "epoch": 0.7538133333333333, + "eta_time": 3.74490391138293, + "step": 7067 + }, + { + "epoch": 0.75392, + "grad_norm": 1.7105156395226102, + "learning_rate": 1.50593154004413e-06, + "loss": 0.3976, + "step": 7068 + }, + { + "avg_step_time": 5.842920671809804, + "epoch": 0.75392, + "eta_time": 3.744338330518116, + "step": 7068 + }, + { + "epoch": 0.7540266666666666, + "grad_norm": 1.79180544778017, + "learning_rate": 1.504696076695953e-06, + "loss": 0.4468, + "step": 7069 + }, + { + "avg_step_time": 5.844237994666051, + "epoch": 0.7540266666666666, + "eta_time": 3.7435591154721983, + "step": 7069 + }, + { + "epoch": 0.7541333333333333, + "grad_norm": 1.6537161914928102, + "learning_rate": 1.5034610305727588e-06, + "loss": 0.4845, + "step": 7070 + }, + { + "avg_step_time": 5.803341853498209, + "epoch": 0.7541333333333333, + "eta_time": 3.715750825642603, + "step": 7070 + }, + { + "epoch": 0.75424, + "grad_norm": 2.0503711928502657, + "learning_rate": 1.502226401821968e-06, + "loss": 0.4315, + "step": 7071 + }, + { + "avg_step_time": 5.7843450536631575, + "epoch": 0.75424, + "eta_time": 3.701980834344421, + "step": 7071 + }, + { + "epoch": 0.7543466666666667, + "grad_norm": 1.7108698222713166, + "learning_rate": 1.5009921905909575e-06, + "loss": 0.4126, + "step": 7072 + }, + { + "avg_step_time": 5.768330162221735, + "epoch": 0.7543466666666667, + "eta_time": 3.69012898988796, + "step": 7072 + }, + { + "epoch": 0.7544533333333333, + "grad_norm": 1.7616065606084457, + "learning_rate": 1.4997583970270508e-06, + "loss": 0.4781, + "step": 7073 + }, + { + "avg_step_time": 5.768725722727149, + "epoch": 0.7544533333333333, + "eta_time": 3.688779614921638, + "step": 7073 + }, + { + "epoch": 0.75456, + "grad_norm": 1.8542009684134695, + "learning_rate": 1.498525021277521e-06, + "loss": 0.5009, + "step": 7074 + }, + { + "avg_step_time": 5.764635264271438, + "epoch": 0.75456, + "eta_time": 3.684562706413494, + "step": 7074 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 1.551148062060027, + "learning_rate": 1.4972920634895943e-06, + "loss": 0.3923, + "step": 7075 + }, + { + "avg_step_time": 5.7781550330345075, + "epoch": 0.7546666666666667, + "eta_time": 3.6915990488831576, + "step": 7075 + }, + { + "epoch": 0.7547733333333333, + "grad_norm": 1.7283212868959608, + "learning_rate": 1.496059523810447e-06, + "loss": 0.4077, + "step": 7076 + }, + { + "avg_step_time": 5.780176721438013, + "epoch": 0.7547733333333333, + "eta_time": 3.691285078496109, + "step": 7076 + }, + { + "epoch": 0.75488, + "grad_norm": 1.614926450517917, + "learning_rate": 1.4948274023872005e-06, + "loss": 0.503, + "step": 7077 + }, + { + "avg_step_time": 5.750621906434647, + "epoch": 0.75488, + "eta_time": 3.670813650274116, + "step": 7077 + }, + { + "epoch": 0.7549866666666667, + "grad_norm": 1.6413231728584374, + "learning_rate": 1.4935956993669338e-06, + "loss": 0.4578, + "step": 7078 + }, + { + "avg_step_time": 5.734426688666296, + "epoch": 0.7549866666666667, + "eta_time": 3.658882806629578, + "step": 7078 + }, + { + "epoch": 0.7550933333333333, + "grad_norm": 0.6380625974284622, + "learning_rate": 1.4923644148966682e-06, + "loss": 0.4318, + "step": 7079 + }, + { + "avg_step_time": 5.724633794842345, + "epoch": 0.7550933333333333, + "eta_time": 3.6510442202661175, + "step": 7079 + }, + { + "epoch": 0.7552, + "grad_norm": 1.6144239685847355, + "learning_rate": 1.4911335491233818e-06, + "loss": 0.5034, + "step": 7080 + }, + { + "avg_step_time": 5.722423476402206, + "epoch": 0.7552, + "eta_time": 3.648044966206406, + "step": 7080 + }, + { + "epoch": 0.7553066666666667, + "grad_norm": 1.7501714005675097, + "learning_rate": 1.4899031021939974e-06, + "loss": 0.4914, + "step": 7081 + }, + { + "avg_step_time": 5.7506801191002435, + "epoch": 0.7553066666666667, + "eta_time": 3.6644611647822107, + "step": 7081 + }, + { + "epoch": 0.7554133333333334, + "grad_norm": 1.6024122529692295, + "learning_rate": 1.4886730742553923e-06, + "loss": 0.398, + "step": 7082 + }, + { + "avg_step_time": 5.748407819054344, + "epoch": 0.7554133333333334, + "eta_time": 3.6614164247476695, + "step": 7082 + }, + { + "epoch": 0.75552, + "grad_norm": 1.7097501514254692, + "learning_rate": 1.487443465454389e-06, + "loss": 0.4294, + "step": 7083 + }, + { + "avg_step_time": 5.743771170124863, + "epoch": 0.75552, + "eta_time": 3.6568676449794966, + "step": 7083 + }, + { + "epoch": 0.7556266666666667, + "grad_norm": 1.692440665871571, + "learning_rate": 1.4862142759377646e-06, + "loss": 0.5025, + "step": 7084 + }, + { + "avg_step_time": 5.776560275241582, + "epoch": 0.7556266666666667, + "eta_time": 3.676138775160685, + "step": 7084 + }, + { + "epoch": 0.7557333333333334, + "grad_norm": 1.7201585177464482, + "learning_rate": 1.4849855058522445e-06, + "loss": 0.5207, + "step": 7085 + }, + { + "avg_step_time": 5.786469247606066, + "epoch": 0.7557333333333334, + "eta_time": 3.6808373825049694, + "step": 7085 + }, + { + "epoch": 0.75584, + "grad_norm": 1.5224447085489659, + "learning_rate": 1.483757155344503e-06, + "loss": 0.4946, + "step": 7086 + }, + { + "avg_step_time": 5.78739156145038, + "epoch": 0.75584, + "eta_time": 3.6798164678222, + "step": 7086 + }, + { + "epoch": 0.7559466666666667, + "grad_norm": 2.0664316067182895, + "learning_rate": 1.4825292245611633e-06, + "loss": 0.556, + "step": 7087 + }, + { + "avg_step_time": 5.794704608242921, + "epoch": 0.7559466666666667, + "eta_time": 3.682856706572168, + "step": 7087 + }, + { + "epoch": 0.7560533333333334, + "grad_norm": 1.998556643296805, + "learning_rate": 1.4813017136488028e-06, + "loss": 0.5725, + "step": 7088 + }, + { + "avg_step_time": 5.829754477799541, + "epoch": 0.7560533333333334, + "eta_time": 3.7035134696465417, + "step": 7088 + }, + { + "epoch": 0.75616, + "grad_norm": 1.6735969783306672, + "learning_rate": 1.4800746227539437e-06, + "loss": 0.4018, + "step": 7089 + }, + { + "avg_step_time": 5.831584287412239, + "epoch": 0.75616, + "eta_time": 3.703056022506772, + "step": 7089 + }, + { + "epoch": 0.7562666666666666, + "grad_norm": 0.6324025988873949, + "learning_rate": 1.478847952023062e-06, + "loss": 0.4395, + "step": 7090 + }, + { + "avg_step_time": 5.795867804324988, + "epoch": 0.7562666666666666, + "eta_time": 3.6787660924673884, + "step": 7090 + }, + { + "epoch": 0.7563733333333333, + "grad_norm": 1.8469308940322922, + "learning_rate": 1.477621701602583e-06, + "loss": 0.5409, + "step": 7091 + }, + { + "avg_step_time": 5.79673599233531, + "epoch": 0.7563733333333333, + "eta_time": 3.677706946248291, + "step": 7091 + }, + { + "epoch": 0.75648, + "grad_norm": 1.9532210740273361, + "learning_rate": 1.4763958716388798e-06, + "loss": 0.4492, + "step": 7092 + }, + { + "avg_step_time": 5.796970959865686, + "epoch": 0.75648, + "eta_time": 3.6762457503814887, + "step": 7092 + }, + { + "epoch": 0.7565866666666666, + "grad_norm": 2.083953915932276, + "learning_rate": 1.4751704622782754e-06, + "loss": 0.5395, + "step": 7093 + }, + { + "avg_step_time": 5.797530294668795, + "epoch": 0.7565866666666666, + "eta_time": 3.674990036787275, + "step": 7093 + }, + { + "epoch": 0.7566933333333333, + "grad_norm": 1.9050138457667338, + "learning_rate": 1.4739454736670438e-06, + "loss": 0.4281, + "step": 7094 + }, + { + "avg_step_time": 5.798205650213993, + "epoch": 0.7566933333333333, + "eta_time": 3.6738075244828106, + "step": 7094 + }, + { + "epoch": 0.7568, + "grad_norm": 1.6197931287852785, + "learning_rate": 1.4727209059514114e-06, + "loss": 0.3908, + "step": 7095 + }, + { + "avg_step_time": 5.79606752925449, + "epoch": 0.7568, + "eta_time": 3.6708427685278435, + "step": 7095 + }, + { + "epoch": 0.7569066666666666, + "grad_norm": 2.035735451656076, + "learning_rate": 1.4714967592775481e-06, + "loss": 0.433, + "step": 7096 + }, + { + "avg_step_time": 5.798777898152669, + "epoch": 0.7569066666666666, + "eta_time": 3.670948563858315, + "step": 7096 + }, + { + "epoch": 0.7570133333333333, + "grad_norm": 2.0964200228866194, + "learning_rate": 1.4702730337915794e-06, + "loss": 0.494, + "step": 7097 + }, + { + "avg_step_time": 5.796869875204684, + "epoch": 0.7570133333333333, + "eta_time": 3.668130437698964, + "step": 7097 + }, + { + "epoch": 0.75712, + "grad_norm": 1.6275101521330975, + "learning_rate": 1.4690497296395773e-06, + "loss": 0.4601, + "step": 7098 + }, + { + "avg_step_time": 5.795736840277007, + "epoch": 0.75712, + "eta_time": 3.665803551475207, + "step": 7098 + }, + { + "epoch": 0.7572266666666667, + "grad_norm": 1.776032957519127, + "learning_rate": 1.467826846967561e-06, + "loss": 0.4964, + "step": 7099 + }, + { + "avg_step_time": 5.797223856954863, + "epoch": 0.7572266666666667, + "eta_time": 3.665133749563686, + "step": 7099 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 1.9939804134882895, + "learning_rate": 1.466604385921509e-06, + "loss": 0.4711, + "step": 7100 + }, + { + "avg_step_time": 5.790662760686392, + "epoch": 0.7573333333333333, + "eta_time": 3.659377161267095, + "step": 7100 + }, + { + "epoch": 0.75744, + "grad_norm": 2.003965126265499, + "learning_rate": 1.46538234664734e-06, + "loss": 0.4601, + "step": 7101 + }, + { + "avg_step_time": 5.789991848396532, + "epoch": 0.75744, + "eta_time": 3.6573448509038093, + "step": 7101 + }, + { + "epoch": 0.7575466666666667, + "grad_norm": 1.8151244429190483, + "learning_rate": 1.4641607292909237e-06, + "loss": 0.5794, + "step": 7102 + }, + { + "avg_step_time": 5.787975224581632, + "epoch": 0.7575466666666667, + "eta_time": 3.6544632459650135, + "step": 7102 + }, + { + "epoch": 0.7576533333333333, + "grad_norm": 1.9842797499781337, + "learning_rate": 1.4629395339980828e-06, + "loss": 0.4932, + "step": 7103 + }, + { + "avg_step_time": 5.786683443820838, + "epoch": 0.7576533333333333, + "eta_time": 3.6520402178780396, + "step": 7103 + }, + { + "epoch": 0.75776, + "grad_norm": 1.866418968361465, + "learning_rate": 1.4617187609145906e-06, + "loss": 0.5329, + "step": 7104 + }, + { + "avg_step_time": 5.788289279648752, + "epoch": 0.75776, + "eta_time": 3.651445820578421, + "step": 7104 + }, + { + "epoch": 0.7578666666666667, + "grad_norm": 2.009174424038269, + "learning_rate": 1.460498410186163e-06, + "loss": 0.4901, + "step": 7105 + }, + { + "avg_step_time": 5.785732719633314, + "epoch": 0.7578666666666667, + "eta_time": 3.64822590932434, + "step": 7105 + }, + { + "epoch": 0.7579733333333334, + "grad_norm": 1.7645392165059788, + "learning_rate": 1.4592784819584742e-06, + "loss": 0.4814, + "step": 7106 + }, + { + "avg_step_time": 5.8061004407478105, + "epoch": 0.7579733333333334, + "eta_time": 3.659456083349106, + "step": 7106 + }, + { + "epoch": 0.75808, + "grad_norm": 2.111326922398194, + "learning_rate": 1.4580589763771413e-06, + "loss": 0.4443, + "step": 7107 + }, + { + "avg_step_time": 5.798850863870948, + "epoch": 0.75808, + "eta_time": 3.653276044238697, + "step": 7107 + }, + { + "epoch": 0.7581866666666667, + "grad_norm": 1.6931350287602596, + "learning_rate": 1.4568398935877326e-06, + "loss": 0.4394, + "step": 7108 + }, + { + "avg_step_time": 5.798280186123318, + "epoch": 0.7581866666666667, + "eta_time": 3.651305883872656, + "step": 7108 + }, + { + "epoch": 0.7582933333333334, + "grad_norm": 2.0741374249783524, + "learning_rate": 1.455621233735768e-06, + "loss": 0.4918, + "step": 7109 + }, + { + "avg_step_time": 5.774860225542628, + "epoch": 0.7582933333333334, + "eta_time": 3.6349536864109986, + "step": 7109 + }, + { + "epoch": 0.7584, + "grad_norm": 1.8399414598978654, + "learning_rate": 1.4544029969667167e-06, + "loss": 0.4402, + "step": 7110 + }, + { + "avg_step_time": 5.771927587913744, + "epoch": 0.7584, + "eta_time": 3.631504440729064, + "step": 7110 + }, + { + "epoch": 0.7585066666666667, + "grad_norm": 1.808894217081373, + "learning_rate": 1.4531851834259937e-06, + "loss": 0.3924, + "step": 7111 + }, + { + "avg_step_time": 5.784985665119056, + "epoch": 0.7585066666666667, + "eta_time": 3.638113207174873, + "step": 7111 + }, + { + "epoch": 0.7586133333333334, + "grad_norm": 1.715872681012491, + "learning_rate": 1.4519677932589693e-06, + "loss": 0.5235, + "step": 7112 + }, + { + "avg_step_time": 5.787869366732511, + "epoch": 0.7586133333333334, + "eta_time": 3.6383189935876867, + "step": 7112 + }, + { + "epoch": 0.75872, + "grad_norm": 1.7469337339616466, + "learning_rate": 1.4507508266109565e-06, + "loss": 0.4165, + "step": 7113 + }, + { + "avg_step_time": 5.799615953907822, + "epoch": 0.75872, + "eta_time": 3.644092024372082, + "step": 7113 + }, + { + "epoch": 0.7588266666666666, + "grad_norm": 1.7818991295218072, + "learning_rate": 1.4495342836272252e-06, + "loss": 0.4313, + "step": 7114 + }, + { + "avg_step_time": 5.80167468870529, + "epoch": 0.7588266666666666, + "eta_time": 3.643774019767406, + "step": 7114 + }, + { + "epoch": 0.7589333333333333, + "grad_norm": 2.079106767649122, + "learning_rate": 1.448318164452987e-06, + "loss": 0.4208, + "step": 7115 + }, + { + "avg_step_time": 5.796613358487987, + "epoch": 0.7589333333333333, + "eta_time": 3.6389850528285694, + "step": 7115 + }, + { + "epoch": 0.75904, + "grad_norm": 2.021426106912378, + "learning_rate": 1.4471024692334101e-06, + "loss": 0.504, + "step": 7116 + }, + { + "avg_step_time": 5.791998692233153, + "epoch": 0.75904, + "eta_time": 3.6344791793763034, + "step": 7116 + }, + { + "epoch": 0.7591466666666666, + "grad_norm": 1.9898237900560627, + "learning_rate": 1.4458871981136074e-06, + "loss": 0.5215, + "step": 7117 + }, + { + "avg_step_time": 5.793871366616451, + "epoch": 0.7591466666666666, + "eta_time": 3.634044873838874, + "step": 7117 + }, + { + "epoch": 0.7592533333333333, + "grad_norm": 0.6679734720531814, + "learning_rate": 1.4446723512386391e-06, + "loss": 0.4511, + "step": 7118 + }, + { + "avg_step_time": 5.759403243209377, + "epoch": 0.7592533333333333, + "eta_time": 3.6108258666454343, + "step": 7118 + }, + { + "epoch": 0.75936, + "grad_norm": 1.8096715622100674, + "learning_rate": 1.4434579287535244e-06, + "loss": 0.4926, + "step": 7119 + }, + { + "avg_step_time": 5.762121689440024, + "epoch": 0.75936, + "eta_time": 3.610929592049082, + "step": 7119 + }, + { + "epoch": 0.7594666666666666, + "grad_norm": 1.9845122801930817, + "learning_rate": 1.4422439308032228e-06, + "loss": 0.5049, + "step": 7120 + }, + { + "avg_step_time": 5.761093209488223, + "epoch": 0.7594666666666666, + "eta_time": 3.6086847742766506, + "step": 7120 + }, + { + "epoch": 0.7595733333333333, + "grad_norm": 0.6463788985986815, + "learning_rate": 1.4410303575326446e-06, + "loss": 0.4242, + "step": 7121 + }, + { + "avg_step_time": 5.729625974038635, + "epoch": 0.7595733333333333, + "eta_time": 3.587382484856412, + "step": 7121 + }, + { + "epoch": 0.75968, + "grad_norm": 1.9263892230093407, + "learning_rate": 1.439817209086653e-06, + "loss": 0.3632, + "step": 7122 + }, + { + "avg_step_time": 5.750513088823569, + "epoch": 0.75968, + "eta_time": 3.598862774755417, + "step": 7122 + }, + { + "epoch": 0.7597866666666667, + "grad_norm": 1.92996199798992, + "learning_rate": 1.4386044856100562e-06, + "loss": 0.4016, + "step": 7123 + }, + { + "avg_step_time": 5.753974587026269, + "epoch": 0.7597866666666667, + "eta_time": 3.599430769439766, + "step": 7123 + }, + { + "epoch": 0.7598933333333333, + "grad_norm": 1.9121192351486502, + "learning_rate": 1.4373921872476143e-06, + "loss": 0.5446, + "step": 7124 + }, + { + "avg_step_time": 5.754899058679138, + "epoch": 0.7598933333333333, + "eta_time": 3.5984104947463162, + "step": 7124 + }, + { + "epoch": 0.76, + "grad_norm": 1.564575070773428, + "learning_rate": 1.4361803141440384e-06, + "loss": 0.4235, + "step": 7125 + }, + { + "avg_step_time": 5.75304395261437, + "epoch": 0.76, + "eta_time": 3.5956524703839814, + "step": 7125 + }, + { + "epoch": 0.7601066666666667, + "grad_norm": 1.9382785427080798, + "learning_rate": 1.4349688664439848e-06, + "loss": 0.5328, + "step": 7126 + }, + { + "avg_step_time": 5.753441923796529, + "epoch": 0.7601066666666667, + "eta_time": 3.5943030240606646, + "step": 7126 + }, + { + "epoch": 0.7602133333333333, + "grad_norm": 1.8194747339545587, + "learning_rate": 1.4337578442920592e-06, + "loss": 0.394, + "step": 7127 + }, + { + "avg_step_time": 5.755970730926052, + "epoch": 0.7602133333333333, + "eta_time": 3.5942839453116013, + "step": 7127 + }, + { + "epoch": 0.76032, + "grad_norm": 1.6979375524792704, + "learning_rate": 1.432547247832819e-06, + "loss": 0.5044, + "step": 7128 + }, + { + "avg_step_time": 5.754112925192322, + "epoch": 0.76032, + "eta_time": 3.5915254841408744, + "step": 7128 + }, + { + "epoch": 0.7604266666666667, + "grad_norm": 1.7677342626355077, + "learning_rate": 1.4313370772107715e-06, + "loss": 0.5771, + "step": 7129 + }, + { + "avg_step_time": 5.756732726337934, + "epoch": 0.7604266666666667, + "eta_time": 3.591561584265278, + "step": 7129 + }, + { + "epoch": 0.7605333333333333, + "grad_norm": 1.8893118037217729, + "learning_rate": 1.430127332570369e-06, + "loss": 0.4909, + "step": 7130 + }, + { + "avg_step_time": 5.757978058824635, + "epoch": 0.7605333333333333, + "eta_time": 3.59073909501703, + "step": 7130 + }, + { + "epoch": 0.76064, + "grad_norm": 1.7089244396967656, + "learning_rate": 1.4289180140560189e-06, + "loss": 0.5428, + "step": 7131 + }, + { + "avg_step_time": 5.804212037963096, + "epoch": 0.76064, + "eta_time": 3.617958836996997, + "step": 7131 + }, + { + "epoch": 0.7607466666666667, + "grad_norm": 1.6281638385240156, + "learning_rate": 1.4277091218120715e-06, + "loss": 0.4659, + "step": 7132 + }, + { + "avg_step_time": 5.809933474569609, + "epoch": 0.7607466666666667, + "eta_time": 3.6199113287387874, + "step": 7132 + }, + { + "epoch": 0.7608533333333334, + "grad_norm": 1.8654420126145377, + "learning_rate": 1.4265006559828282e-06, + "loss": 0.463, + "step": 7133 + }, + { + "avg_step_time": 5.8372551335228815, + "epoch": 0.7608533333333334, + "eta_time": 3.6353127803773058, + "step": 7133 + }, + { + "epoch": 0.76096, + "grad_norm": 1.940623720189188, + "learning_rate": 1.4252926167125413e-06, + "loss": 0.4953, + "step": 7134 + }, + { + "avg_step_time": 5.835194308348377, + "epoch": 0.76096, + "eta_time": 3.6324084569468646, + "step": 7134 + }, + { + "epoch": 0.7610666666666667, + "grad_norm": 2.010774471432542, + "learning_rate": 1.4240850041454136e-06, + "loss": 0.4651, + "step": 7135 + }, + { + "avg_step_time": 5.833576016955906, + "epoch": 0.7610666666666667, + "eta_time": 3.6297806327725635, + "step": 7135 + }, + { + "epoch": 0.7611733333333334, + "grad_norm": 2.0035735457658546, + "learning_rate": 1.4228778184255908e-06, + "loss": 0.5056, + "step": 7136 + }, + { + "avg_step_time": 5.833362940585975, + "epoch": 0.7611733333333334, + "eta_time": 3.6280276733255548, + "step": 7136 + }, + { + "epoch": 0.76128, + "grad_norm": 1.7224062562712386, + "learning_rate": 1.421671059697175e-06, + "loss": 0.4934, + "step": 7137 + }, + { + "avg_step_time": 5.833672460883554, + "epoch": 0.76128, + "eta_time": 3.62659971318261, + "step": 7137 + }, + { + "epoch": 0.7613866666666667, + "grad_norm": 0.6735631644306922, + "learning_rate": 1.42046472810421e-06, + "loss": 0.4509, + "step": 7138 + }, + { + "avg_step_time": 5.7918275341843115, + "epoch": 0.7613866666666667, + "eta_time": 3.5989772761028624, + "step": 7138 + }, + { + "epoch": 0.7614933333333334, + "grad_norm": 1.9528670049492645, + "learning_rate": 1.4192588237906957e-06, + "loss": 0.4483, + "step": 7139 + }, + { + "avg_step_time": 5.795871272231594, + "epoch": 0.7614933333333334, + "eta_time": 3.5998800457527342, + "step": 7139 + }, + { + "epoch": 0.7616, + "grad_norm": 1.5096657744292707, + "learning_rate": 1.418053346900574e-06, + "loss": 0.5086, + "step": 7140 + }, + { + "avg_step_time": 5.793969127866957, + "epoch": 0.7616, + "eta_time": 3.5970891668840688, + "step": 7140 + }, + { + "epoch": 0.7617066666666666, + "grad_norm": 1.7696634005325313, + "learning_rate": 1.4168482975777441e-06, + "loss": 0.457, + "step": 7141 + }, + { + "avg_step_time": 5.824379053982821, + "epoch": 0.7617066666666666, + "eta_time": 3.6143507796104504, + "step": 7141 + }, + { + "epoch": 0.7618133333333333, + "grad_norm": 1.9580376009822356, + "learning_rate": 1.4156436759660447e-06, + "loss": 0.5183, + "step": 7142 + }, + { + "avg_step_time": 5.8213224555506855, + "epoch": 0.7618133333333333, + "eta_time": 3.610836956456856, + "step": 7142 + }, + { + "epoch": 0.76192, + "grad_norm": 1.985797500490134, + "learning_rate": 1.4144394822092712e-06, + "loss": 0.5125, + "step": 7143 + }, + { + "avg_step_time": 5.82323294456559, + "epoch": 0.76192, + "eta_time": 3.6104044256306658, + "step": 7143 + }, + { + "epoch": 0.7620266666666666, + "grad_norm": 0.637752729256277, + "learning_rate": 1.4132357164511652e-06, + "loss": 0.4341, + "step": 7144 + }, + { + "avg_step_time": 5.789326443816677, + "epoch": 0.7620266666666666, + "eta_time": 3.587774248931946, + "step": 7144 + }, + { + "epoch": 0.7621333333333333, + "grad_norm": 2.206691798660641, + "learning_rate": 1.4120323788354156e-06, + "loss": 0.5482, + "step": 7145 + }, + { + "avg_step_time": 5.785117137311685, + "epoch": 0.7621333333333333, + "eta_time": 3.583558671168072, + "step": 7145 + }, + { + "epoch": 0.76224, + "grad_norm": 1.7319057151202337, + "learning_rate": 1.4108294695056606e-06, + "loss": 0.4444, + "step": 7146 + }, + { + "avg_step_time": 5.782803232019598, + "epoch": 0.76224, + "eta_time": 3.580519001158801, + "step": 7146 + }, + { + "epoch": 0.7623466666666666, + "grad_norm": 1.7871238998448122, + "learning_rate": 1.4096269886054904e-06, + "loss": 0.4369, + "step": 7147 + }, + { + "avg_step_time": 5.784826384650336, + "epoch": 0.7623466666666666, + "eta_time": 3.580164773611375, + "step": 7147 + }, + { + "epoch": 0.7624533333333333, + "grad_norm": 1.822522592321467, + "learning_rate": 1.408424936278442e-06, + "loss": 0.4565, + "step": 7148 + }, + { + "avg_step_time": 5.79137453647575, + "epoch": 0.7624533333333333, + "eta_time": 3.58260863686986, + "step": 7148 + }, + { + "epoch": 0.76256, + "grad_norm": 0.6479277259976208, + "learning_rate": 1.4072233126679985e-06, + "loss": 0.4318, + "step": 7149 + }, + { + "avg_step_time": 5.754698678700611, + "epoch": 0.76256, + "eta_time": 3.5583220163298774, + "step": 7149 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 0.6593148577714908, + "learning_rate": 1.4060221179175976e-06, + "loss": 0.4382, + "step": 7150 + }, + { + "avg_step_time": 5.753903458816836, + "epoch": 0.7626666666666667, + "eta_time": 3.5562319988520725, + "step": 7150 + }, + { + "epoch": 0.7627733333333333, + "grad_norm": 1.693512022084201, + "learning_rate": 1.404821352170621e-06, + "loss": 0.5052, + "step": 7151 + }, + { + "avg_step_time": 5.739383897396049, + "epoch": 0.7627733333333333, + "eta_time": 3.5456638299468928, + "step": 7151 + }, + { + "epoch": 0.76288, + "grad_norm": 2.0761282476550953, + "learning_rate": 1.4036210155703989e-06, + "loss": 0.5148, + "step": 7152 + }, + { + "avg_step_time": 5.7457449773345335, + "epoch": 0.76288, + "eta_time": 3.5479975235040744, + "step": 7152 + }, + { + "epoch": 0.7629866666666667, + "grad_norm": 1.759680513539172, + "learning_rate": 1.4024211082602168e-06, + "loss": 0.4498, + "step": 7153 + }, + { + "avg_step_time": 5.74296239168957, + "epoch": 0.7629866666666667, + "eta_time": 3.544684009537285, + "step": 7153 + }, + { + "epoch": 0.7630933333333333, + "grad_norm": 1.7491665108130408, + "learning_rate": 1.401221630383302e-06, + "loss": 0.446, + "step": 7154 + }, + { + "avg_step_time": 5.7809500068125095, + "epoch": 0.7630933333333333, + "eta_time": 3.566524990314051, + "step": 7154 + }, + { + "epoch": 0.7632, + "grad_norm": 0.6599619804521056, + "learning_rate": 1.4000225820828317e-06, + "loss": 0.4467, + "step": 7155 + }, + { + "avg_step_time": 5.741251528865159, + "epoch": 0.7632, + "eta_time": 3.5404384428001814, + "step": 7155 + }, + { + "epoch": 0.7633066666666667, + "grad_norm": 1.7054756850682038, + "learning_rate": 1.3988239635019357e-06, + "loss": 0.4835, + "step": 7156 + }, + { + "avg_step_time": 5.7406388220160895, + "epoch": 0.7633066666666667, + "eta_time": 3.538465985014917, + "step": 7156 + }, + { + "epoch": 0.7634133333333334, + "grad_norm": 2.1239365457600403, + "learning_rate": 1.3976257747836875e-06, + "loss": 0.4991, + "step": 7157 + }, + { + "avg_step_time": 5.738726644804983, + "epoch": 0.7634133333333334, + "eta_time": 3.5356932494937374, + "step": 7157 + }, + { + "epoch": 0.76352, + "grad_norm": 1.6389138599086752, + "learning_rate": 1.3964280160711119e-06, + "loss": 0.3823, + "step": 7158 + }, + { + "avg_step_time": 5.770009546568899, + "epoch": 0.76352, + "eta_time": 3.5533642124286806, + "step": 7158 + }, + { + "epoch": 0.7636266666666667, + "grad_norm": 1.7656539702819931, + "learning_rate": 1.3952306875071847e-06, + "loss": 0.4171, + "step": 7159 + }, + { + "avg_step_time": 5.745506912770898, + "epoch": 0.7636266666666667, + "eta_time": 3.536678699638975, + "step": 7159 + }, + { + "epoch": 0.7637333333333334, + "grad_norm": 0.6145620529824064, + "learning_rate": 1.3940337892348255e-06, + "loss": 0.4129, + "step": 7160 + }, + { + "avg_step_time": 5.745604430786287, + "epoch": 0.7637333333333334, + "eta_time": 3.53514272616434, + "step": 7160 + }, + { + "epoch": 0.76384, + "grad_norm": 1.7943553196139783, + "learning_rate": 1.3928373213969038e-06, + "loss": 0.4576, + "step": 7161 + }, + { + "avg_step_time": 5.731907543509897, + "epoch": 0.76384, + "eta_time": 3.5251231392585867, + "step": 7161 + }, + { + "epoch": 0.7639466666666667, + "grad_norm": 2.0266119653121755, + "learning_rate": 1.3916412841362404e-06, + "loss": 0.4846, + "step": 7162 + }, + { + "avg_step_time": 5.734509456037271, + "epoch": 0.7639466666666667, + "eta_time": 3.525130396169578, + "step": 7162 + }, + { + "epoch": 0.7640533333333334, + "grad_norm": 2.272849247350629, + "learning_rate": 1.3904456775956044e-06, + "loss": 0.5526, + "step": 7163 + }, + { + "avg_step_time": 5.729924136942083, + "epoch": 0.7640533333333334, + "eta_time": 3.520720053032191, + "step": 7163 + }, + { + "epoch": 0.76416, + "grad_norm": 2.0164127813579347, + "learning_rate": 1.38925050191771e-06, + "loss": 0.4569, + "step": 7164 + }, + { + "avg_step_time": 5.6751117995291045, + "epoch": 0.76416, + "eta_time": 3.485464496877458, + "step": 7164 + }, + { + "epoch": 0.7642666666666666, + "grad_norm": 1.9082199752392652, + "learning_rate": 1.3880557572452213e-06, + "loss": 0.4875, + "step": 7165 + }, + { + "avg_step_time": 5.693711772109523, + "epoch": 0.7642666666666666, + "eta_time": 3.495306393433902, + "step": 7165 + }, + { + "epoch": 0.7643733333333333, + "grad_norm": 1.9004461949077713, + "learning_rate": 1.3868614437207545e-06, + "loss": 0.4892, + "step": 7166 + }, + { + "avg_step_time": 5.6934761856541485, + "epoch": 0.7643733333333333, + "eta_time": 3.4935802483638927, + "step": 7166 + }, + { + "epoch": 0.76448, + "grad_norm": 1.9858943112522975, + "learning_rate": 1.3856675614868687e-06, + "loss": 0.4421, + "step": 7167 + }, + { + "avg_step_time": 5.6946977099986995, + "epoch": 0.76448, + "eta_time": 3.492747928799202, + "step": 7167 + }, + { + "epoch": 0.7645866666666666, + "grad_norm": 2.0553389198051275, + "learning_rate": 1.3844741106860759e-06, + "loss": 0.5062, + "step": 7168 + }, + { + "avg_step_time": 5.69056207483465, + "epoch": 0.7645866666666666, + "eta_time": 3.488630694211132, + "step": 7168 + }, + { + "epoch": 0.7646933333333333, + "grad_norm": 1.6838874386759344, + "learning_rate": 1.3832810914608364e-06, + "loss": 0.3886, + "step": 7169 + }, + { + "avg_step_time": 5.689320400507763, + "epoch": 0.7646933333333333, + "eta_time": 3.4862891120889237, + "step": 7169 + }, + { + "epoch": 0.7648, + "grad_norm": 0.6272580839192728, + "learning_rate": 1.3820885039535564e-06, + "loss": 0.4292, + "step": 7170 + }, + { + "avg_step_time": 5.651290975435816, + "epoch": 0.7648, + "eta_time": 3.4614157224544373, + "step": 7170 + }, + { + "epoch": 0.7649066666666666, + "grad_norm": 2.1837632330588312, + "learning_rate": 1.3808963483065902e-06, + "loss": 0.4286, + "step": 7171 + }, + { + "avg_step_time": 5.630957131433969, + "epoch": 0.7649066666666666, + "eta_time": 3.4473970882445744, + "step": 7171 + }, + { + "epoch": 0.7650133333333333, + "grad_norm": 1.684293557382297, + "learning_rate": 1.3797046246622431e-06, + "loss": 0.3546, + "step": 7172 + }, + { + "avg_step_time": 5.632079548305935, + "epoch": 0.7650133333333333, + "eta_time": 3.446519790254993, + "step": 7172 + }, + { + "epoch": 0.76512, + "grad_norm": 1.8002544206351616, + "learning_rate": 1.378513333162771e-06, + "loss": 0.5392, + "step": 7173 + }, + { + "avg_step_time": 5.632601636828798, + "epoch": 0.76512, + "eta_time": 3.4452746678602812, + "step": 7173 + }, + { + "epoch": 0.7652266666666667, + "grad_norm": 1.805882857902705, + "learning_rate": 1.3773224739503704e-06, + "loss": 0.5356, + "step": 7174 + }, + { + "avg_step_time": 5.622080157501529, + "epoch": 0.7652266666666667, + "eta_time": 3.4372773407391293, + "step": 7174 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 2.0871150234514544, + "learning_rate": 1.3761320471671951e-06, + "loss": 0.5361, + "step": 7175 + }, + { + "avg_step_time": 5.618914454874366, + "epoch": 0.7653333333333333, + "eta_time": 3.433781055756557, + "step": 7175 + }, + { + "epoch": 0.76544, + "grad_norm": 1.6781422462150357, + "learning_rate": 1.3749420529553414e-06, + "loss": 0.4472, + "step": 7176 + }, + { + "avg_step_time": 5.631929530037774, + "epoch": 0.76544, + "eta_time": 3.440170287931407, + "step": 7176 + }, + { + "epoch": 0.7655466666666667, + "grad_norm": 0.6649728961288794, + "learning_rate": 1.3737524914568523e-06, + "loss": 0.4427, + "step": 7177 + }, + { + "avg_step_time": 5.596117212314798, + "epoch": 0.7655466666666667, + "eta_time": 3.4167404535188686, + "step": 7177 + }, + { + "epoch": 0.7656533333333333, + "grad_norm": 1.8792338851292412, + "learning_rate": 1.3725633628137292e-06, + "loss": 0.513, + "step": 7178 + }, + { + "avg_step_time": 5.609646558761597, + "epoch": 0.7656533333333333, + "eta_time": 3.4234426359997854, + "step": 7178 + }, + { + "epoch": 0.76576, + "grad_norm": 1.6576223830914993, + "learning_rate": 1.3713746671679112e-06, + "loss": 0.4446, + "step": 7179 + }, + { + "avg_step_time": 5.610595457481615, + "epoch": 0.76576, + "eta_time": 3.4224632290637853, + "step": 7179 + }, + { + "epoch": 0.7658666666666667, + "grad_norm": 1.986445358232073, + "learning_rate": 1.3701864046612888e-06, + "loss": 0.496, + "step": 7180 + }, + { + "avg_step_time": 5.61670515994833, + "epoch": 0.7658666666666667, + "eta_time": 3.424629951690718, + "step": 7180 + }, + { + "epoch": 0.7659733333333333, + "grad_norm": 1.7332013285557648, + "learning_rate": 1.3689985754357054e-06, + "loss": 0.4826, + "step": 7181 + }, + { + "avg_step_time": 5.623831580383609, + "epoch": 0.7659733333333333, + "eta_time": 3.4274129131560107, + "step": 7181 + }, + { + "epoch": 0.76608, + "grad_norm": 1.9266745060655355, + "learning_rate": 1.3678111796329446e-06, + "loss": 0.4396, + "step": 7182 + }, + { + "avg_step_time": 5.621371182528409, + "epoch": 0.76608, + "eta_time": 3.4243519453568894, + "step": 7182 + }, + { + "epoch": 0.7661866666666667, + "grad_norm": 1.7034879226556296, + "learning_rate": 1.3666242173947447e-06, + "loss": 0.4745, + "step": 7183 + }, + { + "avg_step_time": 5.6379544638624095, + "epoch": 0.7661866666666667, + "eta_time": 3.4328878291073335, + "step": 7183 + }, + { + "epoch": 0.7662933333333334, + "grad_norm": 1.8433409454055247, + "learning_rate": 1.3654376888627918e-06, + "loss": 0.4139, + "step": 7184 + }, + { + "avg_step_time": 5.63097024445582, + "epoch": 0.7662933333333334, + "eta_time": 3.427071057111861, + "step": 7184 + }, + { + "epoch": 0.7664, + "grad_norm": 1.7838275311413665, + "learning_rate": 1.3642515941787171e-06, + "loss": 0.4827, + "step": 7185 + }, + { + "avg_step_time": 5.639087221839211, + "epoch": 0.7664, + "eta_time": 3.430444726618853, + "step": 7185 + }, + { + "epoch": 0.7665066666666667, + "grad_norm": 0.6528319553333545, + "learning_rate": 1.3630659334841002e-06, + "loss": 0.4611, + "step": 7186 + }, + { + "avg_step_time": 5.603295208227755, + "epoch": 0.7665066666666667, + "eta_time": 3.40711478078071, + "step": 7186 + }, + { + "epoch": 0.7666133333333334, + "grad_norm": 2.0638880993845103, + "learning_rate": 1.3618807069204708e-06, + "loss": 0.5905, + "step": 7187 + }, + { + "avg_step_time": 5.6020614233883945, + "epoch": 0.7666133333333334, + "eta_time": 3.404808442881613, + "step": 7187 + }, + { + "epoch": 0.76672, + "grad_norm": 2.000630108286053, + "learning_rate": 1.3606959146293086e-06, + "loss": 0.4658, + "step": 7188 + }, + { + "avg_step_time": 5.600753550577646, + "epoch": 0.76672, + "eta_time": 3.40245778197592, + "step": 7188 + }, + { + "epoch": 0.7668266666666667, + "grad_norm": 1.846699662319991, + "learning_rate": 1.3595115567520361e-06, + "loss": 0.4745, + "step": 7189 + }, + { + "avg_step_time": 5.6321232005803274, + "epoch": 0.7668266666666667, + "eta_time": 3.4199503656857213, + "step": 7189 + }, + { + "epoch": 0.7669333333333334, + "grad_norm": 1.7385038380447815, + "learning_rate": 1.3583276334300295e-06, + "loss": 0.4353, + "step": 7190 + }, + { + "avg_step_time": 5.634538171267269, + "epoch": 0.7669333333333334, + "eta_time": 3.4198516400608288, + "step": 7190 + }, + { + "epoch": 0.76704, + "grad_norm": 2.0700427803465566, + "learning_rate": 1.3571441448046086e-06, + "loss": 0.4795, + "step": 7191 + }, + { + "avg_step_time": 5.633159808438234, + "epoch": 0.76704, + "eta_time": 3.417450283785862, + "step": 7191 + }, + { + "epoch": 0.7671466666666666, + "grad_norm": 1.8592530797414701, + "learning_rate": 1.3559610910170423e-06, + "loss": 0.4151, + "step": 7192 + }, + { + "avg_step_time": 5.633521629102303, + "epoch": 0.7671466666666666, + "eta_time": 3.4161049212028685, + "step": 7192 + }, + { + "epoch": 0.7672533333333333, + "grad_norm": 1.7683179758259786, + "learning_rate": 1.3547784722085505e-06, + "loss": 0.4683, + "step": 7193 + }, + { + "avg_step_time": 5.63115336437418, + "epoch": 0.7672533333333333, + "eta_time": 3.413104622517906, + "step": 7193 + }, + { + "epoch": 0.76736, + "grad_norm": 1.9444295791483934, + "learning_rate": 1.3535962885202997e-06, + "loss": 0.5034, + "step": 7194 + }, + { + "avg_step_time": 5.630914996368716, + "epoch": 0.76736, + "eta_time": 3.4113960019667138, + "step": 7194 + }, + { + "epoch": 0.7674666666666666, + "grad_norm": 1.946432754356923, + "learning_rate": 1.3524145400934019e-06, + "loss": 0.4742, + "step": 7195 + }, + { + "avg_step_time": 5.630798428949683, + "epoch": 0.7674666666666666, + "eta_time": 3.409761270863975, + "step": 7195 + }, + { + "epoch": 0.7675733333333333, + "grad_norm": 1.928565081545484, + "learning_rate": 1.35123322706892e-06, + "loss": 0.4251, + "step": 7196 + }, + { + "avg_step_time": 5.631135013368395, + "epoch": 0.7675733333333333, + "eta_time": 3.408400887258259, + "step": 7196 + }, + { + "epoch": 0.76768, + "grad_norm": 1.9633548995852241, + "learning_rate": 1.350052349587866e-06, + "loss": 0.4345, + "step": 7197 + }, + { + "avg_step_time": 5.633777237901784, + "epoch": 0.76768, + "eta_time": 3.4084352289305793, + "step": 7197 + }, + { + "epoch": 0.7677866666666666, + "grad_norm": 1.7240300890430564, + "learning_rate": 1.3488719077911965e-06, + "loss": 0.4168, + "step": 7198 + }, + { + "avg_step_time": 5.631385273403591, + "epoch": 0.7677866666666666, + "eta_time": 3.4054238167221165, + "step": 7198 + }, + { + "epoch": 0.7678933333333333, + "grad_norm": 0.6126034502039851, + "learning_rate": 1.3476919018198159e-06, + "loss": 0.4177, + "step": 7199 + }, + { + "avg_step_time": 5.597882309345284, + "epoch": 0.7678933333333333, + "eta_time": 3.3836088625375935, + "step": 7199 + }, + { + "epoch": 0.768, + "grad_norm": 1.6973749994986624, + "learning_rate": 1.3465123318145817e-06, + "loss": 0.4432, + "step": 7200 + }, + { + "avg_step_time": 5.595623030807033, + "epoch": 0.768, + "eta_time": 3.3806889144459156, + "step": 7200 + }, + { + "epoch": 0.7681066666666667, + "grad_norm": 1.9709643757957578, + "learning_rate": 1.3453331979162932e-06, + "loss": 0.4386, + "step": 7201 + }, + { + "avg_step_time": 5.596140418389831, + "epoch": 0.7681066666666667, + "eta_time": 3.379447019327637, + "step": 7201 + }, + { + "epoch": 0.7682133333333333, + "grad_norm": 1.5228059629947808, + "learning_rate": 1.3441545002657008e-06, + "loss": 0.419, + "step": 7202 + }, + { + "avg_step_time": 5.602527249943126, + "epoch": 0.7682133333333333, + "eta_time": 3.3817476983684482, + "step": 7202 + }, + { + "epoch": 0.76832, + "grad_norm": 1.59635993842992, + "learning_rate": 1.342976239003505e-06, + "loss": 0.4223, + "step": 7203 + }, + { + "avg_step_time": 5.598690890302562, + "epoch": 0.76832, + "eta_time": 3.3778768371492123, + "step": 7203 + }, + { + "epoch": 0.7684266666666667, + "grad_norm": 1.6613521147999522, + "learning_rate": 1.34179841427035e-06, + "loss": 0.4318, + "step": 7204 + }, + { + "avg_step_time": 5.611257598857687, + "epoch": 0.7684266666666667, + "eta_time": 3.3839000686444556, + "step": 7204 + }, + { + "epoch": 0.7685333333333333, + "grad_norm": 1.6708592924876857, + "learning_rate": 1.340621026206828e-06, + "loss": 0.3719, + "step": 7205 + }, + { + "avg_step_time": 5.588787389524056, + "epoch": 0.7685333333333333, + "eta_time": 3.368796843129778, + "step": 7205 + }, + { + "epoch": 0.76864, + "grad_norm": 1.3656751148788946, + "learning_rate": 1.339444074953482e-06, + "loss": 0.3744, + "step": 7206 + }, + { + "avg_step_time": 5.587194423482876, + "epoch": 0.76864, + "eta_time": 3.3662846401484323, + "step": 7206 + }, + { + "epoch": 0.7687466666666667, + "grad_norm": 2.1167604395751494, + "learning_rate": 1.3382675606508028e-06, + "loss": 0.487, + "step": 7207 + }, + { + "avg_step_time": 5.58457537130876, + "epoch": 0.7687466666666667, + "eta_time": 3.363155390277053, + "step": 7207 + }, + { + "epoch": 0.7688533333333334, + "grad_norm": 1.887768281416314, + "learning_rate": 1.3370914834392251e-06, + "loss": 0.4266, + "step": 7208 + }, + { + "avg_step_time": 5.618440221054385, + "epoch": 0.7688533333333334, + "eta_time": 3.381988877506904, + "step": 7208 + }, + { + "epoch": 0.76896, + "grad_norm": 1.8366912167265115, + "learning_rate": 1.335915843459137e-06, + "loss": 0.507, + "step": 7209 + }, + { + "avg_step_time": 5.619335740503638, + "epoch": 0.76896, + "eta_time": 3.3809670038696895, + "step": 7209 + }, + { + "epoch": 0.7690666666666667, + "grad_norm": 1.715783434553747, + "learning_rate": 1.3347406408508695e-06, + "loss": 0.4543, + "step": 7210 + }, + { + "avg_step_time": 5.669548677675651, + "epoch": 0.7690666666666667, + "eta_time": 3.4096035797688296, + "step": 7210 + }, + { + "epoch": 0.7691733333333334, + "grad_norm": 1.6549392174892898, + "learning_rate": 1.3335658757547015e-06, + "loss": 0.4224, + "step": 7211 + }, + { + "avg_step_time": 5.667403187414612, + "epoch": 0.7691733333333334, + "eta_time": 3.4067390271014504, + "step": 7211 + }, + { + "epoch": 0.76928, + "grad_norm": 1.9010192633189902, + "learning_rate": 1.3323915483108662e-06, + "loss": 0.5104, + "step": 7212 + }, + { + "avg_step_time": 5.65860771410393, + "epoch": 0.76928, + "eta_time": 3.3998801348907777, + "step": 7212 + }, + { + "epoch": 0.7693866666666667, + "grad_norm": 1.9282988563892203, + "learning_rate": 1.3312176586595377e-06, + "loss": 0.4937, + "step": 7213 + }, + { + "avg_step_time": 5.658182498180505, + "epoch": 0.7693866666666667, + "eta_time": 3.3980529336295144, + "step": 7213 + }, + { + "epoch": 0.7694933333333334, + "grad_norm": 1.9394850531671108, + "learning_rate": 1.330044206940838e-06, + "loss": 0.5039, + "step": 7214 + }, + { + "avg_step_time": 5.659759169877177, + "epoch": 0.7694933333333334, + "eta_time": 3.3974276572512725, + "step": 7214 + }, + { + "epoch": 0.7696, + "grad_norm": 1.9264368302901274, + "learning_rate": 1.3288711932948427e-06, + "loss": 0.5421, + "step": 7215 + }, + { + "avg_step_time": 5.6604441873955, + "epoch": 0.7696, + "eta_time": 3.3962665124373004, + "step": 7215 + }, + { + "epoch": 0.7697066666666667, + "grad_norm": 2.078521900083327, + "learning_rate": 1.3276986178615676e-06, + "loss": 0.4678, + "step": 7216 + }, + { + "avg_step_time": 5.660000991339635, + "epoch": 0.7697066666666667, + "eta_time": 3.394428372306187, + "step": 7216 + }, + { + "epoch": 0.7698133333333333, + "grad_norm": 2.0471276214062506, + "learning_rate": 1.3265264807809824e-06, + "loss": 0.5164, + "step": 7217 + }, + { + "avg_step_time": 5.691988605441469, + "epoch": 0.7698133333333333, + "eta_time": 3.4120309473729695, + "step": 7217 + }, + { + "epoch": 0.76992, + "grad_norm": 2.094702035869417, + "learning_rate": 1.3253547821930002e-06, + "loss": 0.4974, + "step": 7218 + }, + { + "avg_step_time": 5.689339221125901, + "epoch": 0.76992, + "eta_time": 3.4088624166579358, + "step": 7218 + }, + { + "epoch": 0.7700266666666666, + "grad_norm": 1.87797174785016, + "learning_rate": 1.3241835222374855e-06, + "loss": 0.3927, + "step": 7219 + }, + { + "avg_step_time": 5.687116690356322, + "epoch": 0.7700266666666666, + "eta_time": 3.405950995668953, + "step": 7219 + }, + { + "epoch": 0.7701333333333333, + "grad_norm": 1.710426123306875, + "learning_rate": 1.323012701054246e-06, + "loss": 0.4804, + "step": 7220 + }, + { + "avg_step_time": 5.73747221387998, + "epoch": 0.7701333333333333, + "eta_time": 3.434514616919821, + "step": 7220 + }, + { + "epoch": 0.77024, + "grad_norm": 1.8352977629449818, + "learning_rate": 1.3218423187830409e-06, + "loss": 0.5113, + "step": 7221 + }, + { + "avg_step_time": 5.719757472625886, + "epoch": 0.77024, + "eta_time": 3.4223215544544887, + "step": 7221 + }, + { + "epoch": 0.7703466666666666, + "grad_norm": 1.5090837331347962, + "learning_rate": 1.3206723755635765e-06, + "loss": 0.4321, + "step": 7222 + }, + { + "avg_step_time": 5.7116680819578844, + "epoch": 0.7703466666666666, + "eta_time": 3.415894827904257, + "step": 7222 + }, + { + "epoch": 0.7704533333333333, + "grad_norm": 1.844330771874745, + "learning_rate": 1.3195028715355046e-06, + "loss": 0.4587, + "step": 7223 + }, + { + "avg_step_time": 5.7084554301367865, + "epoch": 0.7704533333333333, + "eta_time": 3.412387801570657, + "step": 7223 + }, + { + "epoch": 0.77056, + "grad_norm": 1.83137051817292, + "learning_rate": 1.3183338068384243e-06, + "loss": 0.5327, + "step": 7224 + }, + { + "avg_step_time": 5.715989095996124, + "epoch": 0.77056, + "eta_time": 3.4153034848576844, + "step": 7224 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 1.8548408076699037, + "learning_rate": 1.317165181611887e-06, + "loss": 0.4939, + "step": 7225 + }, + { + "avg_step_time": 5.715519343963777, + "epoch": 0.7706666666666667, + "eta_time": 3.4134351637561444, + "step": 7225 + }, + { + "epoch": 0.7707733333333333, + "grad_norm": 1.7788385638639332, + "learning_rate": 1.315996995995385e-06, + "loss": 0.4238, + "step": 7226 + }, + { + "avg_step_time": 5.743872059716119, + "epoch": 0.7707733333333333, + "eta_time": 3.4287725156472058, + "step": 7226 + }, + { + "epoch": 0.77088, + "grad_norm": 1.9204844360736237, + "learning_rate": 1.3148292501283627e-06, + "loss": 0.5106, + "step": 7227 + }, + { + "avg_step_time": 5.744818641681864, + "epoch": 0.77088, + "eta_time": 3.4277417895368454, + "step": 7227 + }, + { + "epoch": 0.7709866666666667, + "grad_norm": 2.022058732726783, + "learning_rate": 1.3136619441502124e-06, + "loss": 0.3993, + "step": 7228 + }, + { + "avg_step_time": 5.741229570273197, + "epoch": 0.7709866666666667, + "eta_time": 3.4240055242712653, + "step": 7228 + }, + { + "epoch": 0.7710933333333333, + "grad_norm": 1.8419457494632892, + "learning_rate": 1.312495078200271e-06, + "loss": 0.3864, + "step": 7229 + }, + { + "avg_step_time": 5.743501200820461, + "epoch": 0.7710933333333333, + "eta_time": 3.4237648824890856, + "step": 7229 + }, + { + "epoch": 0.7712, + "grad_norm": 1.905273162430716, + "learning_rate": 1.3113286524178232e-06, + "loss": 0.5011, + "step": 7230 + }, + { + "avg_step_time": 5.697093951581705, + "epoch": 0.7712, + "eta_time": 3.3945184794840992, + "step": 7230 + }, + { + "epoch": 0.7713066666666667, + "grad_norm": 0.6622082736423819, + "learning_rate": 1.3101626669421019e-06, + "loss": 0.432, + "step": 7231 + }, + { + "avg_step_time": 5.662217896394055, + "epoch": 0.7713066666666667, + "eta_time": 3.3721653249635706, + "step": 7231 + }, + { + "epoch": 0.7714133333333333, + "grad_norm": 2.1237375076537446, + "learning_rate": 1.308997121912291e-06, + "loss": 0.5401, + "step": 7232 + }, + { + "avg_step_time": 5.633136905805029, + "epoch": 0.7714133333333333, + "eta_time": 3.3532812192056043, + "step": 7232 + }, + { + "epoch": 0.77152, + "grad_norm": 1.6895544473305883, + "learning_rate": 1.3078320174675141e-06, + "loss": 0.448, + "step": 7233 + }, + { + "avg_step_time": 5.63720305038221, + "epoch": 0.77152, + "eta_time": 3.3541358149774148, + "step": 7233 + }, + { + "epoch": 0.7716266666666667, + "grad_norm": 1.9124980735078356, + "learning_rate": 1.3066673537468499e-06, + "loss": 0.4768, + "step": 7234 + }, + { + "avg_step_time": 5.63553244417364, + "epoch": 0.7716266666666667, + "eta_time": 3.3515763786043786, + "step": 7234 + }, + { + "epoch": 0.7717333333333334, + "grad_norm": 1.4904547991135477, + "learning_rate": 1.3055031308893206e-06, + "loss": 0.4062, + "step": 7235 + }, + { + "avg_step_time": 5.63174200780464, + "epoch": 0.7717333333333334, + "eta_time": 3.3477577490838692, + "step": 7235 + }, + { + "epoch": 0.77184, + "grad_norm": 2.114768925134022, + "learning_rate": 1.3043393490338918e-06, + "loss": 0.4828, + "step": 7236 + }, + { + "avg_step_time": 5.629335256538006, + "epoch": 0.77184, + "eta_time": 3.3447633649263318, + "step": 7236 + }, + { + "epoch": 0.7719466666666667, + "grad_norm": 0.6368045441026643, + "learning_rate": 1.3031760083194884e-06, + "loss": 0.4329, + "step": 7237 + }, + { + "avg_step_time": 5.6277176876260775, + "epoch": 0.7719466666666667, + "eta_time": 3.342239004484598, + "step": 7237 + }, + { + "epoch": 0.7720533333333334, + "grad_norm": 1.8326921311288442, + "learning_rate": 1.3020131088849714e-06, + "loss": 0.3905, + "step": 7238 + }, + { + "avg_step_time": 5.639745596683387, + "epoch": 0.7720533333333334, + "eta_time": 3.3478156500312215, + "step": 7238 + }, + { + "epoch": 0.77216, + "grad_norm": 1.8801774309057968, + "learning_rate": 1.3008506508691516e-06, + "loss": 0.4842, + "step": 7239 + }, + { + "avg_step_time": 5.641284258678706, + "epoch": 0.77216, + "eta_time": 3.347161993482699, + "step": 7239 + }, + { + "epoch": 0.7722666666666667, + "grad_norm": 1.564521572057267, + "learning_rate": 1.29968863441079e-06, + "loss": 0.469, + "step": 7240 + }, + { + "avg_step_time": 5.60980046156681, + "epoch": 0.7722666666666667, + "eta_time": 3.326923329290316, + "step": 7240 + }, + { + "epoch": 0.7723733333333334, + "grad_norm": 0.6598946613918849, + "learning_rate": 1.2985270596485949e-06, + "loss": 0.4529, + "step": 7241 + }, + { + "avg_step_time": 5.573471714751889, + "epoch": 0.7723733333333334, + "eta_time": 3.3038301775779257, + "step": 7241 + }, + { + "epoch": 0.77248, + "grad_norm": 1.9425901814784443, + "learning_rate": 1.2973659267212173e-06, + "loss": 0.4982, + "step": 7242 + }, + { + "avg_step_time": 5.570919020007355, + "epoch": 0.77248, + "eta_time": 3.3007695193543576, + "step": 7242 + }, + { + "epoch": 0.7725866666666666, + "grad_norm": 2.103356483813854, + "learning_rate": 1.2962052357672617e-06, + "loss": 0.5326, + "step": 7243 + }, + { + "avg_step_time": 5.605719706024787, + "epoch": 0.7725866666666666, + "eta_time": 3.3198317814569016, + "step": 7243 + }, + { + "epoch": 0.7726933333333333, + "grad_norm": 0.6434574152620615, + "learning_rate": 1.295044986925275e-06, + "loss": 0.4251, + "step": 7244 + }, + { + "avg_step_time": 5.570929028771141, + "epoch": 0.7726933333333333, + "eta_time": 3.2976804889753613, + "step": 7244 + }, + { + "epoch": 0.7728, + "grad_norm": 1.7627710458896346, + "learning_rate": 1.2938851803337516e-06, + "loss": 0.4407, + "step": 7245 + }, + { + "avg_step_time": 5.582870437641336, + "epoch": 0.7728, + "eta_time": 3.303198342271124, + "step": 7245 + }, + { + "epoch": 0.7729066666666666, + "grad_norm": 1.8014238672533578, + "learning_rate": 1.2927258161311357e-06, + "loss": 0.4212, + "step": 7246 + }, + { + "avg_step_time": 5.584382683339745, + "epoch": 0.7729066666666666, + "eta_time": 3.3025418702306437, + "step": 7246 + }, + { + "epoch": 0.7730133333333333, + "grad_norm": 2.1338932988073314, + "learning_rate": 1.2915668944558192e-06, + "loss": 0.4588, + "step": 7247 + }, + { + "avg_step_time": 5.582269622822, + "epoch": 0.7730133333333333, + "eta_time": 3.2997415992681156, + "step": 7247 + }, + { + "epoch": 0.77312, + "grad_norm": 1.9032755594045296, + "learning_rate": 1.290408415446136e-06, + "loss": 0.4896, + "step": 7248 + }, + { + "avg_step_time": 5.618154638945454, + "epoch": 0.77312, + "eta_time": 3.3193930325102725, + "step": 7248 + }, + { + "epoch": 0.7732266666666666, + "grad_norm": 1.828698036335369, + "learning_rate": 1.2892503792403737e-06, + "loss": 0.5097, + "step": 7249 + }, + { + "avg_step_time": 5.654328425725301, + "epoch": 0.7732266666666666, + "eta_time": 3.339195064747775, + "step": 7249 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 1.7015679903136778, + "learning_rate": 1.2880927859767617e-06, + "loss": 0.4812, + "step": 7250 + }, + { + "avg_step_time": 5.648268160193857, + "epoch": 0.7733333333333333, + "eta_time": 3.3340471778922076, + "step": 7250 + }, + { + "epoch": 0.77344, + "grad_norm": 2.041474995913473, + "learning_rate": 1.2869356357934815e-06, + "loss": 0.4116, + "step": 7251 + }, + { + "avg_step_time": 5.655558670410002, + "epoch": 0.77344, + "eta_time": 3.3367796155419014, + "step": 7251 + }, + { + "epoch": 0.7735466666666667, + "grad_norm": 1.759590362079206, + "learning_rate": 1.2857789288286553e-06, + "loss": 0.589, + "step": 7252 + }, + { + "avg_step_time": 5.653987800232088, + "epoch": 0.7735466666666667, + "eta_time": 3.3342822499702005, + "step": 7252 + }, + { + "epoch": 0.7736533333333333, + "grad_norm": 2.352993964342639, + "learning_rate": 1.2846226652203602e-06, + "loss": 0.5489, + "step": 7253 + }, + { + "avg_step_time": 5.647492208866158, + "epoch": 0.7736533333333333, + "eta_time": 3.3288829075594406, + "step": 7253 + }, + { + "epoch": 0.77376, + "grad_norm": 1.7539930168448383, + "learning_rate": 1.2834668451066118e-06, + "loss": 0.3598, + "step": 7254 + }, + { + "avg_step_time": 5.684845950868395, + "epoch": 0.77376, + "eta_time": 3.3493217393866295, + "step": 7254 + }, + { + "epoch": 0.7738666666666667, + "grad_norm": 0.6745607040681632, + "learning_rate": 1.2823114686253802e-06, + "loss": 0.4119, + "step": 7255 + }, + { + "avg_step_time": 5.674996383262403, + "epoch": 0.7738666666666667, + "eta_time": 3.3419423145878597, + "step": 7255 + }, + { + "epoch": 0.7739733333333333, + "grad_norm": 1.7984584471661813, + "learning_rate": 1.28115653591458e-06, + "loss": 0.5004, + "step": 7256 + }, + { + "avg_step_time": 5.68872797127926, + "epoch": 0.7739733333333333, + "eta_time": 3.3484484919835418, + "step": 7256 + }, + { + "epoch": 0.77408, + "grad_norm": 1.728583843315965, + "learning_rate": 1.2800020471120717e-06, + "loss": 0.4867, + "step": 7257 + }, + { + "avg_step_time": 5.691505937865286, + "epoch": 0.77408, + "eta_time": 3.3485026601107433, + "step": 7257 + }, + { + "epoch": 0.7741866666666667, + "grad_norm": 1.902820768291074, + "learning_rate": 1.2788480023556615e-06, + "loss": 0.4975, + "step": 7258 + }, + { + "avg_step_time": 5.70063997037483, + "epoch": 0.7741866666666667, + "eta_time": 3.3522930048009765, + "step": 7258 + }, + { + "epoch": 0.7742933333333333, + "grad_norm": 1.7812292359168456, + "learning_rate": 1.2776944017831071e-06, + "loss": 0.4621, + "step": 7259 + }, + { + "avg_step_time": 5.733549623778372, + "epoch": 0.7742933333333333, + "eta_time": 3.3700530566430653, + "step": 7259 + }, + { + "epoch": 0.7744, + "grad_norm": 1.7695870812104342, + "learning_rate": 1.276541245532109e-06, + "loss": 0.4452, + "step": 7260 + }, + { + "avg_step_time": 5.718103878425829, + "epoch": 0.7744, + "eta_time": 3.3593860285751744, + "step": 7260 + }, + { + "epoch": 0.7745066666666667, + "grad_norm": 1.711089199150384, + "learning_rate": 1.275388533740317e-06, + "loss": 0.4995, + "step": 7261 + }, + { + "avg_step_time": 5.717540020894522, + "epoch": 0.7745066666666667, + "eta_time": 3.357466556714172, + "step": 7261 + }, + { + "epoch": 0.7746133333333334, + "grad_norm": 0.630429319497292, + "learning_rate": 1.274236266545329e-06, + "loss": 0.4193, + "step": 7262 + }, + { + "avg_step_time": 5.6846726904011735, + "epoch": 0.7746133333333334, + "eta_time": 3.336587054116022, + "step": 7262 + }, + { + "epoch": 0.77472, + "grad_norm": 1.7477796059536774, + "learning_rate": 1.2730844440846862e-06, + "loss": 0.4603, + "step": 7263 + }, + { + "avg_step_time": 5.678303407900261, + "epoch": 0.77472, + "eta_time": 3.33127133263482, + "step": 7263 + }, + { + "epoch": 0.7748266666666667, + "grad_norm": 2.1302012423149463, + "learning_rate": 1.2719330664958767e-06, + "loss": 0.4805, + "step": 7264 + }, + { + "avg_step_time": 5.65580854993878, + "epoch": 0.7748266666666667, + "eta_time": 3.316503291366879, + "step": 7264 + }, + { + "epoch": 0.7749333333333334, + "grad_norm": 1.7537494814456491, + "learning_rate": 1.27078213391634e-06, + "loss": 0.3901, + "step": 7265 + }, + { + "avg_step_time": 5.653978374269274, + "epoch": 0.7749333333333334, + "eta_time": 3.3138595471411576, + "step": 7265 + }, + { + "epoch": 0.77504, + "grad_norm": 0.6443569202190976, + "learning_rate": 1.2696316464834607e-06, + "loss": 0.4551, + "step": 7266 + }, + { + "avg_step_time": 5.619180289181796, + "epoch": 0.77504, + "eta_time": 3.291903119412335, + "step": 7266 + }, + { + "epoch": 0.7751466666666667, + "grad_norm": 0.6322075166410316, + "learning_rate": 1.268481604334566e-06, + "loss": 0.4498, + "step": 7267 + }, + { + "avg_step_time": 5.591224145407629, + "epoch": 0.7751466666666667, + "eta_time": 3.2739723606998, + "step": 7267 + }, + { + "epoch": 0.7752533333333333, + "grad_norm": 1.5511556950590757, + "learning_rate": 1.2673320076069363e-06, + "loss": 0.4386, + "step": 7268 + }, + { + "avg_step_time": 5.5951291431080215, + "epoch": 0.7752533333333333, + "eta_time": 3.2747047512579446, + "step": 7268 + }, + { + "epoch": 0.77536, + "grad_norm": 1.9874691275209024, + "learning_rate": 1.2661828564377948e-06, + "loss": 0.4846, + "step": 7269 + }, + { + "avg_step_time": 5.655830643393776, + "epoch": 0.77536, + "eta_time": 3.3086609263853592, + "step": 7269 + }, + { + "epoch": 0.7754666666666666, + "grad_norm": 1.8556686348354463, + "learning_rate": 1.2650341509643116e-06, + "loss": 0.4536, + "step": 7270 + }, + { + "avg_step_time": 5.684451033370664, + "epoch": 0.7754666666666666, + "eta_time": 3.323824840345902, + "step": 7270 + }, + { + "epoch": 0.7755733333333333, + "grad_norm": 2.0020712892066292, + "learning_rate": 1.2638858913236045e-06, + "loss": 0.4832, + "step": 7271 + }, + { + "avg_step_time": 5.6826138159241335, + "epoch": 0.7755733333333333, + "eta_time": 3.321172074640105, + "step": 7271 + }, + { + "epoch": 0.77568, + "grad_norm": 2.0680911558375623, + "learning_rate": 1.2627380776527415e-06, + "loss": 0.4522, + "step": 7272 + }, + { + "avg_step_time": 5.718771178312976, + "epoch": 0.77568, + "eta_time": 3.340715496664497, + "step": 7272 + }, + { + "epoch": 0.7757866666666666, + "grad_norm": 1.8139471399592784, + "learning_rate": 1.2615907100887298e-06, + "loss": 0.4622, + "step": 7273 + }, + { + "avg_step_time": 5.717911811790081, + "epoch": 0.7757866666666666, + "eta_time": 3.338625174550764, + "step": 7273 + }, + { + "epoch": 0.7758933333333333, + "grad_norm": 1.9769576824948363, + "learning_rate": 1.2604437887685306e-06, + "loss": 0.4573, + "step": 7274 + }, + { + "avg_step_time": 5.717694333105376, + "epoch": 0.7758933333333333, + "eta_time": 3.336909942737332, + "step": 7274 + }, + { + "epoch": 0.776, + "grad_norm": 0.6424651407319942, + "learning_rate": 1.259297313829046e-06, + "loss": 0.4468, + "step": 7275 + }, + { + "avg_step_time": 5.671751357088185, + "epoch": 0.776, + "eta_time": 3.308521624968108, + "step": 7275 + }, + { + "epoch": 0.7761066666666666, + "grad_norm": 1.9599259907267326, + "learning_rate": 1.258151285407131e-06, + "loss": 0.545, + "step": 7276 + }, + { + "avg_step_time": 5.7100757637409245, + "epoch": 0.7761066666666666, + "eta_time": 3.3292913966922777, + "step": 7276 + }, + { + "epoch": 0.7762133333333333, + "grad_norm": 1.7785115256018602, + "learning_rate": 1.25700570363958e-06, + "loss": 0.4707, + "step": 7277 + }, + { + "avg_step_time": 5.7076824265297015, + "epoch": 0.7762133333333333, + "eta_time": 3.326310480794254, + "step": 7277 + }, + { + "epoch": 0.77632, + "grad_norm": 0.6540939024328768, + "learning_rate": 1.255860568663142e-06, + "loss": 0.4429, + "step": 7278 + }, + { + "avg_step_time": 5.674453053811584, + "epoch": 0.77632, + "eta_time": 3.3053689038452476, + "step": 7278 + }, + { + "epoch": 0.7764266666666667, + "grad_norm": 1.8776631680680793, + "learning_rate": 1.2547158806145049e-06, + "loss": 0.5258, + "step": 7279 + }, + { + "avg_step_time": 5.6765925980577565, + "epoch": 0.7764266666666667, + "eta_time": 3.3050383570914046, + "step": 7279 + }, + { + "epoch": 0.7765333333333333, + "grad_norm": 1.8632752236308874, + "learning_rate": 1.2535716396303093e-06, + "loss": 0.4821, + "step": 7280 + }, + { + "avg_step_time": 5.664966551944463, + "epoch": 0.7765333333333333, + "eta_time": 3.296695812867681, + "step": 7280 + }, + { + "epoch": 0.77664, + "grad_norm": 2.037716841074163, + "learning_rate": 1.2524278458471411e-06, + "loss": 0.4823, + "step": 7281 + }, + { + "avg_step_time": 5.665527172762938, + "epoch": 0.77664, + "eta_time": 3.295448305490442, + "step": 7281 + }, + { + "epoch": 0.7767466666666667, + "grad_norm": 1.741569800873938, + "learning_rate": 1.2512844994015304e-06, + "loss": 0.3774, + "step": 7282 + }, + { + "avg_step_time": 5.649635647282456, + "epoch": 0.7767466666666667, + "eta_time": 3.2846353916006055, + "step": 7282 + }, + { + "epoch": 0.7768533333333333, + "grad_norm": 1.856442483032992, + "learning_rate": 1.2501416004299537e-06, + "loss": 0.4085, + "step": 7283 + }, + { + "avg_step_time": 5.644868506325616, + "epoch": 0.7768533333333333, + "eta_time": 3.2802958097869968, + "step": 7283 + }, + { + "epoch": 0.77696, + "grad_norm": 2.0804576359032945, + "learning_rate": 1.248999149068838e-06, + "loss": 0.5275, + "step": 7284 + }, + { + "avg_step_time": 5.633514611407964, + "epoch": 0.77696, + "eta_time": 3.272133070126126, + "step": 7284 + }, + { + "epoch": 0.7770666666666667, + "grad_norm": 1.7044928057055446, + "learning_rate": 1.2478571454545558e-06, + "loss": 0.5344, + "step": 7285 + }, + { + "avg_step_time": 5.659317481397379, + "epoch": 0.7770666666666667, + "eta_time": 3.2855482044779225, + "step": 7285 + }, + { + "epoch": 0.7771733333333334, + "grad_norm": 1.7864918270998011, + "learning_rate": 1.2467155897234212e-06, + "loss": 0.4586, + "step": 7286 + }, + { + "avg_step_time": 5.663447252427689, + "epoch": 0.7771733333333334, + "eta_time": 3.2863725862004007, + "step": 7286 + }, + { + "epoch": 0.77728, + "grad_norm": 1.842217601536085, + "learning_rate": 1.2455744820117028e-06, + "loss": 0.4485, + "step": 7287 + }, + { + "avg_step_time": 5.662743553970799, + "epoch": 0.77728, + "eta_time": 3.2843912613030635, + "step": 7287 + }, + { + "epoch": 0.7773866666666667, + "grad_norm": 1.846006611575319, + "learning_rate": 1.244433822455609e-06, + "loss": 0.4611, + "step": 7288 + }, + { + "avg_step_time": 5.723081051701247, + "epoch": 0.7773866666666667, + "eta_time": 3.3177972652501397, + "step": 7288 + }, + { + "epoch": 0.7774933333333334, + "grad_norm": 2.26530260378985, + "learning_rate": 1.2432936111912946e-06, + "loss": 0.4688, + "step": 7289 + }, + { + "avg_step_time": 5.722886608104513, + "epoch": 0.7774933333333334, + "eta_time": 3.316094851251671, + "step": 7289 + }, + { + "epoch": 0.7776, + "grad_norm": 1.7844461131567901, + "learning_rate": 1.2421538483548706e-06, + "loss": 0.4898, + "step": 7290 + }, + { + "avg_step_time": 5.735081670260189, + "epoch": 0.7776, + "eta_time": 3.3215681340256924, + "step": 7290 + }, + { + "epoch": 0.7777066666666667, + "grad_norm": 2.165574083818122, + "learning_rate": 1.2410145340823827e-06, + "loss": 0.5305, + "step": 7291 + }, + { + "avg_step_time": 5.7408298458715885, + "epoch": 0.7777066666666667, + "eta_time": 3.3233026107767754, + "step": 7291 + }, + { + "epoch": 0.7778133333333334, + "grad_norm": 1.6444334120477526, + "learning_rate": 1.2398756685098272e-06, + "loss": 0.4419, + "step": 7292 + }, + { + "avg_step_time": 5.743589557782568, + "epoch": 0.7778133333333334, + "eta_time": 3.3233047357947467, + "step": 7292 + }, + { + "epoch": 0.77792, + "grad_norm": 0.6555189728327248, + "learning_rate": 1.2387372517731505e-06, + "loss": 0.4535, + "step": 7293 + }, + { + "avg_step_time": 5.707855518418129, + "epoch": 0.77792, + "eta_time": 3.3010431081518177, + "step": 7293 + }, + { + "epoch": 0.7780266666666666, + "grad_norm": 1.989400106393026, + "learning_rate": 1.237599284008239e-06, + "loss": 0.5273, + "step": 7294 + }, + { + "avg_step_time": 5.709820923179087, + "epoch": 0.7780266666666666, + "eta_time": 3.300593705871022, + "step": 7294 + }, + { + "epoch": 0.7781333333333333, + "grad_norm": 1.9815159706349104, + "learning_rate": 1.2364617653509302e-06, + "loss": 0.4804, + "step": 7295 + }, + { + "avg_step_time": 5.764831928291706, + "epoch": 0.7781333333333333, + "eta_time": 3.330791780790763, + "step": 7295 + }, + { + "epoch": 0.77824, + "grad_norm": 2.32693592338272, + "learning_rate": 1.2353246959370086e-06, + "loss": 0.4935, + "step": 7296 + }, + { + "avg_step_time": 5.765356157765244, + "epoch": 0.77824, + "eta_time": 3.3294931811094286, + "step": 7296 + }, + { + "epoch": 0.7783466666666666, + "grad_norm": 1.865351183525935, + "learning_rate": 1.2341880759022013e-06, + "loss": 0.4937, + "step": 7297 + }, + { + "avg_step_time": 5.765466644306375, + "epoch": 0.7783466666666666, + "eta_time": 3.327955468574624, + "step": 7297 + }, + { + "epoch": 0.7784533333333333, + "grad_norm": 1.618583112129339, + "learning_rate": 1.2330519053821821e-06, + "loss": 0.3843, + "step": 7298 + }, + { + "avg_step_time": 5.802152469904736, + "epoch": 0.7784533333333333, + "eta_time": 3.3475196333311494, + "step": 7298 + }, + { + "epoch": 0.77856, + "grad_norm": 1.9995160215341534, + "learning_rate": 1.2319161845125744e-06, + "loss": 0.4783, + "step": 7299 + }, + { + "avg_step_time": 5.82390520066926, + "epoch": 0.77856, + "eta_time": 3.3584519990526065, + "step": 7299 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 0.6377068060830818, + "learning_rate": 1.2307809134289466e-06, + "loss": 0.4357, + "step": 7300 + }, + { + "avg_step_time": 5.794846146997779, + "epoch": 0.7786666666666666, + "eta_time": 3.340084931950109, + "step": 7300 + }, + { + "epoch": 0.7787733333333333, + "grad_norm": 1.8430318055771042, + "learning_rate": 1.2296460922668113e-06, + "loss": 0.4767, + "step": 7301 + }, + { + "avg_step_time": 5.795425342791008, + "epoch": 0.7787733333333333, + "eta_time": 3.3388089335968196, + "step": 7301 + }, + { + "epoch": 0.77888, + "grad_norm": 1.8103608928197668, + "learning_rate": 1.228511721161631e-06, + "loss": 0.4441, + "step": 7302 + }, + { + "avg_step_time": 5.797021309534709, + "epoch": 0.77888, + "eta_time": 3.3381181040737364, + "step": 7302 + }, + { + "epoch": 0.7789866666666667, + "grad_norm": 2.0105917044864077, + "learning_rate": 1.2273778002488117e-06, + "loss": 0.48, + "step": 7303 + }, + { + "avg_step_time": 5.823499002841988, + "epoch": 0.7789866666666667, + "eta_time": 3.351747203857944, + "step": 7303 + }, + { + "epoch": 0.7790933333333333, + "grad_norm": 0.6530400415748492, + "learning_rate": 1.226244329663705e-06, + "loss": 0.4027, + "step": 7304 + }, + { + "avg_step_time": 5.7903523445129395, + "epoch": 0.7790933333333333, + "eta_time": 3.3310610293017495, + "step": 7304 + }, + { + "epoch": 0.7792, + "grad_norm": 2.00775372508975, + "learning_rate": 1.2251113095416113e-06, + "loss": 0.4809, + "step": 7305 + }, + { + "avg_step_time": 5.8067270914713545, + "epoch": 0.7792, + "eta_time": 3.3388680775960284, + "step": 7305 + }, + { + "epoch": 0.7793066666666667, + "grad_norm": 1.7990162837666852, + "learning_rate": 1.2239787400177771e-06, + "loss": 0.4969, + "step": 7306 + }, + { + "avg_step_time": 5.808821331370961, + "epoch": 0.7793066666666667, + "eta_time": 3.338458704057366, + "step": 7306 + }, + { + "epoch": 0.7794133333333333, + "grad_norm": 2.0816678475862767, + "learning_rate": 1.2228466212273926e-06, + "loss": 0.4267, + "step": 7307 + }, + { + "avg_step_time": 5.775887987830422, + "epoch": 0.7794133333333333, + "eta_time": 3.317926766342587, + "step": 7307 + }, + { + "epoch": 0.77952, + "grad_norm": 1.853979911444011, + "learning_rate": 1.2217149533055976e-06, + "loss": 0.4277, + "step": 7308 + }, + { + "avg_step_time": 5.777961721323957, + "epoch": 0.77952, + "eta_time": 3.3175130216601723, + "step": 7308 + }, + { + "epoch": 0.7796266666666667, + "grad_norm": 1.8365455281653487, + "learning_rate": 1.220583736387474e-06, + "loss": 0.4629, + "step": 7309 + }, + { + "avg_step_time": 5.71381915458525, + "epoch": 0.7796266666666667, + "eta_time": 3.27909732593698, + "step": 7309 + }, + { + "epoch": 0.7797333333333333, + "grad_norm": 1.9038138158240852, + "learning_rate": 1.2194529706080543e-06, + "loss": 0.5598, + "step": 7310 + }, + { + "avg_step_time": 5.725882421840321, + "epoch": 0.7797333333333333, + "eta_time": 3.2844297780834064, + "step": 7310 + }, + { + "epoch": 0.77984, + "grad_norm": 1.8988058264857952, + "learning_rate": 1.2183226561023132e-06, + "loss": 0.4787, + "step": 7311 + }, + { + "avg_step_time": 5.724492884645558, + "epoch": 0.77984, + "eta_time": 3.282042587196787, + "step": 7311 + }, + { + "epoch": 0.7799466666666667, + "grad_norm": 0.6306409759692966, + "learning_rate": 1.2171927930051747e-06, + "loss": 0.4247, + "step": 7312 + }, + { + "avg_step_time": 5.691276632174097, + "epoch": 0.7799466666666667, + "eta_time": 3.261417692270878, + "step": 7312 + }, + { + "epoch": 0.7800533333333334, + "grad_norm": 1.9238654835266562, + "learning_rate": 1.2160633814515072e-06, + "loss": 0.4865, + "step": 7313 + }, + { + "avg_step_time": 5.712884902954102, + "epoch": 0.7800533333333334, + "eta_time": 3.272213519414266, + "step": 7313 + }, + { + "epoch": 0.78016, + "grad_norm": 1.7168935151360631, + "learning_rate": 1.2149344215761216e-06, + "loss": 0.4507, + "step": 7314 + }, + { + "avg_step_time": 5.71500754838038, + "epoch": 0.78016, + "eta_time": 3.271841821447768, + "step": 7314 + }, + { + "epoch": 0.7802666666666667, + "grad_norm": 1.793562206824196, + "learning_rate": 1.213805913513786e-06, + "loss": 0.4835, + "step": 7315 + }, + { + "avg_step_time": 5.715216207985926, + "epoch": 0.7802666666666667, + "eta_time": 3.270373719014169, + "step": 7315 + }, + { + "epoch": 0.7803733333333334, + "grad_norm": 2.019540071014862, + "learning_rate": 1.2126778573992031e-06, + "loss": 0.5303, + "step": 7316 + }, + { + "avg_step_time": 5.720794617527663, + "epoch": 0.7803733333333334, + "eta_time": 3.2719766993026274, + "step": 7316 + }, + { + "epoch": 0.78048, + "grad_norm": 2.0294442875139778, + "learning_rate": 1.2115502533670253e-06, + "loss": 0.466, + "step": 7317 + }, + { + "avg_step_time": 5.723090215162798, + "epoch": 0.78048, + "eta_time": 3.271699906334733, + "step": 7317 + }, + { + "epoch": 0.7805866666666667, + "grad_norm": 2.0992493464014474, + "learning_rate": 1.2104231015518535e-06, + "loss": 0.5069, + "step": 7318 + }, + { + "avg_step_time": 5.724112725017046, + "epoch": 0.7805866666666667, + "eta_time": 3.2706944098222404, + "step": 7318 + }, + { + "epoch": 0.7806933333333334, + "grad_norm": 1.8078029855517106, + "learning_rate": 1.2092964020882315e-06, + "loss": 0.4271, + "step": 7319 + }, + { + "avg_step_time": 5.705298361152109, + "epoch": 0.7806933333333334, + "eta_time": 3.258359286257982, + "step": 7319 + }, + { + "epoch": 0.7808, + "grad_norm": 1.5957954279078437, + "learning_rate": 1.2081701551106506e-06, + "loss": 0.4186, + "step": 7320 + }, + { + "avg_step_time": 5.749940378497345, + "epoch": 0.7808, + "eta_time": 3.282257632725568, + "step": 7320 + }, + { + "epoch": 0.7809066666666666, + "grad_norm": 1.67810171004564, + "learning_rate": 1.2070443607535498e-06, + "loss": 0.475, + "step": 7321 + }, + { + "avg_step_time": 5.7509546376237966, + "epoch": 0.7809066666666666, + "eta_time": 3.281239118244244, + "step": 7321 + }, + { + "epoch": 0.7810133333333333, + "grad_norm": 1.9648700932746086, + "learning_rate": 1.2059190191513104e-06, + "loss": 0.4845, + "step": 7322 + }, + { + "avg_step_time": 5.753339321926386, + "epoch": 0.7810133333333333, + "eta_time": 3.2810015633096863, + "step": 7322 + }, + { + "epoch": 0.78112, + "grad_norm": 2.1745588550506905, + "learning_rate": 1.20479413043826e-06, + "loss": 0.5224, + "step": 7323 + }, + { + "avg_step_time": 5.74765742186344, + "epoch": 0.78112, + "eta_time": 3.276164730462161, + "step": 7323 + }, + { + "epoch": 0.7812266666666666, + "grad_norm": 1.623589565224116, + "learning_rate": 1.2036696947486748e-06, + "loss": 0.4801, + "step": 7324 + }, + { + "avg_step_time": 5.748721512881192, + "epoch": 0.7812266666666666, + "eta_time": 3.2751743952553682, + "step": 7324 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 1.91950286577583, + "learning_rate": 1.2025457122167777e-06, + "loss": 0.4854, + "step": 7325 + }, + { + "avg_step_time": 5.734520630402998, + "epoch": 0.7813333333333333, + "eta_time": 3.2654909145350404, + "step": 7325 + }, + { + "epoch": 0.78144, + "grad_norm": 1.857676777302817, + "learning_rate": 1.201422182976732e-06, + "loss": 0.4431, + "step": 7326 + }, + { + "avg_step_time": 5.7349490469152276, + "epoch": 0.78144, + "eta_time": 3.264141832535917, + "step": 7326 + }, + { + "epoch": 0.7815466666666666, + "grad_norm": 1.9285530221565577, + "learning_rate": 1.2002991071626534e-06, + "loss": 0.4773, + "step": 7327 + }, + { + "avg_step_time": 5.73829948300063, + "epoch": 0.7815466666666666, + "eta_time": 3.264454816995914, + "step": 7327 + }, + { + "epoch": 0.7816533333333333, + "grad_norm": 1.6435149038791181, + "learning_rate": 1.199176484908598e-06, + "loss": 0.525, + "step": 7328 + }, + { + "avg_step_time": 5.736755857563982, + "epoch": 0.7816533333333333, + "eta_time": 3.261983122342631, + "step": 7328 + }, + { + "epoch": 0.78176, + "grad_norm": 1.9062797550004027, + "learning_rate": 1.1980543163485726e-06, + "loss": 0.503, + "step": 7329 + }, + { + "avg_step_time": 5.739931540055708, + "epoch": 0.78176, + "eta_time": 3.2621944252649944, + "step": 7329 + }, + { + "epoch": 0.7818666666666667, + "grad_norm": 1.715780907650408, + "learning_rate": 1.1969326016165239e-06, + "loss": 0.5159, + "step": 7330 + }, + { + "avg_step_time": 5.772570532981796, + "epoch": 0.7818666666666667, + "eta_time": 3.2791407610966035, + "step": 7330 + }, + { + "epoch": 0.7819733333333333, + "grad_norm": 2.0902563432521237, + "learning_rate": 1.1958113408463518e-06, + "loss": 0.5388, + "step": 7331 + }, + { + "avg_step_time": 5.771238153631037, + "epoch": 0.7819733333333333, + "eta_time": 3.2767807738949553, + "step": 7331 + }, + { + "epoch": 0.78208, + "grad_norm": 1.8072520832399108, + "learning_rate": 1.1946905341718951e-06, + "loss": 0.4854, + "step": 7332 + }, + { + "avg_step_time": 5.7704683795119776, + "epoch": 0.78208, + "eta_time": 3.2747408053730473, + "step": 7332 + }, + { + "epoch": 0.7821866666666667, + "grad_norm": 1.9294990916492685, + "learning_rate": 1.193570181726943e-06, + "loss": 0.5371, + "step": 7333 + }, + { + "avg_step_time": 5.775477257641879, + "epoch": 0.7821866666666667, + "eta_time": 3.2759790444735324, + "step": 7333 + }, + { + "epoch": 0.7822933333333333, + "grad_norm": 0.6502180570194069, + "learning_rate": 1.1924502836452294e-06, + "loss": 0.4537, + "step": 7334 + }, + { + "avg_step_time": 5.742288536495632, + "epoch": 0.7822933333333333, + "eta_time": 3.2555585841632184, + "step": 7334 + }, + { + "epoch": 0.7824, + "grad_norm": 1.6926532027423538, + "learning_rate": 1.1913308400604339e-06, + "loss": 0.5132, + "step": 7335 + }, + { + "avg_step_time": 5.744157417856082, + "epoch": 0.7824, + "eta_time": 3.255022536785113, + "step": 7335 + }, + { + "epoch": 0.7825066666666667, + "grad_norm": 1.8665428647020106, + "learning_rate": 1.1902118511061783e-06, + "loss": 0.4613, + "step": 7336 + }, + { + "avg_step_time": 5.7782029407192965, + "epoch": 0.7825066666666667, + "eta_time": 3.2727099433685125, + "step": 7336 + }, + { + "epoch": 0.7826133333333334, + "grad_norm": 2.412584453069593, + "learning_rate": 1.1890933169160374e-06, + "loss": 0.4717, + "step": 7337 + }, + { + "avg_step_time": 5.763616578747528, + "epoch": 0.7826133333333334, + "eta_time": 3.262847385413184, + "step": 7337 + }, + { + "epoch": 0.78272, + "grad_norm": 1.5003287855070648, + "learning_rate": 1.1879752376235231e-06, + "loss": 0.4942, + "step": 7338 + }, + { + "avg_step_time": 5.765298511042739, + "epoch": 0.78272, + "eta_time": 3.262198074165017, + "step": 7338 + }, + { + "epoch": 0.7828266666666667, + "grad_norm": 1.7129711389596636, + "learning_rate": 1.1868576133621012e-06, + "loss": 0.4933, + "step": 7339 + }, + { + "avg_step_time": 5.766994399253768, + "epoch": 0.7828266666666667, + "eta_time": 3.261555721355742, + "step": 7339 + }, + { + "epoch": 0.7829333333333334, + "grad_norm": 0.6356437004105433, + "learning_rate": 1.1857404442651788e-06, + "loss": 0.4395, + "step": 7340 + }, + { + "avg_step_time": 5.769920830774789, + "epoch": 0.7829333333333334, + "eta_time": 3.261608025174082, + "step": 7340 + }, + { + "epoch": 0.78304, + "grad_norm": 1.6415661397541896, + "learning_rate": 1.1846237304661095e-06, + "loss": 0.4193, + "step": 7341 + }, + { + "avg_step_time": 5.7763356945731426, + "epoch": 0.78304, + "eta_time": 3.2636296674338254, + "step": 7341 + }, + { + "epoch": 0.7831466666666667, + "grad_norm": 1.98662073294995, + "learning_rate": 1.18350747209819e-06, + "loss": 0.5023, + "step": 7342 + }, + { + "avg_step_time": 5.776892305624606, + "epoch": 0.7831466666666667, + "eta_time": 3.262339460370784, + "step": 7342 + }, + { + "epoch": 0.7832533333333334, + "grad_norm": 1.923508048798286, + "learning_rate": 1.182391669294667e-06, + "loss": 0.5158, + "step": 7343 + }, + { + "avg_step_time": 5.812209668785635, + "epoch": 0.7832533333333334, + "eta_time": 3.2806694574923365, + "step": 7343 + }, + { + "epoch": 0.78336, + "grad_norm": 1.9135807878248148, + "learning_rate": 1.181276322188732e-06, + "loss": 0.489, + "step": 7344 + }, + { + "avg_step_time": 5.802824268437395, + "epoch": 0.78336, + "eta_time": 3.273760024776764, + "step": 7344 + }, + { + "epoch": 0.7834666666666666, + "grad_norm": 1.8083954722805995, + "learning_rate": 1.1801614309135178e-06, + "loss": 0.4232, + "step": 7345 + }, + { + "avg_step_time": 5.801191411837183, + "epoch": 0.7834666666666666, + "eta_time": 3.271227379452634, + "step": 7345 + }, + { + "epoch": 0.7835733333333333, + "grad_norm": 0.6552389736887523, + "learning_rate": 1.1790469956021095e-06, + "loss": 0.4453, + "step": 7346 + }, + { + "avg_step_time": 5.78749648970787, + "epoch": 0.7835733333333333, + "eta_time": 3.2618973271159075, + "step": 7346 + }, + { + "epoch": 0.78368, + "grad_norm": 2.244211265790716, + "learning_rate": 1.1779330163875325e-06, + "loss": 0.484, + "step": 7347 + }, + { + "avg_step_time": 5.787210144177831, + "epoch": 0.78368, + "eta_time": 3.2601283812201785, + "step": 7347 + }, + { + "epoch": 0.7837866666666666, + "grad_norm": 1.892402017711736, + "learning_rate": 1.1768194934027565e-06, + "loss": 0.4853, + "step": 7348 + }, + { + "avg_step_time": 5.78608362843292, + "epoch": 0.7837866666666666, + "eta_time": 3.257886531898202, + "step": 7348 + }, + { + "epoch": 0.7838933333333333, + "grad_norm": 1.7591049488241821, + "learning_rate": 1.175706426780706e-06, + "loss": 0.5551, + "step": 7349 + }, + { + "avg_step_time": 5.793564794039486, + "epoch": 0.7838933333333333, + "eta_time": 3.2604895202011104, + "step": 7349 + }, + { + "epoch": 0.784, + "grad_norm": 1.8155163212435157, + "learning_rate": 1.1745938166542414e-06, + "loss": 0.5134, + "step": 7350 + }, + { + "avg_step_time": 5.800822664992978, + "epoch": 0.784, + "eta_time": 3.26296274905855, + "step": 7350 + }, + { + "epoch": 0.7841066666666666, + "grad_norm": 2.042939128404025, + "learning_rate": 1.1734816631561702e-06, + "loss": 0.5255, + "step": 7351 + }, + { + "avg_step_time": 5.814197000831064, + "epoch": 0.7841066666666666, + "eta_time": 3.2688707582450207, + "step": 7351 + }, + { + "epoch": 0.7842133333333333, + "grad_norm": 1.8089960541479038, + "learning_rate": 1.1723699664192507e-06, + "loss": 0.4647, + "step": 7352 + }, + { + "avg_step_time": 5.878846520125264, + "epoch": 0.7842133333333333, + "eta_time": 3.3035851417259465, + "step": 7352 + }, + { + "epoch": 0.78432, + "grad_norm": 0.6696513617297318, + "learning_rate": 1.1712587265761799e-06, + "loss": 0.4782, + "step": 7353 + }, + { + "avg_step_time": 5.843509546434037, + "epoch": 0.78432, + "eta_time": 3.2821045285804504, + "step": 7353 + }, + { + "epoch": 0.7844266666666667, + "grad_norm": 2.114754780376424, + "learning_rate": 1.1701479437596054e-06, + "loss": 0.474, + "step": 7354 + }, + { + "avg_step_time": 5.856258703000618, + "epoch": 0.7844266666666667, + "eta_time": 3.2876385663234027, + "step": 7354 + }, + { + "epoch": 0.7845333333333333, + "grad_norm": 2.087842834496199, + "learning_rate": 1.169037618102119e-06, + "loss": 0.4743, + "step": 7355 + }, + { + "avg_step_time": 5.881535927454631, + "epoch": 0.7845333333333333, + "eta_time": 3.3001951592939873, + "step": 7355 + }, + { + "epoch": 0.78464, + "grad_norm": 2.025241470248404, + "learning_rate": 1.1679277497362563e-06, + "loss": 0.4954, + "step": 7356 + }, + { + "avg_step_time": 5.880516774726637, + "epoch": 0.78464, + "eta_time": 3.2979898244925225, + "step": 7356 + }, + { + "epoch": 0.7847466666666667, + "grad_norm": 2.0393943026499444, + "learning_rate": 1.166818338794498e-06, + "loss": 0.4809, + "step": 7357 + }, + { + "avg_step_time": 5.8688313455292676, + "epoch": 0.7847466666666667, + "eta_time": 3.2898060153550173, + "step": 7357 + }, + { + "epoch": 0.7848533333333333, + "grad_norm": 1.9818216682900225, + "learning_rate": 1.1657093854092727e-06, + "loss": 0.5686, + "step": 7358 + }, + { + "avg_step_time": 5.86882581132831, + "epoch": 0.7848533333333333, + "eta_time": 3.2881726837358887, + "step": 7358 + }, + { + "epoch": 0.78496, + "grad_norm": 0.6482603128743409, + "learning_rate": 1.1646008897129546e-06, + "loss": 0.4332, + "step": 7359 + }, + { + "avg_step_time": 5.83504665259159, + "epoch": 0.78496, + "eta_time": 3.26762612545129, + "step": 7359 + }, + { + "epoch": 0.7850666666666667, + "grad_norm": 1.793432658045795, + "learning_rate": 1.1634928518378602e-06, + "loss": 0.4396, + "step": 7360 + }, + { + "avg_step_time": 5.831507044609147, + "epoch": 0.7850666666666667, + "eta_time": 3.2640240819131754, + "step": 7360 + }, + { + "epoch": 0.7851733333333333, + "grad_norm": 1.5309684171740772, + "learning_rate": 1.162385271916252e-06, + "loss": 0.4457, + "step": 7361 + }, + { + "avg_step_time": 5.867857270770603, + "epoch": 0.7851733333333333, + "eta_time": 3.282740150925554, + "step": 7361 + }, + { + "epoch": 0.78528, + "grad_norm": 1.9194478940324602, + "learning_rate": 1.161278150080341e-06, + "loss": 0.503, + "step": 7362 + }, + { + "avg_step_time": 5.8582027705028805, + "epoch": 0.78528, + "eta_time": 3.2757117158395275, + "step": 7362 + }, + { + "epoch": 0.7853866666666667, + "grad_norm": 2.0530620593423894, + "learning_rate": 1.16017148646228e-06, + "loss": 0.606, + "step": 7363 + }, + { + "avg_step_time": 5.8904504655587555, + "epoch": 0.7853866666666667, + "eta_time": 3.292107315751171, + "step": 7363 + }, + { + "epoch": 0.7854933333333334, + "grad_norm": 2.1481165145815, + "learning_rate": 1.1590652811941677e-06, + "loss": 0.5749, + "step": 7364 + }, + { + "avg_step_time": 5.891472997087421, + "epoch": 0.7854933333333334, + "eta_time": 3.291042276984112, + "step": 7364 + }, + { + "epoch": 0.7856, + "grad_norm": 0.6596464316886693, + "learning_rate": 1.157959534408052e-06, + "loss": 0.4224, + "step": 7365 + }, + { + "avg_step_time": 5.9133857789665765, + "epoch": 0.7856, + "eta_time": 3.3016403932563385, + "step": 7365 + }, + { + "epoch": 0.7857066666666667, + "grad_norm": 1.8334336820022057, + "learning_rate": 1.1568542462359206e-06, + "loss": 0.4538, + "step": 7366 + }, + { + "avg_step_time": 5.943626105183303, + "epoch": 0.7857066666666667, + "eta_time": 3.3168735681425714, + "step": 7366 + }, + { + "epoch": 0.7858133333333334, + "grad_norm": 1.9680170902273688, + "learning_rate": 1.1557494168097077e-06, + "loss": 0.4788, + "step": 7367 + }, + { + "avg_step_time": 5.939652271945067, + "epoch": 0.7858133333333334, + "eta_time": 3.3130060450182484, + "step": 7367 + }, + { + "epoch": 0.78592, + "grad_norm": 1.9478300958808514, + "learning_rate": 1.1546450462612951e-06, + "loss": 0.4521, + "step": 7368 + }, + { + "avg_step_time": 5.917170238013219, + "epoch": 0.78592, + "eta_time": 3.29882240769237, + "step": 7368 + }, + { + "epoch": 0.7860266666666667, + "grad_norm": 1.918310838115386, + "learning_rate": 1.1535411347225096e-06, + "loss": 0.4651, + "step": 7369 + }, + { + "avg_step_time": 5.887781843994603, + "epoch": 0.7860266666666667, + "eta_time": 3.2808028830703257, + "step": 7369 + }, + { + "epoch": 0.7861333333333334, + "grad_norm": 1.9609120401215738, + "learning_rate": 1.15243768232512e-06, + "loss": 0.4928, + "step": 7370 + }, + { + "avg_step_time": 5.887893811620847, + "epoch": 0.7861333333333334, + "eta_time": 3.279229747861055, + "step": 7370 + }, + { + "epoch": 0.78624, + "grad_norm": 1.817492461040751, + "learning_rate": 1.151334689200845e-06, + "loss": 0.4933, + "step": 7371 + }, + { + "avg_step_time": 5.8493145282822425, + "epoch": 0.78624, + "eta_time": 3.256118420743782, + "step": 7371 + }, + { + "epoch": 0.7863466666666666, + "grad_norm": 1.6422326725694198, + "learning_rate": 1.1502321554813429e-06, + "loss": 0.448, + "step": 7372 + }, + { + "avg_step_time": 5.853003150284892, + "epoch": 0.7863466666666666, + "eta_time": 3.256545919450178, + "step": 7372 + }, + { + "epoch": 0.7864533333333333, + "grad_norm": 1.7510716025472102, + "learning_rate": 1.1491300812982216e-06, + "loss": 0.4373, + "step": 7373 + }, + { + "avg_step_time": 5.850339135738334, + "epoch": 0.7864533333333333, + "eta_time": 3.2534385971522624, + "step": 7373 + }, + { + "epoch": 0.78656, + "grad_norm": 2.036763221165797, + "learning_rate": 1.1480284667830343e-06, + "loss": 0.5595, + "step": 7374 + }, + { + "avg_step_time": 5.880613989300198, + "epoch": 0.78656, + "eta_time": 3.26864127571936, + "step": 7374 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 1.712216897144084, + "learning_rate": 1.1469273120672764e-06, + "loss": 0.4709, + "step": 7375 + }, + { + "avg_step_time": 5.875668311359907, + "epoch": 0.7866666666666666, + "eta_time": 3.2642601729777256, + "step": 7375 + }, + { + "epoch": 0.7867733333333333, + "grad_norm": 2.0245504101701255, + "learning_rate": 1.1458266172823879e-06, + "loss": 0.4508, + "step": 7376 + }, + { + "avg_step_time": 5.887025016726869, + "epoch": 0.7867733333333333, + "eta_time": 3.268934169010281, + "step": 7376 + }, + { + "epoch": 0.78688, + "grad_norm": 1.654650847508526, + "learning_rate": 1.1447263825597577e-06, + "loss": 0.474, + "step": 7377 + }, + { + "avg_step_time": 5.921669297748142, + "epoch": 0.78688, + "eta_time": 3.2865264602502187, + "step": 7377 + }, + { + "epoch": 0.7869866666666666, + "grad_norm": 2.0657397288536563, + "learning_rate": 1.143626608030719e-06, + "loss": 0.485, + "step": 7378 + }, + { + "avg_step_time": 5.926935492139874, + "epoch": 0.7869866666666666, + "eta_time": 3.287802827167591, + "step": 7378 + }, + { + "epoch": 0.7870933333333333, + "grad_norm": 1.9040586759593956, + "learning_rate": 1.1425272938265463e-06, + "loss": 0.5088, + "step": 7379 + }, + { + "avg_step_time": 5.926760220768476, + "epoch": 0.7870933333333333, + "eta_time": 3.286059277959411, + "step": 7379 + }, + { + "epoch": 0.7872, + "grad_norm": 1.7708302637920021, + "learning_rate": 1.1414284400784643e-06, + "loss": 0.4928, + "step": 7380 + }, + { + "avg_step_time": 5.981569369633992, + "epoch": 0.7872, + "eta_time": 3.3147863590055042, + "step": 7380 + }, + { + "epoch": 0.7873066666666667, + "grad_norm": 1.6790147038741297, + "learning_rate": 1.1403300469176387e-06, + "loss": 0.4079, + "step": 7381 + }, + { + "avg_step_time": 5.985181037825767, + "epoch": 0.7873066666666667, + "eta_time": 3.3151252748401614, + "step": 7381 + }, + { + "epoch": 0.7874133333333333, + "grad_norm": 1.7517584770023933, + "learning_rate": 1.1392321144751805e-06, + "loss": 0.4385, + "step": 7382 + }, + { + "avg_step_time": 5.989405887295502, + "epoch": 0.7874133333333333, + "eta_time": 3.3158016481610932, + "step": 7382 + }, + { + "epoch": 0.78752, + "grad_norm": 2.042184786417262, + "learning_rate": 1.1381346428821482e-06, + "loss": 0.4869, + "step": 7383 + }, + { + "avg_step_time": 5.988908459441831, + "epoch": 0.78752, + "eta_time": 3.313862680891146, + "step": 7383 + }, + { + "epoch": 0.7876266666666667, + "grad_norm": 1.8632959836825966, + "learning_rate": 1.1370376322695458e-06, + "loss": 0.4641, + "step": 7384 + }, + { + "avg_step_time": 5.989685378893458, + "epoch": 0.7876266666666667, + "eta_time": 3.3126287748269094, + "step": 7384 + }, + { + "epoch": 0.7877333333333333, + "grad_norm": 2.0685986800511937, + "learning_rate": 1.1359410827683177e-06, + "loss": 0.4783, + "step": 7385 + }, + { + "avg_step_time": 5.98707457744714, + "epoch": 0.7877333333333333, + "eta_time": 3.3095217803110577, + "step": 7385 + }, + { + "epoch": 0.78784, + "grad_norm": 1.9377323740691248, + "learning_rate": 1.134844994509358e-06, + "loss": 0.4354, + "step": 7386 + }, + { + "avg_step_time": 5.98729609238981, + "epoch": 0.78784, + "eta_time": 3.30798109104537, + "step": 7386 + }, + { + "epoch": 0.7879466666666667, + "grad_norm": 1.5901835415783956, + "learning_rate": 1.1337493676235023e-06, + "loss": 0.4165, + "step": 7387 + }, + { + "avg_step_time": 5.92634178412081, + "epoch": 0.7879466666666667, + "eta_time": 3.272657629675603, + "step": 7387 + }, + { + "epoch": 0.7880533333333334, + "grad_norm": 1.7408913330487494, + "learning_rate": 1.1326542022415343e-06, + "loss": 0.4783, + "step": 7388 + }, + { + "avg_step_time": 5.924419417525783, + "epoch": 0.7880533333333334, + "eta_time": 3.2699503840621476, + "step": 7388 + }, + { + "epoch": 0.78816, + "grad_norm": 1.7978638409787677, + "learning_rate": 1.1315594984941786e-06, + "loss": 0.4476, + "step": 7389 + }, + { + "avg_step_time": 5.9301455285814075, + "epoch": 0.78816, + "eta_time": 3.2714636166007436, + "step": 7389 + }, + { + "epoch": 0.7882666666666667, + "grad_norm": 1.9126874717822302, + "learning_rate": 1.13046525651211e-06, + "loss": 0.4018, + "step": 7390 + }, + { + "avg_step_time": 5.922564077858973, + "epoch": 0.7882666666666667, + "eta_time": 3.265636026263906, + "step": 7390 + }, + { + "epoch": 0.7883733333333334, + "grad_norm": 1.8993064091751721, + "learning_rate": 1.1293714764259418e-06, + "loss": 0.4407, + "step": 7391 + }, + { + "avg_step_time": 5.956227300143001, + "epoch": 0.7883733333333334, + "eta_time": 3.282543045412143, + "step": 7391 + }, + { + "epoch": 0.78848, + "grad_norm": 1.7182936255610732, + "learning_rate": 1.1282781583662372e-06, + "loss": 0.4991, + "step": 7392 + }, + { + "avg_step_time": 5.9917544981445925, + "epoch": 0.78848, + "eta_time": 3.30045810272798, + "step": 7392 + }, + { + "epoch": 0.7885866666666667, + "grad_norm": 1.8842601204959195, + "learning_rate": 1.127185302463505e-06, + "loss": 0.4225, + "step": 7393 + }, + { + "avg_step_time": 5.992695158178156, + "epoch": 0.7885866666666667, + "eta_time": 3.2993116120858628, + "step": 7393 + }, + { + "epoch": 0.7886933333333334, + "grad_norm": 1.8571160917062337, + "learning_rate": 1.1260929088481932e-06, + "loss": 0.4797, + "step": 7394 + }, + { + "avg_step_time": 5.937505288557573, + "epoch": 0.7886933333333334, + "eta_time": 3.267277215731265, + "step": 7394 + }, + { + "epoch": 0.7888, + "grad_norm": 1.6356615002680235, + "learning_rate": 1.1250009776506982e-06, + "loss": 0.4554, + "step": 7395 + }, + { + "avg_step_time": 5.965189560495242, + "epoch": 0.7888, + "eta_time": 3.2808542582723828, + "step": 7395 + }, + { + "epoch": 0.7889066666666666, + "grad_norm": 1.9038555571586784, + "learning_rate": 1.123909509001363e-06, + "loss": 0.4512, + "step": 7396 + }, + { + "avg_step_time": 5.968816448943784, + "epoch": 0.7889066666666666, + "eta_time": 3.28119104234993, + "step": 7396 + }, + { + "epoch": 0.7890133333333333, + "grad_norm": 2.227360320299822, + "learning_rate": 1.12281850303047e-06, + "loss": 0.4816, + "step": 7397 + }, + { + "avg_step_time": 5.9797851894841045, + "epoch": 0.7890133333333333, + "eta_time": 3.285559751333211, + "step": 7397 + }, + { + "epoch": 0.78912, + "grad_norm": 1.904749895063668, + "learning_rate": 1.1217279598682518e-06, + "loss": 0.5499, + "step": 7398 + }, + { + "avg_step_time": 5.9592639364377415, + "epoch": 0.78912, + "eta_time": 3.272629111760393, + "step": 7398 + }, + { + "epoch": 0.7892266666666666, + "grad_norm": 2.20735943776092, + "learning_rate": 1.1206378796448847e-06, + "loss": 0.4674, + "step": 7399 + }, + { + "avg_step_time": 5.992082128621111, + "epoch": 0.7892266666666666, + "eta_time": 3.28898730170981, + "step": 7399 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 1.8241884362535252, + "learning_rate": 1.119548262490487e-06, + "loss": 0.5483, + "step": 7400 + }, + { + "avg_step_time": 6.002049638767435, + "epoch": 0.7893333333333333, + "eta_time": 3.2927911212682455, + "step": 7400 + }, + { + "epoch": 0.78944, + "grad_norm": 1.9159728538349583, + "learning_rate": 1.118459108535122e-06, + "loss": 0.476, + "step": 7401 + }, + { + "avg_step_time": 6.002515019792499, + "epoch": 0.78944, + "eta_time": 3.2913790691862204, + "step": 7401 + }, + { + "epoch": 0.7895466666666666, + "grad_norm": 0.6393977872556162, + "learning_rate": 1.1173704179088007e-06, + "loss": 0.4389, + "step": 7402 + }, + { + "avg_step_time": 5.9295166863335504, + "epoch": 0.7895466666666666, + "eta_time": 3.249704561704471, + "step": 7402 + }, + { + "epoch": 0.7896533333333333, + "grad_norm": 1.9011195466975699, + "learning_rate": 1.1162821907414789e-06, + "loss": 0.4656, + "step": 7403 + }, + { + "avg_step_time": 5.96212666684931, + "epoch": 0.7896533333333333, + "eta_time": 3.265920496396344, + "step": 7403 + }, + { + "epoch": 0.78976, + "grad_norm": 1.7074255348834244, + "learning_rate": 1.1151944271630517e-06, + "loss": 0.4371, + "step": 7404 + }, + { + "avg_step_time": 5.951256951900444, + "epoch": 0.78976, + "eta_time": 3.2583131811654926, + "step": 7404 + }, + { + "epoch": 0.7898666666666667, + "grad_norm": 2.1859620145349603, + "learning_rate": 1.114107127303366e-06, + "loss": 0.5297, + "step": 7405 + }, + { + "avg_step_time": 5.952856612927986, + "epoch": 0.7898666666666667, + "eta_time": 3.257535424296704, + "step": 7405 + }, + { + "epoch": 0.7899733333333333, + "grad_norm": 1.9177857258550437, + "learning_rate": 1.1130202912922077e-06, + "loss": 0.4246, + "step": 7406 + }, + { + "avg_step_time": 5.952726954161519, + "epoch": 0.7899733333333333, + "eta_time": 3.255810936873342, + "step": 7406 + }, + { + "epoch": 0.79008, + "grad_norm": 1.9011666565109047, + "learning_rate": 1.1119339192593077e-06, + "loss": 0.4252, + "step": 7407 + }, + { + "avg_step_time": 5.951734102133549, + "epoch": 0.79008, + "eta_time": 3.2536146424996732, + "step": 7407 + }, + { + "epoch": 0.7901866666666667, + "grad_norm": 2.078948176800779, + "learning_rate": 1.1108480113343478e-06, + "loss": 0.4952, + "step": 7408 + }, + { + "avg_step_time": 5.954623359622377, + "epoch": 0.7901866666666667, + "eta_time": 3.2535400412158935, + "step": 7408 + }, + { + "epoch": 0.7902933333333333, + "grad_norm": 1.8162538156167871, + "learning_rate": 1.1097625676469475e-06, + "loss": 0.4603, + "step": 7409 + }, + { + "avg_step_time": 5.943418664161605, + "epoch": 0.7902933333333333, + "eta_time": 3.24576697048381, + "step": 7409 + }, + { + "epoch": 0.7904, + "grad_norm": 1.87946457969583, + "learning_rate": 1.1086775883266725e-06, + "loss": 0.4961, + "step": 7410 + }, + { + "avg_step_time": 5.943599397485906, + "epoch": 0.7904, + "eta_time": 3.2442146711277235, + "step": 7410 + }, + { + "epoch": 0.7905066666666667, + "grad_norm": 1.9057720718897748, + "learning_rate": 1.107593073503036e-06, + "loss": 0.5154, + "step": 7411 + }, + { + "avg_step_time": 5.977593629047124, + "epoch": 0.7905066666666667, + "eta_time": 3.2611094131801535, + "step": 7411 + }, + { + "epoch": 0.7906133333333333, + "grad_norm": 1.9152117482370532, + "learning_rate": 1.1065090233054908e-06, + "loss": 0.4627, + "step": 7412 + }, + { + "avg_step_time": 5.954545928974344, + "epoch": 0.7906133333333333, + "eta_time": 3.246881571826844, + "step": 7412 + }, + { + "epoch": 0.79072, + "grad_norm": 2.246906362112646, + "learning_rate": 1.1054254378634399e-06, + "loss": 0.5057, + "step": 7413 + }, + { + "avg_step_time": 5.955601273160992, + "epoch": 0.79072, + "eta_time": 3.2458026938727405, + "step": 7413 + }, + { + "epoch": 0.7908266666666667, + "grad_norm": 2.1070519075716936, + "learning_rate": 1.1043423173062257e-06, + "loss": 0.4964, + "step": 7414 + }, + { + "avg_step_time": 5.95247224123791, + "epoch": 0.7908266666666667, + "eta_time": 3.242443906963206, + "step": 7414 + }, + { + "epoch": 0.7909333333333334, + "grad_norm": 1.9316060723931032, + "learning_rate": 1.1032596617631392e-06, + "loss": 0.4846, + "step": 7415 + }, + { + "avg_step_time": 5.95115398879003, + "epoch": 0.7909333333333334, + "eta_time": 3.2400727272301273, + "step": 7415 + }, + { + "epoch": 0.79104, + "grad_norm": 1.9892643988031125, + "learning_rate": 1.102177471363412e-06, + "loss": 0.4832, + "step": 7416 + }, + { + "avg_step_time": 5.9488466002724385, + "epoch": 0.79104, + "eta_time": 3.237164024981585, + "step": 7416 + }, + { + "epoch": 0.7911466666666667, + "grad_norm": 0.675468932898771, + "learning_rate": 1.1010957462362233e-06, + "loss": 0.4434, + "step": 7417 + }, + { + "avg_step_time": 5.912862570598872, + "epoch": 0.7911466666666667, + "eta_time": 3.2159402536757193, + "step": 7417 + }, + { + "epoch": 0.7912533333333334, + "grad_norm": 1.8443329668860566, + "learning_rate": 1.1000144865106976e-06, + "loss": 0.4859, + "step": 7418 + }, + { + "avg_step_time": 5.913945378679218, + "epoch": 0.7912533333333334, + "eta_time": 3.2148864183542303, + "step": 7418 + }, + { + "epoch": 0.79136, + "grad_norm": 1.6961741055266932, + "learning_rate": 1.0989336923158999e-06, + "loss": 0.4702, + "step": 7419 + }, + { + "avg_step_time": 5.869243116089792, + "epoch": 0.79136, + "eta_time": 3.188955426408787, + "step": 7419 + }, + { + "epoch": 0.7914666666666667, + "grad_norm": 1.7616801539379103, + "learning_rate": 1.0978533637808403e-06, + "loss": 0.4295, + "step": 7420 + }, + { + "avg_step_time": 5.869515325083877, + "epoch": 0.7914666666666667, + "eta_time": 3.1874729057052718, + "step": 7420 + }, + { + "epoch": 0.7915733333333334, + "grad_norm": 1.6140388784021482, + "learning_rate": 1.0967735010344765e-06, + "loss": 0.5427, + "step": 7421 + }, + { + "avg_step_time": 5.871397892634074, + "epoch": 0.7915733333333334, + "eta_time": 3.1868643006130504, + "step": 7421 + }, + { + "epoch": 0.79168, + "grad_norm": 1.7052441369612548, + "learning_rate": 1.0956941042057106e-06, + "loss": 0.482, + "step": 7422 + }, + { + "avg_step_time": 5.892068003163193, + "epoch": 0.79168, + "eta_time": 3.1964468917160325, + "step": 7422 + }, + { + "epoch": 0.7917866666666666, + "grad_norm": 2.0267302638179285, + "learning_rate": 1.0946151734233834e-06, + "loss": 0.5335, + "step": 7423 + }, + { + "avg_step_time": 5.889869374458236, + "epoch": 0.7917866666666666, + "eta_time": 3.1936180608173546, + "step": 7423 + }, + { + "epoch": 0.7918933333333333, + "grad_norm": 0.6552391017643397, + "learning_rate": 1.0935367088162873e-06, + "loss": 0.4278, + "step": 7424 + }, + { + "avg_step_time": 5.839506286563295, + "epoch": 0.7918933333333333, + "eta_time": 3.1646879903013856, + "step": 7424 + }, + { + "epoch": 0.792, + "grad_norm": 1.7549619478465626, + "learning_rate": 1.0924587105131546e-06, + "loss": 0.4298, + "step": 7425 + }, + { + "avg_step_time": 5.83855916755368, + "epoch": 0.792, + "eta_time": 3.1625528824249103, + "step": 7425 + }, + { + "epoch": 0.7921066666666666, + "grad_norm": 1.8340588230494423, + "learning_rate": 1.0913811786426597e-06, + "loss": 0.4571, + "step": 7426 + }, + { + "avg_step_time": 5.834321376049157, + "epoch": 0.7921066666666666, + "eta_time": 3.1586367671999467, + "step": 7426 + }, + { + "epoch": 0.7922133333333333, + "grad_norm": 1.8441226893065896, + "learning_rate": 1.0903041133334309e-06, + "loss": 0.4508, + "step": 7427 + }, + { + "avg_step_time": 5.836770654928805, + "epoch": 0.7922133333333333, + "eta_time": 3.1583414543892534, + "step": 7427 + }, + { + "epoch": 0.79232, + "grad_norm": 1.7237217560863518, + "learning_rate": 1.0892275147140307e-06, + "loss": 0.515, + "step": 7428 + }, + { + "avg_step_time": 5.83408865543327, + "epoch": 0.79232, + "eta_time": 3.15526961448016, + "step": 7428 + }, + { + "epoch": 0.7924266666666666, + "grad_norm": 1.799185152981554, + "learning_rate": 1.0881513829129696e-06, + "loss": 0.5029, + "step": 7429 + }, + { + "avg_step_time": 5.835315533358641, + "epoch": 0.7924266666666666, + "eta_time": 3.154312229976643, + "step": 7429 + }, + { + "epoch": 0.7925333333333333, + "grad_norm": 1.7687396012963932, + "learning_rate": 1.0870757180587044e-06, + "loss": 0.4173, + "step": 7430 + }, + { + "avg_step_time": 5.839453379313151, + "epoch": 0.7925333333333333, + "eta_time": 3.1549268952122445, + "step": 7430 + }, + { + "epoch": 0.79264, + "grad_norm": 1.6916558727021516, + "learning_rate": 1.086000520279632e-06, + "loss": 0.4107, + "step": 7431 + }, + { + "avg_step_time": 5.838203213431618, + "epoch": 0.79264, + "eta_time": 3.152629735253074, + "step": 7431 + }, + { + "epoch": 0.7927466666666667, + "grad_norm": 2.1037642166338655, + "learning_rate": 1.084925789704097e-06, + "loss": 0.4472, + "step": 7432 + }, + { + "avg_step_time": 5.833896750151509, + "epoch": 0.7927466666666667, + "eta_time": 3.148683718206773, + "step": 7432 + }, + { + "epoch": 0.7928533333333333, + "grad_norm": 1.7790520904028837, + "learning_rate": 1.0838515264603893e-06, + "loss": 0.393, + "step": 7433 + }, + { + "avg_step_time": 5.875158675993331, + "epoch": 0.7928533333333333, + "eta_time": 3.1693217079941802, + "step": 7433 + }, + { + "epoch": 0.79296, + "grad_norm": 1.8367377177715112, + "learning_rate": 1.0827777306767384e-06, + "loss": 0.4858, + "step": 7434 + }, + { + "avg_step_time": 5.8810530190516, + "epoch": 0.79296, + "eta_time": 3.1708677527719873, + "step": 7434 + }, + { + "epoch": 0.7930666666666667, + "grad_norm": 2.2872300692710748, + "learning_rate": 1.0817044024813189e-06, + "loss": 0.5483, + "step": 7435 + }, + { + "avg_step_time": 5.883839722835656, + "epoch": 0.7930666666666667, + "eta_time": 3.1707358506392147, + "step": 7435 + }, + { + "epoch": 0.7931733333333333, + "grad_norm": 1.713263124146832, + "learning_rate": 1.0806315420022535e-06, + "loss": 0.4466, + "step": 7436 + }, + { + "avg_step_time": 5.885814399430246, + "epoch": 0.7931733333333333, + "eta_time": 3.170165033470902, + "step": 7436 + }, + { + "epoch": 0.79328, + "grad_norm": 2.026596764670015, + "learning_rate": 1.0795591493676072e-06, + "loss": 0.4545, + "step": 7437 + }, + { + "avg_step_time": 5.888230747646755, + "epoch": 0.79328, + "eta_time": 3.169830885816503, + "step": 7437 + }, + { + "epoch": 0.7933866666666667, + "grad_norm": 1.5411455678238668, + "learning_rate": 1.0784872247053863e-06, + "loss": 0.406, + "step": 7438 + }, + { + "avg_step_time": 5.88579184599597, + "epoch": 0.7933866666666667, + "eta_time": 3.166883001581721, + "step": 7438 + }, + { + "epoch": 0.7934933333333334, + "grad_norm": 2.110229530170845, + "learning_rate": 1.0774157681435455e-06, + "loss": 0.5246, + "step": 7439 + }, + { + "avg_step_time": 5.916389474965105, + "epoch": 0.7934933333333334, + "eta_time": 3.1817027843145675, + "step": 7439 + }, + { + "epoch": 0.7936, + "grad_norm": 1.9840241599056057, + "learning_rate": 1.0763447798099813e-06, + "loss": 0.433, + "step": 7440 + }, + { + "avg_step_time": 5.929888551885432, + "epoch": 0.7936, + "eta_time": 3.1873150966384194, + "step": 7440 + }, + { + "epoch": 0.7937066666666667, + "grad_norm": 2.0613911403103278, + "learning_rate": 1.0752742598325332e-06, + "loss": 0.4738, + "step": 7441 + }, + { + "avg_step_time": 5.937081799362645, + "epoch": 0.7937066666666667, + "eta_time": 3.1895322777687096, + "step": 7441 + }, + { + "epoch": 0.7938133333333334, + "grad_norm": 1.8360816184053306, + "learning_rate": 1.074204208338987e-06, + "loss": 0.4495, + "step": 7442 + }, + { + "avg_step_time": 5.93929703789528, + "epoch": 0.7938133333333334, + "eta_time": 3.1890725484032156, + "step": 7442 + }, + { + "epoch": 0.79392, + "grad_norm": 1.8552024564195198, + "learning_rate": 1.0731346254570735e-06, + "loss": 0.5399, + "step": 7443 + }, + { + "avg_step_time": 5.938980940616492, + "epoch": 0.79392, + "eta_time": 3.1872531047975174, + "step": 7443 + }, + { + "epoch": 0.7940266666666667, + "grad_norm": 2.201270564458132, + "learning_rate": 1.0720655113144635e-06, + "loss": 0.5473, + "step": 7444 + }, + { + "avg_step_time": 5.937986665301853, + "epoch": 0.7940266666666667, + "eta_time": 3.1850700696382996, + "step": 7444 + }, + { + "epoch": 0.7941333333333334, + "grad_norm": 1.864543476099014, + "learning_rate": 1.0709968660387766e-06, + "loss": 0.4414, + "step": 7445 + }, + { + "avg_step_time": 5.9526940812968245, + "epoch": 0.7941333333333334, + "eta_time": 3.191305438028575, + "step": 7445 + }, + { + "epoch": 0.79424, + "grad_norm": 1.9886248896752488, + "learning_rate": 1.0699286897575718e-06, + "loss": 0.4828, + "step": 7446 + }, + { + "avg_step_time": 5.952040171382403, + "epoch": 0.79424, + "eta_time": 3.1893015251657375, + "step": 7446 + }, + { + "epoch": 0.7943466666666666, + "grad_norm": 1.8261603542325557, + "learning_rate": 1.0688609825983565e-06, + "loss": 0.4363, + "step": 7447 + }, + { + "avg_step_time": 5.952378622209183, + "epoch": 0.7943466666666666, + "eta_time": 3.1878294398942515, + "step": 7447 + }, + { + "epoch": 0.7944533333333333, + "grad_norm": 0.6586234227318368, + "learning_rate": 1.0677937446885784e-06, + "loss": 0.441, + "step": 7448 + }, + { + "avg_step_time": 5.909233218491679, + "epoch": 0.7944533333333333, + "eta_time": 3.1630812255648517, + "step": 7448 + }, + { + "epoch": 0.79456, + "grad_norm": 0.6365955542425659, + "learning_rate": 1.066726976155632e-06, + "loss": 0.4266, + "step": 7449 + }, + { + "avg_step_time": 5.858022725943363, + "epoch": 0.79456, + "eta_time": 3.1340421583796996, + "step": 7449 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 1.824309938523754, + "learning_rate": 1.065660677126853e-06, + "loss": 0.5153, + "step": 7450 + }, + { + "avg_step_time": 5.854419869605941, + "epoch": 0.7946666666666666, + "eta_time": 3.130488402497621, + "step": 7450 + }, + { + "epoch": 0.7947733333333333, + "grad_norm": 1.7009034416742683, + "learning_rate": 1.0645948477295236e-06, + "loss": 0.489, + "step": 7451 + }, + { + "avg_step_time": 5.787491145760122, + "epoch": 0.7947733333333333, + "eta_time": 3.0930924901229098, + "step": 7451 + }, + { + "epoch": 0.79488, + "grad_norm": 1.6598638283707394, + "learning_rate": 1.0635294880908702e-06, + "loss": 0.4251, + "step": 7452 + }, + { + "avg_step_time": 5.818246651177454, + "epoch": 0.79488, + "eta_time": 3.107913419503957, + "step": 7452 + }, + { + "epoch": 0.7949866666666666, + "grad_norm": 2.0426305326370464, + "learning_rate": 1.0624645983380611e-06, + "loss": 0.4446, + "step": 7453 + }, + { + "avg_step_time": 5.816818962193499, + "epoch": 0.7949866666666666, + "eta_time": 3.1055350125933066, + "step": 7453 + }, + { + "epoch": 0.7950933333333333, + "grad_norm": 1.9259141742930819, + "learning_rate": 1.061400178598207e-06, + "loss": 0.5096, + "step": 7454 + }, + { + "avg_step_time": 5.7823545932769775, + "epoch": 0.7950933333333333, + "eta_time": 3.085528659356965, + "step": 7454 + }, + { + "epoch": 0.7952, + "grad_norm": 1.7794915698459157, + "learning_rate": 1.0603362289983687e-06, + "loss": 0.5336, + "step": 7455 + }, + { + "avg_step_time": 5.783135919859915, + "epoch": 0.7952, + "eta_time": 3.084339157258621, + "step": 7455 + }, + { + "epoch": 0.7953066666666667, + "grad_norm": 1.7539838296225905, + "learning_rate": 1.0592727496655431e-06, + "loss": 0.397, + "step": 7456 + }, + { + "avg_step_time": 5.786070036165642, + "epoch": 0.7953066666666667, + "eta_time": 3.08429677761163, + "step": 7456 + }, + { + "epoch": 0.7954133333333333, + "grad_norm": 1.8025146779825971, + "learning_rate": 1.0582097407266772e-06, + "loss": 0.5061, + "step": 7457 + }, + { + "avg_step_time": 5.790789002119893, + "epoch": 0.7954133333333333, + "eta_time": 3.085203696129432, + "step": 7457 + }, + { + "epoch": 0.79552, + "grad_norm": 1.6558257010291364, + "learning_rate": 1.0571472023086604e-06, + "loss": 0.4422, + "step": 7458 + }, + { + "avg_step_time": 5.826039897070991, + "epoch": 0.79552, + "eta_time": 3.1023662451903027, + "step": 7458 + }, + { + "epoch": 0.7956266666666667, + "grad_norm": 2.023810543614651, + "learning_rate": 1.0560851345383233e-06, + "loss": 0.5076, + "step": 7459 + }, + { + "avg_step_time": 5.830868277886902, + "epoch": 0.7956266666666667, + "eta_time": 3.103317672342029, + "step": 7459 + }, + { + "epoch": 0.7957333333333333, + "grad_norm": 1.9527276562386733, + "learning_rate": 1.0550235375424416e-06, + "loss": 0.5526, + "step": 7460 + }, + { + "avg_step_time": 5.829763995276557, + "epoch": 0.7957333333333333, + "eta_time": 3.1011105697096126, + "step": 7460 + }, + { + "epoch": 0.79584, + "grad_norm": 1.9260298674848024, + "learning_rate": 1.053962411447736e-06, + "loss": 0.5249, + "step": 7461 + }, + { + "avg_step_time": 5.827901307982628, + "epoch": 0.79584, + "eta_time": 3.09850086207743, + "step": 7461 + }, + { + "epoch": 0.7959466666666667, + "grad_norm": 1.9799254153596637, + "learning_rate": 1.0529017563808719e-06, + "loss": 0.469, + "step": 7462 + }, + { + "avg_step_time": 5.796539576366694, + "epoch": 0.7959466666666667, + "eta_time": 3.080216724885968, + "step": 7462 + }, + { + "epoch": 0.7960533333333333, + "grad_norm": 1.9112945171194362, + "learning_rate": 1.051841572468454e-06, + "loss": 0.4885, + "step": 7463 + }, + { + "avg_step_time": 5.794056047092784, + "epoch": 0.7960533333333333, + "eta_time": 3.077287545011501, + "step": 7463 + }, + { + "epoch": 0.79616, + "grad_norm": 1.7702503695071252, + "learning_rate": 1.0507818598370355e-06, + "loss": 0.4611, + "step": 7464 + }, + { + "avg_step_time": 5.8077460033725, + "epoch": 0.79616, + "eta_time": 3.082945170123569, + "step": 7464 + }, + { + "epoch": 0.7962666666666667, + "grad_norm": 1.759122008736957, + "learning_rate": 1.0497226186131104e-06, + "loss": 0.5043, + "step": 7465 + }, + { + "avg_step_time": 5.810950996899845, + "epoch": 0.7962666666666667, + "eta_time": 3.083032334466307, + "step": 7465 + }, + { + "epoch": 0.7963733333333334, + "grad_norm": 1.7364514607468153, + "learning_rate": 1.0486638489231187e-06, + "loss": 0.5233, + "step": 7466 + }, + { + "avg_step_time": 5.812004927432898, + "epoch": 0.7963733333333334, + "eta_time": 3.0819770573526117, + "step": 7466 + }, + { + "epoch": 0.79648, + "grad_norm": 1.9176754048227742, + "learning_rate": 1.0476055508934408e-06, + "loss": 0.4767, + "step": 7467 + }, + { + "avg_step_time": 5.848435057534112, + "epoch": 0.79648, + "eta_time": 3.099670580493079, + "step": 7467 + }, + { + "epoch": 0.7965866666666667, + "grad_norm": 1.8594982237825597, + "learning_rate": 1.0465477246504059e-06, + "loss": 0.4152, + "step": 7468 + }, + { + "avg_step_time": 5.850392541500053, + "epoch": 0.7965866666666667, + "eta_time": 3.0990829379557225, + "step": 7468 + }, + { + "epoch": 0.7966933333333334, + "grad_norm": 0.648093882762039, + "learning_rate": 1.0454903703202807e-06, + "loss": 0.4276, + "step": 7469 + }, + { + "avg_step_time": 5.815358954246598, + "epoch": 0.7966933333333334, + "eta_time": 3.0789094907761156, + "step": 7469 + }, + { + "epoch": 0.7968, + "grad_norm": 1.9010520911489477, + "learning_rate": 1.0444334880292794e-06, + "loss": 0.4207, + "step": 7470 + }, + { + "avg_step_time": 5.822148320650814, + "epoch": 0.7968, + "eta_time": 3.080886819677722, + "step": 7470 + }, + { + "epoch": 0.7969066666666667, + "grad_norm": 0.636687713894042, + "learning_rate": 1.0433770779035618e-06, + "loss": 0.4318, + "step": 7471 + }, + { + "avg_step_time": 5.785305420557658, + "epoch": 0.7969066666666667, + "eta_time": 3.059783755761606, + "step": 7471 + }, + { + "epoch": 0.7970133333333334, + "grad_norm": 1.590293431229865, + "learning_rate": 1.0423211400692274e-06, + "loss": 0.4192, + "step": 7472 + }, + { + "avg_step_time": 5.7895164826903684, + "epoch": 0.7970133333333334, + "eta_time": 3.0604027407110475, + "step": 7472 + }, + { + "epoch": 0.79712, + "grad_norm": 1.9021546043993316, + "learning_rate": 1.0412656746523182e-06, + "loss": 0.5281, + "step": 7473 + }, + { + "avg_step_time": 5.794800351364444, + "epoch": 0.79712, + "eta_time": 3.0615861856375477, + "step": 7473 + }, + { + "epoch": 0.7972266666666666, + "grad_norm": 1.8034358710281273, + "learning_rate": 1.0402106817788255e-06, + "loss": 0.508, + "step": 7474 + }, + { + "avg_step_time": 5.799283073406027, + "epoch": 0.7972266666666666, + "eta_time": 3.0623436451513495, + "step": 7474 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 1.905199344121917, + "learning_rate": 1.0391561615746782e-06, + "loss": 0.4334, + "step": 7475 + }, + { + "avg_step_time": 5.8009929584734365, + "epoch": 0.7973333333333333, + "eta_time": 3.061635172527647, + "step": 7475 + }, + { + "epoch": 0.79744, + "grad_norm": 1.8823661314889093, + "learning_rate": 1.0381021141657526e-06, + "loss": 0.4192, + "step": 7476 + }, + { + "avg_step_time": 5.810960213343303, + "epoch": 0.79744, + "eta_time": 3.065281512538592, + "step": 7476 + }, + { + "epoch": 0.7975466666666666, + "grad_norm": 1.6773069873662971, + "learning_rate": 1.0370485396778696e-06, + "loss": 0.4558, + "step": 7477 + }, + { + "avg_step_time": 5.799961008206762, + "epoch": 0.7975466666666666, + "eta_time": 3.0578683315490096, + "step": 7477 + }, + { + "epoch": 0.7976533333333333, + "grad_norm": 1.7590336777676645, + "learning_rate": 1.0359954382367898e-06, + "loss": 0.4793, + "step": 7478 + }, + { + "avg_step_time": 5.801946399187801, + "epoch": 0.7976533333333333, + "eta_time": 3.057303422016461, + "step": 7478 + }, + { + "epoch": 0.79776, + "grad_norm": 1.9240177509037095, + "learning_rate": 1.0349428099682173e-06, + "loss": 0.5581, + "step": 7479 + }, + { + "avg_step_time": 5.745011084007494, + "epoch": 0.79776, + "eta_time": 3.0257058375772803, + "step": 7479 + }, + { + "epoch": 0.7978666666666666, + "grad_norm": 1.887612114327506, + "learning_rate": 1.0338906549978035e-06, + "loss": 0.5141, + "step": 7480 + }, + { + "avg_step_time": 5.74284619996042, + "epoch": 0.7978666666666666, + "eta_time": 3.0229704302569433, + "step": 7480 + }, + { + "epoch": 0.7979733333333333, + "grad_norm": 1.8628842098201615, + "learning_rate": 1.0328389734511424e-06, + "loss": 0.4517, + "step": 7481 + }, + { + "avg_step_time": 5.737830918244641, + "epoch": 0.7979733333333333, + "eta_time": 3.0187365997653752, + "step": 7481 + }, + { + "epoch": 0.79808, + "grad_norm": 2.1681799674226117, + "learning_rate": 1.0317877654537672e-06, + "loss": 0.4682, + "step": 7482 + }, + { + "avg_step_time": 5.737366404196228, + "epoch": 0.79808, + "eta_time": 3.0168985008731832, + "step": 7482 + }, + { + "epoch": 0.7981866666666667, + "grad_norm": 1.7560695186741515, + "learning_rate": 1.0307370311311615e-06, + "loss": 0.5873, + "step": 7483 + }, + { + "avg_step_time": 5.7656741310851745, + "epoch": 0.7981866666666667, + "eta_time": 3.030182071114764, + "step": 7483 + }, + { + "epoch": 0.7982933333333333, + "grad_norm": 1.9682692965256239, + "learning_rate": 1.029686770608746e-06, + "loss": 0.5619, + "step": 7484 + }, + { + "avg_step_time": 5.793113934873331, + "epoch": 0.7982933333333333, + "eta_time": 3.042994014123741, + "step": 7484 + }, + { + "epoch": 0.7984, + "grad_norm": 1.917819464611507, + "learning_rate": 1.0286369840118859e-06, + "loss": 0.5161, + "step": 7485 + }, + { + "avg_step_time": 5.795049915410051, + "epoch": 0.7984, + "eta_time": 3.042401205590277, + "step": 7485 + }, + { + "epoch": 0.7985066666666667, + "grad_norm": 1.607767818256635, + "learning_rate": 1.027587671465896e-06, + "loss": 0.5302, + "step": 7486 + }, + { + "avg_step_time": 5.798216783639156, + "epoch": 0.7985066666666667, + "eta_time": 3.042453195637324, + "step": 7486 + }, + { + "epoch": 0.7986133333333333, + "grad_norm": 1.8946126141565782, + "learning_rate": 1.026538833096028e-06, + "loss": 0.4295, + "step": 7487 + }, + { + "avg_step_time": 5.795546131904679, + "epoch": 0.7986133333333333, + "eta_time": 3.0394419713988983, + "step": 7487 + }, + { + "epoch": 0.79872, + "grad_norm": 1.923574685692178, + "learning_rate": 1.025490469027477e-06, + "loss": 0.482, + "step": 7488 + }, + { + "avg_step_time": 5.778030756748084, + "epoch": 0.79872, + "eta_time": 3.028651121662121, + "step": 7488 + }, + { + "epoch": 0.7988266666666667, + "grad_norm": 1.9379832665126404, + "learning_rate": 1.0244425793853857e-06, + "loss": 0.4404, + "step": 7489 + }, + { + "avg_step_time": 5.78195959148985, + "epoch": 0.7988266666666667, + "eta_time": 3.0291043859860713, + "step": 7489 + }, + { + "epoch": 0.7989333333333334, + "grad_norm": 1.780497236750991, + "learning_rate": 1.023395164294836e-06, + "loss": 0.4126, + "step": 7490 + }, + { + "avg_step_time": 5.7485737054034916, + "epoch": 0.7989333333333334, + "eta_time": 3.010017065190439, + "step": 7490 + }, + { + "epoch": 0.79904, + "grad_norm": 1.8104082170867646, + "learning_rate": 1.0223482238808557e-06, + "loss": 0.5009, + "step": 7491 + }, + { + "avg_step_time": 5.775625313171233, + "epoch": 0.79904, + "eta_time": 3.0225772472262786, + "step": 7491 + }, + { + "epoch": 0.7991466666666667, + "grad_norm": 1.908860822926354, + "learning_rate": 1.021301758268417e-06, + "loss": 0.5385, + "step": 7492 + }, + { + "avg_step_time": 5.77075983779599, + "epoch": 0.7991466666666667, + "eta_time": 3.0184279929360693, + "step": 7492 + }, + { + "epoch": 0.7992533333333334, + "grad_norm": 1.6929417275707574, + "learning_rate": 1.020255767582432e-06, + "loss": 0.4872, + "step": 7493 + }, + { + "avg_step_time": 5.77345390030832, + "epoch": 0.7992533333333334, + "eta_time": 3.0182334001056272, + "step": 7493 + }, + { + "epoch": 0.79936, + "grad_norm": 2.1065717769087464, + "learning_rate": 1.0192102519477565e-06, + "loss": 0.4628, + "step": 7494 + }, + { + "avg_step_time": 5.743810111826116, + "epoch": 0.79936, + "eta_time": 3.001140783429146, + "step": 7494 + }, + { + "epoch": 0.7994666666666667, + "grad_norm": 1.7367743691783346, + "learning_rate": 1.0181652114891926e-06, + "loss": 0.4457, + "step": 7495 + }, + { + "avg_step_time": 5.742681910293271, + "epoch": 0.7994666666666667, + "eta_time": 2.998956108708708, + "step": 7495 + }, + { + "epoch": 0.7995733333333334, + "grad_norm": 1.7731488642961994, + "learning_rate": 1.0171206463314848e-06, + "loss": 0.4212, + "step": 7496 + }, + { + "avg_step_time": 5.7277769946088695, + "epoch": 0.7995733333333334, + "eta_time": 2.9895813813527963, + "step": 7496 + }, + { + "epoch": 0.79968, + "grad_norm": 1.9916147595958005, + "learning_rate": 1.016076556599318e-06, + "loss": 0.4948, + "step": 7497 + }, + { + "avg_step_time": 5.731682772588248, + "epoch": 0.79968, + "eta_time": 2.990027846366869, + "step": 7497 + }, + { + "epoch": 0.7997866666666666, + "grad_norm": 1.910430967206561, + "learning_rate": 1.0150329424173243e-06, + "loss": 0.4728, + "step": 7498 + }, + { + "avg_step_time": 5.75588372259429, + "epoch": 0.7997866666666666, + "eta_time": 3.0010538186970783, + "step": 7498 + }, + { + "epoch": 0.7998933333333333, + "grad_norm": 1.720882559748293, + "learning_rate": 1.013989803910076e-06, + "loss": 0.4405, + "step": 7499 + }, + { + "avg_step_time": 5.738896540921144, + "epoch": 0.7998933333333333, + "eta_time": 2.9906027529911294, + "step": 7499 + }, + { + "epoch": 0.8, + "grad_norm": 2.2028825820373634, + "learning_rate": 1.0129471412020886e-06, + "loss": 0.5223, + "step": 7500 + }, + { + "avg_step_time": 5.746897552952622, + "epoch": 0.8, + "eta_time": 2.993175808829491, + "step": 7500 + }, + { + "epoch": 0.8001066666666666, + "grad_norm": 2.0535816573804433, + "learning_rate": 1.0119049544178233e-06, + "loss": 0.4813, + "step": 7501 + }, + { + "avg_step_time": 5.781787607404921, + "epoch": 0.8001066666666666, + "eta_time": 3.009741660076895, + "step": 7501 + }, + { + "epoch": 0.8002133333333333, + "grad_norm": 1.551235005505911, + "learning_rate": 1.010863243681684e-06, + "loss": 0.4314, + "step": 7502 + }, + { + "avg_step_time": 5.798808651741105, + "epoch": 0.8002133333333333, + "eta_time": 3.0169912790864135, + "step": 7502 + }, + { + "epoch": 0.80032, + "grad_norm": 1.659018369644192, + "learning_rate": 1.0098220091180145e-06, + "loss": 0.4423, + "step": 7503 + }, + { + "avg_step_time": 5.803734947936704, + "epoch": 0.80032, + "eta_time": 3.017942172927086, + "step": 7503 + }, + { + "epoch": 0.8004266666666666, + "grad_norm": 1.9170338461269671, + "learning_rate": 1.008781250851107e-06, + "loss": 0.5241, + "step": 7504 + }, + { + "avg_step_time": 5.810679984815193, + "epoch": 0.8004266666666666, + "eta_time": 3.019939514330341, + "step": 7504 + }, + { + "epoch": 0.8005333333333333, + "grad_norm": 1.7815745100547216, + "learning_rate": 1.007740969005191e-06, + "loss": 0.5252, + "step": 7505 + }, + { + "avg_step_time": 5.810518344243367, + "epoch": 0.8005333333333333, + "eta_time": 3.018241473259749, + "step": 7505 + }, + { + "epoch": 0.80064, + "grad_norm": 1.6715495873062438, + "learning_rate": 1.006701163704445e-06, + "loss": 0.4431, + "step": 7506 + }, + { + "avg_step_time": 5.8121946243324665, + "epoch": 0.80064, + "eta_time": 3.0174977091326056, + "step": 7506 + }, + { + "epoch": 0.8007466666666667, + "grad_norm": 1.8308041468137262, + "learning_rate": 1.0056618350729851e-06, + "loss": 0.4258, + "step": 7507 + }, + { + "avg_step_time": 5.813087070831145, + "epoch": 0.8007466666666667, + "eta_time": 3.0163462911979386, + "step": 7507 + }, + { + "epoch": 0.8008533333333333, + "grad_norm": 2.0033087011348956, + "learning_rate": 1.0046229832348758e-06, + "loss": 0.4637, + "step": 7508 + }, + { + "avg_step_time": 5.848517552770749, + "epoch": 0.8008533333333333, + "eta_time": 3.033106186395275, + "step": 7508 + }, + { + "epoch": 0.80096, + "grad_norm": 1.7367491158115655, + "learning_rate": 1.0035846083141193e-06, + "loss": 0.5297, + "step": 7509 + }, + { + "avg_step_time": 5.848843865924412, + "epoch": 0.80096, + "eta_time": 3.0316507371708203, + "step": 7509 + }, + { + "epoch": 0.8010666666666667, + "grad_norm": 0.662992165536956, + "learning_rate": 1.0025467104346653e-06, + "loss": 0.4192, + "step": 7510 + }, + { + "avg_step_time": 5.8181098350370775, + "epoch": 0.8010666666666667, + "eta_time": 3.014104122873375, + "step": 7510 + }, + { + "epoch": 0.8011733333333333, + "grad_norm": 1.986506184431002, + "learning_rate": 1.0015092897204053e-06, + "loss": 0.4721, + "step": 7511 + }, + { + "avg_step_time": 5.820735086094249, + "epoch": 0.8011733333333333, + "eta_time": 3.0138472779110224, + "step": 7511 + }, + { + "epoch": 0.80128, + "grad_norm": 1.8769396559976843, + "learning_rate": 1.0004723462951732e-06, + "loss": 0.5115, + "step": 7512 + }, + { + "avg_step_time": 5.849595915187489, + "epoch": 0.80128, + "eta_time": 3.027165886109526, + "step": 7512 + }, + { + "epoch": 0.8013866666666667, + "grad_norm": 1.7585383445061757, + "learning_rate": 9.994358802827437e-07, + "loss": 0.4294, + "step": 7513 + }, + { + "avg_step_time": 5.849566883511013, + "epoch": 0.8013866666666667, + "eta_time": 3.025525982527085, + "step": 7513 + }, + { + "epoch": 0.8014933333333333, + "grad_norm": 2.1803172046448074, + "learning_rate": 9.983998918068389e-07, + "loss": 0.489, + "step": 7514 + }, + { + "avg_step_time": 5.851461176920419, + "epoch": 0.8014933333333333, + "eta_time": 3.024880347291361, + "step": 7514 + }, + { + "epoch": 0.8016, + "grad_norm": 2.367876814174205, + "learning_rate": 9.973643809911238e-07, + "loss": 0.5077, + "step": 7515 + }, + { + "avg_step_time": 5.850051679996529, + "epoch": 0.8016, + "eta_time": 3.02252670133154, + "step": 7515 + }, + { + "epoch": 0.8017066666666667, + "grad_norm": 1.7813305495734508, + "learning_rate": 9.963293479592006e-07, + "loss": 0.4564, + "step": 7516 + }, + { + "avg_step_time": 5.885347903376878, + "epoch": 0.8017066666666667, + "eta_time": 3.039128264549338, + "step": 7516 + }, + { + "epoch": 0.8018133333333334, + "grad_norm": 1.6012065387756198, + "learning_rate": 9.952947928346218e-07, + "loss": 0.435, + "step": 7517 + }, + { + "avg_step_time": 5.8876209427612, + "epoch": 0.8018133333333334, + "eta_time": 3.0386665865695304, + "step": 7517 + }, + { + "epoch": 0.80192, + "grad_norm": 1.7929099199452616, + "learning_rate": 9.942607157408784e-07, + "loss": 0.4259, + "step": 7518 + }, + { + "avg_step_time": 5.912635379367405, + "epoch": 0.80192, + "eta_time": 3.0499344165236866, + "step": 7518 + }, + { + "epoch": 0.8020266666666667, + "grad_norm": 1.8260138538329533, + "learning_rate": 9.932271168014035e-07, + "loss": 0.5679, + "step": 7519 + }, + { + "avg_step_time": 5.91485142226171, + "epoch": 0.8020266666666667, + "eta_time": 3.049434511032704, + "step": 7519 + }, + { + "epoch": 0.8021333333333334, + "grad_norm": 1.8439834155727344, + "learning_rate": 9.921939961395767e-07, + "loss": 0.417, + "step": 7520 + }, + { + "avg_step_time": 5.914910658441409, + "epoch": 0.8021333333333334, + "eta_time": 3.0478220198357815, + "step": 7520 + }, + { + "epoch": 0.80224, + "grad_norm": 2.0433094431733476, + "learning_rate": 9.911613538787196e-07, + "loss": 0.5406, + "step": 7521 + }, + { + "avg_step_time": 5.894377559122413, + "epoch": 0.80224, + "eta_time": 3.0356044429480424, + "step": 7521 + }, + { + "epoch": 0.8023466666666667, + "grad_norm": 1.8999324464057743, + "learning_rate": 9.901291901420939e-07, + "loss": 0.5542, + "step": 7522 + }, + { + "avg_step_time": 5.921531043871485, + "epoch": 0.8023466666666667, + "eta_time": 3.047943617859406, + "step": 7522 + }, + { + "epoch": 0.8024533333333334, + "grad_norm": 0.647892477217178, + "learning_rate": 9.890975050529084e-07, + "loss": 0.4563, + "step": 7523 + }, + { + "avg_step_time": 5.92233774878762, + "epoch": 0.8024533333333334, + "eta_time": 3.0467137529874093, + "step": 7523 + }, + { + "epoch": 0.80256, + "grad_norm": 0.6505828195502957, + "learning_rate": 9.880662987343103e-07, + "loss": 0.4744, + "step": 7524 + }, + { + "avg_step_time": 5.897872040970157, + "epoch": 0.80256, + "eta_time": 3.0324892077321555, + "step": 7524 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 2.126802232555281, + "learning_rate": 9.870355713093942e-07, + "loss": 0.5551, + "step": 7525 + }, + { + "avg_step_time": 5.898954020606147, + "epoch": 0.8026666666666666, + "eta_time": 3.0314069272559365, + "step": 7525 + }, + { + "epoch": 0.8027733333333333, + "grad_norm": 2.362603435472163, + "learning_rate": 9.860053229011929e-07, + "loss": 0.5551, + "step": 7526 + }, + { + "avg_step_time": 5.89735777931984, + "epoch": 0.8027733333333333, + "eta_time": 3.0289484816562178, + "step": 7526 + }, + { + "epoch": 0.80288, + "grad_norm": 1.8189594443894916, + "learning_rate": 9.849755536326866e-07, + "loss": 0.4834, + "step": 7527 + }, + { + "avg_step_time": 5.8983761999342175, + "epoch": 0.80288, + "eta_time": 3.0278331159662315, + "step": 7527 + }, + { + "epoch": 0.8029866666666666, + "grad_norm": 1.5982671462766513, + "learning_rate": 9.839462636267944e-07, + "loss": 0.4473, + "step": 7528 + }, + { + "avg_step_time": 5.895498037338257, + "epoch": 0.8029866666666666, + "eta_time": 3.0247180208232667, + "step": 7528 + }, + { + "epoch": 0.8030933333333333, + "grad_norm": 2.0842453382331314, + "learning_rate": 9.829174530063795e-07, + "loss": 0.4587, + "step": 7529 + }, + { + "avg_step_time": 5.889432341161401, + "epoch": 0.8030933333333333, + "eta_time": 3.019970028273318, + "step": 7529 + }, + { + "epoch": 0.8032, + "grad_norm": 1.7943111962840792, + "learning_rate": 9.818891218942511e-07, + "loss": 0.5243, + "step": 7530 + }, + { + "avg_step_time": 5.887148281540534, + "epoch": 0.8032, + "eta_time": 3.0171634942895236, + "step": 7530 + }, + { + "epoch": 0.8033066666666666, + "grad_norm": 0.6572209083655319, + "learning_rate": 9.808612704131565e-07, + "loss": 0.4213, + "step": 7531 + }, + { + "avg_step_time": 5.853629557773321, + "epoch": 0.8033066666666666, + "eta_time": 2.9983591401483345, + "step": 7531 + }, + { + "epoch": 0.8034133333333333, + "grad_norm": 1.97810659798156, + "learning_rate": 9.798338986857863e-07, + "loss": 0.5206, + "step": 7532 + }, + { + "avg_step_time": 5.850328669403538, + "epoch": 0.8034133333333333, + "eta_time": 2.9950432604752, + "step": 7532 + }, + { + "epoch": 0.80352, + "grad_norm": 1.8975851562704478, + "learning_rate": 9.78807006834777e-07, + "loss": 0.4995, + "step": 7533 + }, + { + "avg_step_time": 5.844845658600932, + "epoch": 0.80352, + "eta_time": 2.990612695317477, + "step": 7533 + }, + { + "epoch": 0.8036266666666667, + "grad_norm": 0.6620624181815261, + "learning_rate": 9.777805949827046e-07, + "loss": 0.4457, + "step": 7534 + }, + { + "avg_step_time": 5.813304491717406, + "epoch": 0.8036266666666667, + "eta_time": 2.972859324792151, + "step": 7534 + }, + { + "epoch": 0.8037333333333333, + "grad_norm": 1.9837377081353103, + "learning_rate": 9.767546632520892e-07, + "loss": 0.4458, + "step": 7535 + }, + { + "avg_step_time": 5.812565052148067, + "epoch": 0.8037333333333333, + "eta_time": 2.970866582209012, + "step": 7535 + }, + { + "epoch": 0.80384, + "grad_norm": 1.6981271593426683, + "learning_rate": 9.757292117653955e-07, + "loss": 0.4482, + "step": 7536 + }, + { + "avg_step_time": 5.809878407102643, + "epoch": 0.80384, + "eta_time": 2.9678795529616, + "step": 7536 + }, + { + "epoch": 0.8039466666666667, + "grad_norm": 1.4716903659116713, + "learning_rate": 9.747042406450275e-07, + "loss": 0.4661, + "step": 7537 + }, + { + "avg_step_time": 5.817506891308409, + "epoch": 0.8039466666666667, + "eta_time": 2.9701604628402376, + "step": 7537 + }, + { + "epoch": 0.8040533333333333, + "grad_norm": 1.6060368850972881, + "learning_rate": 9.736797500133316e-07, + "loss": 0.3859, + "step": 7538 + }, + { + "avg_step_time": 5.818133985153352, + "epoch": 0.8040533333333333, + "eta_time": 2.968864480757419, + "step": 7538 + }, + { + "epoch": 0.80416, + "grad_norm": 1.593500937388674, + "learning_rate": 9.726557399925995e-07, + "loss": 0.4145, + "step": 7539 + }, + { + "avg_step_time": 5.796834384552156, + "epoch": 0.80416, + "eta_time": 2.9563855361215996, + "step": 7539 + }, + { + "epoch": 0.8042666666666667, + "grad_norm": 2.138272312103208, + "learning_rate": 9.71632210705067e-07, + "loss": 0.5042, + "step": 7540 + }, + { + "avg_step_time": 5.793611745641689, + "epoch": 0.8042666666666667, + "eta_time": 2.9531326536812497, + "step": 7540 + }, + { + "epoch": 0.8043733333333334, + "grad_norm": 1.8877008745987507, + "learning_rate": 9.706091622729065e-07, + "loss": 0.5043, + "step": 7541 + }, + { + "avg_step_time": 5.792989078194204, + "epoch": 0.8043733333333334, + "eta_time": 2.951206102613381, + "step": 7541 + }, + { + "epoch": 0.80448, + "grad_norm": 1.8445484373907766, + "learning_rate": 9.695865948182392e-07, + "loss": 0.3803, + "step": 7542 + }, + { + "avg_step_time": 5.800819110388708, + "epoch": 0.80448, + "eta_time": 2.953583730372917, + "step": 7542 + }, + { + "epoch": 0.8045866666666667, + "grad_norm": 1.8134278887477533, + "learning_rate": 9.685645084631251e-07, + "loss": 0.5418, + "step": 7543 + }, + { + "avg_step_time": 5.801677487113259, + "epoch": 0.8045866666666667, + "eta_time": 2.9524092101087476, + "step": 7543 + }, + { + "epoch": 0.8046933333333334, + "grad_norm": 1.855572165189988, + "learning_rate": 9.675429033295652e-07, + "loss": 0.5081, + "step": 7544 + }, + { + "avg_step_time": 5.806525203916761, + "epoch": 0.8046933333333334, + "eta_time": 2.9532632356587754, + "step": 7544 + }, + { + "epoch": 0.8048, + "grad_norm": 2.1523686012612244, + "learning_rate": 9.66521779539511e-07, + "loss": 0.5317, + "step": 7545 + }, + { + "avg_step_time": 5.805528696137245, + "epoch": 0.8048, + "eta_time": 2.9511437538697667, + "step": 7545 + }, + { + "epoch": 0.8049066666666667, + "grad_norm": 1.576684640699917, + "learning_rate": 9.655011372148487e-07, + "loss": 0.3872, + "step": 7546 + }, + { + "avg_step_time": 5.8082979110756305, + "epoch": 0.8049066666666667, + "eta_time": 2.9509380220437027, + "step": 7546 + }, + { + "epoch": 0.8050133333333334, + "grad_norm": 1.7289857209485782, + "learning_rate": 9.644809764774082e-07, + "loss": 0.4303, + "step": 7547 + }, + { + "avg_step_time": 5.853566034875735, + "epoch": 0.8050133333333334, + "eta_time": 2.972310753264679, + "step": 7547 + }, + { + "epoch": 0.80512, + "grad_norm": 1.9427465949436036, + "learning_rate": 9.63461297448966e-07, + "loss": 0.4969, + "step": 7548 + }, + { + "avg_step_time": 5.8837605245185625, + "epoch": 0.80512, + "eta_time": 2.9860084661931707, + "step": 7548 + }, + { + "epoch": 0.8052266666666666, + "grad_norm": 2.061024067636916, + "learning_rate": 9.624421002512358e-07, + "loss": 0.4415, + "step": 7549 + }, + { + "avg_step_time": 5.875188302512121, + "epoch": 0.8052266666666666, + "eta_time": 2.9800260667742036, + "step": 7549 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 1.623848916162069, + "learning_rate": 9.61423385005878e-07, + "loss": 0.4195, + "step": 7550 + }, + { + "avg_step_time": 5.8739486655803645, + "epoch": 0.8053333333333333, + "eta_time": 2.9777656429678236, + "step": 7550 + }, + { + "epoch": 0.80544, + "grad_norm": 1.6892217864551957, + "learning_rate": 9.604051518344948e-07, + "loss": 0.4426, + "step": 7551 + }, + { + "avg_step_time": 5.908222723488856, + "epoch": 0.80544, + "eta_time": 2.9934995132343536, + "step": 7551 + }, + { + "epoch": 0.8055466666666666, + "grad_norm": 1.9937041149826265, + "learning_rate": 9.593874008586285e-07, + "loss": 0.4362, + "step": 7552 + }, + { + "avg_step_time": 5.910311571275345, + "epoch": 0.8055466666666666, + "eta_time": 2.992916109565265, + "step": 7552 + }, + { + "epoch": 0.8056533333333333, + "grad_norm": 1.9740069645752514, + "learning_rate": 9.583701321997645e-07, + "loss": 0.5056, + "step": 7553 + }, + { + "avg_step_time": 5.913781238324715, + "epoch": 0.8056533333333333, + "eta_time": 2.993030393396564, + "step": 7553 + }, + { + "epoch": 0.80576, + "grad_norm": 1.8044187519979222, + "learning_rate": 9.57353345979332e-07, + "loss": 0.3905, + "step": 7554 + }, + { + "avg_step_time": 5.910759711506391, + "epoch": 0.80576, + "eta_time": 2.98985928740365, + "step": 7554 + }, + { + "epoch": 0.8058666666666666, + "grad_norm": 2.1246211263779036, + "learning_rate": 9.563370423187046e-07, + "loss": 0.5921, + "step": 7555 + }, + { + "avg_step_time": 5.94211130672031, + "epoch": 0.8058666666666666, + "eta_time": 3.0040673828419346, + "step": 7555 + }, + { + "epoch": 0.8059733333333333, + "grad_norm": 1.9118032021644777, + "learning_rate": 9.553212213391933e-07, + "loss": 0.4946, + "step": 7556 + }, + { + "avg_step_time": 5.936890450390902, + "epoch": 0.8059733333333333, + "eta_time": 2.9997788136836254, + "step": 7556 + }, + { + "epoch": 0.80608, + "grad_norm": 1.8948040441371445, + "learning_rate": 9.543058831620528e-07, + "loss": 0.5218, + "step": 7557 + }, + { + "avg_step_time": 5.938697345329054, + "epoch": 0.80608, + "eta_time": 2.999042159391172, + "step": 7557 + }, + { + "epoch": 0.8061866666666667, + "grad_norm": 1.7972612782042907, + "learning_rate": 9.532910279084822e-07, + "loss": 0.4955, + "step": 7558 + }, + { + "avg_step_time": 5.934375134381381, + "epoch": 0.8061866666666667, + "eta_time": 2.995211005325269, + "step": 7558 + }, + { + "epoch": 0.8062933333333333, + "grad_norm": 2.1858749229927117, + "learning_rate": 9.522766556996243e-07, + "loss": 0.4894, + "step": 7559 + }, + { + "avg_step_time": 5.933855454126994, + "epoch": 0.8062933333333333, + "eta_time": 2.9933004179707283, + "step": 7559 + }, + { + "epoch": 0.8064, + "grad_norm": 2.2160696750519415, + "learning_rate": 9.512627666565588e-07, + "loss": 0.5429, + "step": 7560 + }, + { + "avg_step_time": 5.933818612435852, + "epoch": 0.8064, + "eta_time": 2.9916335504364087, + "step": 7560 + }, + { + "epoch": 0.8065066666666667, + "grad_norm": 1.7837308672501018, + "learning_rate": 9.502493609003138e-07, + "loss": 0.4711, + "step": 7561 + }, + { + "avg_step_time": 5.940157608552412, + "epoch": 0.8065066666666667, + "eta_time": 2.9931794171983546, + "step": 7561 + }, + { + "epoch": 0.8066133333333333, + "grad_norm": 1.7683532215016204, + "learning_rate": 9.492364385518554e-07, + "loss": 0.5744, + "step": 7562 + }, + { + "avg_step_time": 5.943239999539925, + "epoch": 0.8066133333333333, + "eta_time": 2.993081699768301, + "step": 7562 + }, + { + "epoch": 0.80672, + "grad_norm": 1.768218585854218, + "learning_rate": 9.482239997320903e-07, + "loss": 0.422, + "step": 7563 + }, + { + "avg_step_time": 5.941915671030681, + "epoch": 0.80672, + "eta_time": 2.9907642210854424, + "step": 7563 + }, + { + "epoch": 0.8068266666666667, + "grad_norm": 2.2330057455956935, + "learning_rate": 9.47212044561876e-07, + "loss": 0.4336, + "step": 7564 + }, + { + "avg_step_time": 5.943635998350201, + "epoch": 0.8068266666666667, + "eta_time": 2.9899791091700596, + "step": 7564 + }, + { + "epoch": 0.8069333333333333, + "grad_norm": 1.8226003253472958, + "learning_rate": 9.46200573162005e-07, + "loss": 0.4514, + "step": 7565 + }, + { + "avg_step_time": 5.941663660184301, + "epoch": 0.8069333333333333, + "eta_time": 2.98733645137044, + "step": 7565 + }, + { + "epoch": 0.80704, + "grad_norm": 1.8969649851194001, + "learning_rate": 9.451895856532117e-07, + "loss": 0.5018, + "step": 7566 + }, + { + "avg_step_time": 5.903383377826575, + "epoch": 0.80704, + "eta_time": 2.966450147357854, + "step": 7566 + }, + { + "epoch": 0.8071466666666667, + "grad_norm": 1.7814200833852714, + "learning_rate": 9.441790821561781e-07, + "loss": 0.4625, + "step": 7567 + }, + { + "avg_step_time": 5.904011805852254, + "epoch": 0.8071466666666667, + "eta_time": 2.965125929161354, + "step": 7567 + }, + { + "epoch": 0.8072533333333334, + "grad_norm": 0.6754130814413393, + "learning_rate": 9.431690627915218e-07, + "loss": 0.4762, + "step": 7568 + }, + { + "avg_step_time": 5.906612663558035, + "epoch": 0.8072533333333334, + "eta_time": 2.964791411958158, + "step": 7568 + }, + { + "epoch": 0.80736, + "grad_norm": 2.3703338274585377, + "learning_rate": 9.421595276798084e-07, + "loss": 0.5129, + "step": 7569 + }, + { + "avg_step_time": 5.904467589927442, + "epoch": 0.80736, + "eta_time": 2.9620745742802668, + "step": 7569 + }, + { + "epoch": 0.8074666666666667, + "grad_norm": 1.8266369156303048, + "learning_rate": 9.411504769415447e-07, + "loss": 0.4154, + "step": 7570 + }, + { + "avg_step_time": 5.9343698121080495, + "epoch": 0.8074666666666667, + "eta_time": 2.975427086348619, + "step": 7570 + }, + { + "epoch": 0.8075733333333334, + "grad_norm": 1.9619307671107258, + "learning_rate": 9.401419106971765e-07, + "loss": 0.5201, + "step": 7571 + }, + { + "avg_step_time": 5.932168950938215, + "epoch": 0.8075733333333334, + "eta_time": 2.9726757743034837, + "step": 7571 + }, + { + "epoch": 0.80768, + "grad_norm": 0.6276049176136289, + "learning_rate": 9.39133829067092e-07, + "loss": 0.4299, + "step": 7572 + }, + { + "avg_step_time": 5.895000756388963, + "epoch": 0.80768, + "eta_time": 2.9524128788248056, + "step": 7572 + }, + { + "epoch": 0.8077866666666667, + "grad_norm": 1.8068610317169413, + "learning_rate": 9.381262321716255e-07, + "loss": 0.4997, + "step": 7573 + }, + { + "avg_step_time": 5.904418559989544, + "epoch": 0.8077866666666667, + "eta_time": 2.9554895125281, + "step": 7573 + }, + { + "epoch": 0.8078933333333334, + "grad_norm": 1.745353690373721, + "learning_rate": 9.371191201310515e-07, + "loss": 0.4939, + "step": 7574 + }, + { + "avg_step_time": 5.890354614065151, + "epoch": 0.8078933333333334, + "eta_time": 2.9468135166475937, + "step": 7574 + }, + { + "epoch": 0.808, + "grad_norm": 1.9218482596859061, + "learning_rate": 9.361124930655841e-07, + "loss": 0.4562, + "step": 7575 + }, + { + "avg_step_time": 5.880801788484208, + "epoch": 0.808, + "eta_time": 2.940400894242104, + "step": 7575 + }, + { + "epoch": 0.8081066666666666, + "grad_norm": 1.8071226226392871, + "learning_rate": 9.351063510953845e-07, + "loss": 0.4618, + "step": 7576 + }, + { + "avg_step_time": 5.880904443336256, + "epoch": 0.8081066666666666, + "eta_time": 2.9388186371005345, + "step": 7576 + }, + { + "epoch": 0.8082133333333333, + "grad_norm": 2.1113546330567505, + "learning_rate": 9.341006943405511e-07, + "loss": 0.5529, + "step": 7577 + }, + { + "avg_step_time": 5.879044255825004, + "epoch": 0.8082133333333333, + "eta_time": 2.9362559922148215, + "step": 7577 + }, + { + "epoch": 0.80832, + "grad_norm": 1.7281406963213441, + "learning_rate": 9.330955229211259e-07, + "loss": 0.4211, + "step": 7578 + }, + { + "avg_step_time": 5.884153862192173, + "epoch": 0.80832, + "eta_time": 2.9371734695442595, + "step": 7578 + }, + { + "epoch": 0.8084266666666666, + "grad_norm": 1.9291382407653956, + "learning_rate": 9.320908369570941e-07, + "loss": 0.4997, + "step": 7579 + }, + { + "avg_step_time": 5.882413998998777, + "epoch": 0.8084266666666666, + "eta_time": 2.934670983944945, + "step": 7579 + }, + { + "epoch": 0.8085333333333333, + "grad_norm": 2.056317485025849, + "learning_rate": 9.310866365683846e-07, + "loss": 0.4645, + "step": 7580 + }, + { + "avg_step_time": 5.889121484274816, + "epoch": 0.8085333333333333, + "eta_time": 2.936381406742582, + "step": 7580 + }, + { + "epoch": 0.80864, + "grad_norm": 2.111909024007186, + "learning_rate": 9.300829218748625e-07, + "loss": 0.4202, + "step": 7581 + }, + { + "avg_step_time": 5.8896569218298405, + "epoch": 0.80864, + "eta_time": 2.935012366045204, + "step": 7581 + }, + { + "epoch": 0.8087466666666666, + "grad_norm": 1.829397024617348, + "learning_rate": 9.290796929963414e-07, + "loss": 0.4595, + "step": 7582 + }, + { + "avg_step_time": 5.862808754949858, + "epoch": 0.8087466666666666, + "eta_time": 2.9200044715625264, + "step": 7582 + }, + { + "epoch": 0.8088533333333333, + "grad_norm": 2.1756179431427496, + "learning_rate": 9.280769500525716e-07, + "loss": 0.4966, + "step": 7583 + }, + { + "avg_step_time": 5.832416240615074, + "epoch": 0.8088533333333333, + "eta_time": 2.9032471953283925, + "step": 7583 + }, + { + "epoch": 0.80896, + "grad_norm": 1.9205519565357339, + "learning_rate": 9.270746931632501e-07, + "loss": 0.5308, + "step": 7584 + }, + { + "avg_step_time": 5.831707270458491, + "epoch": 0.80896, + "eta_time": 2.9012743670530994, + "step": 7584 + }, + { + "epoch": 0.8090666666666667, + "grad_norm": 1.7625844521052894, + "learning_rate": 9.260729224480114e-07, + "loss": 0.4436, + "step": 7585 + }, + { + "avg_step_time": 5.8326597069249, + "epoch": 0.8090666666666667, + "eta_time": 2.9001280209432148, + "step": 7585 + }, + { + "epoch": 0.8091733333333333, + "grad_norm": 2.0668867570079934, + "learning_rate": 9.250716380264368e-07, + "loss": 0.4764, + "step": 7586 + }, + { + "avg_step_time": 5.841781112882826, + "epoch": 0.8091733333333333, + "eta_time": 2.9030406697076043, + "step": 7586 + }, + { + "epoch": 0.80928, + "grad_norm": 1.7568433303168718, + "learning_rate": 9.240708400180437e-07, + "loss": 0.5232, + "step": 7587 + }, + { + "avg_step_time": 5.84365194494074, + "epoch": 0.80928, + "eta_time": 2.902347132653901, + "step": 7587 + }, + { + "epoch": 0.8093866666666667, + "grad_norm": 1.782427289851169, + "learning_rate": 9.23070528542297e-07, + "loss": 0.497, + "step": 7588 + }, + { + "avg_step_time": 5.840803620791195, + "epoch": 0.8093866666666667, + "eta_time": 2.89931001954274, + "step": 7588 + }, + { + "epoch": 0.8094933333333333, + "grad_norm": 1.880004292200279, + "learning_rate": 9.220707037186011e-07, + "loss": 0.4379, + "step": 7589 + }, + { + "avg_step_time": 5.840649354337442, + "epoch": 0.8094933333333333, + "eta_time": 2.8976110407907423, + "step": 7589 + }, + { + "epoch": 0.8096, + "grad_norm": 1.873760029943459, + "learning_rate": 9.210713656663023e-07, + "loss": 0.4382, + "step": 7590 + }, + { + "avg_step_time": 5.816735961220481, + "epoch": 0.8096, + "eta_time": 2.8841315807718217, + "step": 7590 + }, + { + "epoch": 0.8097066666666667, + "grad_norm": 1.7994152248435609, + "learning_rate": 9.200725145046868e-07, + "loss": 0.4863, + "step": 7591 + }, + { + "avg_step_time": 5.818477315132064, + "epoch": 0.8097066666666667, + "eta_time": 2.8833787583876673, + "step": 7591 + }, + { + "epoch": 0.8098133333333334, + "grad_norm": 1.8426509067191328, + "learning_rate": 9.190741503529876e-07, + "loss": 0.4432, + "step": 7592 + }, + { + "avg_step_time": 5.814222400838679, + "epoch": 0.8098133333333334, + "eta_time": 2.8796551501931567, + "step": 7592 + }, + { + "epoch": 0.80992, + "grad_norm": 1.6781245089959484, + "learning_rate": 9.180762733303745e-07, + "loss": 0.538, + "step": 7593 + }, + { + "avg_step_time": 5.817419996165266, + "epoch": 0.80992, + "eta_time": 2.8796228981018066, + "step": 7593 + }, + { + "epoch": 0.8100266666666667, + "grad_norm": 2.126404152055593, + "learning_rate": 9.170788835559624e-07, + "loss": 0.4974, + "step": 7594 + }, + { + "avg_step_time": 5.813410655416623, + "epoch": 0.8100266666666667, + "eta_time": 2.8760234381380574, + "step": 7594 + }, + { + "epoch": 0.8101333333333334, + "grad_norm": 0.6295153515599085, + "learning_rate": 9.160819811488081e-07, + "loss": 0.4476, + "step": 7595 + }, + { + "avg_step_time": 5.780006035409793, + "epoch": 0.8101333333333334, + "eta_time": 2.857891873063731, + "step": 7595 + }, + { + "epoch": 0.81024, + "grad_norm": 2.1345509234913105, + "learning_rate": 9.150855662279079e-07, + "loss": 0.4755, + "step": 7596 + }, + { + "avg_step_time": 5.773434742532595, + "epoch": 0.81024, + "eta_time": 2.8530390019348575, + "step": 7596 + }, + { + "epoch": 0.8103466666666667, + "grad_norm": 1.7734524744577647, + "learning_rate": 9.14089638912199e-07, + "loss": 0.4775, + "step": 7597 + }, + { + "avg_step_time": 5.757709753633749, + "epoch": 0.8103466666666667, + "eta_time": 2.843668872766891, + "step": 7597 + }, + { + "epoch": 0.8104533333333334, + "grad_norm": 0.6369556084800064, + "learning_rate": 9.130941993205672e-07, + "loss": 0.4538, + "step": 7598 + }, + { + "avg_step_time": 5.723316917515764, + "epoch": 0.8104533333333334, + "eta_time": 2.825092822895976, + "step": 7598 + }, + { + "epoch": 0.81056, + "grad_norm": 1.6118096815520486, + "learning_rate": 9.120992475718333e-07, + "loss": 0.4279, + "step": 7599 + }, + { + "avg_step_time": 5.714019864496558, + "epoch": 0.81056, + "eta_time": 2.818916466484969, + "step": 7599 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 2.0566381682171095, + "learning_rate": 9.111047837847603e-07, + "loss": 0.54, + "step": 7600 + }, + { + "avg_step_time": 5.713222166504523, + "epoch": 0.8106666666666666, + "eta_time": 2.8169359293182024, + "step": 7600 + }, + { + "epoch": 0.8107733333333333, + "grad_norm": 1.8798902560246158, + "learning_rate": 9.101108080780574e-07, + "loss": 0.5269, + "step": 7601 + }, + { + "avg_step_time": 5.707952229663579, + "epoch": 0.8107733333333333, + "eta_time": 2.8127520153953305, + "step": 7601 + }, + { + "epoch": 0.81088, + "grad_norm": 1.6714828206326091, + "learning_rate": 9.091173205703708e-07, + "loss": 0.4438, + "step": 7602 + }, + { + "avg_step_time": 5.706032415833136, + "epoch": 0.81088, + "eta_time": 2.8102209647978196, + "step": 7602 + }, + { + "epoch": 0.8109866666666666, + "grad_norm": 2.1661976650208814, + "learning_rate": 9.081243213802904e-07, + "loss": 0.4627, + "step": 7603 + }, + { + "avg_step_time": 5.695860323279795, + "epoch": 0.8109866666666666, + "eta_time": 2.8036290257921657, + "step": 7603 + }, + { + "epoch": 0.8110933333333333, + "grad_norm": 1.8484067152408714, + "learning_rate": 9.071318106263499e-07, + "loss": 0.4941, + "step": 7604 + }, + { + "avg_step_time": 5.696846954750292, + "epoch": 0.8110933333333333, + "eta_time": 2.8025322102396575, + "step": 7604 + }, + { + "epoch": 0.8112, + "grad_norm": 0.6531025182391816, + "learning_rate": 9.061397884270217e-07, + "loss": 0.4405, + "step": 7605 + }, + { + "avg_step_time": 5.659699040229874, + "epoch": 0.8112, + "eta_time": 2.7826853614463545, + "step": 7605 + }, + { + "epoch": 0.8113066666666666, + "grad_norm": 1.7240808053579744, + "learning_rate": 9.05148254900719e-07, + "loss": 0.4379, + "step": 7606 + }, + { + "avg_step_time": 5.658706315840133, + "epoch": 0.8113066666666666, + "eta_time": 2.7806254090892213, + "step": 7606 + }, + { + "epoch": 0.8114133333333333, + "grad_norm": 1.542319906556807, + "learning_rate": 9.041572101657997e-07, + "loss": 0.4746, + "step": 7607 + }, + { + "avg_step_time": 5.6245086602490355, + "epoch": 0.8114133333333333, + "eta_time": 2.7622586975889707, + "step": 7607 + }, + { + "epoch": 0.81152, + "grad_norm": 1.5748202134618887, + "learning_rate": 9.031666543405637e-07, + "loss": 0.4367, + "step": 7608 + }, + { + "avg_step_time": 5.6249648922621605, + "epoch": 0.81152, + "eta_time": 2.7609202679520104, + "step": 7608 + }, + { + "epoch": 0.8116266666666667, + "grad_norm": 1.8476716210131832, + "learning_rate": 9.021765875432498e-07, + "loss": 0.4904, + "step": 7609 + }, + { + "avg_step_time": 5.673512244465376, + "epoch": 0.8116266666666667, + "eta_time": 2.783172951034959, + "step": 7609 + }, + { + "epoch": 0.8117333333333333, + "grad_norm": 1.6861743596445522, + "learning_rate": 9.011870098920378e-07, + "loss": 0.4477, + "step": 7610 + }, + { + "avg_step_time": 5.680248183433456, + "epoch": 0.8117333333333333, + "eta_time": 2.7848994566000136, + "step": 7610 + }, + { + "epoch": 0.81184, + "grad_norm": 1.6605589675403116, + "learning_rate": 9.001979215050544e-07, + "loss": 0.4705, + "step": 7611 + }, + { + "avg_step_time": 5.648792079000762, + "epoch": 0.81184, + "eta_time": 2.7679081187103733, + "step": 7611 + }, + { + "epoch": 0.8119466666666667, + "grad_norm": 2.008446442501573, + "learning_rate": 8.992093225003606e-07, + "loss": 0.4376, + "step": 7612 + }, + { + "avg_step_time": 5.671359531807177, + "epoch": 0.8119466666666667, + "eta_time": 2.7773907929377923, + "step": 7612 + }, + { + "epoch": 0.8120533333333333, + "grad_norm": 1.9995155199765258, + "learning_rate": 8.98221212995965e-07, + "loss": 0.4982, + "step": 7613 + }, + { + "avg_step_time": 5.668972711370449, + "epoch": 0.8120533333333333, + "eta_time": 2.7746471992874255, + "step": 7613 + }, + { + "epoch": 0.81216, + "grad_norm": 2.117631518804968, + "learning_rate": 8.972335931098159e-07, + "loss": 0.5176, + "step": 7614 + }, + { + "avg_step_time": 5.669097681238194, + "epoch": 0.81216, + "eta_time": 2.7731336157390167, + "step": 7614 + }, + { + "epoch": 0.8122666666666667, + "grad_norm": 1.957634068523678, + "learning_rate": 8.962464629598028e-07, + "loss": 0.4759, + "step": 7615 + }, + { + "avg_step_time": 5.667565357805502, + "epoch": 0.8122666666666667, + "eta_time": 2.7708097304826897, + "step": 7615 + }, + { + "epoch": 0.8123733333333333, + "grad_norm": 1.7592081954163346, + "learning_rate": 8.952598226637549e-07, + "loss": 0.4441, + "step": 7616 + }, + { + "avg_step_time": 5.661954983316287, + "epoch": 0.8123733333333333, + "eta_time": 2.7664941154592633, + "step": 7616 + }, + { + "epoch": 0.81248, + "grad_norm": 1.7132903102242758, + "learning_rate": 8.942736723394458e-07, + "loss": 0.4323, + "step": 7617 + }, + { + "avg_step_time": 5.635495405004482, + "epoch": 0.81248, + "eta_time": 2.752000256110522, + "step": 7617 + }, + { + "epoch": 0.8125866666666667, + "grad_norm": 2.039126355091553, + "learning_rate": 8.932880121045911e-07, + "loss": 0.487, + "step": 7618 + }, + { + "avg_step_time": 5.632856019819625, + "epoch": 0.8125866666666667, + "eta_time": 2.749146674117523, + "step": 7618 + }, + { + "epoch": 0.8126933333333334, + "grad_norm": 1.8670857689702245, + "learning_rate": 8.923028420768437e-07, + "loss": 0.4782, + "step": 7619 + }, + { + "avg_step_time": 5.628810102289373, + "epoch": 0.8126933333333334, + "eta_time": 2.7456084832278163, + "step": 7619 + }, + { + "epoch": 0.8128, + "grad_norm": 1.929269888622453, + "learning_rate": 8.913181623738032e-07, + "loss": 0.5164, + "step": 7620 + }, + { + "avg_step_time": 5.6309174600273675, + "epoch": 0.8128, + "eta_time": 2.7450722617633416, + "step": 7620 + }, + { + "epoch": 0.8129066666666667, + "grad_norm": 1.6277288228846727, + "learning_rate": 8.903339731130073e-07, + "loss": 0.4256, + "step": 7621 + }, + { + "avg_step_time": 5.609137214795507, + "epoch": 0.8129066666666667, + "eta_time": 2.732896298542033, + "step": 7621 + }, + { + "epoch": 0.8130133333333334, + "grad_norm": 1.9532092111112607, + "learning_rate": 8.893502744119337e-07, + "loss": 0.5079, + "step": 7622 + }, + { + "avg_step_time": 5.642277664608425, + "epoch": 0.8130133333333334, + "eta_time": 2.747475762794047, + "step": 7622 + }, + { + "epoch": 0.81312, + "grad_norm": 1.9363860807077116, + "learning_rate": 8.883670663880078e-07, + "loss": 0.4063, + "step": 7623 + }, + { + "avg_step_time": 5.666161310793173, + "epoch": 0.81312, + "eta_time": 2.7575318379193443, + "step": 7623 + }, + { + "epoch": 0.8132266666666667, + "grad_norm": 1.554900635755216, + "learning_rate": 8.87384349158591e-07, + "loss": 0.4728, + "step": 7624 + }, + { + "avg_step_time": 5.6759530871805515, + "epoch": 0.8132266666666667, + "eta_time": 2.760720515459207, + "step": 7624 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 1.5845388542411398, + "learning_rate": 8.864021228409853e-07, + "loss": 0.4753, + "step": 7625 + }, + { + "avg_step_time": 5.674156420158617, + "epoch": 0.8133333333333334, + "eta_time": 2.7582704820215502, + "step": 7625 + }, + { + "epoch": 0.81344, + "grad_norm": 0.6530708172957396, + "learning_rate": 8.854203875524403e-07, + "loss": 0.4688, + "step": 7626 + }, + { + "avg_step_time": 5.636522175085665, + "epoch": 0.81344, + "eta_time": 2.738410356729119, + "step": 7626 + }, + { + "epoch": 0.8135466666666666, + "grad_norm": 1.9179267485805869, + "learning_rate": 8.84439143410139e-07, + "loss": 0.4667, + "step": 7627 + }, + { + "avg_step_time": 5.6393846044636735, + "epoch": 0.8135466666666666, + "eta_time": 2.738234524611806, + "step": 7627 + }, + { + "epoch": 0.8136533333333333, + "grad_norm": 2.046604672860594, + "learning_rate": 8.834583905312127e-07, + "loss": 0.4479, + "step": 7628 + }, + { + "avg_step_time": 5.644484881198768, + "epoch": 0.8136533333333333, + "eta_time": 2.739143079848402, + "step": 7628 + }, + { + "epoch": 0.81376, + "grad_norm": 1.7887356401775263, + "learning_rate": 8.824781290327317e-07, + "loss": 0.3935, + "step": 7629 + }, + { + "avg_step_time": 5.646444323086979, + "epoch": 0.81376, + "eta_time": 2.738525496697185, + "step": 7629 + }, + { + "epoch": 0.8138666666666666, + "grad_norm": 1.9167864790638731, + "learning_rate": 8.814983590317055e-07, + "loss": 0.4811, + "step": 7630 + }, + { + "avg_step_time": 5.684947538857508, + "epoch": 0.8138666666666666, + "eta_time": 2.7556204042517645, + "step": 7630 + }, + { + "epoch": 0.8139733333333333, + "grad_norm": 1.7620483620418044, + "learning_rate": 8.805190806450858e-07, + "loss": 0.4527, + "step": 7631 + }, + { + "avg_step_time": 5.698300693974351, + "epoch": 0.8139733333333333, + "eta_time": 2.7605101139697963, + "step": 7631 + }, + { + "epoch": 0.81408, + "grad_norm": 1.7757542303007736, + "learning_rate": 8.795402939897679e-07, + "loss": 0.4783, + "step": 7632 + }, + { + "avg_step_time": 5.696362572486954, + "epoch": 0.81408, + "eta_time": 2.757988878845767, + "step": 7632 + }, + { + "epoch": 0.8141866666666666, + "grad_norm": 1.8662296649868668, + "learning_rate": 8.785619991825877e-07, + "loss": 0.5014, + "step": 7633 + }, + { + "avg_step_time": 5.736697550975915, + "epoch": 0.8141866666666666, + "eta_time": 2.775924203833345, + "step": 7633 + }, + { + "epoch": 0.8142933333333333, + "grad_norm": 1.8990542316380299, + "learning_rate": 8.775841963403198e-07, + "loss": 0.4687, + "step": 7634 + }, + { + "avg_step_time": 5.733956748789007, + "epoch": 0.8142933333333333, + "eta_time": 2.773005194344906, + "step": 7634 + }, + { + "epoch": 0.8144, + "grad_norm": 1.9636581171631216, + "learning_rate": 8.766068855796833e-07, + "loss": 0.5396, + "step": 7635 + }, + { + "avg_step_time": 5.7348339340903545, + "epoch": 0.8144, + "eta_time": 2.7718364014770045, + "step": 7635 + }, + { + "epoch": 0.8145066666666667, + "grad_norm": 2.118841797962223, + "learning_rate": 8.756300670173368e-07, + "loss": 0.4419, + "step": 7636 + }, + { + "avg_step_time": 5.727366240337641, + "epoch": 0.8145066666666667, + "eta_time": 2.7666360810964328, + "step": 7636 + }, + { + "epoch": 0.8146133333333333, + "grad_norm": 1.7466256846883095, + "learning_rate": 8.746537407698785e-07, + "loss": 0.502, + "step": 7637 + }, + { + "avg_step_time": 5.730493039795847, + "epoch": 0.8146133333333333, + "eta_time": 2.7665546953236615, + "step": 7637 + }, + { + "epoch": 0.81472, + "grad_norm": 1.772324185600739, + "learning_rate": 8.736779069538521e-07, + "loss": 0.3901, + "step": 7638 + }, + { + "avg_step_time": 5.736312259327281, + "epoch": 0.81472, + "eta_time": 2.7677706651254135, + "step": 7638 + }, + { + "epoch": 0.8148266666666667, + "grad_norm": 1.80750316049811, + "learning_rate": 8.727025656857407e-07, + "loss": 0.4507, + "step": 7639 + }, + { + "avg_step_time": 5.7295193985255075, + "epoch": 0.8148266666666667, + "eta_time": 2.7629015766223004, + "step": 7639 + }, + { + "epoch": 0.8149333333333333, + "grad_norm": 1.687260865664071, + "learning_rate": 8.717277170819655e-07, + "loss": 0.4103, + "step": 7640 + }, + { + "avg_step_time": 5.731312701196382, + "epoch": 0.8149333333333333, + "eta_time": 2.762174315715478, + "step": 7640 + }, + { + "epoch": 0.81504, + "grad_norm": 2.2414615377591702, + "learning_rate": 8.707533612588948e-07, + "loss": 0.4858, + "step": 7641 + }, + { + "avg_step_time": 5.723455467609444, + "epoch": 0.81504, + "eta_time": 2.7567977168985487, + "step": 7641 + }, + { + "epoch": 0.8151466666666667, + "grad_norm": 1.6489619756945921, + "learning_rate": 8.697794983328317e-07, + "loss": 0.4779, + "step": 7642 + }, + { + "avg_step_time": 5.722460079674769, + "epoch": 0.8151466666666667, + "eta_time": 2.7547286994656597, + "step": 7642 + }, + { + "epoch": 0.8152533333333334, + "grad_norm": 1.8644274887200052, + "learning_rate": 8.688061284200266e-07, + "loss": 0.4019, + "step": 7643 + }, + { + "avg_step_time": 5.718205066642376, + "epoch": 0.8152533333333334, + "eta_time": 2.7510919931734987, + "step": 7643 + }, + { + "epoch": 0.81536, + "grad_norm": 1.855391311284953, + "learning_rate": 8.67833251636665e-07, + "loss": 0.3975, + "step": 7644 + }, + { + "avg_step_time": 5.718295831872959, + "epoch": 0.81536, + "eta_time": 2.749547245825581, + "step": 7644 + }, + { + "epoch": 0.8154666666666667, + "grad_norm": 1.9599214893214725, + "learning_rate": 8.668608680988794e-07, + "loss": 0.4579, + "step": 7645 + }, + { + "avg_step_time": 5.718862437238597, + "epoch": 0.8154666666666667, + "eta_time": 2.7482311156729926, + "step": 7645 + }, + { + "epoch": 0.8155733333333334, + "grad_norm": 1.8513567962362991, + "learning_rate": 8.658889779227376e-07, + "loss": 0.4933, + "step": 7646 + }, + { + "avg_step_time": 5.772019273102885, + "epoch": 0.8155733333333334, + "eta_time": 2.772172589776358, + "step": 7646 + }, + { + "epoch": 0.81568, + "grad_norm": 1.9496825132883477, + "learning_rate": 8.649175812242532e-07, + "loss": 0.5227, + "step": 7647 + }, + { + "avg_step_time": 5.777853780322605, + "epoch": 0.81568, + "eta_time": 2.7733698145548504, + "step": 7647 + }, + { + "epoch": 0.8157866666666667, + "grad_norm": 1.697567571451199, + "learning_rate": 8.639466781193812e-07, + "loss": 0.4722, + "step": 7648 + }, + { + "avg_step_time": 5.799723461420849, + "epoch": 0.8157866666666667, + "eta_time": 2.7822562271871685, + "step": 7648 + }, + { + "epoch": 0.8158933333333334, + "grad_norm": 1.6239834706833514, + "learning_rate": 8.629762687240129e-07, + "loss": 0.521, + "step": 7649 + }, + { + "avg_step_time": 5.800254157095244, + "epoch": 0.8158933333333334, + "eta_time": 2.7808996319851085, + "step": 7649 + }, + { + "epoch": 0.816, + "grad_norm": 1.7892100192655167, + "learning_rate": 8.62006353153983e-07, + "loss": 0.3795, + "step": 7650 + }, + { + "avg_step_time": 5.7851291786540635, + "epoch": 0.816, + "eta_time": 2.7720410647717384, + "step": 7650 + }, + { + "epoch": 0.8161066666666666, + "grad_norm": 1.637414375284214, + "learning_rate": 8.610369315250694e-07, + "loss": 0.4525, + "step": 7651 + }, + { + "avg_step_time": 5.782812956607703, + "epoch": 0.8161066666666666, + "eta_time": 2.7693248714421337, + "step": 7651 + }, + { + "epoch": 0.8162133333333333, + "grad_norm": 0.6503454361106948, + "learning_rate": 8.600680039529896e-07, + "loss": 0.4296, + "step": 7652 + }, + { + "avg_step_time": 5.74162059841734, + "epoch": 0.8162133333333333, + "eta_time": 2.748003414186966, + "step": 7652 + }, + { + "epoch": 0.81632, + "grad_norm": 1.9090333826727413, + "learning_rate": 8.590995705533994e-07, + "loss": 0.5731, + "step": 7653 + }, + { + "avg_step_time": 5.744523484297473, + "epoch": 0.81632, + "eta_time": 2.747797066655625, + "step": 7653 + }, + { + "epoch": 0.8164266666666666, + "grad_norm": 1.9248891380152156, + "learning_rate": 8.581316314419019e-07, + "loss": 0.541, + "step": 7654 + }, + { + "avg_step_time": 5.726338988602763, + "epoch": 0.8164266666666666, + "eta_time": 2.737508166495932, + "step": 7654 + }, + { + "epoch": 0.8165333333333333, + "grad_norm": 2.286563184645543, + "learning_rate": 8.571641867340346e-07, + "loss": 0.4307, + "step": 7655 + }, + { + "avg_step_time": 5.726413861669675, + "epoch": 0.8165333333333333, + "eta_time": 2.7359532894644003, + "step": 7655 + }, + { + "epoch": 0.81664, + "grad_norm": 1.920414364326115, + "learning_rate": 8.561972365452775e-07, + "loss": 0.5418, + "step": 7656 + }, + { + "avg_step_time": 5.727635959182122, + "epoch": 0.81664, + "eta_time": 2.7349461705094633, + "step": 7656 + }, + { + "epoch": 0.8167466666666666, + "grad_norm": 1.5965077502503904, + "learning_rate": 8.552307809910565e-07, + "loss": 0.4782, + "step": 7657 + }, + { + "avg_step_time": 5.732744491461552, + "epoch": 0.8167466666666666, + "eta_time": 2.735793065647485, + "step": 7657 + }, + { + "epoch": 0.8168533333333333, + "grad_norm": 0.6503950372333934, + "learning_rate": 8.542648201867337e-07, + "loss": 0.4668, + "step": 7658 + }, + { + "avg_step_time": 5.703157952337554, + "epoch": 0.8168533333333333, + "eta_time": 2.72008950115655, + "step": 7658 + }, + { + "epoch": 0.81696, + "grad_norm": 2.0288337599689408, + "learning_rate": 8.532993542476108e-07, + "loss": 0.5268, + "step": 7659 + }, + { + "avg_step_time": 5.712879662561899, + "epoch": 0.81696, + "eta_time": 2.7231393058211717, + "step": 7659 + }, + { + "epoch": 0.8170666666666667, + "grad_norm": 0.6131359278312927, + "learning_rate": 8.523343832889358e-07, + "loss": 0.4214, + "step": 7660 + }, + { + "avg_step_time": 5.676382336953674, + "epoch": 0.8170666666666667, + "eta_time": 2.704165474409875, + "step": 7660 + }, + { + "epoch": 0.8171733333333333, + "grad_norm": 1.7166859397060548, + "learning_rate": 8.513699074258924e-07, + "loss": 0.4912, + "step": 7661 + }, + { + "avg_step_time": 5.677413184233386, + "epoch": 0.8171733333333333, + "eta_time": 2.703079499382229, + "step": 7661 + }, + { + "epoch": 0.81728, + "grad_norm": 1.8784583150540317, + "learning_rate": 8.504059267736097e-07, + "loss": 0.4732, + "step": 7662 + }, + { + "avg_step_time": 5.679476798182786, + "epoch": 0.81728, + "eta_time": 2.702484376468642, + "step": 7662 + }, + { + "epoch": 0.8173866666666667, + "grad_norm": 2.070197277684544, + "learning_rate": 8.494424414471536e-07, + "loss": 0.5391, + "step": 7663 + }, + { + "avg_step_time": 5.6737363723793415, + "epoch": 0.8173866666666667, + "eta_time": 2.69817685264262, + "step": 7663 + }, + { + "epoch": 0.8174933333333333, + "grad_norm": 2.095003239351318, + "learning_rate": 8.484794515615341e-07, + "loss": 0.5582, + "step": 7664 + }, + { + "avg_step_time": 5.681230328299782, + "epoch": 0.8174933333333333, + "eta_time": 2.7001625254780355, + "step": 7664 + }, + { + "epoch": 0.8176, + "grad_norm": 1.9044349548620385, + "learning_rate": 8.475169572316988e-07, + "loss": 0.4902, + "step": 7665 + }, + { + "avg_step_time": 5.710874451531304, + "epoch": 0.8176, + "eta_time": 2.7126653644773695, + "step": 7665 + }, + { + "epoch": 0.8177066666666667, + "grad_norm": 1.8484185971911253, + "learning_rate": 8.465549585725397e-07, + "loss": 0.4972, + "step": 7666 + }, + { + "avg_step_time": 5.7184122836951055, + "epoch": 0.8177066666666667, + "eta_time": 2.7146573868985935, + "step": 7666 + }, + { + "epoch": 0.8178133333333333, + "grad_norm": 1.991158269318335, + "learning_rate": 8.455934556988888e-07, + "loss": 0.4671, + "step": 7667 + }, + { + "avg_step_time": 5.74824303087562, + "epoch": 0.8178133333333333, + "eta_time": 2.727221971315433, + "step": 7667 + }, + { + "epoch": 0.81792, + "grad_norm": 0.636919730772206, + "learning_rate": 8.446324487255164e-07, + "loss": 0.4561, + "step": 7668 + }, + { + "avg_step_time": 5.709560919289637, + "epoch": 0.81792, + "eta_time": 2.7072834692298366, + "step": 7668 + }, + { + "epoch": 0.8180266666666667, + "grad_norm": 1.7826273081498218, + "learning_rate": 8.436719377671349e-07, + "loss": 0.4214, + "step": 7669 + }, + { + "avg_step_time": 5.718127785306988, + "epoch": 0.8180266666666667, + "eta_time": 2.709757222703812, + "step": 7669 + }, + { + "epoch": 0.8181333333333334, + "grad_norm": 0.6443100499771954, + "learning_rate": 8.427119229384001e-07, + "loss": 0.4275, + "step": 7670 + }, + { + "avg_step_time": 5.68272099350438, + "epoch": 0.8181333333333334, + "eta_time": 2.6913998038680464, + "step": 7670 + }, + { + "epoch": 0.81824, + "grad_norm": 2.156957319616196, + "learning_rate": 8.417524043539038e-07, + "loss": 0.4823, + "step": 7671 + }, + { + "avg_step_time": 5.712989881785229, + "epoch": 0.81824, + "eta_time": 2.7041485440450086, + "step": 7671 + }, + { + "epoch": 0.8183466666666667, + "grad_norm": 0.6272995210593955, + "learning_rate": 8.407933821281822e-07, + "loss": 0.4463, + "step": 7672 + }, + { + "avg_step_time": 5.665008294461954, + "epoch": 0.8183466666666667, + "eta_time": 2.6798636459635294, + "step": 7672 + }, + { + "epoch": 0.8184533333333334, + "grad_norm": 2.2451074295317572, + "learning_rate": 8.398348563757125e-07, + "loss": 0.5452, + "step": 7673 + }, + { + "avg_step_time": 5.666488093559188, + "epoch": 0.8184533333333334, + "eta_time": 2.67898964867715, + "step": 7673 + }, + { + "epoch": 0.81856, + "grad_norm": 2.1207024676688215, + "learning_rate": 8.388768272109105e-07, + "loss": 0.4973, + "step": 7674 + }, + { + "avg_step_time": 5.666135571219704, + "epoch": 0.81856, + "eta_time": 2.67724905740131, + "step": 7674 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 0.6326661650174814, + "learning_rate": 8.379192947481319e-07, + "loss": 0.4154, + "step": 7675 + }, + { + "avg_step_time": 5.654206615505797, + "epoch": 0.8186666666666667, + "eta_time": 2.670042012877737, + "step": 7675 + }, + { + "epoch": 0.8187733333333334, + "grad_norm": 1.9506907719851496, + "learning_rate": 8.369622591016762e-07, + "loss": 0.4982, + "step": 7676 + }, + { + "avg_step_time": 5.654893619845612, + "epoch": 0.8187733333333334, + "eta_time": 2.6687956278104705, + "step": 7676 + }, + { + "epoch": 0.81888, + "grad_norm": 0.6353031720926805, + "learning_rate": 8.36005720385783e-07, + "loss": 0.43, + "step": 7677 + }, + { + "avg_step_time": 5.616320622087729, + "epoch": 0.81888, + "eta_time": 2.649031226751379, + "step": 7677 + }, + { + "epoch": 0.8189866666666666, + "grad_norm": 1.956862454946036, + "learning_rate": 8.350496787146301e-07, + "loss": 0.4206, + "step": 7678 + }, + { + "avg_step_time": 5.617862648434109, + "epoch": 0.8189866666666666, + "eta_time": 2.648198031775745, + "step": 7678 + }, + { + "epoch": 0.8190933333333333, + "grad_norm": 1.828476909712441, + "learning_rate": 8.34094134202339e-07, + "loss": 0.5423, + "step": 7679 + }, + { + "avg_step_time": 5.6143583625254, + "epoch": 0.8190933333333333, + "eta_time": 2.6449866063452996, + "step": 7679 + }, + { + "epoch": 0.8192, + "grad_norm": 1.6695914476938325, + "learning_rate": 8.331390869629702e-07, + "loss": 0.4705, + "step": 7680 + }, + { + "avg_step_time": 5.617164908033429, + "epoch": 0.8192, + "eta_time": 2.644748477532406, + "step": 7680 + }, + { + "epoch": 0.8193066666666666, + "grad_norm": 1.562619984259286, + "learning_rate": 8.321845371105225e-07, + "loss": 0.4663, + "step": 7681 + }, + { + "avg_step_time": 5.619499276382754, + "epoch": 0.8193066666666666, + "eta_time": 2.6442866039423296, + "step": 7681 + }, + { + "epoch": 0.8194133333333333, + "grad_norm": 1.7180703462833113, + "learning_rate": 8.31230484758942e-07, + "loss": 0.431, + "step": 7682 + }, + { + "avg_step_time": 5.620545519722833, + "epoch": 0.8194133333333333, + "eta_time": 2.643217656914099, + "step": 7682 + }, + { + "epoch": 0.81952, + "grad_norm": 0.6319636569951851, + "learning_rate": 8.302769300221098e-07, + "loss": 0.4488, + "step": 7683 + }, + { + "avg_step_time": 5.589122856506194, + "epoch": 0.81952, + "eta_time": 2.6268877425579107, + "step": 7683 + }, + { + "epoch": 0.8196266666666666, + "grad_norm": 1.9933072966070808, + "learning_rate": 8.293238730138475e-07, + "loss": 0.4978, + "step": 7684 + }, + { + "avg_step_time": 5.605296575661861, + "epoch": 0.8196266666666666, + "eta_time": 2.6329323637345023, + "step": 7684 + }, + { + "epoch": 0.8197333333333333, + "grad_norm": 1.8013693713924959, + "learning_rate": 8.283713138479216e-07, + "loss": 0.5163, + "step": 7685 + }, + { + "avg_step_time": 5.598479779079707, + "epoch": 0.8197333333333333, + "eta_time": 2.628175229623529, + "step": 7685 + }, + { + "epoch": 0.81984, + "grad_norm": 1.957735729919085, + "learning_rate": 8.274192526380337e-07, + "loss": 0.6063, + "step": 7686 + }, + { + "avg_step_time": 5.6050192659551445, + "epoch": 0.81984, + "eta_time": 2.6296882056106217, + "step": 7686 + }, + { + "epoch": 0.8199466666666667, + "grad_norm": 2.144103297598993, + "learning_rate": 8.264676894978307e-07, + "loss": 0.5312, + "step": 7687 + }, + { + "avg_step_time": 5.608444695520883, + "epoch": 0.8199466666666667, + "eta_time": 2.6297374016775694, + "step": 7687 + }, + { + "epoch": 0.8200533333333333, + "grad_norm": 1.941341280111174, + "learning_rate": 8.255166245408985e-07, + "loss": 0.4853, + "step": 7688 + }, + { + "avg_step_time": 5.606688191192319, + "epoch": 0.8200533333333333, + "eta_time": 2.6273563829281783, + "step": 7688 + }, + { + "epoch": 0.82016, + "grad_norm": 2.012831051930901, + "learning_rate": 8.24566057880763e-07, + "loss": 0.4939, + "step": 7689 + }, + { + "avg_step_time": 5.6232465445393265, + "epoch": 0.82016, + "eta_time": 2.633553798359251, + "step": 7689 + }, + { + "epoch": 0.8202666666666667, + "grad_norm": 1.7390245976785093, + "learning_rate": 8.236159896308882e-07, + "loss": 0.5065, + "step": 7690 + }, + { + "avg_step_time": 5.625498222582268, + "epoch": 0.8202666666666667, + "eta_time": 2.6330456958475335, + "step": 7690 + }, + { + "epoch": 0.8203733333333333, + "grad_norm": 1.7133716914015253, + "learning_rate": 8.226664199046835e-07, + "loss": 0.436, + "step": 7691 + }, + { + "avg_step_time": 5.62693470174616, + "epoch": 0.8203733333333333, + "eta_time": 2.6321550104834817, + "step": 7691 + }, + { + "epoch": 0.82048, + "grad_norm": 1.6049064199418306, + "learning_rate": 8.217173488154972e-07, + "loss": 0.44, + "step": 7692 + }, + { + "avg_step_time": 5.621307315248432, + "epoch": 0.82048, + "eta_time": 2.627961169878642, + "step": 7692 + }, + { + "epoch": 0.8205866666666667, + "grad_norm": 1.700367199131526, + "learning_rate": 8.207687764766148e-07, + "loss": 0.3525, + "step": 7693 + }, + { + "avg_step_time": 5.624393561873773, + "epoch": 0.8205866666666667, + "eta_time": 2.6278416586310236, + "step": 7693 + }, + { + "epoch": 0.8206933333333334, + "grad_norm": 1.3949619541894631, + "learning_rate": 8.198207030012678e-07, + "loss": 0.4192, + "step": 7694 + }, + { + "avg_step_time": 5.660413638509885, + "epoch": 0.8206933333333334, + "eta_time": 2.6430987017597545, + "step": 7694 + }, + { + "epoch": 0.8208, + "grad_norm": 1.806871461698494, + "learning_rate": 8.188731285026219e-07, + "loss": 0.5145, + "step": 7695 + }, + { + "avg_step_time": 5.6641128930178555, + "epoch": 0.8208, + "eta_time": 2.6432526834083325, + "step": 7695 + }, + { + "epoch": 0.8209066666666667, + "grad_norm": 1.7777967423870957, + "learning_rate": 8.179260530937899e-07, + "loss": 0.4983, + "step": 7696 + }, + { + "avg_step_time": 5.661251227060954, + "epoch": 0.8209066666666667, + "eta_time": 2.640344669509817, + "step": 7696 + }, + { + "epoch": 0.8210133333333334, + "grad_norm": 2.007698807411898, + "learning_rate": 8.169794768878186e-07, + "loss": 0.5547, + "step": 7697 + }, + { + "avg_step_time": 5.6943337965493255, + "epoch": 0.8210133333333334, + "eta_time": 2.654192252947158, + "step": 7697 + }, + { + "epoch": 0.82112, + "grad_norm": 1.7998339607589848, + "learning_rate": 8.160333999977004e-07, + "loss": 0.462, + "step": 7698 + }, + { + "avg_step_time": 5.7095898233278835, + "epoch": 0.82112, + "eta_time": 2.659717259366906, + "step": 7698 + }, + { + "epoch": 0.8212266666666667, + "grad_norm": 1.8473856491453486, + "learning_rate": 8.150878225363656e-07, + "loss": 0.4835, + "step": 7699 + }, + { + "avg_step_time": 5.712622485979639, + "epoch": 0.8212266666666667, + "eta_time": 2.6595431351394097, + "step": 7699 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 0.6264651223753929, + "learning_rate": 8.141427446166822e-07, + "loss": 0.4462, + "step": 7700 + }, + { + "avg_step_time": 5.675545991069138, + "epoch": 0.8213333333333334, + "eta_time": 2.640705426400224, + "step": 7700 + }, + { + "epoch": 0.82144, + "grad_norm": 1.7184914867429157, + "learning_rate": 8.131981663514665e-07, + "loss": 0.4492, + "step": 7701 + }, + { + "avg_step_time": 5.670934987790657, + "epoch": 0.82144, + "eta_time": 2.6369847693226554, + "step": 7701 + }, + { + "epoch": 0.8215466666666666, + "grad_norm": 1.9423115969899574, + "learning_rate": 8.122540878534679e-07, + "loss": 0.5349, + "step": 7702 + }, + { + "avg_step_time": 5.6763384245862865, + "epoch": 0.8215466666666666, + "eta_time": 2.6379206067591268, + "step": 7702 + }, + { + "epoch": 0.8216533333333333, + "grad_norm": 0.651152456963011, + "learning_rate": 8.113105092353774e-07, + "loss": 0.4428, + "step": 7703 + }, + { + "avg_step_time": 5.640196807456739, + "epoch": 0.8216533333333333, + "eta_time": 2.6195580727965746, + "step": 7703 + }, + { + "epoch": 0.82176, + "grad_norm": 0.6766033396616138, + "learning_rate": 8.103674306098291e-07, + "loss": 0.4644, + "step": 7704 + }, + { + "avg_step_time": 5.639879127945563, + "epoch": 0.82176, + "eta_time": 2.6178438952213985, + "step": 7704 + }, + { + "epoch": 0.8218666666666666, + "grad_norm": 2.279590209449652, + "learning_rate": 8.094248520893949e-07, + "loss": 0.5267, + "step": 7705 + }, + { + "avg_step_time": 5.638576151144625, + "epoch": 0.8218666666666666, + "eta_time": 2.615672825669868, + "step": 7705 + }, + { + "epoch": 0.8219733333333333, + "grad_norm": 1.676389821795552, + "learning_rate": 8.084827737865875e-07, + "loss": 0.4602, + "step": 7706 + }, + { + "avg_step_time": 5.636837785894221, + "epoch": 0.8219733333333333, + "eta_time": 2.613300629071515, + "step": 7706 + }, + { + "epoch": 0.82208, + "grad_norm": 1.891044241732306, + "learning_rate": 8.075411958138623e-07, + "loss": 0.5547, + "step": 7707 + }, + { + "avg_step_time": 5.6389018790890475, + "epoch": 0.82208, + "eta_time": 2.6126912039779255, + "step": 7707 + }, + { + "epoch": 0.8221866666666666, + "grad_norm": 2.162669308118254, + "learning_rate": 8.066001182836114e-07, + "loss": 0.5753, + "step": 7708 + }, + { + "avg_step_time": 5.624854155261107, + "epoch": 0.8221866666666666, + "eta_time": 2.604619965783407, + "step": 7708 + }, + { + "epoch": 0.8222933333333333, + "grad_norm": 2.067667566594024, + "learning_rate": 8.056595413081675e-07, + "loss": 0.4446, + "step": 7709 + }, + { + "avg_step_time": 5.617369314636847, + "epoch": 0.8222933333333333, + "eta_time": 2.5995936883847186, + "step": 7709 + }, + { + "epoch": 0.8224, + "grad_norm": 0.6480798344199847, + "learning_rate": 8.047194649998063e-07, + "loss": 0.4453, + "step": 7710 + }, + { + "avg_step_time": 5.583438620422825, + "epoch": 0.8224, + "eta_time": 2.5823403619455565, + "step": 7710 + }, + { + "epoch": 0.8225066666666667, + "grad_norm": 1.8246476651366585, + "learning_rate": 8.037798894707427e-07, + "loss": 0.4367, + "step": 7711 + }, + { + "avg_step_time": 5.56250146904377, + "epoch": 0.8225066666666667, + "eta_time": 2.571111790135787, + "step": 7711 + }, + { + "epoch": 0.8226133333333333, + "grad_norm": 0.6492434719280249, + "learning_rate": 8.028408148331296e-07, + "loss": 0.4252, + "step": 7712 + }, + { + "avg_step_time": 5.52857363344443, + "epoch": 0.8226133333333333, + "eta_time": 2.553893875671691, + "step": 7712 + }, + { + "epoch": 0.82272, + "grad_norm": 1.965400307194683, + "learning_rate": 8.019022411990634e-07, + "loss": 0.4797, + "step": 7713 + }, + { + "avg_step_time": 5.529352676988852, + "epoch": 0.82272, + "eta_time": 2.552717819209853, + "step": 7713 + }, + { + "epoch": 0.8228266666666667, + "grad_norm": 2.042316952818352, + "learning_rate": 8.009641686805786e-07, + "loss": 0.4227, + "step": 7714 + }, + { + "avg_step_time": 5.531383210962469, + "epoch": 0.8228266666666667, + "eta_time": 2.552118753724628, + "step": 7714 + }, + { + "epoch": 0.8229333333333333, + "grad_norm": 1.921358707463457, + "learning_rate": 8.000265973896487e-07, + "loss": 0.4608, + "step": 7715 + }, + { + "avg_step_time": 5.532240154767277, + "epoch": 0.8229333333333333, + "eta_time": 2.5509774046982447, + "step": 7715 + }, + { + "epoch": 0.82304, + "grad_norm": 2.0314807033756224, + "learning_rate": 7.99089527438191e-07, + "loss": 0.5053, + "step": 7716 + }, + { + "avg_step_time": 5.536141178824685, + "epoch": 0.82304, + "eta_time": 2.551238393241709, + "step": 7716 + }, + { + "epoch": 0.8231466666666667, + "grad_norm": 1.7864752904801582, + "learning_rate": 7.98152958938061e-07, + "loss": 0.405, + "step": 7717 + }, + { + "avg_step_time": 5.54935325275768, + "epoch": 0.8231466666666667, + "eta_time": 2.5557854702978426, + "step": 7717 + }, + { + "epoch": 0.8232533333333333, + "grad_norm": 0.6348964628194784, + "learning_rate": 7.972168920010531e-07, + "loss": 0.4283, + "step": 7718 + }, + { + "avg_step_time": 5.519239825431747, + "epoch": 0.8232533333333333, + "eta_time": 2.540383441872334, + "step": 7718 + }, + { + "epoch": 0.82336, + "grad_norm": 1.9857007481724442, + "learning_rate": 7.962813267389052e-07, + "loss": 0.4631, + "step": 7719 + }, + { + "avg_step_time": 5.517910189098782, + "epoch": 0.82336, + "eta_time": 2.53823868698544, + "step": 7719 + }, + { + "epoch": 0.8234666666666667, + "grad_norm": 1.935579492604969, + "learning_rate": 7.953462632632903e-07, + "loss": 0.5469, + "step": 7720 + }, + { + "avg_step_time": 5.527522455562245, + "epoch": 0.8234666666666667, + "eta_time": 2.54112490665431, + "step": 7720 + }, + { + "epoch": 0.8235733333333334, + "grad_norm": 1.9497138522554422, + "learning_rate": 7.944117016858272e-07, + "loss": 0.6149, + "step": 7721 + }, + { + "avg_step_time": 5.5278826072962595, + "epoch": 0.8235733333333334, + "eta_time": 2.539754953463337, + "step": 7721 + }, + { + "epoch": 0.82368, + "grad_norm": 1.6035447752618044, + "learning_rate": 7.93477642118069e-07, + "loss": 0.4265, + "step": 7722 + }, + { + "avg_step_time": 5.531854147862906, + "epoch": 0.82368, + "eta_time": 2.540043029560384, + "step": 7722 + }, + { + "epoch": 0.8237866666666667, + "grad_norm": 1.8860712763390015, + "learning_rate": 7.925440846715154e-07, + "loss": 0.3997, + "step": 7723 + }, + { + "avg_step_time": 5.557127475738525, + "epoch": 0.8237866666666667, + "eta_time": 2.5501040527555676, + "step": 7723 + }, + { + "epoch": 0.8238933333333334, + "grad_norm": 2.0773302710806467, + "learning_rate": 7.916110294575996e-07, + "loss": 0.5078, + "step": 7724 + }, + { + "avg_step_time": 5.558410972055762, + "epoch": 0.8238933333333334, + "eta_time": 2.5491490319066847, + "step": 7724 + }, + { + "epoch": 0.824, + "grad_norm": 2.1954718907125432, + "learning_rate": 7.906784765876985e-07, + "loss": 0.5405, + "step": 7725 + }, + { + "avg_step_time": 5.646795520878801, + "epoch": 0.824, + "eta_time": 2.588114613736117, + "step": 7725 + }, + { + "epoch": 0.8241066666666667, + "grad_norm": 1.8270109559947787, + "learning_rate": 7.897464261731308e-07, + "loss": 0.5175, + "step": 7726 + }, + { + "avg_step_time": 5.648398218732892, + "epoch": 0.8241066666666667, + "eta_time": 2.587280184080705, + "step": 7726 + }, + { + "epoch": 0.8242133333333334, + "grad_norm": 2.09826805796941, + "learning_rate": 7.888148783251509e-07, + "loss": 0.5029, + "step": 7727 + }, + { + "avg_step_time": 5.665895276599461, + "epoch": 0.8242133333333334, + "eta_time": 2.593720948843308, + "step": 7727 + }, + { + "epoch": 0.82432, + "grad_norm": 1.6544331860654262, + "learning_rate": 7.878838331549538e-07, + "loss": 0.4506, + "step": 7728 + }, + { + "avg_step_time": 5.669524491435349, + "epoch": 0.82432, + "eta_time": 2.5938074548316723, + "step": 7728 + }, + { + "epoch": 0.8244266666666666, + "grad_norm": 1.6765684389367208, + "learning_rate": 7.869532907736787e-07, + "loss": 0.5352, + "step": 7729 + }, + { + "avg_step_time": 5.667210056324198, + "epoch": 0.8244266666666666, + "eta_time": 2.5911743757526744, + "step": 7729 + }, + { + "epoch": 0.8245333333333333, + "grad_norm": 1.539214920173911, + "learning_rate": 7.860232512923993e-07, + "loss": 0.4322, + "step": 7730 + }, + { + "avg_step_time": 5.65114447083136, + "epoch": 0.8245333333333333, + "eta_time": 2.5822590706993296, + "step": 7730 + }, + { + "epoch": 0.82464, + "grad_norm": 0.5979539430579167, + "learning_rate": 7.850937148221332e-07, + "loss": 0.4086, + "step": 7731 + }, + { + "avg_step_time": 5.61907979454657, + "epoch": 0.82464, + "eta_time": 2.5660464395096003, + "step": 7731 + }, + { + "epoch": 0.8247466666666666, + "grad_norm": 1.5537210246952216, + "learning_rate": 7.841646814738374e-07, + "loss": 0.3686, + "step": 7732 + }, + { + "avg_step_time": 5.609843675536339, + "epoch": 0.8247466666666666, + "eta_time": 2.56027032191839, + "step": 7732 + }, + { + "epoch": 0.8248533333333333, + "grad_norm": 1.8460444401149594, + "learning_rate": 7.83236151358408e-07, + "loss": 0.5067, + "step": 7733 + }, + { + "avg_step_time": 5.631560207617404, + "epoch": 0.8248533333333333, + "eta_time": 2.5686171835854936, + "step": 7733 + }, + { + "epoch": 0.82496, + "grad_norm": 0.6355902326155881, + "learning_rate": 7.823081245866776e-07, + "loss": 0.4363, + "step": 7734 + }, + { + "avg_step_time": 5.594720067399921, + "epoch": 0.82496, + "eta_time": 2.550259897389797, + "step": 7734 + }, + { + "epoch": 0.8250666666666666, + "grad_norm": 0.6638704525096084, + "learning_rate": 7.813806012694275e-07, + "loss": 0.4591, + "step": 7735 + }, + { + "avg_step_time": 5.559229848360775, + "epoch": 0.8250666666666666, + "eta_time": 2.5325380420310193, + "step": 7735 + }, + { + "epoch": 0.8251733333333333, + "grad_norm": 1.8999292904288607, + "learning_rate": 7.804535815173714e-07, + "loss": 0.4839, + "step": 7736 + }, + { + "avg_step_time": 5.555075621364092, + "epoch": 0.8251733333333333, + "eta_time": 2.529102484282152, + "step": 7736 + }, + { + "epoch": 0.82528, + "grad_norm": 1.9111357196135685, + "learning_rate": 7.795270654411635e-07, + "loss": 0.5526, + "step": 7737 + }, + { + "avg_step_time": 5.551459452118537, + "epoch": 0.82528, + "eta_time": 2.525914050713934, + "step": 7737 + }, + { + "epoch": 0.8253866666666667, + "grad_norm": 0.6524165396208648, + "learning_rate": 7.786010531514026e-07, + "loss": 0.4551, + "step": 7738 + }, + { + "avg_step_time": 5.521537212410358, + "epoch": 0.8253866666666667, + "eta_time": 2.5107656713099322, + "step": 7738 + }, + { + "epoch": 0.8254933333333333, + "grad_norm": 1.8680763499430404, + "learning_rate": 7.776755447586209e-07, + "loss": 0.4818, + "step": 7739 + }, + { + "avg_step_time": 5.519692507657138, + "epoch": 0.8254933333333333, + "eta_time": 2.5083935951464102, + "step": 7739 + }, + { + "epoch": 0.8256, + "grad_norm": 2.0676017858990283, + "learning_rate": 7.767505403732961e-07, + "loss": 0.4773, + "step": 7740 + }, + { + "avg_step_time": 5.518097699290574, + "epoch": 0.8256, + "eta_time": 2.5061360384278024, + "step": 7740 + }, + { + "epoch": 0.8257066666666667, + "grad_norm": 1.835701378027543, + "learning_rate": 7.758260401058442e-07, + "loss": 0.4461, + "step": 7741 + }, + { + "avg_step_time": 5.544443884281197, + "epoch": 0.8257066666666667, + "eta_time": 2.516561474143188, + "step": 7741 + }, + { + "epoch": 0.8258133333333333, + "grad_norm": 1.7375899451112, + "learning_rate": 7.749020440666188e-07, + "loss": 0.3961, + "step": 7742 + }, + { + "avg_step_time": 5.543038556070039, + "epoch": 0.8258133333333333, + "eta_time": 2.5143838783506594, + "step": 7742 + }, + { + "epoch": 0.82592, + "grad_norm": 1.941879618492904, + "learning_rate": 7.739785523659144e-07, + "loss": 0.4763, + "step": 7743 + }, + { + "avg_step_time": 5.560382310790245, + "epoch": 0.82592, + "eta_time": 2.520706647558244, + "step": 7743 + }, + { + "epoch": 0.8260266666666667, + "grad_norm": 1.5674080284143526, + "learning_rate": 7.73055565113966e-07, + "loss": 0.4155, + "step": 7744 + }, + { + "avg_step_time": 5.558510857399064, + "epoch": 0.8260266666666667, + "eta_time": 2.51831422456052, + "step": 7744 + }, + { + "epoch": 0.8261333333333334, + "grad_norm": 0.7090768248103886, + "learning_rate": 7.721330824209495e-07, + "loss": 0.4493, + "step": 7745 + }, + { + "avg_step_time": 5.470226063872829, + "epoch": 0.8261333333333334, + "eta_time": 2.4767968011424197, + "step": 7745 + }, + { + "epoch": 0.82624, + "grad_norm": 2.098958581333925, + "learning_rate": 7.712111043969772e-07, + "loss": 0.4799, + "step": 7746 + }, + { + "avg_step_time": 5.463490840160485, + "epoch": 0.82624, + "eta_time": 2.47222960517262, + "step": 7746 + }, + { + "epoch": 0.8263466666666667, + "grad_norm": 1.5685904236772787, + "learning_rate": 7.702896311521052e-07, + "loss": 0.3922, + "step": 7747 + }, + { + "avg_step_time": 5.440814357815367, + "epoch": 0.8263466666666667, + "eta_time": 2.4604571595898386, + "step": 7747 + }, + { + "epoch": 0.8264533333333334, + "grad_norm": 1.822586426566822, + "learning_rate": 7.69368662796326e-07, + "loss": 0.4842, + "step": 7748 + }, + { + "avg_step_time": 5.442094340468898, + "epoch": 0.8264533333333334, + "eta_time": 2.4595243033174716, + "step": 7748 + }, + { + "epoch": 0.82656, + "grad_norm": 2.3609407280512325, + "learning_rate": 7.684481994395726e-07, + "loss": 0.5308, + "step": 7749 + }, + { + "avg_step_time": 5.428108029895359, + "epoch": 0.82656, + "eta_time": 2.451695460169404, + "step": 7749 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 1.8580816005730534, + "learning_rate": 7.675282411917184e-07, + "loss": 0.4791, + "step": 7750 + }, + { + "avg_step_time": 5.431362091892898, + "epoch": 0.8266666666666667, + "eta_time": 2.4516564998127666, + "step": 7750 + }, + { + "epoch": 0.8267733333333334, + "grad_norm": 1.7694982691978258, + "learning_rate": 7.666087881625778e-07, + "loss": 0.4385, + "step": 7751 + }, + { + "avg_step_time": 5.465332423797761, + "epoch": 0.8267733333333334, + "eta_time": 2.46547218229099, + "step": 7751 + }, + { + "epoch": 0.82688, + "grad_norm": 2.3813278024973417, + "learning_rate": 7.656898404619029e-07, + "loss": 0.5639, + "step": 7752 + }, + { + "avg_step_time": 5.465930589521774, + "epoch": 0.82688, + "eta_time": 2.464223707442733, + "step": 7752 + }, + { + "epoch": 0.8269866666666666, + "grad_norm": 1.8521097207700339, + "learning_rate": 7.647713981993843e-07, + "loss": 0.4163, + "step": 7753 + }, + { + "avg_step_time": 5.471276557806767, + "epoch": 0.8269866666666666, + "eta_time": 2.4651140491007153, + "step": 7753 + }, + { + "epoch": 0.8270933333333333, + "grad_norm": 1.812877309776721, + "learning_rate": 7.638534614846548e-07, + "loss": 0.4539, + "step": 7754 + }, + { + "avg_step_time": 5.473180000228111, + "epoch": 0.8270933333333333, + "eta_time": 2.464451327880491, + "step": 7754 + }, + { + "epoch": 0.8272, + "grad_norm": 1.9262694787601258, + "learning_rate": 7.629360304272882e-07, + "loss": 0.4688, + "step": 7755 + }, + { + "avg_step_time": 5.470127510301994, + "epoch": 0.8272, + "eta_time": 2.4615573796358974, + "step": 7755 + }, + { + "epoch": 0.8273066666666666, + "grad_norm": 2.1096619761309263, + "learning_rate": 7.620191051367926e-07, + "loss": 0.5857, + "step": 7756 + }, + { + "avg_step_time": 5.462595860163371, + "epoch": 0.8273066666666666, + "eta_time": 2.4566507493345826, + "step": 7756 + }, + { + "epoch": 0.8274133333333333, + "grad_norm": 1.6609245631583485, + "learning_rate": 7.611026857226212e-07, + "loss": 0.4359, + "step": 7757 + }, + { + "avg_step_time": 5.4938239015714085, + "epoch": 0.8274133333333333, + "eta_time": 2.469168631317372, + "step": 7757 + }, + { + "epoch": 0.82752, + "grad_norm": 0.6617497678101976, + "learning_rate": 7.601867722941642e-07, + "loss": 0.4404, + "step": 7758 + }, + { + "avg_step_time": 5.455357785176749, + "epoch": 0.82752, + "eta_time": 2.4503648718418893, + "step": 7758 + }, + { + "epoch": 0.8276266666666666, + "grad_norm": 1.9566244001792084, + "learning_rate": 7.59271364960748e-07, + "loss": 0.6258, + "step": 7759 + }, + { + "avg_step_time": 5.484084618211996, + "epoch": 0.8276266666666666, + "eta_time": 2.4617446508418293, + "step": 7759 + }, + { + "epoch": 0.8277333333333333, + "grad_norm": 1.8358558817601816, + "learning_rate": 7.583564638316481e-07, + "loss": 0.5285, + "step": 7760 + }, + { + "avg_step_time": 5.5577730169199935, + "epoch": 0.8277333333333333, + "eta_time": 2.4932787284238302, + "step": 7760 + }, + { + "epoch": 0.82784, + "grad_norm": 1.7854633249427183, + "learning_rate": 7.57442069016071e-07, + "loss": 0.4299, + "step": 7761 + }, + { + "avg_step_time": 5.574459133726178, + "epoch": 0.82784, + "eta_time": 2.4992158449539033, + "step": 7761 + }, + { + "epoch": 0.8279466666666667, + "grad_norm": 2.023250569616486, + "learning_rate": 7.565281806231645e-07, + "loss": 0.4405, + "step": 7762 + }, + { + "avg_step_time": 5.575832916028572, + "epoch": 0.8279466666666667, + "eta_time": 2.4982829148761354, + "step": 7762 + }, + { + "epoch": 0.8280533333333333, + "grad_norm": 1.789535934428035, + "learning_rate": 7.556147987620193e-07, + "loss": 0.4767, + "step": 7763 + }, + { + "avg_step_time": 5.571086777581109, + "epoch": 0.8280533333333333, + "eta_time": 2.49460885707243, + "step": 7763 + }, + { + "epoch": 0.82816, + "grad_norm": 1.9895105201008418, + "learning_rate": 7.547019235416609e-07, + "loss": 0.5527, + "step": 7764 + }, + { + "avg_step_time": 5.540071696946115, + "epoch": 0.82816, + "eta_time": 2.4791820843833867, + "step": 7764 + }, + { + "epoch": 0.8282666666666667, + "grad_norm": 1.5322051675392998, + "learning_rate": 7.537895550710583e-07, + "loss": 0.4353, + "step": 7765 + }, + { + "avg_step_time": 5.531298001607259, + "epoch": 0.8282666666666667, + "eta_time": 2.473719384052135, + "step": 7765 + }, + { + "epoch": 0.8283733333333333, + "grad_norm": 1.9029694222285993, + "learning_rate": 7.528776934591186e-07, + "loss": 0.4403, + "step": 7766 + }, + { + "avg_step_time": 5.534136651742338, + "epoch": 0.8283733333333333, + "eta_time": 2.4734516312926167, + "step": 7766 + }, + { + "epoch": 0.82848, + "grad_norm": 1.6909236982370024, + "learning_rate": 7.519663388146886e-07, + "loss": 0.3485, + "step": 7767 + }, + { + "avg_step_time": 5.590600020957716, + "epoch": 0.82848, + "eta_time": 2.4971346760277795, + "step": 7767 + }, + { + "epoch": 0.8285866666666667, + "grad_norm": 1.8788792401589909, + "learning_rate": 7.510554912465517e-07, + "loss": 0.4475, + "step": 7768 + }, + { + "avg_step_time": 5.585339970058865, + "epoch": 0.8285866666666667, + "eta_time": 2.4932337033012764, + "step": 7768 + }, + { + "epoch": 0.8286933333333333, + "grad_norm": 1.9276176189380954, + "learning_rate": 7.50145150863435e-07, + "loss": 0.4708, + "step": 7769 + }, + { + "avg_step_time": 5.620409158745197, + "epoch": 0.8286933333333333, + "eta_time": 2.507326974706885, + "step": 7769 + }, + { + "epoch": 0.8288, + "grad_norm": 2.1975134602177455, + "learning_rate": 7.492353177740047e-07, + "loss": 0.4938, + "step": 7770 + }, + { + "avg_step_time": 5.618040660415033, + "epoch": 0.8288, + "eta_time": 2.5047097944350356, + "step": 7770 + }, + { + "epoch": 0.8289066666666667, + "grad_norm": 1.8546379127238968, + "learning_rate": 7.48325992086863e-07, + "loss": 0.5567, + "step": 7771 + }, + { + "avg_step_time": 5.6566513981482, + "epoch": 0.8289066666666667, + "eta_time": 2.520352456286031, + "step": 7771 + }, + { + "epoch": 0.8290133333333334, + "grad_norm": 2.0216364133916787, + "learning_rate": 7.474171739105551e-07, + "loss": 0.4431, + "step": 7772 + }, + { + "avg_step_time": 5.658444339578802, + "epoch": 0.8290133333333334, + "eta_time": 2.5195795212068943, + "step": 7772 + }, + { + "epoch": 0.82912, + "grad_norm": 1.891286910491915, + "learning_rate": 7.465088633535639e-07, + "loss": 0.4217, + "step": 7773 + }, + { + "avg_step_time": 5.660592353705204, + "epoch": 0.82912, + "eta_time": 2.5189635973988156, + "step": 7773 + }, + { + "epoch": 0.8292266666666667, + "grad_norm": 1.8464725965020015, + "learning_rate": 7.456010605243103e-07, + "loss": 0.4632, + "step": 7774 + }, + { + "avg_step_time": 5.685306765816429, + "epoch": 0.8292266666666667, + "eta_time": 2.528382258908917, + "step": 7774 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 2.0872242338030844, + "learning_rate": 7.446937655311576e-07, + "loss": 0.5135, + "step": 7775 + }, + { + "avg_step_time": 5.687187926937836, + "epoch": 0.8293333333333334, + "eta_time": 2.527639078639038, + "step": 7775 + }, + { + "epoch": 0.82944, + "grad_norm": 1.8907392081126384, + "learning_rate": 7.437869784824086e-07, + "loss": 0.4803, + "step": 7776 + }, + { + "avg_step_time": 5.726222262238011, + "epoch": 0.82944, + "eta_time": 2.5433970548107165, + "step": 7776 + }, + { + "epoch": 0.8295466666666667, + "grad_norm": 2.073526695973297, + "learning_rate": 7.428806994863014e-07, + "loss": 0.4534, + "step": 7777 + }, + { + "avg_step_time": 5.725127241828225, + "epoch": 0.8295466666666667, + "eta_time": 2.54132037012264, + "step": 7777 + }, + { + "epoch": 0.8296533333333334, + "grad_norm": 1.7403785349217515, + "learning_rate": 7.41974928651017e-07, + "loss": 0.4428, + "step": 7778 + }, + { + "avg_step_time": 5.727529713601777, + "epoch": 0.8296533333333334, + "eta_time": 2.5407958201727885, + "step": 7778 + }, + { + "epoch": 0.82976, + "grad_norm": 1.8057150982972952, + "learning_rate": 7.410696660846761e-07, + "loss": 0.3649, + "step": 7779 + }, + { + "avg_step_time": 5.724308283642085, + "epoch": 0.82976, + "eta_time": 2.5377766724146573, + "step": 7779 + }, + { + "epoch": 0.8298666666666666, + "grad_norm": 1.7815824787358052, + "learning_rate": 7.401649118953364e-07, + "loss": 0.4862, + "step": 7780 + }, + { + "avg_step_time": 5.723928449129818, + "epoch": 0.8298666666666666, + "eta_time": 2.536018298989461, + "step": 7780 + }, + { + "epoch": 0.8299733333333333, + "grad_norm": 1.7167486017773883, + "learning_rate": 7.392606661909946e-07, + "loss": 0.4769, + "step": 7781 + }, + { + "avg_step_time": 5.762385811468567, + "epoch": 0.8299733333333333, + "eta_time": 2.551456384300249, + "step": 7781 + }, + { + "epoch": 0.83008, + "grad_norm": 1.5920553948999239, + "learning_rate": 7.383569290795911e-07, + "loss": 0.4062, + "step": 7782 + }, + { + "avg_step_time": 5.795921186004022, + "epoch": 0.83008, + "eta_time": 2.56469512480678, + "step": 7782 + }, + { + "epoch": 0.8301866666666666, + "grad_norm": 2.098287852621799, + "learning_rate": 7.374537006689991e-07, + "loss": 0.5101, + "step": 7783 + }, + { + "avg_step_time": 5.777024447315871, + "epoch": 0.8301866666666666, + "eta_time": 2.55472858892413, + "step": 7783 + }, + { + "epoch": 0.8302933333333333, + "grad_norm": 2.136184882946262, + "learning_rate": 7.365509810670369e-07, + "loss": 0.4389, + "step": 7784 + }, + { + "avg_step_time": 5.782295133128311, + "epoch": 0.8302933333333333, + "eta_time": 2.555453210224206, + "step": 7784 + }, + { + "epoch": 0.8304, + "grad_norm": 1.5411825585027392, + "learning_rate": 7.356487703814602e-07, + "loss": 0.4568, + "step": 7785 + }, + { + "avg_step_time": 5.776867223508431, + "epoch": 0.8304, + "eta_time": 2.5514496903828903, + "step": 7785 + }, + { + "epoch": 0.8305066666666666, + "grad_norm": 2.001370356245638, + "learning_rate": 7.34747068719962e-07, + "loss": 0.4383, + "step": 7786 + }, + { + "avg_step_time": 5.775712376893169, + "epoch": 0.8305066666666666, + "eta_time": 2.549335268578679, + "step": 7786 + }, + { + "epoch": 0.8306133333333333, + "grad_norm": 1.88222356308296, + "learning_rate": 7.338458761901757e-07, + "loss": 0.4631, + "step": 7787 + }, + { + "avg_step_time": 5.776331961757005, + "epoch": 0.8306133333333333, + "eta_time": 2.5480042097972566, + "step": 7787 + }, + { + "epoch": 0.83072, + "grad_norm": 2.063870908332553, + "learning_rate": 7.329451928996745e-07, + "loss": 0.516, + "step": 7788 + }, + { + "avg_step_time": 5.757362931665748, + "epoch": 0.83072, + "eta_time": 2.5380374923759836, + "step": 7788 + }, + { + "epoch": 0.8308266666666667, + "grad_norm": 1.8739271371194444, + "learning_rate": 7.320450189559719e-07, + "loss": 0.441, + "step": 7789 + }, + { + "avg_step_time": 5.752521078995984, + "epoch": 0.8308266666666667, + "eta_time": 2.534305119802119, + "step": 7789 + }, + { + "epoch": 0.8309333333333333, + "grad_norm": 2.050568104178868, + "learning_rate": 7.311453544665175e-07, + "loss": 0.5815, + "step": 7790 + }, + { + "avg_step_time": 5.752851271870161, + "epoch": 0.8309333333333333, + "eta_time": 2.532852573865057, + "step": 7790 + }, + { + "epoch": 0.83104, + "grad_norm": 1.7737393392541256, + "learning_rate": 7.302461995387033e-07, + "loss": 0.424, + "step": 7791 + }, + { + "avg_step_time": 5.753379332898843, + "epoch": 0.83104, + "eta_time": 2.531486906475491, + "step": 7791 + }, + { + "epoch": 0.8311466666666667, + "grad_norm": 2.367609353620626, + "learning_rate": 7.293475542798589e-07, + "loss": 0.5003, + "step": 7792 + }, + { + "avg_step_time": 5.754422084249631, + "epoch": 0.8311466666666667, + "eta_time": 2.5303472664908795, + "step": 7792 + }, + { + "epoch": 0.8312533333333333, + "grad_norm": 0.6576769038530258, + "learning_rate": 7.284494187972496e-07, + "loss": 0.4357, + "step": 7793 + }, + { + "avg_step_time": 5.720297914562804, + "epoch": 0.8312533333333333, + "eta_time": 2.5137531391217656, + "step": 7793 + }, + { + "epoch": 0.83136, + "grad_norm": 1.772849940871932, + "learning_rate": 7.275517931980886e-07, + "loss": 0.4159, + "step": 7794 + }, + { + "avg_step_time": 5.7414762588462445, + "epoch": 0.83136, + "eta_time": 2.521464990343309, + "step": 7794 + }, + { + "epoch": 0.8314666666666667, + "grad_norm": 1.6245295186702768, + "learning_rate": 7.266546775895212e-07, + "loss": 0.4555, + "step": 7795 + }, + { + "avg_step_time": 5.732056468424171, + "epoch": 0.8314666666666667, + "eta_time": 2.515735894475053, + "step": 7795 + }, + { + "epoch": 0.8315733333333334, + "grad_norm": 1.7669709559876252, + "learning_rate": 7.257580720786317e-07, + "loss": 0.5652, + "step": 7796 + }, + { + "avg_step_time": 5.736792126087227, + "epoch": 0.8315733333333334, + "eta_time": 2.5162207686365923, + "step": 7796 + }, + { + "epoch": 0.83168, + "grad_norm": 1.5089607016777418, + "learning_rate": 7.24861976772448e-07, + "loss": 0.4319, + "step": 7797 + }, + { + "avg_step_time": 5.721833308537801, + "epoch": 0.83168, + "eta_time": 2.5080702669090695, + "step": 7797 + }, + { + "epoch": 0.8317866666666667, + "grad_norm": 1.7204849938488382, + "learning_rate": 7.239663917779327e-07, + "loss": 0.4068, + "step": 7798 + }, + { + "avg_step_time": 5.718446553355515, + "epoch": 0.8317866666666667, + "eta_time": 2.504997281844902, + "step": 7798 + }, + { + "epoch": 0.8318933333333334, + "grad_norm": 1.6826323761518787, + "learning_rate": 7.230713172019899e-07, + "loss": 0.4887, + "step": 7799 + }, + { + "avg_step_time": 5.745152507165466, + "epoch": 0.8318933333333334, + "eta_time": 2.5151000975813265, + "step": 7799 + }, + { + "epoch": 0.832, + "grad_norm": 1.753710863017051, + "learning_rate": 7.22176753151464e-07, + "loss": 0.5014, + "step": 7800 + }, + { + "avg_step_time": 5.7431685129801435, + "epoch": 0.832, + "eta_time": 2.5126362244288125, + "step": 7800 + }, + { + "epoch": 0.8321066666666667, + "grad_norm": 1.8836493596485493, + "learning_rate": 7.212826997331352e-07, + "loss": 0.4927, + "step": 7801 + }, + { + "avg_step_time": 5.740133157884232, + "epoch": 0.8321066666666667, + "eta_time": 2.509713775141606, + "step": 7801 + }, + { + "epoch": 0.8322133333333334, + "grad_norm": 1.8930879773198115, + "learning_rate": 7.203891570537225e-07, + "loss": 0.4948, + "step": 7802 + }, + { + "avg_step_time": 5.7858359163457695, + "epoch": 0.8322133333333334, + "eta_time": 2.5280888601144156, + "step": 7802 + }, + { + "epoch": 0.83232, + "grad_norm": 1.9073362564623437, + "learning_rate": 7.194961252198885e-07, + "loss": 0.4324, + "step": 7803 + }, + { + "avg_step_time": 5.820718784524937, + "epoch": 0.83232, + "eta_time": 2.541713869242556, + "step": 7803 + }, + { + "epoch": 0.8324266666666666, + "grad_norm": 2.1321453469230605, + "learning_rate": 7.186036043382311e-07, + "loss": 0.5144, + "step": 7804 + }, + { + "avg_step_time": 5.821969499491682, + "epoch": 0.8324266666666666, + "eta_time": 2.540642801028176, + "step": 7804 + }, + { + "epoch": 0.8325333333333333, + "grad_norm": 1.7868792586025535, + "learning_rate": 7.177115945152885e-07, + "loss": 0.463, + "step": 7805 + }, + { + "avg_step_time": 5.840701076719496, + "epoch": 0.8325333333333333, + "eta_time": 2.5471946362360027, + "step": 7805 + }, + { + "epoch": 0.83264, + "grad_norm": 1.8402012023509855, + "learning_rate": 7.168200958575361e-07, + "loss": 0.4516, + "step": 7806 + }, + { + "avg_step_time": 5.8388003965820925, + "epoch": 0.83264, + "eta_time": 2.544743839510362, + "step": 7806 + }, + { + "epoch": 0.8327466666666666, + "grad_norm": 1.9630053862174923, + "learning_rate": 7.15929108471391e-07, + "loss": 0.4906, + "step": 7807 + }, + { + "avg_step_time": 5.836084329720699, + "epoch": 0.8327466666666666, + "eta_time": 2.5419389525005713, + "step": 7807 + }, + { + "epoch": 0.8328533333333333, + "grad_norm": 1.7112636402939188, + "learning_rate": 7.150386324632069e-07, + "loss": 0.438, + "step": 7808 + }, + { + "avg_step_time": 5.857340049261999, + "epoch": 0.8328533333333333, + "eta_time": 2.5495699603315423, + "step": 7808 + }, + { + "epoch": 0.83296, + "grad_norm": 2.1139903415959234, + "learning_rate": 7.141486679392778e-07, + "loss": 0.5717, + "step": 7809 + }, + { + "avg_step_time": 5.920960693648367, + "epoch": 0.83296, + "eta_time": 2.57561790173704, + "step": 7809 + }, + { + "epoch": 0.8330666666666666, + "grad_norm": 1.6910100478904648, + "learning_rate": 7.132592150058382e-07, + "loss": 0.496, + "step": 7810 + }, + { + "avg_step_time": 5.9283302336028125, + "epoch": 0.8330666666666666, + "eta_time": 2.5771768932190007, + "step": 7810 + }, + { + "epoch": 0.8331733333333333, + "grad_norm": 1.7554929323759367, + "learning_rate": 7.123702737690574e-07, + "loss": 0.4551, + "step": 7811 + }, + { + "avg_step_time": 5.961725519161032, + "epoch": 0.8331733333333333, + "eta_time": 2.590038531102182, + "step": 7811 + }, + { + "epoch": 0.83328, + "grad_norm": 1.7760974657981827, + "learning_rate": 7.114818443350463e-07, + "loss": 0.5451, + "step": 7812 + }, + { + "avg_step_time": 5.9645673819262575, + "epoch": 0.83328, + "eta_time": 2.5896163383196504, + "step": 7812 + }, + { + "epoch": 0.8333866666666667, + "grad_norm": 1.920030814062967, + "learning_rate": 7.105939268098544e-07, + "loss": 0.5143, + "step": 7813 + }, + { + "avg_step_time": 5.9884175218717015, + "epoch": 0.8333866666666667, + "eta_time": 2.5983078247676663, + "step": 7813 + }, + { + "epoch": 0.8334933333333333, + "grad_norm": 1.735256815622028, + "learning_rate": 7.097065212994714e-07, + "loss": 0.4371, + "step": 7814 + }, + { + "avg_step_time": 5.98772499778054, + "epoch": 0.8334933333333333, + "eta_time": 2.5963440893153953, + "step": 7814 + }, + { + "epoch": 0.8336, + "grad_norm": 1.8094520940359475, + "learning_rate": 7.088196279098225e-07, + "loss": 0.4179, + "step": 7815 + }, + { + "avg_step_time": 5.984633498721653, + "epoch": 0.8336, + "eta_time": 2.5933411827793833, + "step": 7815 + }, + { + "epoch": 0.8337066666666667, + "grad_norm": 2.0202692421430344, + "learning_rate": 7.079332467467753e-07, + "loss": 0.4284, + "step": 7816 + }, + { + "avg_step_time": 5.97271169315685, + "epoch": 0.8337066666666667, + "eta_time": 2.5865159804532025, + "step": 7816 + }, + { + "epoch": 0.8338133333333333, + "grad_norm": 0.6501374008468613, + "learning_rate": 7.070473779161346e-07, + "loss": 0.4378, + "step": 7817 + }, + { + "avg_step_time": 5.969715462790595, + "epoch": 0.8338133333333333, + "eta_time": 2.583560191952152, + "step": 7817 + }, + { + "epoch": 0.83392, + "grad_norm": 1.8342149359755804, + "learning_rate": 7.061620215236415e-07, + "loss": 0.4273, + "step": 7818 + }, + { + "avg_step_time": 5.967080908592301, + "epoch": 0.83392, + "eta_time": 2.58076249296617, + "step": 7818 + }, + { + "epoch": 0.8340266666666667, + "grad_norm": 2.903101689716693, + "learning_rate": 7.052771776749823e-07, + "loss": 0.403, + "step": 7819 + }, + { + "avg_step_time": 5.953482011351922, + "epoch": 0.8340266666666667, + "eta_time": 2.573227224906553, + "step": 7819 + }, + { + "epoch": 0.8341333333333333, + "grad_norm": 1.7897986398620995, + "learning_rate": 7.043928464757776e-07, + "loss": 0.4237, + "step": 7820 + }, + { + "avg_step_time": 5.953558784542662, + "epoch": 0.8341333333333333, + "eta_time": 2.571606641656622, + "step": 7820 + }, + { + "epoch": 0.83424, + "grad_norm": 1.628997811306136, + "learning_rate": 7.035090280315854e-07, + "loss": 0.4216, + "step": 7821 + }, + { + "avg_step_time": 5.975739743974474, + "epoch": 0.83424, + "eta_time": 2.5795276561489815, + "step": 7821 + }, + { + "epoch": 0.8343466666666667, + "grad_norm": 1.9668237720797406, + "learning_rate": 7.026257224479067e-07, + "loss": 0.5244, + "step": 7822 + }, + { + "avg_step_time": 5.941539540435329, + "epoch": 0.8343466666666667, + "eta_time": 2.563114140637796, + "step": 7822 + }, + { + "epoch": 0.8344533333333334, + "grad_norm": 1.7862794764798107, + "learning_rate": 7.017429298301792e-07, + "loss": 0.4725, + "step": 7823 + }, + { + "avg_step_time": 5.950339336587925, + "epoch": 0.8344533333333334, + "eta_time": 2.565257402884572, + "step": 7823 + }, + { + "epoch": 0.83456, + "grad_norm": 2.322122005543231, + "learning_rate": 7.008606502837784e-07, + "loss": 0.5498, + "step": 7824 + }, + { + "avg_step_time": 5.8999952499312585, + "epoch": 0.83456, + "eta_time": 2.541914620178717, + "step": 7824 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 1.5852329023666858, + "learning_rate": 6.999788839140214e-07, + "loss": 0.4857, + "step": 7825 + }, + { + "avg_step_time": 5.898071948928062, + "epoch": 0.8346666666666667, + "eta_time": 2.53944764467736, + "step": 7825 + }, + { + "epoch": 0.8347733333333334, + "grad_norm": 1.8683903241571407, + "learning_rate": 6.99097630826161e-07, + "loss": 0.3931, + "step": 7826 + }, + { + "avg_step_time": 5.882368333411939, + "epoch": 0.8347733333333334, + "eta_time": 2.531052374570859, + "step": 7826 + }, + { + "epoch": 0.83488, + "grad_norm": 1.9252743266701586, + "learning_rate": 6.982168911253895e-07, + "loss": 0.4799, + "step": 7827 + }, + { + "avg_step_time": 5.883071872923109, + "epoch": 0.83488, + "eta_time": 2.529720905356937, + "step": 7827 + }, + { + "epoch": 0.8349866666666667, + "grad_norm": 1.9619134409949663, + "learning_rate": 6.973366649168389e-07, + "loss": 0.5336, + "step": 7828 + }, + { + "avg_step_time": 5.890225747619012, + "epoch": 0.8349866666666667, + "eta_time": 2.5311608976573923, + "step": 7828 + }, + { + "epoch": 0.8350933333333334, + "grad_norm": 1.8625451452821222, + "learning_rate": 6.964569523055808e-07, + "loss": 0.5054, + "step": 7829 + }, + { + "avg_step_time": 5.893694208125876, + "epoch": 0.8350933333333334, + "eta_time": 2.5310142349340565, + "step": 7829 + }, + { + "epoch": 0.8352, + "grad_norm": 0.647463543689505, + "learning_rate": 6.955777533966212e-07, + "loss": 0.4487, + "step": 7830 + }, + { + "avg_step_time": 5.897674396784619, + "epoch": 0.8352, + "eta_time": 2.531085261953399, + "step": 7830 + }, + { + "epoch": 0.8353066666666666, + "grad_norm": 1.6453172100453186, + "learning_rate": 6.946990682949111e-07, + "loss": 0.4534, + "step": 7831 + }, + { + "avg_step_time": 5.897263228291213, + "epoch": 0.8353066666666666, + "eta_time": 2.52927067346712, + "step": 7831 + }, + { + "epoch": 0.8354133333333333, + "grad_norm": 1.9421096223906331, + "learning_rate": 6.938208971053345e-07, + "loss": 0.4874, + "step": 7832 + }, + { + "avg_step_time": 5.877616395853987, + "epoch": 0.8354133333333333, + "eta_time": 2.519211694111861, + "step": 7832 + }, + { + "epoch": 0.83552, + "grad_norm": 1.9403365463807167, + "learning_rate": 6.929432399327174e-07, + "loss": 0.5347, + "step": 7833 + }, + { + "avg_step_time": 5.912210599340574, + "epoch": 0.83552, + "eta_time": 2.5323968733842124, + "step": 7833 + }, + { + "epoch": 0.8356266666666666, + "grad_norm": 2.003442898152232, + "learning_rate": 6.920660968818216e-07, + "loss": 0.4944, + "step": 7834 + }, + { + "avg_step_time": 5.94716559516059, + "epoch": 0.8356266666666666, + "eta_time": 2.5457172728173525, + "step": 7834 + }, + { + "epoch": 0.8357333333333333, + "grad_norm": 0.6232570758651474, + "learning_rate": 6.911894680573522e-07, + "loss": 0.4451, + "step": 7835 + }, + { + "avg_step_time": 5.914400392108494, + "epoch": 0.8357333333333333, + "eta_time": 2.530049056624189, + "step": 7835 + }, + { + "epoch": 0.83584, + "grad_norm": 2.1256887564382345, + "learning_rate": 6.903133535639467e-07, + "loss": 0.5509, + "step": 7836 + }, + { + "avg_step_time": 5.918100133086696, + "epoch": 0.83584, + "eta_time": 2.5299878068945625, + "step": 7836 + }, + { + "epoch": 0.8359466666666666, + "grad_norm": 1.7968658146691079, + "learning_rate": 6.89437753506187e-07, + "loss": 0.4674, + "step": 7837 + }, + { + "avg_step_time": 5.952428938162448, + "epoch": 0.8359466666666666, + "eta_time": 2.5430099185816233, + "step": 7837 + }, + { + "epoch": 0.8360533333333333, + "grad_norm": 2.346518099568561, + "learning_rate": 6.88562667988591e-07, + "loss": 0.4033, + "step": 7838 + }, + { + "avg_step_time": 5.956738854899551, + "epoch": 0.8360533333333333, + "eta_time": 2.543196561105725, + "step": 7838 + }, + { + "epoch": 0.83616, + "grad_norm": 1.8809184077313754, + "learning_rate": 6.876880971156147e-07, + "loss": 0.5118, + "step": 7839 + }, + { + "avg_step_time": 5.955234546854038, + "epoch": 0.83616, + "eta_time": 2.54090007332439, + "step": 7839 + }, + { + "epoch": 0.8362666666666667, + "grad_norm": 2.0361842187640002, + "learning_rate": 6.868140409916518e-07, + "loss": 0.5249, + "step": 7840 + }, + { + "avg_step_time": 5.929024925135603, + "epoch": 0.8362666666666667, + "eta_time": 2.528070350023097, + "step": 7840 + }, + { + "epoch": 0.8363733333333333, + "grad_norm": 1.9841857948882624, + "learning_rate": 6.859404997210384e-07, + "loss": 0.4412, + "step": 7841 + }, + { + "avg_step_time": 5.9289612529253715, + "epoch": 0.8363733333333333, + "eta_time": 2.526396267218755, + "step": 7841 + }, + { + "epoch": 0.83648, + "grad_norm": 1.4789032558591102, + "learning_rate": 6.850674734080454e-07, + "loss": 0.4305, + "step": 7842 + }, + { + "avg_step_time": 5.914365421641957, + "epoch": 0.83648, + "eta_time": 2.5185339420492, + "step": 7842 + }, + { + "epoch": 0.8365866666666667, + "grad_norm": 1.9643875088975544, + "learning_rate": 6.841949621568833e-07, + "loss": 0.4993, + "step": 7843 + }, + { + "avg_step_time": 5.911888606620558, + "epoch": 0.8365866666666667, + "eta_time": 2.51583704037297, + "step": 7843 + }, + { + "epoch": 0.8366933333333333, + "grad_norm": 1.732455524186558, + "learning_rate": 6.833229660717033e-07, + "loss": 0.5103, + "step": 7844 + }, + { + "avg_step_time": 5.9557447409389, + "epoch": 0.8366933333333333, + "eta_time": 2.532845888438182, + "step": 7844 + }, + { + "epoch": 0.8368, + "grad_norm": 1.9835943448360531, + "learning_rate": 6.824514852565922e-07, + "loss": 0.4741, + "step": 7845 + }, + { + "avg_step_time": 5.958139308775314, + "epoch": 0.8368, + "eta_time": 2.532209206229508, + "step": 7845 + }, + { + "epoch": 0.8369066666666667, + "grad_norm": 2.096904084407385, + "learning_rate": 6.815805198155745e-07, + "loss": 0.49, + "step": 7846 + }, + { + "avg_step_time": 5.957222822940711, + "epoch": 0.8369066666666667, + "eta_time": 2.5301649156323185, + "step": 7846 + }, + { + "epoch": 0.8370133333333334, + "grad_norm": 1.8668975951732807, + "learning_rate": 6.80710069852617e-07, + "loss": 0.4351, + "step": 7847 + }, + { + "avg_step_time": 5.95701661976901, + "epoch": 0.8370133333333334, + "eta_time": 2.52842260972418, + "step": 7847 + }, + { + "epoch": 0.83712, + "grad_norm": 1.92461684005826, + "learning_rate": 6.798401354716233e-07, + "loss": 0.5134, + "step": 7848 + }, + { + "avg_step_time": 5.951622830496894, + "epoch": 0.83712, + "eta_time": 2.524480017269099, + "step": 7848 + }, + { + "epoch": 0.8372266666666667, + "grad_norm": 1.9765667072309152, + "learning_rate": 6.789707167764337e-07, + "loss": 0.5634, + "step": 7849 + }, + { + "avg_step_time": 5.949925858565051, + "epoch": 0.8372266666666667, + "eta_time": 2.5221074611584076, + "step": 7849 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 2.0397657707623065, + "learning_rate": 6.7810181387083e-07, + "loss": 0.5181, + "step": 7850 + }, + { + "avg_step_time": 5.949114358786381, + "epoch": 0.8373333333333334, + "eta_time": 2.520110943652564, + "step": 7850 + }, + { + "epoch": 0.83744, + "grad_norm": 1.8445466283856842, + "learning_rate": 6.772334268585296e-07, + "loss": 0.4725, + "step": 7851 + }, + { + "avg_step_time": 5.947458866870765, + "epoch": 0.83744, + "eta_time": 2.5177575869752906, + "step": 7851 + }, + { + "epoch": 0.8375466666666667, + "grad_norm": 1.6994094705228362, + "learning_rate": 6.763655558431875e-07, + "loss": 0.4854, + "step": 7852 + }, + { + "avg_step_time": 5.926025429157296, + "epoch": 0.8375466666666667, + "eta_time": 2.507037980168489, + "step": 7852 + }, + { + "epoch": 0.8376533333333334, + "grad_norm": 1.643251246646634, + "learning_rate": 6.754982009284039e-07, + "loss": 0.5065, + "step": 7853 + }, + { + "avg_step_time": 5.925631022212481, + "epoch": 0.8376533333333334, + "eta_time": 2.5052251155020544, + "step": 7853 + }, + { + "epoch": 0.83776, + "grad_norm": 1.6537243752803252, + "learning_rate": 6.746313622177097e-07, + "loss": 0.4697, + "step": 7854 + }, + { + "avg_step_time": 5.924308728690099, + "epoch": 0.83776, + "eta_time": 2.503020437871567, + "step": 7854 + }, + { + "epoch": 0.8378666666666666, + "grad_norm": 1.8665824252070817, + "learning_rate": 6.737650398145762e-07, + "loss": 0.4981, + "step": 7855 + }, + { + "avg_step_time": 5.928348062014339, + "epoch": 0.8378666666666666, + "eta_time": 2.503080292850499, + "step": 7855 + }, + { + "epoch": 0.8379733333333333, + "grad_norm": 1.8818581557632108, + "learning_rate": 6.728992338224166e-07, + "loss": 0.4941, + "step": 7856 + }, + { + "avg_step_time": 5.936766118714304, + "epoch": 0.8379733333333333, + "eta_time": 2.5049854817575077, + "step": 7856 + }, + { + "epoch": 0.83808, + "grad_norm": 1.9895892648199243, + "learning_rate": 6.720339443445772e-07, + "loss": 0.4715, + "step": 7857 + }, + { + "avg_step_time": 5.967846752417208, + "epoch": 0.83808, + "eta_time": 2.5164420472692566, + "step": 7857 + }, + { + "epoch": 0.8381866666666666, + "grad_norm": 2.0128935493307374, + "learning_rate": 6.711691714843476e-07, + "loss": 0.4404, + "step": 7858 + }, + { + "avg_step_time": 5.970735653482302, + "epoch": 0.8381866666666666, + "eta_time": 2.5160016628701816, + "step": 7858 + }, + { + "epoch": 0.8382933333333333, + "grad_norm": 1.8529999548537497, + "learning_rate": 6.703049153449509e-07, + "loss": 0.5387, + "step": 7859 + }, + { + "avg_step_time": 5.89221308207271, + "epoch": 0.8382933333333333, + "eta_time": 2.4812763978950634, + "step": 7859 + }, + { + "epoch": 0.8384, + "grad_norm": 1.9982492686771067, + "learning_rate": 6.694411760295538e-07, + "loss": 0.4672, + "step": 7860 + }, + { + "avg_step_time": 5.878573725921939, + "epoch": 0.8384, + "eta_time": 2.473899776325483, + "step": 7860 + }, + { + "epoch": 0.8385066666666666, + "grad_norm": 1.8488403825027329, + "learning_rate": 6.685779536412563e-07, + "loss": 0.4678, + "step": 7861 + }, + { + "avg_step_time": 5.87758545442061, + "epoch": 0.8385066666666666, + "eta_time": 2.471851216109112, + "step": 7861 + }, + { + "epoch": 0.8386133333333333, + "grad_norm": 1.776274260966707, + "learning_rate": 6.67715248283099e-07, + "loss": 0.4103, + "step": 7862 + }, + { + "avg_step_time": 5.876442798460372, + "epoch": 0.8386133333333333, + "eta_time": 2.4697383205751513, + "step": 7862 + }, + { + "epoch": 0.83872, + "grad_norm": 1.81651340340786, + "learning_rate": 6.66853060058063e-07, + "loss": 0.4341, + "step": 7863 + }, + { + "avg_step_time": 5.875880602634314, + "epoch": 0.83872, + "eta_time": 2.467869853106412, + "step": 7863 + }, + { + "epoch": 0.8388266666666667, + "grad_norm": 2.220830120329886, + "learning_rate": 6.65991389069064e-07, + "loss": 0.4902, + "step": 7864 + }, + { + "avg_step_time": 5.8741255673495205, + "epoch": 0.8388266666666667, + "eta_time": 2.4655010367403127, + "step": 7864 + }, + { + "epoch": 0.8389333333333333, + "grad_norm": 1.626764419805977, + "learning_rate": 6.651302354189559e-07, + "loss": 0.4658, + "step": 7865 + }, + { + "avg_step_time": 5.883738113172127, + "epoch": 0.8389333333333333, + "eta_time": 2.4679012641360867, + "step": 7865 + }, + { + "epoch": 0.83904, + "grad_norm": 1.9097786809896857, + "learning_rate": 6.642695992105347e-07, + "loss": 0.4703, + "step": 7866 + }, + { + "avg_step_time": 5.860858428357828, + "epoch": 0.83904, + "eta_time": 2.4566764912199894, + "step": 7866 + }, + { + "epoch": 0.8391466666666667, + "grad_norm": 1.9184278621742281, + "learning_rate": 6.634094805465296e-07, + "loss": 0.4632, + "step": 7867 + }, + { + "avg_step_time": 5.869413207275699, + "epoch": 0.8391466666666667, + "eta_time": 2.458631976825487, + "step": 7867 + }, + { + "epoch": 0.8392533333333333, + "grad_norm": 2.242184094867607, + "learning_rate": 6.625498795296125e-07, + "loss": 0.517, + "step": 7868 + }, + { + "avg_step_time": 5.869906945662065, + "epoch": 0.8392533333333333, + "eta_time": 2.4572082686424257, + "step": 7868 + }, + { + "epoch": 0.83936, + "grad_norm": 1.857867287925083, + "learning_rate": 6.61690796262392e-07, + "loss": 0.4726, + "step": 7869 + }, + { + "avg_step_time": 5.872998738529707, + "epoch": 0.83936, + "eta_time": 2.456871138951594, + "step": 7869 + }, + { + "epoch": 0.8394666666666667, + "grad_norm": 2.0480695280823533, + "learning_rate": 6.608322308474141e-07, + "loss": 0.4908, + "step": 7870 + }, + { + "avg_step_time": 5.8675098539602875, + "epoch": 0.8394666666666667, + "eta_time": 2.4529450917250646, + "step": 7870 + }, + { + "epoch": 0.8395733333333333, + "grad_norm": 1.9123139440114114, + "learning_rate": 6.59974183387161e-07, + "loss": 0.5066, + "step": 7871 + }, + { + "avg_step_time": 5.869608662345192, + "epoch": 0.8395733333333333, + "eta_time": 2.452192063379769, + "step": 7871 + }, + { + "epoch": 0.83968, + "grad_norm": 1.5735050860765967, + "learning_rate": 6.591166539840599e-07, + "loss": 0.3759, + "step": 7872 + }, + { + "avg_step_time": 5.867923141729952, + "epoch": 0.83968, + "eta_time": 2.449857911672255, + "step": 7872 + }, + { + "epoch": 0.8397866666666667, + "grad_norm": 1.945267611375736, + "learning_rate": 6.582596427404692e-07, + "loss": 0.4399, + "step": 7873 + }, + { + "avg_step_time": 5.856557504095212, + "epoch": 0.8397866666666667, + "eta_time": 2.4434859364308354, + "step": 7873 + }, + { + "epoch": 0.8398933333333334, + "grad_norm": 0.6408835927672571, + "learning_rate": 6.574031497586874e-07, + "loss": 0.4058, + "step": 7874 + }, + { + "avg_step_time": 5.843038703456069, + "epoch": 0.8398933333333334, + "eta_time": 2.4362225260798778, + "step": 7874 + }, + { + "epoch": 0.84, + "grad_norm": 2.0390729881735545, + "learning_rate": 6.565471751409541e-07, + "loss": 0.4383, + "step": 7875 + }, + { + "avg_step_time": 5.837590802799571, + "epoch": 0.84, + "eta_time": 2.4323295011664876, + "step": 7875 + }, + { + "epoch": 0.8401066666666667, + "grad_norm": 1.939009322174982, + "learning_rate": 6.556917189894418e-07, + "loss": 0.4809, + "step": 7876 + }, + { + "avg_step_time": 5.840150055259165, + "epoch": 0.8401066666666667, + "eta_time": 2.4317735924537462, + "step": 7876 + }, + { + "epoch": 0.8402133333333334, + "grad_norm": 1.8932760356370504, + "learning_rate": 6.548367814062656e-07, + "loss": 0.4614, + "step": 7877 + }, + { + "avg_step_time": 5.83689434359772, + "epoch": 0.8402133333333334, + "eta_time": 2.428796590752607, + "step": 7877 + }, + { + "epoch": 0.84032, + "grad_norm": 2.124792865375864, + "learning_rate": 6.539823624934777e-07, + "loss": 0.5039, + "step": 7878 + }, + { + "avg_step_time": 5.875331560770671, + "epoch": 0.84032, + "eta_time": 2.443158707353804, + "step": 7878 + }, + { + "epoch": 0.8404266666666667, + "grad_norm": 2.1243620142523003, + "learning_rate": 6.53128462353067e-07, + "loss": 0.493, + "step": 7879 + }, + { + "avg_step_time": 5.8719131561240765, + "epoch": 0.8404266666666667, + "eta_time": 2.440106133767116, + "step": 7879 + }, + { + "epoch": 0.8405333333333334, + "grad_norm": 1.8230771082656523, + "learning_rate": 6.522750810869604e-07, + "loss": 0.3955, + "step": 7880 + }, + { + "avg_step_time": 5.836965105750344, + "epoch": 0.8405333333333334, + "eta_time": 2.4239618980824345, + "step": 7880 + }, + { + "epoch": 0.84064, + "grad_norm": 1.7163580610000668, + "learning_rate": 6.514222187970248e-07, + "loss": 0.415, + "step": 7881 + }, + { + "avg_step_time": 5.832338388520058, + "epoch": 0.84064, + "eta_time": 2.420420431235824, + "step": 7881 + }, + { + "epoch": 0.8407466666666666, + "grad_norm": 1.568732286775206, + "learning_rate": 6.505698755850648e-07, + "loss": 0.4908, + "step": 7882 + }, + { + "avg_step_time": 5.836174266506927, + "epoch": 0.8407466666666666, + "eta_time": 2.4203911610819007, + "step": 7882 + }, + { + "epoch": 0.8408533333333333, + "grad_norm": 1.9698449242896865, + "learning_rate": 6.497180515528201e-07, + "loss": 0.5036, + "step": 7883 + }, + { + "avg_step_time": 5.831685321499603, + "epoch": 0.8408533333333333, + "eta_time": 2.4169095832437244, + "step": 7883 + }, + { + "epoch": 0.84096, + "grad_norm": 1.6360836231241935, + "learning_rate": 6.488667468019727e-07, + "loss": 0.4679, + "step": 7884 + }, + { + "avg_step_time": 5.833183358414004, + "epoch": 0.84096, + "eta_time": 2.4159101076098004, + "step": 7884 + }, + { + "epoch": 0.8410666666666666, + "grad_norm": 1.908709338310002, + "learning_rate": 6.480159614341402e-07, + "loss": 0.4329, + "step": 7885 + }, + { + "avg_step_time": 5.83160378234555, + "epoch": 0.8410666666666666, + "eta_time": 2.413636009915242, + "step": 7885 + }, + { + "epoch": 0.8411733333333333, + "grad_norm": 2.045581194132062, + "learning_rate": 6.471656955508771e-07, + "loss": 0.5357, + "step": 7886 + }, + { + "avg_step_time": 5.830769550920737, + "epoch": 0.8411733333333333, + "eta_time": 2.41167107258916, + "step": 7886 + }, + { + "epoch": 0.84128, + "grad_norm": 1.7592787234299796, + "learning_rate": 6.46315949253678e-07, + "loss": 0.4701, + "step": 7887 + }, + { + "avg_step_time": 5.832511434651384, + "epoch": 0.84128, + "eta_time": 2.4107713929892394, + "step": 7887 + }, + { + "epoch": 0.8413866666666666, + "grad_norm": 1.6427985031177839, + "learning_rate": 6.45466722643976e-07, + "loss": 0.4291, + "step": 7888 + }, + { + "avg_step_time": 5.8330754655780215, + "epoch": 0.8413866666666666, + "eta_time": 2.4093842270318104, + "step": 7888 + }, + { + "epoch": 0.8414933333333333, + "grad_norm": 0.6305329948525346, + "learning_rate": 6.446180158231397e-07, + "loss": 0.409, + "step": 7889 + }, + { + "avg_step_time": 5.7995494086332995, + "epoch": 0.8414933333333333, + "eta_time": 2.3939251170080786, + "step": 7889 + }, + { + "epoch": 0.8416, + "grad_norm": 1.9959998010471087, + "learning_rate": 6.437698288924777e-07, + "loss": 0.5044, + "step": 7890 + }, + { + "avg_step_time": 5.801496787504717, + "epoch": 0.8416, + "eta_time": 2.3931174248456957, + "step": 7890 + }, + { + "epoch": 0.8417066666666667, + "grad_norm": 2.02037541486622, + "learning_rate": 6.429221619532349e-07, + "loss": 0.3395, + "step": 7891 + }, + { + "avg_step_time": 5.79931857128336, + "epoch": 0.8417066666666667, + "eta_time": 2.390607988829029, + "step": 7891 + }, + { + "epoch": 0.8418133333333333, + "grad_norm": 1.6260089212663915, + "learning_rate": 6.420750151065963e-07, + "loss": 0.3543, + "step": 7892 + }, + { + "avg_step_time": 5.84781962211686, + "epoch": 0.8418133333333333, + "eta_time": 2.408976805444251, + "step": 7892 + }, + { + "epoch": 0.84192, + "grad_norm": 1.8350808991907481, + "learning_rate": 6.412283884536818e-07, + "loss": 0.468, + "step": 7893 + }, + { + "avg_step_time": 5.829246711249303, + "epoch": 0.84192, + "eta_time": 2.39970656279763, + "step": 7893 + }, + { + "epoch": 0.8420266666666667, + "grad_norm": 1.9815351364874834, + "learning_rate": 6.40382282095553e-07, + "loss": 0.522, + "step": 7894 + }, + { + "avg_step_time": 5.827732929075607, + "epoch": 0.8420266666666667, + "eta_time": 2.3974645744336036, + "step": 7894 + }, + { + "epoch": 0.8421333333333333, + "grad_norm": 1.7214232278399506, + "learning_rate": 6.395366961332061e-07, + "loss": 0.5712, + "step": 7895 + }, + { + "avg_step_time": 5.823448980697478, + "epoch": 0.8421333333333333, + "eta_time": 2.3940845809534075, + "step": 7895 + }, + { + "epoch": 0.84224, + "grad_norm": 1.7409806719727894, + "learning_rate": 6.38691630667575e-07, + "loss": 0.4514, + "step": 7896 + }, + { + "avg_step_time": 5.824268943131572, + "epoch": 0.84224, + "eta_time": 2.3928038241365543, + "step": 7896 + }, + { + "epoch": 0.8423466666666667, + "grad_norm": 0.6719599324318714, + "learning_rate": 6.378470857995362e-07, + "loss": 0.4249, + "step": 7897 + }, + { + "avg_step_time": 5.814628642014783, + "epoch": 0.8423466666666667, + "eta_time": 2.387228092471625, + "step": 7897 + }, + { + "epoch": 0.8424533333333334, + "grad_norm": 1.834708750727074, + "learning_rate": 6.370030616298989e-07, + "loss": 0.4844, + "step": 7898 + }, + { + "avg_step_time": 5.8213050365448, + "epoch": 0.8424533333333334, + "eta_time": 2.388352094160186, + "step": 7898 + }, + { + "epoch": 0.84256, + "grad_norm": 1.733854679714461, + "learning_rate": 6.36159558259411e-07, + "loss": 0.5649, + "step": 7899 + }, + { + "avg_step_time": 5.8349536717540085, + "epoch": 0.84256, + "eta_time": 2.392331005419144, + "step": 7899 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 1.6056756544793778, + "learning_rate": 6.353165757887614e-07, + "loss": 0.4774, + "step": 7900 + }, + { + "avg_step_time": 5.831912199656169, + "epoch": 0.8426666666666667, + "eta_time": 2.389464026248014, + "step": 7900 + }, + { + "epoch": 0.8427733333333334, + "grad_norm": 2.2131736118849235, + "learning_rate": 6.344741143185723e-07, + "loss": 0.5282, + "step": 7901 + }, + { + "avg_step_time": 5.821779884473242, + "epoch": 0.8427733333333334, + "eta_time": 2.3836954304759885, + "step": 7901 + }, + { + "epoch": 0.84288, + "grad_norm": 1.976425205216706, + "learning_rate": 6.336321739494072e-07, + "loss": 0.5227, + "step": 7902 + }, + { + "avg_step_time": 5.820745446465232, + "epoch": 0.84288, + "eta_time": 2.381655011845358, + "step": 7902 + }, + { + "epoch": 0.8429866666666667, + "grad_norm": 1.5467227490600828, + "learning_rate": 6.327907547817674e-07, + "loss": 0.3794, + "step": 7903 + }, + { + "avg_step_time": 5.82029365048264, + "epoch": 0.8429866666666667, + "eta_time": 2.379853403752901, + "step": 7903 + }, + { + "epoch": 0.8430933333333334, + "grad_norm": 1.5298614020090322, + "learning_rate": 6.319498569160898e-07, + "loss": 0.3645, + "step": 7904 + }, + { + "avg_step_time": 5.802769388815369, + "epoch": 0.8430933333333334, + "eta_time": 2.371076047485391, + "step": 7904 + }, + { + "epoch": 0.8432, + "grad_norm": 0.6269188523197671, + "learning_rate": 6.31109480452749e-07, + "loss": 0.4461, + "step": 7905 + }, + { + "avg_step_time": 5.769053724077013, + "epoch": 0.8432, + "eta_time": 2.355696937331447, + "step": 7905 + }, + { + "epoch": 0.8433066666666666, + "grad_norm": 2.024562202338779, + "learning_rate": 6.302696254920598e-07, + "loss": 0.5281, + "step": 7906 + }, + { + "avg_step_time": 5.766514132721255, + "epoch": 0.8433066666666666, + "eta_time": 2.3530581280465346, + "step": 7906 + }, + { + "epoch": 0.8434133333333333, + "grad_norm": 1.9728950463977182, + "learning_rate": 6.294302921342737e-07, + "loss": 0.5308, + "step": 7907 + }, + { + "avg_step_time": 5.747885022500549, + "epoch": 0.8434133333333333, + "eta_time": 2.343859781397446, + "step": 7907 + }, + { + "epoch": 0.84352, + "grad_norm": 2.01483485885898, + "learning_rate": 6.285914804795784e-07, + "loss": 0.53, + "step": 7908 + }, + { + "avg_step_time": 5.717764156033295, + "epoch": 0.84352, + "eta_time": 2.3299888935835673, + "step": 7908 + }, + { + "epoch": 0.8436266666666666, + "grad_norm": 1.8639037725647318, + "learning_rate": 6.27753190628102e-07, + "loss": 0.5757, + "step": 7909 + }, + { + "avg_step_time": 5.71108380712644, + "epoch": 0.8436266666666666, + "eta_time": 2.3256802392353784, + "step": 7909 + }, + { + "epoch": 0.8437333333333333, + "grad_norm": 2.1831364463788794, + "learning_rate": 6.269154226799085e-07, + "loss": 0.4912, + "step": 7910 + }, + { + "avg_step_time": 5.710299217339718, + "epoch": 0.8437333333333333, + "eta_time": 2.3237745426118575, + "step": 7910 + }, + { + "epoch": 0.84384, + "grad_norm": 2.0031927262639635, + "learning_rate": 6.260781767349983e-07, + "loss": 0.4347, + "step": 7911 + }, + { + "avg_step_time": 5.709347703240135, + "epoch": 0.84384, + "eta_time": 2.321801399317655, + "step": 7911 + }, + { + "epoch": 0.8439466666666666, + "grad_norm": 1.8420421952111894, + "learning_rate": 6.252414528933126e-07, + "loss": 0.451, + "step": 7912 + }, + { + "avg_step_time": 5.687641269028789, + "epoch": 0.8439466666666666, + "eta_time": 2.3113942157191993, + "step": 7912 + }, + { + "epoch": 0.8440533333333333, + "grad_norm": 1.811219719368337, + "learning_rate": 6.244052512547299e-07, + "loss": 0.454, + "step": 7913 + }, + { + "avg_step_time": 5.688409824563999, + "epoch": 0.8440533333333333, + "eta_time": 2.3101264343090464, + "step": 7913 + }, + { + "epoch": 0.84416, + "grad_norm": 0.6720491984405197, + "learning_rate": 6.235695719190632e-07, + "loss": 0.4535, + "step": 7914 + }, + { + "avg_step_time": 5.653378366219877, + "epoch": 0.84416, + "eta_time": 2.2943293869575663, + "step": 7914 + }, + { + "epoch": 0.8442666666666667, + "grad_norm": 0.6398771085476895, + "learning_rate": 6.227344149860665e-07, + "loss": 0.4608, + "step": 7915 + }, + { + "avg_step_time": 5.617787257589475, + "epoch": 0.8442666666666667, + "eta_time": 2.2783248322446203, + "step": 7915 + }, + { + "epoch": 0.8443733333333333, + "grad_norm": 0.6604848423279067, + "learning_rate": 6.218997805554305e-07, + "loss": 0.4569, + "step": 7916 + }, + { + "avg_step_time": 5.622324842395204, + "epoch": 0.8443733333333333, + "eta_time": 2.278603318070723, + "step": 7916 + }, + { + "epoch": 0.84448, + "grad_norm": 2.123913062062391, + "learning_rate": 6.210656687267835e-07, + "loss": 0.4482, + "step": 7917 + }, + { + "avg_step_time": 5.622819934228454, + "epoch": 0.84448, + "eta_time": 2.2772420733625243, + "step": 7917 + }, + { + "epoch": 0.8445866666666667, + "grad_norm": 2.3031244428578486, + "learning_rate": 6.202320795996885e-07, + "loss": 0.4533, + "step": 7918 + }, + { + "avg_step_time": 5.632499964550288, + "epoch": 0.8445866666666667, + "eta_time": 2.2795979023193804, + "step": 7918 + }, + { + "epoch": 0.8446933333333333, + "grad_norm": 1.7705937915671504, + "learning_rate": 6.193990132736527e-07, + "loss": 0.4355, + "step": 7919 + }, + { + "avg_step_time": 5.634000207438613, + "epoch": 0.8446933333333333, + "eta_time": 2.2786400838973946, + "step": 7919 + }, + { + "epoch": 0.8448, + "grad_norm": 1.960655756059195, + "learning_rate": 6.185664698481137e-07, + "loss": 0.5246, + "step": 7920 + }, + { + "avg_step_time": 5.610779923622054, + "epoch": 0.8448, + "eta_time": 2.2676902191305803, + "step": 7920 + }, + { + "epoch": 0.8449066666666667, + "grad_norm": 2.190582020757668, + "learning_rate": 6.177344494224513e-07, + "loss": 0.4926, + "step": 7921 + }, + { + "avg_step_time": 5.610021711599948, + "epoch": 0.8449066666666667, + "eta_time": 2.2658254357406453, + "step": 7921 + }, + { + "epoch": 0.8450133333333333, + "grad_norm": 1.7893237418029462, + "learning_rate": 6.169029520959824e-07, + "loss": 0.4591, + "step": 7922 + }, + { + "avg_step_time": 5.601738224125872, + "epoch": 0.8450133333333333, + "eta_time": 2.2609237887930256, + "step": 7922 + }, + { + "epoch": 0.84512, + "grad_norm": 1.902177459615983, + "learning_rate": 6.160719779679597e-07, + "loss": 0.506, + "step": 7923 + }, + { + "avg_step_time": 5.5999152780783295, + "epoch": 0.84512, + "eta_time": 2.258632495491593, + "step": 7923 + }, + { + "epoch": 0.8452266666666667, + "grad_norm": 1.5483060710701704, + "learning_rate": 6.152415271375733e-07, + "loss": 0.4975, + "step": 7924 + }, + { + "avg_step_time": 5.602930008763015, + "epoch": 0.8452266666666667, + "eta_time": 2.2582920674208706, + "step": 7924 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 2.0963981654409674, + "learning_rate": 6.144115997039529e-07, + "loss": 0.5378, + "step": 7925 + }, + { + "avg_step_time": 5.5975984130242855, + "epoch": 0.8453333333333334, + "eta_time": 2.254588249690337, + "step": 7925 + }, + { + "epoch": 0.84544, + "grad_norm": 1.947546472339703, + "learning_rate": 6.135821957661658e-07, + "loss": 0.506, + "step": 7926 + }, + { + "avg_step_time": 5.594297095982715, + "epoch": 0.84544, + "eta_time": 2.251704581133043, + "step": 7926 + }, + { + "epoch": 0.8455466666666667, + "grad_norm": 1.7018598280264985, + "learning_rate": 6.127533154232135e-07, + "loss": 0.4328, + "step": 7927 + }, + { + "avg_step_time": 5.587152837502836, + "epoch": 0.8455466666666667, + "eta_time": 2.247277030195585, + "step": 7927 + }, + { + "epoch": 0.8456533333333334, + "grad_norm": 1.7473693080497137, + "learning_rate": 6.119249587740395e-07, + "loss": 0.4626, + "step": 7928 + }, + { + "avg_step_time": 5.584871212641398, + "epoch": 0.8456533333333334, + "eta_time": 2.2448079568589177, + "step": 7928 + }, + { + "epoch": 0.84576, + "grad_norm": 1.62422072994818, + "learning_rate": 6.110971259175208e-07, + "loss": 0.4526, + "step": 7929 + }, + { + "avg_step_time": 5.642547682078198, + "epoch": 0.84576, + "eta_time": 2.266423318968076, + "step": 7929 + }, + { + "epoch": 0.8458666666666667, + "grad_norm": 1.6523051252545606, + "learning_rate": 6.102698169524723e-07, + "loss": 0.5211, + "step": 7930 + }, + { + "avg_step_time": 5.660079077036694, + "epoch": 0.8458666666666667, + "eta_time": 2.2718928517550063, + "step": 7930 + }, + { + "epoch": 0.8459733333333334, + "grad_norm": 1.72099993056042, + "learning_rate": 6.094430319776517e-07, + "loss": 0.4319, + "step": 7931 + }, + { + "avg_step_time": 5.663704985319966, + "epoch": 0.8459733333333334, + "eta_time": 2.271774999667231, + "step": 7931 + }, + { + "epoch": 0.84608, + "grad_norm": 2.0621843330499123, + "learning_rate": 6.086167710917479e-07, + "loss": 0.5717, + "step": 7932 + }, + { + "avg_step_time": 5.668674430461845, + "epoch": 0.84608, + "eta_time": 2.272193667543456, + "step": 7932 + }, + { + "epoch": 0.8461866666666666, + "grad_norm": 1.7300809201129093, + "learning_rate": 6.077910343933879e-07, + "loss": 0.4261, + "step": 7933 + }, + { + "avg_step_time": 5.673520854025176, + "epoch": 0.8461866666666666, + "eta_time": 2.2725602976400845, + "step": 7933 + }, + { + "epoch": 0.8462933333333333, + "grad_norm": 1.8594237230314976, + "learning_rate": 6.069658219811403e-07, + "loss": 0.4503, + "step": 7934 + }, + { + "avg_step_time": 5.721105891044694, + "epoch": 0.8462933333333333, + "eta_time": 2.290031552498723, + "step": 7934 + }, + { + "epoch": 0.8464, + "grad_norm": 1.6518080668248525, + "learning_rate": 6.061411339535062e-07, + "loss": 0.495, + "step": 7935 + }, + { + "avg_step_time": 5.716631848402698, + "epoch": 0.8464, + "eta_time": 2.286652739361079, + "step": 7935 + }, + { + "epoch": 0.8465066666666666, + "grad_norm": 1.8603201972069858, + "learning_rate": 6.053169704089274e-07, + "loss": 0.4352, + "step": 7936 + }, + { + "avg_step_time": 5.712018851077918, + "epoch": 0.8465066666666666, + "eta_time": 2.28322086852809, + "step": 7936 + }, + { + "epoch": 0.8466133333333333, + "grad_norm": 1.73360457602111, + "learning_rate": 6.044933314457829e-07, + "loss": 0.4119, + "step": 7937 + }, + { + "avg_step_time": 5.706672299991954, + "epoch": 0.8466133333333333, + "eta_time": 2.279498546496786, + "step": 7937 + }, + { + "epoch": 0.84672, + "grad_norm": 1.8140226253739886, + "learning_rate": 6.036702171623876e-07, + "loss": 0.4726, + "step": 7938 + }, + { + "avg_step_time": 5.711773202876852, + "epoch": 0.84672, + "eta_time": 2.2799494701483436, + "step": 7938 + }, + { + "epoch": 0.8468266666666666, + "grad_norm": 1.9064669797666929, + "learning_rate": 6.028476276569933e-07, + "loss": 0.4499, + "step": 7939 + }, + { + "avg_step_time": 5.713166133321897, + "epoch": 0.8468266666666666, + "eta_time": 2.278918490958401, + "step": 7939 + }, + { + "epoch": 0.8469333333333333, + "grad_norm": 1.7571854367315214, + "learning_rate": 6.020255630277916e-07, + "loss": 0.4498, + "step": 7940 + }, + { + "avg_step_time": 5.713966928347193, + "epoch": 0.8469333333333333, + "eta_time": 2.277650706160617, + "step": 7940 + }, + { + "epoch": 0.84704, + "grad_norm": 2.036648069183405, + "learning_rate": 6.012040233729105e-07, + "loss": 0.421, + "step": 7941 + }, + { + "avg_step_time": 5.710961344266178, + "epoch": 0.84704, + "eta_time": 2.2748662687993613, + "step": 7941 + }, + { + "epoch": 0.8471466666666667, + "grad_norm": 1.9941908711963805, + "learning_rate": 6.003830087904133e-07, + "loss": 0.4141, + "step": 7942 + }, + { + "avg_step_time": 5.712418758507931, + "epoch": 0.8471466666666667, + "eta_time": 2.273860022483851, + "step": 7942 + }, + { + "epoch": 0.8472533333333333, + "grad_norm": 1.789279344845809, + "learning_rate": 5.995625193783044e-07, + "loss": 0.4444, + "step": 7943 + }, + { + "avg_step_time": 5.697640770613545, + "epoch": 0.8472533333333333, + "eta_time": 2.266394884310721, + "step": 7943 + }, + { + "epoch": 0.84736, + "grad_norm": 1.9410699370674986, + "learning_rate": 5.987425552345222e-07, + "loss": 0.4734, + "step": 7944 + }, + { + "avg_step_time": 5.707113829526034, + "epoch": 0.84736, + "eta_time": 2.2685777472365984, + "step": 7944 + }, + { + "epoch": 0.8474666666666667, + "grad_norm": 2.0016591401569515, + "learning_rate": 5.979231164569426e-07, + "loss": 0.4388, + "step": 7945 + }, + { + "avg_step_time": 5.734459754192468, + "epoch": 0.8474666666666667, + "eta_time": 2.2778548468042303, + "step": 7945 + }, + { + "epoch": 0.8475733333333333, + "grad_norm": 1.8974963154735633, + "learning_rate": 5.97104203143381e-07, + "loss": 0.4352, + "step": 7946 + }, + { + "avg_step_time": 5.734800613287724, + "epoch": 0.8475733333333333, + "eta_time": 2.2763972434411546, + "step": 7946 + }, + { + "epoch": 0.84768, + "grad_norm": 1.8096316446681475, + "learning_rate": 5.962858153915896e-07, + "loss": 0.432, + "step": 7947 + }, + { + "avg_step_time": 5.750813956212515, + "epoch": 0.84768, + "eta_time": 2.281156202630964, + "step": 7947 + }, + { + "epoch": 0.8477866666666667, + "grad_norm": 0.6783752332405145, + "learning_rate": 5.954679532992564e-07, + "loss": 0.4384, + "step": 7948 + }, + { + "avg_step_time": 5.7143806303390345, + "epoch": 0.8477866666666667, + "eta_time": 2.2651169887482783, + "step": 7948 + }, + { + "epoch": 0.8478933333333334, + "grad_norm": 2.1848350749576833, + "learning_rate": 5.946506169640065e-07, + "loss": 0.4542, + "step": 7949 + }, + { + "avg_step_time": 5.717667254534635, + "epoch": 0.8478933333333334, + "eta_time": 2.26483152915733, + "step": 7949 + }, + { + "epoch": 0.848, + "grad_norm": 1.923697431553932, + "learning_rate": 5.938338064834037e-07, + "loss": 0.4143, + "step": 7950 + }, + { + "avg_step_time": 5.729067051049435, + "epoch": 0.848, + "eta_time": 2.267755707707068, + "step": 7950 + }, + { + "epoch": 0.8481066666666667, + "grad_norm": 1.8517515331835286, + "learning_rate": 5.930175219549494e-07, + "loss": 0.4731, + "step": 7951 + }, + { + "avg_step_time": 5.728629962362424, + "epoch": 0.8481066666666667, + "eta_time": 2.2659914073344702, + "step": 7951 + }, + { + "epoch": 0.8482133333333334, + "grad_norm": 2.0484433803041515, + "learning_rate": 5.922017634760796e-07, + "loss": 0.5954, + "step": 7952 + }, + { + "avg_step_time": 5.770136098669033, + "epoch": 0.8482133333333334, + "eta_time": 2.2808065745572317, + "step": 7952 + }, + { + "epoch": 0.84832, + "grad_norm": 1.9273931584089954, + "learning_rate": 5.913865311441714e-07, + "loss": 0.4526, + "step": 7953 + }, + { + "avg_step_time": 5.770059055752224, + "epoch": 0.84832, + "eta_time": 2.2791733270221286, + "step": 7953 + }, + { + "epoch": 0.8484266666666667, + "grad_norm": 1.9322814165589381, + "learning_rate": 5.905718250565351e-07, + "loss": 0.4919, + "step": 7954 + }, + { + "avg_step_time": 5.767730924818251, + "epoch": 0.8484266666666667, + "eta_time": 2.276651567824093, + "step": 7954 + }, + { + "epoch": 0.8485333333333334, + "grad_norm": 1.9078815449202229, + "learning_rate": 5.897576453104187e-07, + "loss": 0.5317, + "step": 7955 + }, + { + "avg_step_time": 5.757830610178938, + "epoch": 0.8485333333333334, + "eta_time": 2.2711442962372477, + "step": 7955 + }, + { + "epoch": 0.84864, + "grad_norm": 1.721111353601986, + "learning_rate": 5.889439920030127e-07, + "loss": 0.4607, + "step": 7956 + }, + { + "avg_step_time": 5.756500877515234, + "epoch": 0.84864, + "eta_time": 2.269020762553921, + "step": 7956 + }, + { + "epoch": 0.8487466666666666, + "grad_norm": 1.9330714816273462, + "learning_rate": 5.881308652314376e-07, + "loss": 0.4691, + "step": 7957 + }, + { + "avg_step_time": 5.754587539518722, + "epoch": 0.8487466666666666, + "eta_time": 2.2666680919548745, + "step": 7957 + }, + { + "epoch": 0.8488533333333333, + "grad_norm": 1.7450892960655713, + "learning_rate": 5.873182650927545e-07, + "loss": 0.5655, + "step": 7958 + }, + { + "avg_step_time": 5.758994810508959, + "epoch": 0.8488533333333333, + "eta_time": 2.2668043462475542, + "step": 7958 + }, + { + "epoch": 0.84896, + "grad_norm": 1.8216888917221896, + "learning_rate": 5.865061916839615e-07, + "loss": 0.5283, + "step": 7959 + }, + { + "avg_step_time": 5.758757820033064, + "epoch": 0.84896, + "eta_time": 2.2651114092130054, + "step": 7959 + }, + { + "epoch": 0.8490666666666666, + "grad_norm": 1.7723012551670276, + "learning_rate": 5.856946451019952e-07, + "loss": 0.4175, + "step": 7960 + }, + { + "avg_step_time": 5.757406123960861, + "epoch": 0.8490666666666666, + "eta_time": 2.262980462612394, + "step": 7960 + }, + { + "epoch": 0.8491733333333333, + "grad_norm": 1.9688486142447779, + "learning_rate": 5.848836254437251e-07, + "loss": 0.4903, + "step": 7961 + }, + { + "avg_step_time": 5.75941029943601, + "epoch": 0.8491733333333333, + "eta_time": 2.262168378722922, + "step": 7961 + }, + { + "epoch": 0.84928, + "grad_norm": 1.966377488532878, + "learning_rate": 5.840731328059629e-07, + "loss": 0.4928, + "step": 7962 + }, + { + "avg_step_time": 5.761730198908334, + "epoch": 0.84928, + "eta_time": 2.261479103071521, + "step": 7962 + }, + { + "epoch": 0.8493866666666666, + "grad_norm": 1.7161675568943477, + "learning_rate": 5.832631672854533e-07, + "loss": 0.4494, + "step": 7963 + }, + { + "avg_step_time": 5.804069157802697, + "epoch": 0.8493866666666666, + "eta_time": 2.2764849030048353, + "step": 7963 + }, + { + "epoch": 0.8494933333333333, + "grad_norm": 1.9413248743997726, + "learning_rate": 5.824537289788789e-07, + "loss": 0.4815, + "step": 7964 + }, + { + "avg_step_time": 5.793854802545875, + "epoch": 0.8494933333333333, + "eta_time": 2.270869201775619, + "step": 7964 + }, + { + "epoch": 0.8496, + "grad_norm": 1.604504387526885, + "learning_rate": 5.816448179828616e-07, + "loss": 0.4441, + "step": 7965 + }, + { + "avg_step_time": 5.795181327395969, + "epoch": 0.8496, + "eta_time": 2.269779353230088, + "step": 7965 + }, + { + "epoch": 0.8497066666666667, + "grad_norm": 1.8069869369259894, + "learning_rate": 5.808364343939598e-07, + "loss": 0.4608, + "step": 7966 + }, + { + "avg_step_time": 5.78748400765236, + "epoch": 0.8497066666666667, + "eta_time": 2.2651569352172705, + "step": 7966 + }, + { + "epoch": 0.8498133333333333, + "grad_norm": 1.825911824701314, + "learning_rate": 5.800285783086657e-07, + "loss": 0.5439, + "step": 7967 + }, + { + "avg_step_time": 5.789130675672281, + "epoch": 0.8498133333333333, + "eta_time": 2.264193330929603, + "step": 7967 + }, + { + "epoch": 0.84992, + "grad_norm": 1.714355230739594, + "learning_rate": 5.792212498234134e-07, + "loss": 0.4901, + "step": 7968 + }, + { + "avg_step_time": 5.789420241057271, + "epoch": 0.84992, + "eta_time": 2.2626984108798833, + "step": 7968 + }, + { + "epoch": 0.8500266666666667, + "grad_norm": 2.040196166749567, + "learning_rate": 5.784144490345689e-07, + "loss": 0.4707, + "step": 7969 + }, + { + "avg_step_time": 5.796675836197053, + "epoch": 0.8500266666666667, + "eta_time": 2.2639239515814045, + "step": 7969 + }, + { + "epoch": 0.8501333333333333, + "grad_norm": 1.64152851405655, + "learning_rate": 5.776081760384406e-07, + "loss": 0.4924, + "step": 7970 + }, + { + "avg_step_time": 5.792747726344099, + "epoch": 0.8501333333333333, + "eta_time": 2.2607807098648496, + "step": 7970 + }, + { + "epoch": 0.85024, + "grad_norm": 2.029411276387877, + "learning_rate": 5.768024309312681e-07, + "loss": 0.5342, + "step": 7971 + }, + { + "avg_step_time": 5.7956942813565036, + "epoch": 0.85024, + "eta_time": 2.2603207697290366, + "step": 7971 + }, + { + "epoch": 0.8503466666666667, + "grad_norm": 1.6428720435939144, + "learning_rate": 5.75997213809234e-07, + "loss": 0.4694, + "step": 7972 + }, + { + "avg_step_time": 5.807059943073928, + "epoch": 0.8503466666666667, + "eta_time": 2.2631403055924224, + "step": 7972 + }, + { + "epoch": 0.8504533333333333, + "grad_norm": 1.6238394482705358, + "learning_rate": 5.751925247684525e-07, + "loss": 0.4475, + "step": 7973 + }, + { + "avg_step_time": 5.821214114776765, + "epoch": 0.8504533333333333, + "eta_time": 2.2670394969213956, + "step": 7973 + }, + { + "epoch": 0.85056, + "grad_norm": 1.9164142327893847, + "learning_rate": 5.74388363904978e-07, + "loss": 0.4829, + "step": 7974 + }, + { + "avg_step_time": 5.823089129997022, + "epoch": 0.85056, + "eta_time": 2.266152186423841, + "step": 7974 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 1.943752470503093, + "learning_rate": 5.735847313148024e-07, + "loss": 0.4849, + "step": 7975 + }, + { + "avg_step_time": 5.819072090014063, + "epoch": 0.8506666666666667, + "eta_time": 2.2629724794499135, + "step": 7975 + }, + { + "epoch": 0.8507733333333334, + "grad_norm": 1.8318524170748216, + "learning_rate": 5.727816270938514e-07, + "loss": 0.4363, + "step": 7976 + }, + { + "avg_step_time": 5.8253485963802145, + "epoch": 0.8507733333333334, + "eta_time": 2.2637951906488665, + "step": 7976 + }, + { + "epoch": 0.85088, + "grad_norm": 1.6985671494607097, + "learning_rate": 5.719790513379891e-07, + "loss": 0.4972, + "step": 7977 + }, + { + "avg_step_time": 5.792836042365643, + "epoch": 0.85088, + "eta_time": 2.2495513297853247, + "step": 7977 + }, + { + "epoch": 0.8509866666666667, + "grad_norm": 1.6482340116931495, + "learning_rate": 5.711770041430187e-07, + "loss": 0.5283, + "step": 7978 + }, + { + "avg_step_time": 5.793730434745249, + "epoch": 0.8509866666666667, + "eta_time": 2.248289282594198, + "step": 7978 + }, + { + "epoch": 0.8510933333333334, + "grad_norm": 2.0413765909406343, + "learning_rate": 5.703754856046767e-07, + "loss": 0.4559, + "step": 7979 + }, + { + "avg_step_time": 5.791212024110736, + "epoch": 0.8510933333333334, + "eta_time": 2.245703329349608, + "step": 7979 + }, + { + "epoch": 0.8512, + "grad_norm": 1.98260639402084, + "learning_rate": 5.695744958186383e-07, + "loss": 0.4752, + "step": 7980 + }, + { + "avg_step_time": 5.796369458689834, + "epoch": 0.8512, + "eta_time": 2.2460931652423106, + "step": 7980 + }, + { + "epoch": 0.8513066666666667, + "grad_norm": 2.043885531814621, + "learning_rate": 5.687740348805171e-07, + "loss": 0.5112, + "step": 7981 + }, + { + "avg_step_time": 5.794166593840628, + "epoch": 0.8513066666666667, + "eta_time": 2.243630064392732, + "step": 7981 + }, + { + "epoch": 0.8514133333333334, + "grad_norm": 1.8147840669757385, + "learning_rate": 5.67974102885861e-07, + "loss": 0.468, + "step": 7982 + }, + { + "avg_step_time": 5.793514386572019, + "epoch": 0.8514133333333334, + "eta_time": 2.241768205693006, + "step": 7982 + }, + { + "epoch": 0.85152, + "grad_norm": 1.641043196699434, + "learning_rate": 5.671746999301542e-07, + "loss": 0.4493, + "step": 7983 + }, + { + "avg_step_time": 5.823458979828189, + "epoch": 0.85152, + "eta_time": 2.251737472200233, + "step": 7983 + }, + { + "epoch": 0.8516266666666666, + "grad_norm": 0.6276070594065266, + "learning_rate": 5.663758261088209e-07, + "loss": 0.4091, + "step": 7984 + }, + { + "avg_step_time": 5.787785166441792, + "epoch": 0.8516266666666666, + "eta_time": 2.236335879589037, + "step": 7984 + }, + { + "epoch": 0.8517333333333333, + "grad_norm": 0.6493733204106801, + "learning_rate": 5.655774815172211e-07, + "loss": 0.4275, + "step": 7985 + }, + { + "avg_step_time": 5.754400792748037, + "epoch": 0.8517333333333333, + "eta_time": 2.2218380838666034, + "step": 7985 + }, + { + "epoch": 0.85184, + "grad_norm": 1.9611944373933754, + "learning_rate": 5.647796662506493e-07, + "loss": 0.4685, + "step": 7986 + }, + { + "avg_step_time": 5.750019644245957, + "epoch": 0.85184, + "eta_time": 2.2185492460715652, + "step": 7986 + }, + { + "epoch": 0.8519466666666666, + "grad_norm": 1.6791044404027422, + "learning_rate": 5.639823804043403e-07, + "loss": 0.5187, + "step": 7987 + }, + { + "avg_step_time": 5.753951364093357, + "epoch": 0.8519466666666666, + "eta_time": 2.218467914822661, + "step": 7987 + }, + { + "epoch": 0.8520533333333333, + "grad_norm": 1.8784176077696149, + "learning_rate": 5.631856240734629e-07, + "loss": 0.4468, + "step": 7988 + }, + { + "avg_step_time": 5.789727854006218, + "epoch": 0.8520533333333333, + "eta_time": 2.2306534815296177, + "step": 7988 + }, + { + "epoch": 0.85216, + "grad_norm": 1.7828489216471184, + "learning_rate": 5.623893973531225e-07, + "loss": 0.4324, + "step": 7989 + }, + { + "avg_step_time": 5.787807495907099, + "epoch": 0.85216, + "eta_time": 2.2283058859242333, + "step": 7989 + }, + { + "epoch": 0.8522666666666666, + "grad_norm": 1.7427807876219, + "learning_rate": 5.615937003383654e-07, + "loss": 0.461, + "step": 7990 + }, + { + "avg_step_time": 5.787755193132343, + "epoch": 0.8522666666666666, + "eta_time": 2.226678039580082, + "step": 7990 + }, + { + "epoch": 0.8523733333333333, + "grad_norm": 1.8136387831487673, + "learning_rate": 5.607985331241705e-07, + "loss": 0.4793, + "step": 7991 + }, + { + "avg_step_time": 5.772140153730758, + "epoch": 0.8523733333333333, + "eta_time": 2.2190672146564916, + "step": 7991 + }, + { + "epoch": 0.85248, + "grad_norm": 2.0829439607809, + "learning_rate": 5.600038958054538e-07, + "loss": 0.5922, + "step": 7992 + }, + { + "avg_step_time": 5.77077628626968, + "epoch": 0.85248, + "eta_time": 2.2169398899752686, + "step": 7992 + }, + { + "epoch": 0.8525866666666667, + "grad_norm": 1.8615169485041567, + "learning_rate": 5.592097884770709e-07, + "loss": 0.4781, + "step": 7993 + }, + { + "avg_step_time": 5.788830273079149, + "epoch": 0.8525866666666667, + "eta_time": 2.222267621498718, + "step": 7993 + }, + { + "epoch": 0.8526933333333333, + "grad_norm": 0.6474158966320614, + "learning_rate": 5.584162112338099e-07, + "loss": 0.4389, + "step": 7994 + }, + { + "avg_step_time": 5.756732326565367, + "epoch": 0.8526933333333333, + "eta_time": 2.2083464841629925, + "step": 7994 + }, + { + "epoch": 0.8528, + "grad_norm": 1.9982135608020088, + "learning_rate": 5.576231641703994e-07, + "loss": 0.449, + "step": 7995 + }, + { + "avg_step_time": 5.755664673718539, + "epoch": 0.8528, + "eta_time": 2.20633812492544, + "step": 7995 + }, + { + "epoch": 0.8529066666666667, + "grad_norm": 0.6486765762907694, + "learning_rate": 5.568306473815044e-07, + "loss": 0.4485, + "step": 7996 + }, + { + "avg_step_time": 5.736534626796992, + "epoch": 0.8529066666666667, + "eta_time": 2.1974114584314033, + "step": 7996 + }, + { + "epoch": 0.8530133333333333, + "grad_norm": 1.699904124687206, + "learning_rate": 5.560386609617235e-07, + "loss": 0.4008, + "step": 7997 + }, + { + "avg_step_time": 5.728929847177833, + "epoch": 0.8530133333333333, + "eta_time": 2.1929070359475147, + "step": 7997 + }, + { + "epoch": 0.85312, + "grad_norm": 1.8884495956733716, + "learning_rate": 5.552472050055946e-07, + "loss": 0.4704, + "step": 7998 + }, + { + "avg_step_time": 5.718300513546876, + "epoch": 0.85312, + "eta_time": 2.18724994643168, + "step": 7998 + }, + { + "epoch": 0.8532266666666667, + "grad_norm": 1.762992242784458, + "learning_rate": 5.544562796075909e-07, + "loss": 0.4085, + "step": 7999 + }, + { + "avg_step_time": 5.721377358292088, + "epoch": 0.8532266666666667, + "eta_time": 2.186837568058309, + "step": 7999 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 1.7218240766948218, + "learning_rate": 5.536658848621257e-07, + "loss": 0.4826, + "step": 8000 + }, + { + "avg_step_time": 5.728915999634097, + "epoch": 0.8533333333333334, + "eta_time": 2.188127638749134, + "step": 8000 + }, + { + "epoch": 0.85344, + "grad_norm": 1.975626004709929, + "learning_rate": 5.528760208635436e-07, + "loss": 0.4833, + "step": 8001 + }, + { + "avg_step_time": 5.729257660682755, + "epoch": 0.85344, + "eta_time": 2.1866666738272516, + "step": 8001 + }, + { + "epoch": 0.8535466666666667, + "grad_norm": 1.6045830338952656, + "learning_rate": 5.520866877061293e-07, + "loss": 0.3854, + "step": 8002 + }, + { + "avg_step_time": 5.728049131354901, + "epoch": 0.8535466666666667, + "eta_time": 2.1846142937084108, + "step": 8002 + }, + { + "epoch": 0.8536533333333334, + "grad_norm": 1.8097071941567624, + "learning_rate": 5.512978854841028e-07, + "loss": 0.5021, + "step": 8003 + }, + { + "avg_step_time": 5.727723680361353, + "epoch": 0.8536533333333334, + "eta_time": 2.182899135959938, + "step": 8003 + }, + { + "epoch": 0.85376, + "grad_norm": 1.861365929357489, + "learning_rate": 5.505096142916233e-07, + "loss": 0.5519, + "step": 8004 + }, + { + "avg_step_time": 5.764348531010175, + "epoch": 0.85376, + "eta_time": 2.1952560655597084, + "step": 8004 + }, + { + "epoch": 0.8538666666666667, + "grad_norm": 0.6652238138336617, + "learning_rate": 5.497218742227817e-07, + "loss": 0.4253, + "step": 8005 + }, + { + "avg_step_time": 5.735739048081215, + "epoch": 0.8538666666666667, + "eta_time": 2.1827673599642403, + "step": 8005 + }, + { + "epoch": 0.8539733333333334, + "grad_norm": 1.9804630088795603, + "learning_rate": 5.489346653716116e-07, + "loss": 0.5622, + "step": 8006 + }, + { + "avg_step_time": 5.732758466643516, + "epoch": 0.8539733333333334, + "eta_time": 2.180040650231937, + "step": 8006 + }, + { + "epoch": 0.85408, + "grad_norm": 2.003211150045876, + "learning_rate": 5.481479878320784e-07, + "loss": 0.42, + "step": 8007 + }, + { + "avg_step_time": 5.732339606140599, + "epoch": 0.85408, + "eta_time": 2.1782890503334276, + "step": 8007 + }, + { + "epoch": 0.8541866666666666, + "grad_norm": 1.9868509462754362, + "learning_rate": 5.473618416980831e-07, + "loss": 0.4402, + "step": 8008 + }, + { + "avg_step_time": 5.730977913345954, + "epoch": 0.8541866666666666, + "eta_time": 2.1761796687621997, + "step": 8008 + }, + { + "epoch": 0.8542933333333333, + "grad_norm": 1.8673869674071675, + "learning_rate": 5.465762270634705e-07, + "loss": 0.5549, + "step": 8009 + }, + { + "avg_step_time": 5.741836189019559, + "epoch": 0.8542933333333333, + "eta_time": 2.178707842833533, + "step": 8009 + }, + { + "epoch": 0.8544, + "grad_norm": 1.6018789280558732, + "learning_rate": 5.457911440220154e-07, + "loss": 0.4274, + "step": 8010 + }, + { + "avg_step_time": 5.739488235627762, + "epoch": 0.8544, + "eta_time": 2.176222622675527, + "step": 8010 + }, + { + "epoch": 0.8545066666666666, + "grad_norm": 0.692759160586265, + "learning_rate": 5.450065926674297e-07, + "loss": 0.4215, + "step": 8011 + }, + { + "avg_step_time": 5.701325021608912, + "epoch": 0.8545066666666666, + "eta_time": 2.160168702631821, + "step": 8011 + }, + { + "epoch": 0.8546133333333333, + "grad_norm": 2.111422466699169, + "learning_rate": 5.442225730933653e-07, + "loss": 0.5202, + "step": 8012 + }, + { + "avg_step_time": 5.70224522821831, + "epoch": 0.8546133333333333, + "eta_time": 2.1589334016837656, + "step": 8012 + }, + { + "epoch": 0.85472, + "grad_norm": 1.5524626453938573, + "learning_rate": 5.434390853934063e-07, + "loss": 0.4941, + "step": 8013 + }, + { + "avg_step_time": 5.734174754884508, + "epoch": 0.85472, + "eta_time": 2.1694294489313055, + "step": 8013 + }, + { + "epoch": 0.8548266666666666, + "grad_norm": 2.001441560095621, + "learning_rate": 5.426561296610766e-07, + "loss": 0.4758, + "step": 8014 + }, + { + "avg_step_time": 5.77124268358404, + "epoch": 0.8548266666666666, + "eta_time": 2.1818503589883, + "step": 8014 + }, + { + "epoch": 0.8549333333333333, + "grad_norm": 2.0397019128630363, + "learning_rate": 5.418737059898365e-07, + "loss": 0.4906, + "step": 8015 + }, + { + "avg_step_time": 5.802491681744354, + "epoch": 0.8549333333333333, + "eta_time": 2.1920524131034225, + "step": 8015 + }, + { + "epoch": 0.85504, + "grad_norm": 2.2879262301251386, + "learning_rate": 5.410918144730815e-07, + "loss": 0.4989, + "step": 8016 + }, + { + "avg_step_time": 5.805301278528541, + "epoch": 0.85504, + "eta_time": 2.1915012326445242, + "step": 8016 + }, + { + "epoch": 0.8551466666666667, + "grad_norm": 1.8388016655103379, + "learning_rate": 5.403104552041416e-07, + "loss": 0.4109, + "step": 8017 + }, + { + "avg_step_time": 5.7947141040455215, + "epoch": 0.8551466666666667, + "eta_time": 2.185894931470505, + "step": 8017 + }, + { + "epoch": 0.8552533333333333, + "grad_norm": 1.6948780561106376, + "learning_rate": 5.39529628276288e-07, + "loss": 0.5391, + "step": 8018 + }, + { + "avg_step_time": 5.7942601165386165, + "epoch": 0.8552533333333333, + "eta_time": 2.184114160595251, + "step": 8018 + }, + { + "epoch": 0.85536, + "grad_norm": 2.6264877595927762, + "learning_rate": 5.387493337827254e-07, + "loss": 0.5062, + "step": 8019 + }, + { + "avg_step_time": 5.7926051544420645, + "epoch": 0.85536, + "eta_time": 2.1818812748398444, + "step": 8019 + }, + { + "epoch": 0.8554666666666667, + "grad_norm": 1.6239897412690247, + "learning_rate": 5.379695718165945e-07, + "loss": 0.5247, + "step": 8020 + }, + { + "avg_step_time": 5.791057916602703, + "epoch": 0.8554666666666667, + "eta_time": 2.1796898547212953, + "step": 8020 + }, + { + "epoch": 0.8555733333333333, + "grad_norm": 2.003608923842402, + "learning_rate": 5.371903424709746e-07, + "loss": 0.3753, + "step": 8021 + }, + { + "avg_step_time": 5.79536966121558, + "epoch": 0.8555733333333333, + "eta_time": 2.1797029225794153, + "step": 8021 + }, + { + "epoch": 0.85568, + "grad_norm": 2.03411015939399, + "learning_rate": 5.364116458388802e-07, + "loss": 0.4683, + "step": 8022 + }, + { + "avg_step_time": 5.796018913538769, + "epoch": 0.85568, + "eta_time": 2.178337108338321, + "step": 8022 + }, + { + "epoch": 0.8557866666666667, + "grad_norm": 2.2038744264037233, + "learning_rate": 5.356334820132602e-07, + "loss": 0.4291, + "step": 8023 + }, + { + "avg_step_time": 5.793020956444018, + "epoch": 0.8557866666666667, + "eta_time": 2.1756012036423087, + "step": 8023 + }, + { + "epoch": 0.8558933333333333, + "grad_norm": 2.1041606455789297, + "learning_rate": 5.348558510870033e-07, + "loss": 0.5048, + "step": 8024 + }, + { + "avg_step_time": 5.842529104213522, + "epoch": 0.8558933333333333, + "eta_time": 2.1925713388312413, + "step": 8024 + }, + { + "epoch": 0.856, + "grad_norm": 2.007457451790508, + "learning_rate": 5.340787531529346e-07, + "loss": 0.4676, + "step": 8025 + }, + { + "avg_step_time": 5.842744740572843, + "epoch": 0.856, + "eta_time": 2.191029277714816, + "step": 8025 + }, + { + "epoch": 0.8561066666666667, + "grad_norm": 1.8200250829886446, + "learning_rate": 5.333021883038114e-07, + "loss": 0.4324, + "step": 8026 + }, + { + "avg_step_time": 5.8409440493342855, + "epoch": 0.8561066666666667, + "eta_time": 2.1887315340422084, + "step": 8026 + }, + { + "epoch": 0.8562133333333334, + "grad_norm": 1.6516097203187452, + "learning_rate": 5.325261566323331e-07, + "loss": 0.4235, + "step": 8027 + }, + { + "avg_step_time": 5.842019018500742, + "epoch": 0.8562133333333334, + "eta_time": 2.187511565816389, + "step": 8027 + }, + { + "epoch": 0.85632, + "grad_norm": 1.994411284198192, + "learning_rate": 5.3175065823113e-07, + "loss": 0.4807, + "step": 8028 + }, + { + "avg_step_time": 5.813470799513538, + "epoch": 0.85632, + "eta_time": 2.175206990817982, + "step": 8028 + }, + { + "epoch": 0.8564266666666667, + "grad_norm": 2.1648510607687954, + "learning_rate": 5.309756931927728e-07, + "loss": 0.5378, + "step": 8029 + }, + { + "avg_step_time": 5.79443390923317, + "epoch": 0.8564266666666667, + "eta_time": 2.1664744560632907, + "step": 8029 + }, + { + "epoch": 0.8565333333333334, + "grad_norm": 2.188305548622773, + "learning_rate": 5.302012616097652e-07, + "loss": 0.554, + "step": 8030 + }, + { + "avg_step_time": 5.789983874619609, + "epoch": 0.8565333333333334, + "eta_time": 2.1632023087120484, + "step": 8030 + }, + { + "epoch": 0.85664, + "grad_norm": 1.6462228982195064, + "learning_rate": 5.294273635745517e-07, + "loss": 0.5168, + "step": 8031 + }, + { + "avg_step_time": 5.825520631038781, + "epoch": 0.85664, + "eta_time": 2.1748610355878117, + "step": 8031 + }, + { + "epoch": 0.8567466666666667, + "grad_norm": 1.8120043230984537, + "learning_rate": 5.286539991795081e-07, + "loss": 0.4726, + "step": 8032 + }, + { + "avg_step_time": 5.820814320535371, + "epoch": 0.8567466666666667, + "eta_time": 2.1714871201330563, + "step": 8032 + }, + { + "epoch": 0.8568533333333334, + "grad_norm": 2.2270083366769686, + "learning_rate": 5.278811685169493e-07, + "loss": 0.5097, + "step": 8033 + }, + { + "avg_step_time": 5.8054960111174925, + "epoch": 0.8568533333333334, + "eta_time": 2.164159901922132, + "step": 8033 + }, + { + "epoch": 0.85696, + "grad_norm": 2.035255706431169, + "learning_rate": 5.271088716791273e-07, + "loss": 0.4834, + "step": 8034 + }, + { + "avg_step_time": 5.817722770902845, + "epoch": 0.85696, + "eta_time": 2.16710173216131, + "step": 8034 + }, + { + "epoch": 0.8570666666666666, + "grad_norm": 1.809146841047114, + "learning_rate": 5.263371087582281e-07, + "loss": 0.4232, + "step": 8035 + }, + { + "avg_step_time": 5.82161762256815, + "epoch": 0.8570666666666666, + "eta_time": 2.166935448400367, + "step": 8035 + }, + { + "epoch": 0.8571733333333333, + "grad_norm": 2.099246119178097, + "learning_rate": 5.255658798463742e-07, + "loss": 0.4857, + "step": 8036 + }, + { + "avg_step_time": 5.823093645500414, + "epoch": 0.8571733333333333, + "eta_time": 2.1658673309236263, + "step": 8036 + }, + { + "epoch": 0.85728, + "grad_norm": 1.8586178427212592, + "learning_rate": 5.24795185035627e-07, + "loss": 0.4401, + "step": 8037 + }, + { + "avg_step_time": 5.817850450072625, + "epoch": 0.85728, + "eta_time": 2.1623010839436594, + "step": 8037 + }, + { + "epoch": 0.8573866666666666, + "grad_norm": 1.7643590368242728, + "learning_rate": 5.240250244179801e-07, + "loss": 0.5838, + "step": 8038 + }, + { + "avg_step_time": 5.815648399218165, + "epoch": 0.8573866666666666, + "eta_time": 2.1598671971540795, + "step": 8038 + }, + { + "epoch": 0.8574933333333333, + "grad_norm": 2.052191689370693, + "learning_rate": 5.232553980853667e-07, + "loss": 0.4844, + "step": 8039 + }, + { + "avg_step_time": 5.828935558145696, + "epoch": 0.8574933333333333, + "eta_time": 2.163182751578514, + "step": 8039 + }, + { + "epoch": 0.8576, + "grad_norm": 1.7294799890231147, + "learning_rate": 5.224863061296553e-07, + "loss": 0.5159, + "step": 8040 + }, + { + "avg_step_time": 5.829086209788467, + "epoch": 0.8576, + "eta_time": 2.161619469463223, + "step": 8040 + }, + { + "epoch": 0.8577066666666666, + "grad_norm": 0.6211372657823347, + "learning_rate": 5.217177486426506e-07, + "loss": 0.4249, + "step": 8041 + }, + { + "avg_step_time": 5.818035383417149, + "epoch": 0.8577066666666666, + "eta_time": 2.1559053337440215, + "step": 8041 + }, + { + "epoch": 0.8578133333333333, + "grad_norm": 0.6460855997251983, + "learning_rate": 5.209497257160911e-07, + "loss": 0.4594, + "step": 8042 + }, + { + "avg_step_time": 5.7781916676145615, + "epoch": 0.8578133333333333, + "eta_time": 2.139535970258392, + "step": 8042 + }, + { + "epoch": 0.85792, + "grad_norm": 2.1826513997410486, + "learning_rate": 5.201822374416549e-07, + "loss": 0.4846, + "step": 8043 + }, + { + "avg_step_time": 5.766126081196949, + "epoch": 0.85792, + "eta_time": 2.133466650042871, + "step": 8043 + }, + { + "epoch": 0.8580266666666667, + "grad_norm": 0.6634919018010673, + "learning_rate": 5.194152839109562e-07, + "loss": 0.44, + "step": 8044 + }, + { + "avg_step_time": 5.705009886712739, + "epoch": 0.8580266666666667, + "eta_time": 2.109268933115182, + "step": 8044 + }, + { + "epoch": 0.8581333333333333, + "grad_norm": 1.8802253656815788, + "learning_rate": 5.186488652155425e-07, + "loss": 0.5639, + "step": 8045 + }, + { + "avg_step_time": 5.7060906044160475, + "epoch": 0.8581333333333333, + "eta_time": 2.1080834732981506, + "step": 8045 + }, + { + "epoch": 0.85824, + "grad_norm": 2.0795131554689514, + "learning_rate": 5.178829814469006e-07, + "loss": 0.5476, + "step": 8046 + }, + { + "avg_step_time": 5.69714688773107, + "epoch": 0.85824, + "eta_time": 2.1031967260540534, + "step": 8046 + }, + { + "epoch": 0.8583466666666667, + "grad_norm": 1.8188441223382061, + "learning_rate": 5.171176326964511e-07, + "loss": 0.4911, + "step": 8047 + }, + { + "avg_step_time": 5.734725976231123, + "epoch": 0.8583466666666667, + "eta_time": 2.1154766934541476, + "step": 8047 + }, + { + "epoch": 0.8584533333333333, + "grad_norm": 1.731233530188645, + "learning_rate": 5.163528190555495e-07, + "loss": 0.4777, + "step": 8048 + }, + { + "avg_step_time": 5.733105710058501, + "epoch": 0.8584533333333333, + "eta_time": 2.1132864659021195, + "step": 8048 + }, + { + "epoch": 0.85856, + "grad_norm": 1.8250538962196992, + "learning_rate": 5.155885406154937e-07, + "loss": 0.4937, + "step": 8049 + }, + { + "avg_step_time": 5.719454437795312, + "epoch": 0.85856, + "eta_time": 2.106665717921273, + "step": 8049 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 1.8496940309391532, + "learning_rate": 5.148247974675113e-07, + "loss": 0.4696, + "step": 8050 + }, + { + "avg_step_time": 5.724802778224753, + "epoch": 0.8586666666666667, + "eta_time": 2.1070454669854994, + "step": 8050 + }, + { + "epoch": 0.8587733333333334, + "grad_norm": 1.819351560431662, + "learning_rate": 5.140615897027679e-07, + "loss": 0.4537, + "step": 8051 + }, + { + "avg_step_time": 5.686294979519314, + "epoch": 0.8587733333333334, + "eta_time": 2.0912929313565476, + "step": 8051 + }, + { + "epoch": 0.85888, + "grad_norm": 2.0489569558963208, + "learning_rate": 5.132989174123659e-07, + "loss": 0.5854, + "step": 8052 + }, + { + "avg_step_time": 5.687378047692655, + "epoch": 0.85888, + "eta_time": 2.090111432527051, + "step": 8052 + }, + { + "epoch": 0.8589866666666667, + "grad_norm": 1.9669270614979348, + "learning_rate": 5.125367806873449e-07, + "loss": 0.4919, + "step": 8053 + }, + { + "avg_step_time": 5.688993709255951, + "epoch": 0.8589866666666667, + "eta_time": 2.089124912121213, + "step": 8053 + }, + { + "epoch": 0.8590933333333334, + "grad_norm": 1.6096550794302082, + "learning_rate": 5.117751796186776e-07, + "loss": 0.4725, + "step": 8054 + }, + { + "avg_step_time": 5.68679418467512, + "epoch": 0.8590933333333334, + "eta_time": 2.0867375327655093, + "step": 8054 + }, + { + "epoch": 0.8592, + "grad_norm": 1.919832187912335, + "learning_rate": 5.110141142972735e-07, + "loss": 0.4277, + "step": 8055 + }, + { + "avg_step_time": 5.684270403601906, + "epoch": 0.8592, + "eta_time": 2.084232481320699, + "step": 8055 + }, + { + "epoch": 0.8593066666666667, + "grad_norm": 2.0937319957164586, + "learning_rate": 5.102535848139812e-07, + "loss": 0.4889, + "step": 8056 + }, + { + "avg_step_time": 5.683674600389269, + "epoch": 0.8593066666666667, + "eta_time": 2.0824352216426236, + "step": 8056 + }, + { + "epoch": 0.8594133333333334, + "grad_norm": 1.9479925686529285, + "learning_rate": 5.094935912595805e-07, + "loss": 0.4398, + "step": 8057 + }, + { + "avg_step_time": 5.704372261509751, + "epoch": 0.8594133333333334, + "eta_time": 2.0884340668527366, + "step": 8057 + }, + { + "epoch": 0.85952, + "grad_norm": 1.7664919640991437, + "learning_rate": 5.087341337247914e-07, + "loss": 0.4013, + "step": 8058 + }, + { + "avg_step_time": 5.699542050409799, + "epoch": 0.85952, + "eta_time": 2.085082466774918, + "step": 8058 + }, + { + "epoch": 0.8596266666666667, + "grad_norm": 1.9054893748273778, + "learning_rate": 5.079752123002684e-07, + "loss": 0.5047, + "step": 8059 + }, + { + "avg_step_time": 5.702076273735123, + "epoch": 0.8596266666666667, + "eta_time": 2.084425660065395, + "step": 8059 + }, + { + "epoch": 0.8597333333333333, + "grad_norm": 1.744147241242024, + "learning_rate": 5.07216827076602e-07, + "loss": 0.4461, + "step": 8060 + }, + { + "avg_step_time": 5.6997786868702285, + "epoch": 0.8597333333333333, + "eta_time": 2.0820024925650973, + "step": 8060 + }, + { + "epoch": 0.85984, + "grad_norm": 1.6021830026485488, + "learning_rate": 5.064589781443163e-07, + "loss": 0.4509, + "step": 8061 + }, + { + "avg_step_time": 5.6998129468975645, + "epoch": 0.85984, + "eta_time": 2.0804317256176112, + "step": 8061 + }, + { + "epoch": 0.8599466666666666, + "grad_norm": 1.8362907958070374, + "learning_rate": 5.057016655938763e-07, + "loss": 0.4652, + "step": 8062 + }, + { + "avg_step_time": 5.668193590761435, + "epoch": 0.8599466666666666, + "eta_time": 2.0673161624082677, + "step": 8062 + }, + { + "epoch": 0.8600533333333333, + "grad_norm": 1.6544382859204811, + "learning_rate": 5.0494488951568e-07, + "loss": 0.4207, + "step": 8063 + }, + { + "avg_step_time": 5.668873714678215, + "epoch": 0.8600533333333333, + "eta_time": 2.065989531571616, + "step": 8063 + }, + { + "epoch": 0.86016, + "grad_norm": 1.733345430867066, + "learning_rate": 5.041886500000603e-07, + "loss": 0.4461, + "step": 8064 + }, + { + "avg_step_time": 5.667878981792565, + "epoch": 0.86016, + "eta_time": 2.0640525958694593, + "step": 8064 + }, + { + "epoch": 0.8602666666666666, + "grad_norm": 1.778504234938143, + "learning_rate": 5.03432947137289e-07, + "loss": 0.4564, + "step": 8065 + }, + { + "avg_step_time": 5.663738963579891, + "epoch": 0.8602666666666666, + "eta_time": 2.0609716784137935, + "step": 8065 + }, + { + "epoch": 0.8603733333333333, + "grad_norm": 0.6523561521022061, + "learning_rate": 5.026777810175721e-07, + "loss": 0.4297, + "step": 8066 + }, + { + "avg_step_time": 5.626873806269482, + "epoch": 0.8603733333333333, + "eta_time": 2.0459938367796533, + "step": 8066 + }, + { + "epoch": 0.86048, + "grad_norm": 1.9338470094643532, + "learning_rate": 5.019231517310491e-07, + "loss": 0.4772, + "step": 8067 + }, + { + "avg_step_time": 5.626342289375536, + "epoch": 0.86048, + "eta_time": 2.0442376984731117, + "step": 8067 + }, + { + "epoch": 0.8605866666666667, + "grad_norm": 2.044123903933526, + "learning_rate": 5.01169059367802e-07, + "loss": 0.5033, + "step": 8068 + }, + { + "avg_step_time": 5.62142325892593, + "epoch": 0.8605866666666667, + "eta_time": 2.040888944282275, + "step": 8068 + }, + { + "epoch": 0.8606933333333333, + "grad_norm": 1.9261780873860737, + "learning_rate": 5.004155040178432e-07, + "loss": 0.468, + "step": 8069 + }, + { + "avg_step_time": 5.61984394295047, + "epoch": 0.8606933333333333, + "eta_time": 2.038754497081476, + "step": 8069 + }, + { + "epoch": 0.8608, + "grad_norm": 1.633109393724518, + "learning_rate": 4.996624857711219e-07, + "loss": 0.4253, + "step": 8070 + }, + { + "avg_step_time": 5.617608727830829, + "epoch": 0.8608, + "eta_time": 2.0363831638386753, + "step": 8070 + }, + { + "epoch": 0.8609066666666667, + "grad_norm": 0.6266865070251534, + "learning_rate": 4.989100047175243e-07, + "loss": 0.4014, + "step": 8071 + }, + { + "avg_step_time": 5.567096941398852, + "epoch": 0.8609066666666667, + "eta_time": 2.0165262254400287, + "step": 8071 + }, + { + "epoch": 0.8610133333333333, + "grad_norm": 1.7562302184276577, + "learning_rate": 4.981580609468717e-07, + "loss": 0.4982, + "step": 8072 + }, + { + "avg_step_time": 5.569916864838263, + "epoch": 0.8610133333333333, + "eta_time": 2.016000465245627, + "step": 8072 + }, + { + "epoch": 0.86112, + "grad_norm": 0.6121751737390464, + "learning_rate": 4.97406654548922e-07, + "loss": 0.4055, + "step": 8073 + }, + { + "avg_step_time": 5.539098161639589, + "epoch": 0.86112, + "eta_time": 2.003307168459651, + "step": 8073 + }, + { + "epoch": 0.8612266666666667, + "grad_norm": 1.8708850597059319, + "learning_rate": 4.966557856133697e-07, + "loss": 0.544, + "step": 8074 + }, + { + "avg_step_time": 5.550143689820261, + "epoch": 0.8612266666666667, + "eta_time": 2.005760261237822, + "step": 8074 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 1.7342023133544615, + "learning_rate": 4.959054542298425e-07, + "loss": 0.5018, + "step": 8075 + }, + { + "avg_step_time": 5.5456680986616345, + "epoch": 0.8613333333333333, + "eta_time": 2.0026023689611456, + "step": 8075 + }, + { + "epoch": 0.86144, + "grad_norm": 2.1219805544125454, + "learning_rate": 4.951556604879049e-07, + "loss": 0.4856, + "step": 8076 + }, + { + "avg_step_time": 5.557303724866925, + "epoch": 0.86144, + "eta_time": 2.0052604273894823, + "step": 8076 + }, + { + "epoch": 0.8615466666666667, + "grad_norm": 1.9844318683568019, + "learning_rate": 4.94406404477058e-07, + "loss": 0.4888, + "step": 8077 + }, + { + "avg_step_time": 5.55895179209083, + "epoch": 0.8615466666666667, + "eta_time": 2.0043109517038604, + "step": 8077 + }, + { + "epoch": 0.8616533333333334, + "grad_norm": 1.8714913344987103, + "learning_rate": 4.936576862867409e-07, + "loss": 0.4237, + "step": 8078 + }, + { + "avg_step_time": 5.594729035791724, + "epoch": 0.8616533333333334, + "eta_time": 2.0156565442838517, + "step": 8078 + }, + { + "epoch": 0.86176, + "grad_norm": 2.370958429751947, + "learning_rate": 4.929095060063227e-07, + "loss": 0.4771, + "step": 8079 + }, + { + "avg_step_time": 5.592271766277275, + "epoch": 0.86176, + "eta_time": 2.013217835859819, + "step": 8079 + }, + { + "epoch": 0.8618666666666667, + "grad_norm": 1.6701154343161488, + "learning_rate": 4.921618637251141e-07, + "loss": 0.4868, + "step": 8080 + }, + { + "avg_step_time": 5.662326152878578, + "epoch": 0.8618666666666667, + "eta_time": 2.0368645466604884, + "step": 8080 + }, + { + "epoch": 0.8619733333333334, + "grad_norm": 1.9938182793047576, + "learning_rate": 4.914147595323581e-07, + "loss": 0.5429, + "step": 8081 + }, + { + "avg_step_time": 5.6696851301674895, + "epoch": 0.8619733333333334, + "eta_time": 2.037936821787981, + "step": 8081 + }, + { + "epoch": 0.86208, + "grad_norm": 0.6737761309848911, + "learning_rate": 4.906681935172342e-07, + "loss": 0.462, + "step": 8082 + }, + { + "avg_step_time": 5.603920351375233, + "epoch": 0.86208, + "eta_time": 2.012741392868938, + "step": 8082 + }, + { + "epoch": 0.8621866666666667, + "grad_norm": 1.9642175719589121, + "learning_rate": 4.89922165768858e-07, + "loss": 0.5293, + "step": 8083 + }, + { + "avg_step_time": 5.638095749749078, + "epoch": 0.8621866666666667, + "eta_time": 2.0234499190766133, + "step": 8083 + }, + { + "epoch": 0.8622933333333334, + "grad_norm": 1.8611461497692166, + "learning_rate": 4.891766763762823e-07, + "loss": 0.4991, + "step": 8084 + }, + { + "avg_step_time": 5.674735724323928, + "epoch": 0.8622933333333334, + "eta_time": 2.0350232833617197, + "step": 8084 + }, + { + "epoch": 0.8624, + "grad_norm": 2.277811515506779, + "learning_rate": 4.88431725428492e-07, + "loss": 0.5037, + "step": 8085 + }, + { + "avg_step_time": 5.675717334554653, + "epoch": 0.8624, + "eta_time": 2.0337987115487506, + "step": 8085 + }, + { + "epoch": 0.8625066666666666, + "grad_norm": 1.8451848830908415, + "learning_rate": 4.876873130144122e-07, + "loss": 0.5037, + "step": 8086 + }, + { + "avg_step_time": 5.6950861853782575, + "epoch": 0.8625066666666666, + "eta_time": 2.0391572480423816, + "step": 8086 + }, + { + "epoch": 0.8626133333333333, + "grad_norm": 1.7608953597166037, + "learning_rate": 4.869434392228989e-07, + "loss": 0.4618, + "step": 8087 + }, + { + "avg_step_time": 5.694020319466639, + "epoch": 0.8626133333333333, + "eta_time": 2.0371939365202865, + "step": 8087 + }, + { + "epoch": 0.86272, + "grad_norm": 1.9338794360322846, + "learning_rate": 4.862001041427488e-07, + "loss": 0.5952, + "step": 8088 + }, + { + "avg_step_time": 5.69724048749365, + "epoch": 0.86272, + "eta_time": 2.0367634742789797, + "step": 8088 + }, + { + "epoch": 0.8628266666666666, + "grad_norm": 0.6429723158631296, + "learning_rate": 4.85457307862689e-07, + "loss": 0.4192, + "step": 8089 + }, + { + "avg_step_time": 5.685704002476702, + "epoch": 0.8628266666666666, + "eta_time": 2.0310598186625106, + "step": 8089 + }, + { + "epoch": 0.8629333333333333, + "grad_norm": 1.769488709433076, + "learning_rate": 4.847150504713882e-07, + "loss": 0.4247, + "step": 8090 + }, + { + "avg_step_time": 5.683933065395163, + "epoch": 0.8629333333333333, + "eta_time": 2.0288483302868845, + "step": 8090 + }, + { + "epoch": 0.86304, + "grad_norm": 1.8000434522268742, + "learning_rate": 4.839733320574457e-07, + "loss": 0.5075, + "step": 8091 + }, + { + "avg_step_time": 5.684669463321416, + "epoch": 0.86304, + "eta_time": 2.0275321085846385, + "step": 8091 + }, + { + "epoch": 0.8631466666666666, + "grad_norm": 1.9185323437701276, + "learning_rate": 4.832321527093969e-07, + "loss": 0.5535, + "step": 8092 + }, + { + "avg_step_time": 5.671620867469094, + "epoch": 0.8631466666666666, + "eta_time": 2.0213026591563468, + "step": 8092 + }, + { + "epoch": 0.8632533333333333, + "grad_norm": 1.827834112110679, + "learning_rate": 4.824915125157187e-07, + "loss": 0.4761, + "step": 8093 + }, + { + "avg_step_time": 5.7200325306015785, + "epoch": 0.8632533333333333, + "eta_time": 2.036967140064229, + "step": 8093 + }, + { + "epoch": 0.86336, + "grad_norm": 1.9407998617756808, + "learning_rate": 4.817514115648164e-07, + "loss": 0.5492, + "step": 8094 + }, + { + "avg_step_time": 5.72111769878503, + "epoch": 0.86336, + "eta_time": 2.0357643811510067, + "step": 8094 + }, + { + "epoch": 0.8634666666666667, + "grad_norm": 0.6384859354336955, + "learning_rate": 4.810118499450333e-07, + "loss": 0.4303, + "step": 8095 + }, + { + "avg_step_time": 5.716074640100652, + "epoch": 0.8634666666666667, + "eta_time": 2.0323820942580095, + "step": 8095 + }, + { + "epoch": 0.8635733333333333, + "grad_norm": 1.732279632908644, + "learning_rate": 4.8027282774465e-07, + "loss": 0.4978, + "step": 8096 + }, + { + "avg_step_time": 5.724374306322348, + "epoch": 0.8635733333333333, + "eta_time": 2.033742982718412, + "step": 8096 + }, + { + "epoch": 0.86368, + "grad_norm": 1.7332850021152617, + "learning_rate": 4.795343450518825e-07, + "loss": 0.4785, + "step": 8097 + }, + { + "avg_step_time": 5.72199878307304, + "epoch": 0.86368, + "eta_time": 2.031309567990929, + "step": 8097 + }, + { + "epoch": 0.8637866666666667, + "grad_norm": 0.644444983852006, + "learning_rate": 4.787964019548797e-07, + "loss": 0.448, + "step": 8098 + }, + { + "avg_step_time": 5.689002771570225, + "epoch": 0.8637866666666667, + "eta_time": 2.018015705359771, + "step": 8098 + }, + { + "epoch": 0.8638933333333333, + "grad_norm": 1.9793933204708334, + "learning_rate": 4.780589985417294e-07, + "loss": 0.5188, + "step": 8099 + }, + { + "avg_step_time": 5.681588852044308, + "epoch": 0.8638933333333333, + "eta_time": 2.0138076042245934, + "step": 8099 + }, + { + "epoch": 0.864, + "grad_norm": 1.68166024900266, + "learning_rate": 4.773221349004531e-07, + "loss": 0.5368, + "step": 8100 + }, + { + "avg_step_time": 5.717370803910073, + "epoch": 0.864, + "eta_time": 2.0249021597181507, + "step": 8100 + }, + { + "epoch": 0.8641066666666667, + "grad_norm": 2.0383441668290074, + "learning_rate": 4.765858111190053e-07, + "loss": 0.4314, + "step": 8101 + }, + { + "avg_step_time": 5.71925043096446, + "epoch": 0.8641066666666667, + "eta_time": 2.023979180291312, + "step": 8101 + }, + { + "epoch": 0.8642133333333333, + "grad_norm": 0.6341683541772898, + "learning_rate": 4.7585002728528393e-07, + "loss": 0.4387, + "step": 8102 + }, + { + "avg_step_time": 5.68357324118566, + "epoch": 0.8642133333333333, + "eta_time": 2.0097746488970403, + "step": 8102 + }, + { + "epoch": 0.86432, + "grad_norm": 1.8555585764218931, + "learning_rate": 4.7511478348711447e-07, + "loss": 0.4196, + "step": 8103 + }, + { + "avg_step_time": 5.684105181934858, + "epoch": 0.86432, + "eta_time": 2.0083838309503164, + "step": 8103 + }, + { + "epoch": 0.8644266666666667, + "grad_norm": 1.8043288254523815, + "learning_rate": 4.743800798122611e-07, + "loss": 0.4782, + "step": 8104 + }, + { + "avg_step_time": 5.716635366882941, + "epoch": 0.8644266666666667, + "eta_time": 2.018289875363394, + "step": 8104 + }, + { + "epoch": 0.8645333333333334, + "grad_norm": 1.8811235564491617, + "learning_rate": 4.736459163484253e-07, + "loss": 0.4469, + "step": 8105 + }, + { + "avg_step_time": 5.715274386935764, + "epoch": 0.8645333333333334, + "eta_time": 2.01622179761345, + "step": 8105 + }, + { + "epoch": 0.86464, + "grad_norm": 0.6341862813155962, + "learning_rate": 4.729122931832392e-07, + "loss": 0.4396, + "step": 8106 + }, + { + "avg_step_time": 5.69332124970176, + "epoch": 0.86464, + "eta_time": 2.0068957405198704, + "step": 8106 + }, + { + "epoch": 0.8647466666666667, + "grad_norm": 0.6304731008244806, + "learning_rate": 4.7217921040427604e-07, + "loss": 0.4111, + "step": 8107 + }, + { + "avg_step_time": 5.658110782353565, + "epoch": 0.8647466666666667, + "eta_time": 1.992912353340089, + "step": 8107 + }, + { + "epoch": 0.8648533333333334, + "grad_norm": 1.7732250708563315, + "learning_rate": 4.7144666809903984e-07, + "loss": 0.4771, + "step": 8108 + }, + { + "avg_step_time": 5.647699594497681, + "epoch": 0.8648533333333334, + "eta_time": 1.9876764961746003, + "step": 8108 + }, + { + "epoch": 0.86496, + "grad_norm": 1.6274615990220167, + "learning_rate": 4.707146663549744e-07, + "loss": 0.5029, + "step": 8109 + }, + { + "avg_step_time": 5.649903981372564, + "epoch": 0.86496, + "eta_time": 1.9868829001160182, + "step": 8109 + }, + { + "epoch": 0.8650666666666667, + "grad_norm": 2.0355779618894565, + "learning_rate": 4.6998320525945494e-07, + "loss": 0.4279, + "step": 8110 + }, + { + "avg_step_time": 5.688249260488183, + "epoch": 0.8650666666666667, + "eta_time": 1.9987875873659866, + "step": 8110 + }, + { + "epoch": 0.8651733333333333, + "grad_norm": 2.202473413702624, + "learning_rate": 4.6925228489979434e-07, + "loss": 0.4257, + "step": 8111 + }, + { + "avg_step_time": 5.686013513141209, + "epoch": 0.8651733333333333, + "eta_time": 1.996422522391802, + "step": 8111 + }, + { + "epoch": 0.86528, + "grad_norm": 1.6738148336598244, + "learning_rate": 4.685219053632423e-07, + "loss": 0.4034, + "step": 8112 + }, + { + "avg_step_time": 5.685484081807763, + "epoch": 0.86528, + "eta_time": 1.9946573320342236, + "step": 8112 + }, + { + "epoch": 0.8653866666666666, + "grad_norm": 2.0183842417902427, + "learning_rate": 4.677920667369806e-07, + "loss": 0.4293, + "step": 8113 + }, + { + "avg_step_time": 5.683276159594757, + "epoch": 0.8653866666666666, + "eta_time": 1.9923040315023843, + "step": 8113 + }, + { + "epoch": 0.8654933333333333, + "grad_norm": 1.8676728429332279, + "learning_rate": 4.6706276910812755e-07, + "loss": 0.4292, + "step": 8114 + }, + { + "avg_step_time": 5.686509741677178, + "epoch": 0.8654933333333333, + "eta_time": 1.9918579956263673, + "step": 8114 + }, + { + "epoch": 0.8656, + "grad_norm": 2.2896913116681517, + "learning_rate": 4.663340125637389e-07, + "loss": 0.4312, + "step": 8115 + }, + { + "avg_step_time": 5.685639017760152, + "epoch": 0.8656, + "eta_time": 1.9899736562160533, + "step": 8115 + }, + { + "epoch": 0.8657066666666666, + "grad_norm": 1.8626764676715355, + "learning_rate": 4.6560579719080343e-07, + "loss": 0.4702, + "step": 8116 + }, + { + "avg_step_time": 5.686054140630395, + "epoch": 0.8657066666666666, + "eta_time": 1.9885394897371298, + "step": 8116 + }, + { + "epoch": 0.8658133333333333, + "grad_norm": 2.063913551626462, + "learning_rate": 4.6487812307624613e-07, + "loss": 0.499, + "step": 8117 + }, + { + "avg_step_time": 5.686565565340446, + "epoch": 0.8658133333333333, + "eta_time": 1.9871387447773003, + "step": 8117 + }, + { + "epoch": 0.86592, + "grad_norm": 1.7648944658480608, + "learning_rate": 4.6415099030692914e-07, + "loss": 0.4595, + "step": 8118 + }, + { + "avg_step_time": 5.697700936384876, + "epoch": 0.86592, + "eta_time": 1.9894472436210524, + "step": 8118 + }, + { + "epoch": 0.8660266666666666, + "grad_norm": 2.042505993677446, + "learning_rate": 4.6342439896964686e-07, + "loss": 0.5015, + "step": 8119 + }, + { + "avg_step_time": 5.699287376018486, + "epoch": 0.8660266666666666, + "eta_time": 1.9884180400775606, + "step": 8119 + }, + { + "epoch": 0.8661333333333333, + "grad_norm": 1.8188821303207592, + "learning_rate": 4.6269834915112945e-07, + "loss": 0.4803, + "step": 8120 + }, + { + "avg_step_time": 5.694848286985147, + "epoch": 0.8661333333333333, + "eta_time": 1.9852873889350997, + "step": 8120 + }, + { + "epoch": 0.86624, + "grad_norm": 1.837996559836844, + "learning_rate": 4.619728409380453e-07, + "loss": 0.5045, + "step": 8121 + }, + { + "avg_step_time": 5.6927352866741145, + "epoch": 0.86624, + "eta_time": 1.9829694581914832, + "step": 8121 + }, + { + "epoch": 0.8663466666666667, + "grad_norm": 2.059849162891173, + "learning_rate": 4.612478744169968e-07, + "loss": 0.4348, + "step": 8122 + }, + { + "avg_step_time": 5.689374066362477, + "epoch": 0.8663466666666667, + "eta_time": 1.9802182514311624, + "step": 8122 + }, + { + "epoch": 0.8664533333333333, + "grad_norm": 1.850848790493936, + "learning_rate": 4.6052344967451977e-07, + "loss": 0.3854, + "step": 8123 + }, + { + "avg_step_time": 5.639107239366782, + "epoch": 0.8664533333333333, + "eta_time": 1.9611561843575585, + "step": 8123 + }, + { + "epoch": 0.86656, + "grad_norm": 2.181401672048366, + "learning_rate": 4.597995667970878e-07, + "loss": 0.5545, + "step": 8124 + }, + { + "avg_step_time": 5.636341376738115, + "epoch": 0.86656, + "eta_time": 1.958628628416495, + "step": 8124 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 2.150359381091943, + "learning_rate": 4.5907622587110845e-07, + "loss": 0.5229, + "step": 8125 + }, + { + "avg_step_time": 5.65348295731978, + "epoch": 0.8666666666666667, + "eta_time": 1.9630149157360348, + "step": 8125 + }, + { + "epoch": 0.8667733333333333, + "grad_norm": 1.970912052818547, + "learning_rate": 4.583534269829232e-07, + "loss": 0.5483, + "step": 8126 + }, + { + "avg_step_time": 5.655952176662407, + "epoch": 0.8667733333333333, + "eta_time": 1.962301185736485, + "step": 8126 + }, + { + "epoch": 0.86688, + "grad_norm": 0.6741134789107215, + "learning_rate": 4.5763117021881467e-07, + "loss": 0.4475, + "step": 8127 + }, + { + "avg_step_time": 5.643871244758066, + "epoch": 0.86688, + "eta_time": 1.9565420315161297, + "step": 8127 + }, + { + "epoch": 0.8669866666666667, + "grad_norm": 0.6828390804104291, + "learning_rate": 4.569094556649939e-07, + "loss": 0.435, + "step": 8128 + }, + { + "avg_step_time": 5.607854763666789, + "epoch": 0.8669866666666667, + "eta_time": 1.9424985806368018, + "step": 8128 + }, + { + "epoch": 0.8670933333333334, + "grad_norm": 0.6621119439268628, + "learning_rate": 4.561882834076098e-07, + "loss": 0.4418, + "step": 8129 + }, + { + "avg_step_time": 5.5739281201603434, + "epoch": 0.8670933333333334, + "eta_time": 1.9291984549221632, + "step": 8129 + }, + { + "epoch": 0.8672, + "grad_norm": 1.9327352911262383, + "learning_rate": 4.5546765353274846e-07, + "loss": 0.5065, + "step": 8130 + }, + { + "avg_step_time": 5.534899080642546, + "epoch": 0.8672, + "eta_time": 1.9141525987222139, + "step": 8130 + }, + { + "epoch": 0.8673066666666667, + "grad_norm": 1.7476968997288196, + "learning_rate": 4.547475661264272e-07, + "loss": 0.4778, + "step": 8131 + }, + { + "avg_step_time": 5.536425604964748, + "epoch": 0.8673066666666667, + "eta_time": 1.9131426257155961, + "step": 8131 + }, + { + "epoch": 0.8674133333333334, + "grad_norm": 1.9711593919207886, + "learning_rate": 4.5402802127460233e-07, + "loss": 0.4612, + "step": 8132 + }, + { + "avg_step_time": 5.536859074024239, + "epoch": 0.8674133333333334, + "eta_time": 1.9117543969478137, + "step": 8132 + }, + { + "epoch": 0.86752, + "grad_norm": 1.774194726584403, + "learning_rate": 4.5330901906316506e-07, + "loss": 0.4496, + "step": 8133 + }, + { + "avg_step_time": 5.5410899008163295, + "epoch": 0.86752, + "eta_time": 1.9116760157816337, + "step": 8133 + }, + { + "epoch": 0.8676266666666667, + "grad_norm": 1.7803829888268432, + "learning_rate": 4.525905595779395e-07, + "loss": 0.4763, + "step": 8134 + }, + { + "avg_step_time": 5.562794071255309, + "epoch": 0.8676266666666667, + "eta_time": 1.9176187340077329, + "step": 8134 + }, + { + "epoch": 0.8677333333333334, + "grad_norm": 1.6000116519878382, + "learning_rate": 4.518726429046849e-07, + "loss": 0.5331, + "step": 8135 + }, + { + "avg_step_time": 5.563149868839919, + "epoch": 0.8677333333333334, + "eta_time": 1.9161960659337498, + "step": 8135 + }, + { + "epoch": 0.86784, + "grad_norm": 1.9308110972605244, + "learning_rate": 4.511552691290988e-07, + "loss": 0.4844, + "step": 8136 + }, + { + "avg_step_time": 5.567411762295348, + "epoch": 0.86784, + "eta_time": 1.9161175481899821, + "step": 8136 + }, + { + "epoch": 0.8679466666666666, + "grad_norm": 1.895193529654932, + "learning_rate": 4.5043843833681265e-07, + "loss": 0.4484, + "step": 8137 + }, + { + "avg_step_time": 5.565594624991369, + "epoch": 0.8679466666666666, + "eta_time": 1.9139461515942542, + "step": 8137 + }, + { + "epoch": 0.8680533333333333, + "grad_norm": 1.672667337562904, + "learning_rate": 4.4972215061339087e-07, + "loss": 0.5241, + "step": 8138 + }, + { + "avg_step_time": 5.5491842115768275, + "epoch": 0.8680533333333333, + "eta_time": 1.9067613527001488, + "step": 8138 + }, + { + "epoch": 0.86816, + "grad_norm": 2.3826641841043137, + "learning_rate": 4.490064060443361e-07, + "loss": 0.5418, + "step": 8139 + }, + { + "avg_step_time": 5.5500969670035625, + "epoch": 0.86816, + "eta_time": 1.9055332920045565, + "step": 8139 + }, + { + "epoch": 0.8682666666666666, + "grad_norm": 1.7838549587603538, + "learning_rate": 4.4829120471508393e-07, + "loss": 0.4457, + "step": 8140 + }, + { + "avg_step_time": 5.56841319016736, + "epoch": 0.8682666666666666, + "eta_time": 1.910275080515747, + "step": 8140 + }, + { + "epoch": 0.8683733333333333, + "grad_norm": 2.1413981955241495, + "learning_rate": 4.4757654671100714e-07, + "loss": 0.5339, + "step": 8141 + }, + { + "avg_step_time": 5.606375879711575, + "epoch": 0.8683733333333333, + "eta_time": 1.9217410654344675, + "step": 8141 + }, + { + "epoch": 0.86848, + "grad_norm": 1.7728366848185095, + "learning_rate": 4.468624321174109e-07, + "loss": 0.4429, + "step": 8142 + }, + { + "avg_step_time": 5.612189685455476, + "epoch": 0.86848, + "eta_time": 1.9221749672685007, + "step": 8142 + }, + { + "epoch": 0.8685866666666666, + "grad_norm": 0.6597168955400563, + "learning_rate": 4.4614886101953915e-07, + "loss": 0.4577, + "step": 8143 + }, + { + "avg_step_time": 5.613521679483279, + "epoch": 0.8685866666666666, + "eta_time": 1.9210718636453887, + "step": 8143 + }, + { + "epoch": 0.8686933333333333, + "grad_norm": 1.925542158741439, + "learning_rate": 4.454358335025677e-07, + "loss": 0.4902, + "step": 8144 + }, + { + "avg_step_time": 5.614118874675095, + "epoch": 0.8686933333333333, + "eta_time": 1.919716759645845, + "step": 8144 + }, + { + "epoch": 0.8688, + "grad_norm": 1.8199327652809154, + "learning_rate": 4.4472334965160736e-07, + "loss": 0.452, + "step": 8145 + }, + { + "avg_step_time": 5.609065347247654, + "epoch": 0.8688, + "eta_time": 1.916430660309615, + "step": 8145 + }, + { + "epoch": 0.8689066666666667, + "grad_norm": 1.5743492723102432, + "learning_rate": 4.440114095517084e-07, + "loss": 0.438, + "step": 8146 + }, + { + "avg_step_time": 5.6090019014146595, + "epoch": 0.8689066666666667, + "eta_time": 1.9148509268996157, + "step": 8146 + }, + { + "epoch": 0.8690133333333333, + "grad_norm": 1.9800699790458978, + "learning_rate": 4.4330001328785176e-07, + "loss": 0.5584, + "step": 8147 + }, + { + "avg_step_time": 5.61301672819889, + "epoch": 0.8690133333333333, + "eta_time": 1.9146623728411767, + "step": 8147 + }, + { + "epoch": 0.86912, + "grad_norm": 1.9551664877993367, + "learning_rate": 4.4258916094495394e-07, + "loss": 0.4659, + "step": 8148 + }, + { + "avg_step_time": 5.614595179605966, + "epoch": 0.86912, + "eta_time": 1.9136411903823667, + "step": 8148 + }, + { + "epoch": 0.8692266666666667, + "grad_norm": 2.4466942417576183, + "learning_rate": 4.4187885260786933e-07, + "loss": 0.4512, + "step": 8149 + }, + { + "avg_step_time": 5.610404462525339, + "epoch": 0.8692266666666667, + "eta_time": 1.9106544086266848, + "step": 8149 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 1.7886333674132406, + "learning_rate": 4.411690883613834e-07, + "loss": 0.3988, + "step": 8150 + }, + { + "avg_step_time": 5.613399481532549, + "epoch": 0.8693333333333333, + "eta_time": 1.9101151013548257, + "step": 8150 + }, + { + "epoch": 0.86944, + "grad_norm": 2.2334198486628667, + "learning_rate": 4.4045986829022e-07, + "loss": 0.5177, + "step": 8151 + }, + { + "avg_step_time": 5.6279261328957295, + "epoch": 0.86944, + "eta_time": 1.913494885184548, + "step": 8151 + }, + { + "epoch": 0.8695466666666667, + "grad_norm": 0.6533965162787274, + "learning_rate": 4.397511924790382e-07, + "loss": 0.455, + "step": 8152 + }, + { + "avg_step_time": 5.59298024273882, + "epoch": 0.8695466666666667, + "eta_time": 1.9000596769082159, + "step": 8152 + }, + { + "epoch": 0.8696533333333333, + "grad_norm": 1.6940005562669056, + "learning_rate": 4.3904306101242855e-07, + "loss": 0.4862, + "step": 8153 + }, + { + "avg_step_time": 5.597360642269404, + "epoch": 0.8696533333333333, + "eta_time": 1.8999929735703367, + "step": 8153 + }, + { + "epoch": 0.86976, + "grad_norm": 1.7595470305028067, + "learning_rate": 4.38335473974919e-07, + "loss": 0.5001, + "step": 8154 + }, + { + "avg_step_time": 5.599887366246695, + "epoch": 0.86976, + "eta_time": 1.8992951317186708, + "step": 8154 + }, + { + "epoch": 0.8698666666666667, + "grad_norm": 2.050823929041874, + "learning_rate": 4.376284314509727e-07, + "loss": 0.4791, + "step": 8155 + }, + { + "avg_step_time": 5.601741956942009, + "epoch": 0.8698666666666667, + "eta_time": 1.8983681076303474, + "step": 8155 + }, + { + "epoch": 0.8699733333333334, + "grad_norm": 1.5615134425600221, + "learning_rate": 4.369219335249886e-07, + "loss": 0.4669, + "step": 8156 + }, + { + "avg_step_time": 5.582302700389516, + "epoch": 0.8699733333333334, + "eta_time": 1.8902297199374498, + "step": 8156 + }, + { + "epoch": 0.87008, + "grad_norm": 2.2128365449111933, + "learning_rate": 4.362159802812971e-07, + "loss": 0.5955, + "step": 8157 + }, + { + "avg_step_time": 5.580585212418527, + "epoch": 0.87008, + "eta_time": 1.8880979968682683, + "step": 8157 + }, + { + "epoch": 0.8701866666666667, + "grad_norm": 1.9690627543299093, + "learning_rate": 4.3551057180416855e-07, + "loss": 0.4823, + "step": 8158 + }, + { + "avg_step_time": 5.5791203325445, + "epoch": 0.8701866666666667, + "eta_time": 1.8860526235296269, + "step": 8158 + }, + { + "epoch": 0.8702933333333334, + "grad_norm": 1.7403800639838307, + "learning_rate": 4.34805708177804e-07, + "loss": 0.4343, + "step": 8159 + }, + { + "avg_step_time": 5.580632294067229, + "epoch": 0.8702933333333334, + "eta_time": 1.8850135748849306, + "step": 8159 + }, + { + "epoch": 0.8704, + "grad_norm": 1.9041492632832027, + "learning_rate": 4.341013894863405e-07, + "loss": 0.4342, + "step": 8160 + }, + { + "avg_step_time": 5.577740250211773, + "epoch": 0.8704, + "eta_time": 1.8824873344464736, + "step": 8160 + }, + { + "epoch": 0.8705066666666667, + "grad_norm": 1.917043113695186, + "learning_rate": 4.333976158138514e-07, + "loss": 0.5227, + "step": 8161 + }, + { + "avg_step_time": 5.567324096506292, + "epoch": 0.8705066666666667, + "eta_time": 1.8774254036551774, + "step": 8161 + }, + { + "epoch": 0.8706133333333334, + "grad_norm": 1.778997607992562, + "learning_rate": 4.3269438724434563e-07, + "loss": 0.5007, + "step": 8162 + }, + { + "avg_step_time": 5.566767196462612, + "epoch": 0.8706133333333334, + "eta_time": 1.8756912803636523, + "step": 8162 + }, + { + "epoch": 0.87072, + "grad_norm": 2.1155161461810805, + "learning_rate": 4.3199170386176325e-07, + "loss": 0.5057, + "step": 8163 + }, + { + "avg_step_time": 5.566070631296948, + "epoch": 0.87072, + "eta_time": 1.8739104458699725, + "step": 8163 + }, + { + "epoch": 0.8708266666666666, + "grad_norm": 2.001062210723783, + "learning_rate": 4.3128956574998436e-07, + "loss": 0.4731, + "step": 8164 + }, + { + "avg_step_time": 5.571182771162554, + "epoch": 0.8708266666666666, + "eta_time": 1.8740839821882924, + "step": 8164 + }, + { + "epoch": 0.8709333333333333, + "grad_norm": 2.362380485349119, + "learning_rate": 4.3058797299281864e-07, + "loss": 0.5918, + "step": 8165 + }, + { + "avg_step_time": 5.606548737997961, + "epoch": 0.8709333333333333, + "eta_time": 1.8844233258270924, + "step": 8165 + }, + { + "epoch": 0.87104, + "grad_norm": 1.8309593484261268, + "learning_rate": 4.2988692567401515e-07, + "loss": 0.4114, + "step": 8166 + }, + { + "avg_step_time": 5.605678729336671, + "epoch": 0.87104, + "eta_time": 1.8825737732688987, + "step": 8166 + }, + { + "epoch": 0.8711466666666666, + "grad_norm": 2.0751558567036006, + "learning_rate": 4.2918642387725475e-07, + "loss": 0.5342, + "step": 8167 + }, + { + "avg_step_time": 5.60343071667835, + "epoch": 0.8711466666666666, + "eta_time": 1.8802623071520685, + "step": 8167 + }, + { + "epoch": 0.8712533333333333, + "grad_norm": 1.8514819184378375, + "learning_rate": 4.284864676861561e-07, + "loss": 0.3831, + "step": 8168 + }, + { + "avg_step_time": 5.602502076312749, + "epoch": 0.8712533333333333, + "eta_time": 1.8783944461415245, + "step": 8168 + }, + { + "epoch": 0.87136, + "grad_norm": 1.829292060620404, + "learning_rate": 4.2778705718426907e-07, + "loss": 0.4859, + "step": 8169 + }, + { + "avg_step_time": 5.6015514797634545, + "epoch": 0.87136, + "eta_time": 1.8765197457207572, + "step": 8169 + }, + { + "epoch": 0.8714666666666666, + "grad_norm": 1.7478835685005005, + "learning_rate": 4.2708819245508126e-07, + "loss": 0.4584, + "step": 8170 + }, + { + "avg_step_time": 5.636139058103465, + "epoch": 0.8714666666666666, + "eta_time": 1.8865409902818544, + "step": 8170 + }, + { + "epoch": 0.8715733333333333, + "grad_norm": 2.2824637032055657, + "learning_rate": 4.2638987358201546e-07, + "loss": 0.5455, + "step": 8171 + }, + { + "avg_step_time": 5.633402321073744, + "epoch": 0.8715733333333333, + "eta_time": 1.884060109603552, + "step": 8171 + }, + { + "epoch": 0.87168, + "grad_norm": 1.782862059017858, + "learning_rate": 4.2569210064842716e-07, + "loss": 0.5334, + "step": 8172 + }, + { + "avg_step_time": 5.671629294000491, + "epoch": 0.87168, + "eta_time": 1.895269455745164, + "step": 8172 + }, + { + "epoch": 0.8717866666666667, + "grad_norm": 1.640436015963832, + "learning_rate": 4.249948737376064e-07, + "loss": 0.435, + "step": 8173 + }, + { + "avg_step_time": 5.665805142335217, + "epoch": 0.8717866666666667, + "eta_time": 1.8917493836352586, + "step": 8173 + }, + { + "epoch": 0.8718933333333333, + "grad_norm": 1.8729650073514308, + "learning_rate": 4.2429819293278107e-07, + "loss": 0.4596, + "step": 8174 + }, + { + "avg_step_time": 5.664425522390038, + "epoch": 0.8718933333333333, + "eta_time": 1.8897152923306766, + "step": 8174 + }, + { + "epoch": 0.872, + "grad_norm": 1.8272227866457291, + "learning_rate": 4.236020583171108e-07, + "loss": 0.4416, + "step": 8175 + }, + { + "avg_step_time": 5.657680911247176, + "epoch": 0.872, + "eta_time": 1.8858936370823922, + "step": 8175 + }, + { + "epoch": 0.8721066666666667, + "grad_norm": 1.7618141727590764, + "learning_rate": 4.2290646997369176e-07, + "loss": 0.4801, + "step": 8176 + }, + { + "avg_step_time": 5.661293232079708, + "epoch": 0.8721066666666667, + "eta_time": 1.885525162573214, + "step": 8176 + }, + { + "epoch": 0.8722133333333333, + "grad_norm": 2.030374106621845, + "learning_rate": 4.2221142798555545e-07, + "loss": 0.4675, + "step": 8177 + }, + { + "avg_step_time": 5.626008631003024, + "epoch": 0.8722133333333333, + "eta_time": 1.872210649983784, + "step": 8177 + }, + { + "epoch": 0.87232, + "grad_norm": 0.6344153614649677, + "learning_rate": 4.215169324356666e-07, + "loss": 0.4632, + "step": 8178 + }, + { + "avg_step_time": 5.59218405232285, + "epoch": 0.87232, + "eta_time": 1.8594011973973477, + "step": 8178 + }, + { + "epoch": 0.8724266666666667, + "grad_norm": 2.0062046494718992, + "learning_rate": 4.208229834069233e-07, + "loss": 0.4962, + "step": 8179 + }, + { + "avg_step_time": 5.527125235759851, + "epoch": 0.8724266666666667, + "eta_time": 1.8362338283246615, + "step": 8179 + }, + { + "epoch": 0.8725333333333334, + "grad_norm": 1.9003705079965045, + "learning_rate": 4.201295809821626e-07, + "loss": 0.4944, + "step": 8180 + }, + { + "avg_step_time": 5.518459495871958, + "epoch": 0.8725333333333334, + "eta_time": 1.831821971546386, + "step": 8180 + }, + { + "epoch": 0.87264, + "grad_norm": 1.6142198005863566, + "learning_rate": 4.194367252441545e-07, + "loss": 0.4258, + "step": 8181 + }, + { + "avg_step_time": 5.565760130834097, + "epoch": 0.87264, + "eta_time": 1.8459771100599756, + "step": 8181 + }, + { + "epoch": 0.8727466666666667, + "grad_norm": 2.248243196971614, + "learning_rate": 4.1874441627560105e-07, + "loss": 0.5419, + "step": 8182 + }, + { + "avg_step_time": 5.569405582216051, + "epoch": 0.8727466666666667, + "eta_time": 1.8456391276621524, + "step": 8182 + }, + { + "epoch": 0.8728533333333334, + "grad_norm": 1.8278337981768342, + "learning_rate": 4.180526541591434e-07, + "loss": 0.435, + "step": 8183 + }, + { + "avg_step_time": 5.566730121169427, + "epoch": 0.8728533333333334, + "eta_time": 1.8432061956760992, + "step": 8183 + }, + { + "epoch": 0.87296, + "grad_norm": 1.9797293815619634, + "learning_rate": 4.1736143897735394e-07, + "loss": 0.4353, + "step": 8184 + }, + { + "avg_step_time": 5.564969224159164, + "epoch": 0.87296, + "eta_time": 1.84107731832599, + "step": 8184 + }, + { + "epoch": 0.8730666666666667, + "grad_norm": 2.157756095456691, + "learning_rate": 4.1667077081274153e-07, + "loss": 0.5233, + "step": 8185 + }, + { + "avg_step_time": 5.54743520177976, + "epoch": 0.8730666666666667, + "eta_time": 1.833735525032754, + "step": 8185 + }, + { + "epoch": 0.8731733333333334, + "grad_norm": 1.8587639763178008, + "learning_rate": 4.1598064974775033e-07, + "loss": 0.4389, + "step": 8186 + }, + { + "avg_step_time": 5.544330006898051, + "epoch": 0.8731733333333334, + "eta_time": 1.8311689939449398, + "step": 8186 + }, + { + "epoch": 0.87328, + "grad_norm": 2.07826481641756, + "learning_rate": 4.152910758647577e-07, + "loss": 0.5152, + "step": 8187 + }, + { + "avg_step_time": 5.5454563636972445, + "epoch": 0.87328, + "eta_time": 1.8300006000200908, + "step": 8187 + }, + { + "epoch": 0.8733866666666666, + "grad_norm": 1.7580338092652636, + "learning_rate": 4.146020492460751e-07, + "loss": 0.4995, + "step": 8188 + }, + { + "avg_step_time": 5.562028114241783, + "epoch": 0.8733866666666666, + "eta_time": 1.8339242698902767, + "step": 8188 + }, + { + "epoch": 0.8734933333333333, + "grad_norm": 1.775638038043322, + "learning_rate": 4.1391356997394994e-07, + "loss": 0.4647, + "step": 8189 + }, + { + "avg_step_time": 5.562913880203709, + "epoch": 0.8734933333333333, + "eta_time": 1.8326710727559996, + "step": 8189 + }, + { + "epoch": 0.8736, + "grad_norm": 2.2771858758992365, + "learning_rate": 4.1322563813056606e-07, + "loss": 0.5338, + "step": 8190 + }, + { + "avg_step_time": 5.569428157324743, + "epoch": 0.8736, + "eta_time": 1.833270101786061, + "step": 8190 + }, + { + "epoch": 0.8737066666666666, + "grad_norm": 1.809984890539057, + "learning_rate": 4.1253825379803826e-07, + "loss": 0.5213, + "step": 8191 + }, + { + "avg_step_time": 5.581553059394913, + "epoch": 0.8737066666666666, + "eta_time": 1.8357107839787714, + "step": 8191 + }, + { + "epoch": 0.8738133333333333, + "grad_norm": 1.7503023311035064, + "learning_rate": 4.118514170584187e-07, + "loss": 0.4159, + "step": 8192 + }, + { + "avg_step_time": 5.568083743856411, + "epoch": 0.8738133333333333, + "eta_time": 1.8297341858283707, + "step": 8192 + }, + { + "epoch": 0.87392, + "grad_norm": 1.680220481011097, + "learning_rate": 4.111651279936929e-07, + "loss": 0.5002, + "step": 8193 + }, + { + "avg_step_time": 5.569446322893856, + "epoch": 0.87392, + "eta_time": 1.828634876016816, + "step": 8193 + }, + { + "epoch": 0.8740266666666666, + "grad_norm": 1.6418585566065564, + "learning_rate": 4.104793866857804e-07, + "loss": 0.4482, + "step": 8194 + }, + { + "avg_step_time": 5.607095506456163, + "epoch": 0.8740266666666666, + "eta_time": 1.8394388314235357, + "step": 8194 + }, + { + "epoch": 0.8741333333333333, + "grad_norm": 2.114673208536488, + "learning_rate": 4.097941932165367e-07, + "loss": 0.4886, + "step": 8195 + }, + { + "avg_step_time": 5.599495605988936, + "epoch": 0.8741333333333333, + "eta_time": 1.8353902264074844, + "step": 8195 + }, + { + "epoch": 0.87424, + "grad_norm": 1.875820911173115, + "learning_rate": 4.091095476677531e-07, + "loss": 0.4676, + "step": 8196 + }, + { + "avg_step_time": 5.599823217199306, + "epoch": 0.87424, + "eta_time": 1.8339421036327728, + "step": 8196 + }, + { + "epoch": 0.8743466666666667, + "grad_norm": 1.827370983896895, + "learning_rate": 4.0842545012115263e-07, + "loss": 0.4381, + "step": 8197 + }, + { + "avg_step_time": 5.631434149212307, + "epoch": 0.8743466666666667, + "eta_time": 1.8427303966033606, + "step": 8197 + }, + { + "epoch": 0.8744533333333333, + "grad_norm": 2.134418206713679, + "learning_rate": 4.0774190065839324e-07, + "loss": 0.5631, + "step": 8198 + }, + { + "avg_step_time": 5.631334865936125, + "epoch": 0.8744533333333333, + "eta_time": 1.8411336492241164, + "step": 8198 + }, + { + "epoch": 0.87456, + "grad_norm": 1.557108061134969, + "learning_rate": 4.070588993610697e-07, + "loss": 0.4431, + "step": 8199 + }, + { + "avg_step_time": 5.617953738780937, + "epoch": 0.87456, + "eta_time": 1.8351982213351061, + "step": 8199 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 1.9235698336356752, + "learning_rate": 4.0637644631071004e-07, + "loss": 0.4333, + "step": 8200 + }, + { + "avg_step_time": 5.617927637967196, + "epoch": 0.8746666666666667, + "eta_time": 1.8336291596142933, + "step": 8200 + }, + { + "epoch": 0.8747733333333333, + "grad_norm": 1.8540995677868681, + "learning_rate": 4.0569454158877587e-07, + "loss": 0.4738, + "step": 8201 + }, + { + "avg_step_time": 5.653749588764075, + "epoch": 0.8747733333333333, + "eta_time": 1.8437505603358402, + "step": 8201 + }, + { + "epoch": 0.87488, + "grad_norm": 2.111803849918773, + "learning_rate": 4.050131852766659e-07, + "loss": 0.5049, + "step": 8202 + }, + { + "avg_step_time": 5.650277301518604, + "epoch": 0.87488, + "eta_time": 1.8410486874114784, + "step": 8202 + }, + { + "epoch": 0.8749866666666667, + "grad_norm": 0.6112427164649236, + "learning_rate": 4.043323774557106e-07, + "loss": 0.4175, + "step": 8203 + }, + { + "avg_step_time": 5.615489379324094, + "epoch": 0.8749866666666667, + "eta_time": 1.8281537646021773, + "step": 8203 + }, + { + "epoch": 0.8750933333333333, + "grad_norm": 1.7395943171723371, + "learning_rate": 4.036521182071745e-07, + "loss": 0.4565, + "step": 8204 + }, + { + "avg_step_time": 5.6128534596375745, + "epoch": 0.8750933333333333, + "eta_time": 1.8257365003432222, + "step": 8204 + }, + { + "epoch": 0.8752, + "grad_norm": 1.9384958217132244, + "learning_rate": 4.029724076122621e-07, + "loss": 0.5405, + "step": 8205 + }, + { + "avg_step_time": 5.633201382376931, + "epoch": 0.8752, + "eta_time": 1.8307904492725025, + "step": 8205 + }, + { + "epoch": 0.8753066666666667, + "grad_norm": 2.0806006102856185, + "learning_rate": 4.022932457521067e-07, + "loss": 0.5036, + "step": 8206 + }, + { + "avg_step_time": 5.668171988593207, + "epoch": 0.8753066666666667, + "eta_time": 1.8405814040737387, + "step": 8206 + }, + { + "epoch": 0.8754133333333334, + "grad_norm": 1.6333711897398606, + "learning_rate": 4.016146327077775e-07, + "loss": 0.4256, + "step": 8207 + }, + { + "avg_step_time": 5.670487750660289, + "epoch": 0.8754133333333334, + "eta_time": 1.839758247992005, + "step": 8207 + }, + { + "epoch": 0.87552, + "grad_norm": 1.7723195555609832, + "learning_rate": 4.009365685602795e-07, + "loss": 0.4195, + "step": 8208 + }, + { + "avg_step_time": 5.670625657746286, + "epoch": 0.87552, + "eta_time": 1.8382278173860878, + "step": 8208 + }, + { + "epoch": 0.8756266666666667, + "grad_norm": 2.047875713085029, + "learning_rate": 4.002590533905504e-07, + "loss": 0.5688, + "step": 8209 + }, + { + "avg_step_time": 5.668347847582114, + "epoch": 0.8756266666666667, + "eta_time": 1.8359148861890957, + "step": 8209 + }, + { + "epoch": 0.8757333333333334, + "grad_norm": 1.9835578870372637, + "learning_rate": 3.9958208727946426e-07, + "loss": 0.4548, + "step": 8210 + }, + { + "avg_step_time": 5.674743897987135, + "epoch": 0.8757333333333334, + "eta_time": 1.8364101780986144, + "step": 8210 + }, + { + "epoch": 0.87584, + "grad_norm": 2.311665055501549, + "learning_rate": 3.989056703078292e-07, + "loss": 0.5587, + "step": 8211 + }, + { + "avg_step_time": 5.676313679627698, + "epoch": 0.87584, + "eta_time": 1.8353414230796223, + "step": 8211 + }, + { + "epoch": 0.8759466666666667, + "grad_norm": 1.8998166169065822, + "learning_rate": 3.982298025563863e-07, + "loss": 0.6004, + "step": 8212 + }, + { + "avg_step_time": 5.676431860586609, + "epoch": 0.8759466666666667, + "eta_time": 1.8338028482950628, + "step": 8212 + }, + { + "epoch": 0.8760533333333334, + "grad_norm": 1.7136637970470616, + "learning_rate": 3.975544841058121e-07, + "loss": 0.3703, + "step": 8213 + }, + { + "avg_step_time": 5.699837467887185, + "epoch": 0.8760533333333334, + "eta_time": 1.8397808715791413, + "step": 8213 + }, + { + "epoch": 0.87616, + "grad_norm": 1.8935507866229968, + "learning_rate": 3.968797150367171e-07, + "loss": 0.4797, + "step": 8214 + }, + { + "avg_step_time": 5.69612241995455, + "epoch": 0.87616, + "eta_time": 1.8369994804353424, + "step": 8214 + }, + { + "epoch": 0.8762666666666666, + "grad_norm": 1.9189420756535236, + "learning_rate": 3.962054954296485e-07, + "loss": 0.5166, + "step": 8215 + }, + { + "avg_step_time": 5.69650280355203, + "epoch": 0.8762666666666666, + "eta_time": 1.835539792255654, + "step": 8215 + }, + { + "epoch": 0.8763733333333333, + "grad_norm": 1.8442806561964589, + "learning_rate": 3.9553182536508417e-07, + "loss": 0.4476, + "step": 8216 + }, + { + "avg_step_time": 5.6969795588291055, + "epoch": 0.8763733333333333, + "eta_time": 1.8341109190785925, + "step": 8216 + }, + { + "epoch": 0.87648, + "grad_norm": 2.134710178974903, + "learning_rate": 3.948587049234398e-07, + "loss": 0.4648, + "step": 8217 + }, + { + "avg_step_time": 5.690513656596945, + "epoch": 0.87648, + "eta_time": 1.830448559538684, + "step": 8217 + }, + { + "epoch": 0.8765866666666666, + "grad_norm": 1.9627619579761022, + "learning_rate": 3.941861341850634e-07, + "loss": 0.4614, + "step": 8218 + }, + { + "avg_step_time": 5.688092532784048, + "epoch": 0.8765866666666666, + "eta_time": 1.828089739008651, + "step": 8218 + }, + { + "epoch": 0.8766933333333333, + "grad_norm": 1.757056484906378, + "learning_rate": 3.9351411323023613e-07, + "loss": 0.3908, + "step": 8219 + }, + { + "avg_step_time": 5.692210329903497, + "epoch": 0.8766933333333333, + "eta_time": 1.827831983713456, + "step": 8219 + }, + { + "epoch": 0.8768, + "grad_norm": 1.7269322271190881, + "learning_rate": 3.928426421391773e-07, + "loss": 0.5008, + "step": 8220 + }, + { + "avg_step_time": 5.700034343835079, + "epoch": 0.8768, + "eta_time": 1.828761018647088, + "step": 8220 + }, + { + "epoch": 0.8769066666666666, + "grad_norm": 1.6711092212032914, + "learning_rate": 3.9217172099203947e-07, + "loss": 0.4695, + "step": 8221 + }, + { + "avg_step_time": 5.743790494071113, + "epoch": 0.8769066666666666, + "eta_time": 1.8412039528216846, + "step": 8221 + }, + { + "epoch": 0.8770133333333333, + "grad_norm": 1.6538953539875352, + "learning_rate": 3.915013498689058e-07, + "loss": 0.3895, + "step": 8222 + }, + { + "avg_step_time": 5.74496933185693, + "epoch": 0.8770133333333333, + "eta_time": 1.8399860110086221, + "step": 8222 + }, + { + "epoch": 0.87712, + "grad_norm": 1.856562114845812, + "learning_rate": 3.9083152884979935e-07, + "loss": 0.4891, + "step": 8223 + }, + { + "avg_step_time": 5.744179015207773, + "epoch": 0.87712, + "eta_time": 1.8381372848664872, + "step": 8223 + }, + { + "epoch": 0.8772266666666667, + "grad_norm": 1.8468342984581594, + "learning_rate": 3.9016225801467355e-07, + "loss": 0.4442, + "step": 8224 + }, + { + "avg_step_time": 5.729907546380554, + "epoch": 0.8772266666666667, + "eta_time": 1.8319787738566715, + "step": 8224 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 1.8548918937961478, + "learning_rate": 3.8949353744341777e-07, + "loss": 0.5002, + "step": 8225 + }, + { + "avg_step_time": 5.722583900798451, + "epoch": 0.8773333333333333, + "eta_time": 1.828047634977283, + "step": 8225 + }, + { + "epoch": 0.87744, + "grad_norm": 2.1206445665534814, + "learning_rate": 3.8882536721585486e-07, + "loss": 0.4819, + "step": 8226 + }, + { + "avg_step_time": 5.736969116962317, + "epoch": 0.87744, + "eta_time": 1.831049309830473, + "step": 8226 + }, + { + "epoch": 0.8775466666666667, + "grad_norm": 2.2746449666796704, + "learning_rate": 3.881577474117432e-07, + "loss": 0.5209, + "step": 8227 + }, + { + "avg_step_time": 5.788618013112232, + "epoch": 0.8775466666666667, + "eta_time": 1.8459259664035674, + "step": 8227 + }, + { + "epoch": 0.8776533333333333, + "grad_norm": 0.6440047142735082, + "learning_rate": 3.87490678110774e-07, + "loss": 0.4488, + "step": 8228 + }, + { + "avg_step_time": 5.7866864108076, + "epoch": 0.8776533333333333, + "eta_time": 1.843702586998977, + "step": 8228 + }, + { + "epoch": 0.87776, + "grad_norm": 0.6513107026085997, + "learning_rate": 3.868241593925742e-07, + "loss": 0.4306, + "step": 8229 + }, + { + "avg_step_time": 5.750507333061912, + "epoch": 0.87776, + "eta_time": 1.8305781676913755, + "step": 8229 + }, + { + "epoch": 0.8778666666666667, + "grad_norm": 1.8569342144648684, + "learning_rate": 3.861581913367046e-07, + "loss": 0.4922, + "step": 8230 + }, + { + "avg_step_time": 5.74725848978216, + "epoch": 0.8778666666666667, + "eta_time": 1.8279474918890481, + "step": 8230 + }, + { + "epoch": 0.8779733333333334, + "grad_norm": 2.049721554506709, + "learning_rate": 3.8549277402265993e-07, + "loss": 0.4372, + "step": 8231 + }, + { + "avg_step_time": 5.766284670492615, + "epoch": 0.8779733333333334, + "eta_time": 1.8323971286232088, + "step": 8231 + }, + { + "epoch": 0.87808, + "grad_norm": 0.6654142836774334, + "learning_rate": 3.848279075298678e-07, + "loss": 0.4282, + "step": 8232 + }, + { + "avg_step_time": 5.716969661038331, + "epoch": 0.87808, + "eta_time": 1.81513786737967, + "step": 8232 + }, + { + "epoch": 0.8781866666666667, + "grad_norm": 1.7622176444331334, + "learning_rate": 3.841635919376924e-07, + "loss": 0.4739, + "step": 8233 + }, + { + "avg_step_time": 5.691219924676298, + "epoch": 0.8781866666666667, + "eta_time": 1.8053814316612034, + "step": 8233 + }, + { + "epoch": 0.8782933333333334, + "grad_norm": 1.7336285795899502, + "learning_rate": 3.8349982732543257e-07, + "loss": 0.3666, + "step": 8234 + }, + { + "avg_step_time": 5.6932272236756605, + "epoch": 0.8782933333333334, + "eta_time": 1.8044367395038692, + "step": 8234 + }, + { + "epoch": 0.8784, + "grad_norm": 1.7005225595932858, + "learning_rate": 3.828366137723183e-07, + "loss": 0.5011, + "step": 8235 + }, + { + "avg_step_time": 5.692631735946193, + "epoch": 0.8784, + "eta_time": 1.8026667163829613, + "step": 8235 + }, + { + "epoch": 0.8785066666666667, + "grad_norm": 2.0634318469542507, + "learning_rate": 3.821739513575168e-07, + "loss": 0.5408, + "step": 8236 + }, + { + "avg_step_time": 5.7434320160836885, + "epoch": 0.8785066666666667, + "eta_time": 1.8171580739775894, + "step": 8236 + }, + { + "epoch": 0.8786133333333334, + "grad_norm": 2.095342163921374, + "learning_rate": 3.815118401601281e-07, + "loss": 0.4221, + "step": 8237 + }, + { + "avg_step_time": 5.745217992801859, + "epoch": 0.8786133333333334, + "eta_time": 1.8161272432801432, + "step": 8237 + }, + { + "epoch": 0.87872, + "grad_norm": 0.6367652629815049, + "learning_rate": 3.80850280259184e-07, + "loss": 0.449, + "step": 8238 + }, + { + "avg_step_time": 5.711142267843689, + "epoch": 0.87872, + "eta_time": 1.8037690995939653, + "step": 8238 + }, + { + "epoch": 0.8788266666666666, + "grad_norm": 1.8587891894895519, + "learning_rate": 3.8018927173365803e-07, + "loss": 0.4791, + "step": 8239 + }, + { + "avg_step_time": 5.7040055279779915, + "epoch": 0.8788266666666666, + "eta_time": 1.7999306332730551, + "step": 8239 + }, + { + "epoch": 0.8789333333333333, + "grad_norm": 1.79600159269105, + "learning_rate": 3.7952881466244985e-07, + "loss": 0.5762, + "step": 8240 + }, + { + "avg_step_time": 5.705540637777309, + "epoch": 0.8789333333333333, + "eta_time": 1.7988301732992351, + "step": 8240 + }, + { + "epoch": 0.87904, + "grad_norm": 2.045258801530942, + "learning_rate": 3.7886890912439633e-07, + "loss": 0.4478, + "step": 8241 + }, + { + "avg_step_time": 5.7017605930867825, + "epoch": 0.87904, + "eta_time": 1.7960545868223365, + "step": 8241 + }, + { + "epoch": 0.8791466666666666, + "grad_norm": 0.6360493172550449, + "learning_rate": 3.782095551982695e-07, + "loss": 0.4329, + "step": 8242 + }, + { + "avg_step_time": 5.700439364019067, + "epoch": 0.8791466666666666, + "eta_time": 1.7940549442871119, + "step": 8242 + }, + { + "epoch": 0.8792533333333333, + "grad_norm": 1.932099036697699, + "learning_rate": 3.775507529627742e-07, + "loss": 0.4209, + "step": 8243 + }, + { + "avg_step_time": 5.7127057663117995, + "epoch": 0.8792533333333333, + "eta_time": 1.796328590962488, + "step": 8243 + }, + { + "epoch": 0.87936, + "grad_norm": 1.6612789212837358, + "learning_rate": 3.768925024965503e-07, + "loss": 0.4623, + "step": 8244 + }, + { + "avg_step_time": 5.727407414503772, + "epoch": 0.87936, + "eta_time": 1.7993604960566016, + "step": 8244 + }, + { + "epoch": 0.8794666666666666, + "grad_norm": 2.102442471746768, + "learning_rate": 3.7623480387817155e-07, + "loss": 0.4476, + "step": 8245 + }, + { + "avg_step_time": 5.72681553676875, + "epoch": 0.8794666666666666, + "eta_time": 1.7975837657079685, + "step": 8245 + }, + { + "epoch": 0.8795733333333333, + "grad_norm": 2.163440858105327, + "learning_rate": 3.7557765718614523e-07, + "loss": 0.6746, + "step": 8246 + }, + { + "avg_step_time": 5.724829018718064, + "epoch": 0.8795733333333333, + "eta_time": 1.795369989481304, + "step": 8246 + }, + { + "epoch": 0.87968, + "grad_norm": 1.6256415526928605, + "learning_rate": 3.749210624989125e-07, + "loss": 0.3592, + "step": 8247 + }, + { + "avg_step_time": 5.724526834006261, + "epoch": 0.87968, + "eta_time": 1.7936850746552953, + "step": 8247 + }, + { + "epoch": 0.8797866666666667, + "grad_norm": 1.9183413307595243, + "learning_rate": 3.7426501989485e-07, + "loss": 0.4812, + "step": 8248 + }, + { + "avg_step_time": 5.723065419630571, + "epoch": 0.8797866666666667, + "eta_time": 1.7916374244232371, + "step": 8248 + }, + { + "epoch": 0.8798933333333333, + "grad_norm": 0.6657875842419924, + "learning_rate": 3.736095294522685e-07, + "loss": 0.4554, + "step": 8249 + }, + { + "avg_step_time": 5.682313938333531, + "epoch": 0.8798933333333333, + "eta_time": 1.7773015262676544, + "step": 8249 + }, + { + "epoch": 0.88, + "grad_norm": 1.7514925302344533, + "learning_rate": 3.729545912494115e-07, + "loss": 0.4965, + "step": 8250 + }, + { + "avg_step_time": 5.668159699199175, + "epoch": 0.88, + "eta_time": 1.7712999059997423, + "step": 8250 + }, + { + "epoch": 0.8801066666666667, + "grad_norm": 1.9407356097517419, + "learning_rate": 3.7230020536445643e-07, + "loss": 0.4523, + "step": 8251 + }, + { + "avg_step_time": 5.70212609599335, + "epoch": 0.8801066666666667, + "eta_time": 1.7803304810823684, + "step": 8251 + }, + { + "epoch": 0.8802133333333333, + "grad_norm": 1.8976300500922556, + "learning_rate": 3.71646371875517e-07, + "loss": 0.5473, + "step": 8252 + }, + { + "avg_step_time": 5.701301731244482, + "epoch": 0.8802133333333333, + "eta_time": 1.7784894011632093, + "step": 8252 + }, + { + "epoch": 0.88032, + "grad_norm": 1.708891547528884, + "learning_rate": 3.7099309086063794e-07, + "loss": 0.4322, + "step": 8253 + }, + { + "avg_step_time": 5.702325999134719, + "epoch": 0.88032, + "eta_time": 1.7772249363969874, + "step": 8253 + }, + { + "epoch": 0.8804266666666667, + "grad_norm": 1.7933569401812501, + "learning_rate": 3.7034036239780024e-07, + "loss": 0.3764, + "step": 8254 + }, + { + "avg_step_time": 5.703317266522032, + "epoch": 0.8804266666666667, + "eta_time": 1.7759496266031107, + "step": 8254 + }, + { + "epoch": 0.8805333333333333, + "grad_norm": 1.736437848324021, + "learning_rate": 3.696881865649193e-07, + "loss": 0.4356, + "step": 8255 + }, + { + "avg_step_time": 5.706107392455593, + "epoch": 0.8805333333333333, + "eta_time": 1.7752334109861845, + "step": 8255 + }, + { + "epoch": 0.88064, + "grad_norm": 2.0041154443597606, + "learning_rate": 3.6903656343984293e-07, + "loss": 0.4939, + "step": 8256 + }, + { + "avg_step_time": 5.728695079533741, + "epoch": 0.88064, + "eta_time": 1.7806693872217376, + "step": 8256 + }, + { + "epoch": 0.8807466666666667, + "grad_norm": 1.848923785801049, + "learning_rate": 3.6838549310035275e-07, + "loss": 0.5092, + "step": 8257 + }, + { + "avg_step_time": 5.728163437409834, + "epoch": 0.8807466666666667, + "eta_time": 1.778912978617832, + "step": 8257 + }, + { + "epoch": 0.8808533333333334, + "grad_norm": 1.9240531013833961, + "learning_rate": 3.677349756241666e-07, + "loss": 0.4045, + "step": 8258 + }, + { + "avg_step_time": 5.754416684911709, + "epoch": 0.8808533333333334, + "eta_time": 1.7854676214017717, + "step": 8258 + }, + { + "epoch": 0.88096, + "grad_norm": 1.92137151808258, + "learning_rate": 3.670850110889346e-07, + "loss": 0.5067, + "step": 8259 + }, + { + "avg_step_time": 5.759945202355433, + "epoch": 0.88096, + "eta_time": 1.7855830127301842, + "step": 8259 + }, + { + "epoch": 0.8810666666666667, + "grad_norm": 2.220017668974761, + "learning_rate": 3.664355995722402e-07, + "loss": 0.525, + "step": 8260 + }, + { + "avg_step_time": 5.761212033454818, + "epoch": 0.8810666666666667, + "eta_time": 1.7843753936950337, + "step": 8260 + }, + { + "epoch": 0.8811733333333334, + "grad_norm": 1.7006093659636494, + "learning_rate": 3.6578674115160416e-07, + "loss": 0.419, + "step": 8261 + }, + { + "avg_step_time": 5.760454459623857, + "epoch": 0.8811733333333334, + "eta_time": 1.7825406300058269, + "step": 8261 + }, + { + "epoch": 0.88128, + "grad_norm": 1.8942486648558072, + "learning_rate": 3.651384359044774e-07, + "loss": 0.4604, + "step": 8262 + }, + { + "avg_step_time": 5.762760978756529, + "epoch": 0.88128, + "eta_time": 1.7816536025988936, + "step": 8262 + }, + { + "epoch": 0.8813866666666667, + "grad_norm": 1.7830226818474577, + "learning_rate": 3.644906839082446e-07, + "loss": 0.4121, + "step": 8263 + }, + { + "avg_step_time": 5.761305438147651, + "epoch": 0.8813866666666667, + "eta_time": 1.779603235338941, + "step": 8263 + }, + { + "epoch": 0.8814933333333334, + "grad_norm": 1.7959985478833242, + "learning_rate": 3.6384348524023003e-07, + "loss": 0.5208, + "step": 8264 + }, + { + "avg_step_time": 5.798425563658126, + "epoch": 0.8814933333333334, + "eta_time": 1.789458555895605, + "step": 8264 + }, + { + "epoch": 0.8816, + "grad_norm": 1.9314768024459223, + "learning_rate": 3.631968399776864e-07, + "loss": 0.5684, + "step": 8265 + }, + { + "avg_step_time": 5.830144318667325, + "epoch": 0.8816, + "eta_time": 1.797627831589092, + "step": 8265 + }, + { + "epoch": 0.8817066666666666, + "grad_norm": 2.1833118989328986, + "learning_rate": 3.6255074819780023e-07, + "loss": 0.4854, + "step": 8266 + }, + { + "avg_step_time": 5.83140917498656, + "epoch": 0.8817066666666666, + "eta_time": 1.7963979930722487, + "step": 8266 + }, + { + "epoch": 0.8818133333333333, + "grad_norm": 1.6912880060011366, + "learning_rate": 3.619052099776965e-07, + "loss": 0.4217, + "step": 8267 + }, + { + "avg_step_time": 5.83247467484137, + "epoch": 0.8818133333333333, + "eta_time": 1.7951060943678439, + "step": 8267 + }, + { + "epoch": 0.88192, + "grad_norm": 2.2460134618752625, + "learning_rate": 3.6126022539442975e-07, + "loss": 0.559, + "step": 8268 + }, + { + "avg_step_time": 5.83645243596549, + "epoch": 0.88192, + "eta_time": 1.7947091240593882, + "step": 8268 + }, + { + "epoch": 0.8820266666666666, + "grad_norm": 1.852551386358021, + "learning_rate": 3.6061579452498996e-07, + "loss": 0.4364, + "step": 8269 + }, + { + "avg_step_time": 5.83942835258715, + "epoch": 0.8820266666666666, + "eta_time": 1.7940021549892746, + "step": 8269 + }, + { + "epoch": 0.8821333333333333, + "grad_norm": 1.873319624040678, + "learning_rate": 3.5997191744630233e-07, + "loss": 0.4928, + "step": 8270 + }, + { + "avg_step_time": 5.835635536848897, + "epoch": 0.8821333333333333, + "eta_time": 1.7912159078383418, + "step": 8270 + }, + { + "epoch": 0.88224, + "grad_norm": 1.943511194141764, + "learning_rate": 3.593285942352237e-07, + "loss": 0.4843, + "step": 8271 + }, + { + "avg_step_time": 5.848713332956487, + "epoch": 0.88224, + "eta_time": 1.7936054221066562, + "step": 8271 + }, + { + "epoch": 0.8823466666666666, + "grad_norm": 2.0782534103482204, + "learning_rate": 3.58685824968546e-07, + "loss": 0.5139, + "step": 8272 + }, + { + "avg_step_time": 5.843599620491568, + "epoch": 0.8823466666666666, + "eta_time": 1.7904139948339441, + "step": 8272 + }, + { + "epoch": 0.8824533333333333, + "grad_norm": 2.041112433780156, + "learning_rate": 3.5804360972299446e-07, + "loss": 0.4752, + "step": 8273 + }, + { + "avg_step_time": 5.84302302803656, + "epoch": 0.8824533333333333, + "eta_time": 1.7886142713600803, + "step": 8273 + }, + { + "epoch": 0.88256, + "grad_norm": 1.7097712280632764, + "learning_rate": 3.5740194857523e-07, + "loss": 0.5132, + "step": 8274 + }, + { + "avg_step_time": 5.830280140192822, + "epoch": 0.88256, + "eta_time": 1.7830940095423047, + "step": 8274 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 1.8901364513896222, + "learning_rate": 3.5676084160184423e-07, + "loss": 0.4762, + "step": 8275 + }, + { + "avg_step_time": 5.823557128809919, + "epoch": 0.8826666666666667, + "eta_time": 1.779420233803031, + "step": 8275 + }, + { + "epoch": 0.8827733333333333, + "grad_norm": 1.767858308258308, + "learning_rate": 3.5612028887936576e-07, + "loss": 0.5531, + "step": 8276 + }, + { + "avg_step_time": 5.823421218178489, + "epoch": 0.8827733333333333, + "eta_time": 1.777761088549489, + "step": 8276 + }, + { + "epoch": 0.88288, + "grad_norm": 1.8982648316030335, + "learning_rate": 3.554802904842547e-07, + "loss": 0.3619, + "step": 8277 + }, + { + "avg_step_time": 5.857201961555866, + "epoch": 0.88288, + "eta_time": 1.786446598274539, + "step": 8277 + }, + { + "epoch": 0.8829866666666667, + "grad_norm": 1.5258465599230746, + "learning_rate": 3.548408464929065e-07, + "loss": 0.3813, + "step": 8278 + }, + { + "avg_step_time": 5.850964399299237, + "epoch": 0.8829866666666667, + "eta_time": 1.782918873897573, + "step": 8278 + }, + { + "epoch": 0.8830933333333333, + "grad_norm": 1.8253076847684169, + "learning_rate": 3.5420195698164907e-07, + "loss": 0.4548, + "step": 8279 + }, + { + "avg_step_time": 5.854833894305759, + "epoch": 0.8830933333333333, + "eta_time": 1.7824716522664201, + "step": 8279 + }, + { + "epoch": 0.8832, + "grad_norm": 1.734181020535147, + "learning_rate": 3.5356362202674687e-07, + "loss": 0.4852, + "step": 8280 + }, + { + "avg_step_time": 5.840609157928313, + "epoch": 0.8832, + "eta_time": 1.7765186188698618, + "step": 8280 + }, + { + "epoch": 0.8833066666666667, + "grad_norm": 1.8608045269539066, + "learning_rate": 3.5292584170439347e-07, + "loss": 0.5066, + "step": 8281 + }, + { + "avg_step_time": 5.840910805596246, + "epoch": 0.8833066666666667, + "eta_time": 1.7749878948117481, + "step": 8281 + }, + { + "epoch": 0.8834133333333334, + "grad_norm": 1.7261380363904137, + "learning_rate": 3.522886160907202e-07, + "loss": 0.4775, + "step": 8282 + }, + { + "avg_step_time": 5.842384345603712, + "epoch": 0.8834133333333334, + "eta_time": 1.7738128027069047, + "step": 8282 + }, + { + "epoch": 0.88352, + "grad_norm": 2.2285662424664334, + "learning_rate": 3.516519452617922e-07, + "loss": 0.5691, + "step": 8283 + }, + { + "avg_step_time": 5.844115611278649, + "epoch": 0.88352, + "eta_time": 1.7727150687545237, + "step": 8283 + }, + { + "epoch": 0.8836266666666667, + "grad_norm": 2.071967588957397, + "learning_rate": 3.510158292936061e-07, + "loss": 0.5446, + "step": 8284 + }, + { + "avg_step_time": 5.842112220899023, + "epoch": 0.8836266666666667, + "eta_time": 1.7704845647224539, + "step": 8284 + }, + { + "epoch": 0.8837333333333334, + "grad_norm": 1.7502221388708346, + "learning_rate": 3.503802682620922e-07, + "loss": 0.3832, + "step": 8285 + }, + { + "avg_step_time": 5.842390852745133, + "epoch": 0.8837333333333334, + "eta_time": 1.7689461193033875, + "step": 8285 + }, + { + "epoch": 0.88384, + "grad_norm": 2.2525176538920184, + "learning_rate": 3.4974526224311744e-07, + "loss": 0.5664, + "step": 8286 + }, + { + "avg_step_time": 5.837018574127043, + "epoch": 0.88384, + "eta_time": 1.7656981186734306, + "step": 8286 + }, + { + "epoch": 0.8839466666666667, + "grad_norm": 2.1059125092331303, + "learning_rate": 3.491108113124797e-07, + "loss": 0.5194, + "step": 8287 + }, + { + "avg_step_time": 5.83220015150128, + "epoch": 0.8839466666666667, + "eta_time": 1.7626204902314981, + "step": 8287 + }, + { + "epoch": 0.8840533333333334, + "grad_norm": 1.6599724197786183, + "learning_rate": 3.4847691554591225e-07, + "loss": 0.4414, + "step": 8288 + }, + { + "avg_step_time": 5.836923233186356, + "epoch": 0.8840533333333334, + "eta_time": 1.7624265429093249, + "step": 8288 + }, + { + "epoch": 0.88416, + "grad_norm": 2.0103344275153234, + "learning_rate": 3.478435750190817e-07, + "loss": 0.5326, + "step": 8289 + }, + { + "avg_step_time": 5.829509869970456, + "epoch": 0.88416, + "eta_time": 1.7585688107744208, + "step": 8289 + }, + { + "epoch": 0.8842666666666666, + "grad_norm": 1.809492965536607, + "learning_rate": 3.4721078980758826e-07, + "loss": 0.4735, + "step": 8290 + }, + { + "avg_step_time": 5.813715763766356, + "epoch": 0.8842666666666666, + "eta_time": 1.75218933435736, + "step": 8290 + }, + { + "epoch": 0.8843733333333333, + "grad_norm": 1.8698746771096375, + "learning_rate": 3.465785599869648e-07, + "loss": 0.5165, + "step": 8291 + }, + { + "avg_step_time": 5.825167855831108, + "epoch": 0.8843733333333333, + "eta_time": 1.7540227654780336, + "step": 8291 + }, + { + "epoch": 0.88448, + "grad_norm": 2.1539287567073866, + "learning_rate": 3.459468856326792e-07, + "loss": 0.5162, + "step": 8292 + }, + { + "avg_step_time": 5.8247277688498444, + "epoch": 0.88448, + "eta_time": 1.7522722704623284, + "step": 8292 + }, + { + "epoch": 0.8845866666666666, + "grad_norm": 1.9354025127287737, + "learning_rate": 3.453157668201335e-07, + "loss": 0.5391, + "step": 8293 + }, + { + "avg_step_time": 5.822238242987431, + "epoch": 0.8845866666666666, + "eta_time": 1.7499060496978889, + "step": 8293 + }, + { + "epoch": 0.8846933333333333, + "grad_norm": 1.7367619004761907, + "learning_rate": 3.446852036246617e-07, + "loss": 0.5126, + "step": 8294 + }, + { + "avg_step_time": 5.827797976407138, + "epoch": 0.8846933333333333, + "eta_time": 1.7499582256933655, + "step": 8294 + }, + { + "epoch": 0.8848, + "grad_norm": 1.7093814250565893, + "learning_rate": 3.4405519612153326e-07, + "loss": 0.4488, + "step": 8295 + }, + { + "avg_step_time": 5.8263687509478945, + "epoch": 0.8848, + "eta_time": 1.7479106252843684, + "step": 8295 + }, + { + "epoch": 0.8849066666666666, + "grad_norm": 0.6642956437675993, + "learning_rate": 3.434257443859507e-07, + "loss": 0.4245, + "step": 8296 + }, + { + "avg_step_time": 5.790584605149548, + "epoch": 0.8849066666666666, + "eta_time": 1.7355668858212117, + "step": 8296 + }, + { + "epoch": 0.8850133333333333, + "grad_norm": 1.8058414710571675, + "learning_rate": 3.4279684849304716e-07, + "loss": 0.4276, + "step": 8297 + }, + { + "avg_step_time": 5.791177556972311, + "epoch": 0.8850133333333333, + "eta_time": 1.7341359462267087, + "step": 8297 + }, + { + "epoch": 0.88512, + "grad_norm": 1.8793979257132924, + "learning_rate": 3.4216850851789663e-07, + "loss": 0.4346, + "step": 8298 + }, + { + "avg_step_time": 5.773328451195148, + "epoch": 0.88512, + "eta_time": 1.727187428315882, + "step": 8298 + }, + { + "epoch": 0.8852266666666667, + "grad_norm": 1.7608595783627707, + "learning_rate": 3.415407245354996e-07, + "loss": 0.4782, + "step": 8299 + }, + { + "avg_step_time": 5.785585218005711, + "epoch": 0.8852266666666667, + "eta_time": 1.7292471373817069, + "step": 8299 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 1.97372853725904, + "learning_rate": 3.4091349662079275e-07, + "loss": 0.4622, + "step": 8300 + }, + { + "avg_step_time": 5.783732484085391, + "epoch": 0.8853333333333333, + "eta_time": 1.7270867834421653, + "step": 8300 + }, + { + "epoch": 0.88544, + "grad_norm": 1.887382189702525, + "learning_rate": 3.402868248486485e-07, + "loss": 0.4436, + "step": 8301 + }, + { + "avg_step_time": 5.7863170667128125, + "epoch": 0.88544, + "eta_time": 1.7262512582359892, + "step": 8301 + }, + { + "epoch": 0.8855466666666667, + "grad_norm": 1.695675528772295, + "learning_rate": 3.396607092938692e-07, + "loss": 0.4671, + "step": 8302 + }, + { + "avg_step_time": 5.858438390674013, + "epoch": 0.8855466666666667, + "eta_time": 1.7461401092203377, + "step": 8302 + }, + { + "epoch": 0.8856533333333333, + "grad_norm": 1.8790670208173943, + "learning_rate": 3.3903515003119334e-07, + "loss": 0.4555, + "step": 8303 + }, + { + "avg_step_time": 5.879128877562706, + "epoch": 0.8856533333333333, + "eta_time": 1.7506739324297835, + "step": 8303 + }, + { + "epoch": 0.88576, + "grad_norm": 1.5636265034576498, + "learning_rate": 3.3841014713529184e-07, + "loss": 0.417, + "step": 8304 + }, + { + "avg_step_time": 5.883614113836577, + "epoch": 0.88576, + "eta_time": 1.7503751988663816, + "step": 8304 + }, + { + "epoch": 0.8858666666666667, + "grad_norm": 1.823774509945888, + "learning_rate": 3.3778570068077e-07, + "loss": 0.4687, + "step": 8305 + }, + { + "avg_step_time": 5.882847094776655, + "epoch": 0.8858666666666667, + "eta_time": 1.7485128865030612, + "step": 8305 + }, + { + "epoch": 0.8859733333333333, + "grad_norm": 1.5816195934896617, + "learning_rate": 3.371618107421659e-07, + "loss": 0.4535, + "step": 8306 + }, + { + "avg_step_time": 5.882418483194678, + "epoch": 0.8859733333333333, + "eta_time": 1.7467514884819753, + "step": 8306 + }, + { + "epoch": 0.88608, + "grad_norm": 1.8652506164815172, + "learning_rate": 3.3653847739395174e-07, + "loss": 0.5476, + "step": 8307 + }, + { + "avg_step_time": 5.884206372078019, + "epoch": 0.88608, + "eta_time": 1.7456478903831456, + "step": 8307 + }, + { + "epoch": 0.8861866666666667, + "grad_norm": 2.145141578812818, + "learning_rate": 3.3591570071053345e-07, + "loss": 0.4704, + "step": 8308 + }, + { + "avg_step_time": 5.882922866127708, + "epoch": 0.8861866666666667, + "eta_time": 1.743632971710629, + "step": 8308 + }, + { + "epoch": 0.8862933333333334, + "grad_norm": 1.8180381461351245, + "learning_rate": 3.3529348076625057e-07, + "loss": 0.4824, + "step": 8309 + }, + { + "avg_step_time": 5.880593894708036, + "epoch": 0.8862933333333334, + "eta_time": 1.7413091921552128, + "step": 8309 + }, + { + "epoch": 0.8864, + "grad_norm": 1.9545265923590731, + "learning_rate": 3.346718176353747e-07, + "loss": 0.4849, + "step": 8310 + }, + { + "avg_step_time": 5.881038856024694, + "epoch": 0.8864, + "eta_time": 1.7398073282406386, + "step": 8310 + }, + { + "epoch": 0.8865066666666667, + "grad_norm": 1.8529609366635393, + "learning_rate": 3.3405071139211266e-07, + "loss": 0.4608, + "step": 8311 + }, + { + "avg_step_time": 5.883303423120518, + "epoch": 0.8865066666666667, + "eta_time": 1.7388430117222864, + "step": 8311 + }, + { + "epoch": 0.8866133333333334, + "grad_norm": 1.8530075865711784, + "learning_rate": 3.3343016211060397e-07, + "loss": 0.5249, + "step": 8312 + }, + { + "avg_step_time": 5.859892332192623, + "epoch": 0.8866133333333334, + "eta_time": 1.7302959858668772, + "step": 8312 + }, + { + "epoch": 0.88672, + "grad_norm": 2.0334648818888343, + "learning_rate": 3.3281016986492165e-07, + "loss": 0.4705, + "step": 8313 + }, + { + "avg_step_time": 5.868412249016039, + "epoch": 0.88672, + "eta_time": 1.7311816134597315, + "step": 8313 + }, + { + "epoch": 0.8868266666666667, + "grad_norm": 1.9262578899731782, + "learning_rate": 3.3219073472907427e-07, + "loss": 0.4262, + "step": 8314 + }, + { + "avg_step_time": 5.878472894129127, + "epoch": 0.8868266666666667, + "eta_time": 1.732516594630834, + "step": 8314 + }, + { + "epoch": 0.8869333333333334, + "grad_norm": 1.5920861387420617, + "learning_rate": 3.3157185677700043e-07, + "loss": 0.3758, + "step": 8315 + }, + { + "avg_step_time": 5.880070700789943, + "epoch": 0.8869333333333334, + "eta_time": 1.73135415078815, + "step": 8315 + }, + { + "epoch": 0.88704, + "grad_norm": 1.69573486904163, + "learning_rate": 3.3095353608257385e-07, + "loss": 0.4442, + "step": 8316 + }, + { + "avg_step_time": 5.877182291011618, + "epoch": 0.88704, + "eta_time": 1.728871123939251, + "step": 8316 + }, + { + "epoch": 0.8871466666666666, + "grad_norm": 2.0675106356293345, + "learning_rate": 3.3033577271960213e-07, + "loss": 0.4491, + "step": 8317 + }, + { + "avg_step_time": 5.879512360601714, + "epoch": 0.8871466666666666, + "eta_time": 1.7279233548657258, + "step": 8317 + }, + { + "epoch": 0.8872533333333333, + "grad_norm": 2.0968058368584157, + "learning_rate": 3.297185667618269e-07, + "loss": 0.4823, + "step": 8318 + }, + { + "avg_step_time": 5.874630398220486, + "epoch": 0.8872533333333333, + "eta_time": 1.724856758588626, + "step": 8318 + }, + { + "epoch": 0.88736, + "grad_norm": 1.8270402350170598, + "learning_rate": 3.2910191828292083e-07, + "loss": 0.4814, + "step": 8319 + }, + { + "avg_step_time": 5.868158930479878, + "epoch": 0.88736, + "eta_time": 1.7213266196074308, + "step": 8319 + }, + { + "epoch": 0.8874666666666666, + "grad_norm": 1.9496332504676879, + "learning_rate": 3.2848582735649335e-07, + "loss": 0.4877, + "step": 8320 + }, + { + "avg_step_time": 5.829734245936076, + "epoch": 0.8874666666666666, + "eta_time": 1.7084360081840446, + "step": 8320 + }, + { + "epoch": 0.8875733333333333, + "grad_norm": 1.8078510901589369, + "learning_rate": 3.2787029405608405e-07, + "loss": 0.4156, + "step": 8321 + }, + { + "avg_step_time": 5.832227610578441, + "epoch": 0.8875733333333333, + "eta_time": 1.7075466393193546, + "step": 8321 + }, + { + "epoch": 0.88768, + "grad_norm": 1.6466262171133408, + "learning_rate": 3.2725531845516744e-07, + "loss": 0.4055, + "step": 8322 + }, + { + "avg_step_time": 5.8341138073892305, + "epoch": 0.88768, + "eta_time": 1.7064782886613499, + "step": 8322 + }, + { + "epoch": 0.8877866666666666, + "grad_norm": 2.09768994842969, + "learning_rate": 3.2664090062715315e-07, + "loss": 0.4444, + "step": 8323 + }, + { + "avg_step_time": 5.839844966175581, + "epoch": 0.8877866666666666, + "eta_time": 1.7065324734490863, + "step": 8323 + }, + { + "epoch": 0.8878933333333333, + "grad_norm": 1.5783873196178047, + "learning_rate": 3.2602704064538137e-07, + "loss": 0.4319, + "step": 8324 + }, + { + "avg_step_time": 5.843848861829199, + "epoch": 0.8878933333333333, + "eta_time": 1.7060792093840242, + "step": 8324 + }, + { + "epoch": 0.888, + "grad_norm": 1.8029909611181874, + "learning_rate": 3.254137385831263e-07, + "loss": 0.5398, + "step": 8325 + }, + { + "avg_step_time": 5.847138898541229, + "epoch": 0.888, + "eta_time": 1.7054155120745251, + "step": 8325 + }, + { + "epoch": 0.8881066666666667, + "grad_norm": 0.6227605035576855, + "learning_rate": 3.2480099451359716e-07, + "loss": 0.4206, + "step": 8326 + }, + { + "avg_step_time": 5.796411487791273, + "epoch": 0.8881066666666667, + "eta_time": 1.6890099029702903, + "step": 8326 + }, + { + "epoch": 0.8882133333333333, + "grad_norm": 2.1847663285662002, + "learning_rate": 3.241888085099354e-07, + "loss": 0.467, + "step": 8327 + }, + { + "avg_step_time": 5.831154209194762, + "epoch": 0.8882133333333333, + "eta_time": 1.6975137808989196, + "step": 8327 + }, + { + "epoch": 0.88832, + "grad_norm": 1.6553551505957154, + "learning_rate": 3.2357718064521594e-07, + "loss": 0.4229, + "step": 8328 + }, + { + "avg_step_time": 5.865639337385543, + "epoch": 0.88832, + "eta_time": 1.705923440622962, + "step": 8328 + }, + { + "epoch": 0.8884266666666667, + "grad_norm": 1.9877314980054113, + "learning_rate": 3.22966110992447e-07, + "loss": 0.5361, + "step": 8329 + }, + { + "avg_step_time": 5.8681992352610886, + "epoch": 0.8884266666666667, + "eta_time": 1.705037888911972, + "step": 8329 + }, + { + "epoch": 0.8885333333333333, + "grad_norm": 2.0423441556911888, + "learning_rate": 3.2235559962457087e-07, + "loss": 0.4362, + "step": 8330 + }, + { + "avg_step_time": 5.849516507351037, + "epoch": 0.8885333333333333, + "eta_time": 1.6979846528282874, + "step": 8330 + }, + { + "epoch": 0.88864, + "grad_norm": 1.7619590527192022, + "learning_rate": 3.217456466144614e-07, + "loss": 0.4798, + "step": 8331 + }, + { + "avg_step_time": 5.925336568042486, + "epoch": 0.88864, + "eta_time": 1.7183476047323207, + "step": 8331 + }, + { + "epoch": 0.8887466666666667, + "grad_norm": 1.908653318725417, + "learning_rate": 3.2113625203492813e-07, + "loss": 0.4496, + "step": 8332 + }, + { + "avg_step_time": 5.9581136318168255, + "epoch": 0.8887466666666667, + "eta_time": 1.7261979216624859, + "step": 8332 + }, + { + "epoch": 0.8888533333333334, + "grad_norm": 0.6635494969825493, + "learning_rate": 3.2052741595871294e-07, + "loss": 0.4179, + "step": 8333 + }, + { + "avg_step_time": 5.919106382312196, + "epoch": 0.8888533333333334, + "eta_time": 1.713252458435919, + "step": 8333 + }, + { + "epoch": 0.88896, + "grad_norm": 1.9077981683288765, + "learning_rate": 3.199191384584893e-07, + "loss": 0.5112, + "step": 8334 + }, + { + "avg_step_time": 5.915191799703271, + "epoch": 0.88896, + "eta_time": 1.7104762954141959, + "step": 8334 + }, + { + "epoch": 0.8890666666666667, + "grad_norm": 1.6978732140618458, + "learning_rate": 3.1931141960686864e-07, + "loss": 0.4907, + "step": 8335 + }, + { + "avg_step_time": 5.870743349345044, + "epoch": 0.8890666666666667, + "eta_time": 1.6959925231441237, + "step": 8335 + }, + { + "epoch": 0.8891733333333334, + "grad_norm": 1.9000177714462216, + "learning_rate": 3.187042594763895e-07, + "loss": 0.4758, + "step": 8336 + }, + { + "avg_step_time": 5.880046442301587, + "epoch": 0.8891733333333334, + "eta_time": 1.6970467370975968, + "step": 8336 + }, + { + "epoch": 0.88928, + "grad_norm": 1.8478023257074554, + "learning_rate": 3.180976581395295e-07, + "loss": 0.5102, + "step": 8337 + }, + { + "avg_step_time": 5.915443528782237, + "epoch": 0.88928, + "eta_time": 1.7056195507988785, + "step": 8337 + }, + { + "epoch": 0.8893866666666667, + "grad_norm": 1.7833918381531162, + "learning_rate": 3.1749161566869466e-07, + "loss": 0.4437, + "step": 8338 + }, + { + "avg_step_time": 5.9140830232639505, + "epoch": 0.8893866666666667, + "eta_time": 1.703584470867977, + "step": 8338 + }, + { + "epoch": 0.8894933333333334, + "grad_norm": 1.5107555027931077, + "learning_rate": 3.1688613213622876e-07, + "loss": 0.4449, + "step": 8339 + }, + { + "avg_step_time": 5.914175471874199, + "epoch": 0.8894933333333334, + "eta_time": 1.7019682746837972, + "step": 8339 + }, + { + "epoch": 0.8896, + "grad_norm": 1.9319893308572937, + "learning_rate": 3.1628120761440616e-07, + "loss": 0.4741, + "step": 8340 + }, + { + "avg_step_time": 5.9123605983425875, + "epoch": 0.8896, + "eta_time": 1.699803672023494, + "step": 8340 + }, + { + "epoch": 0.8897066666666666, + "grad_norm": 1.9516857839743995, + "learning_rate": 3.1567684217543303e-07, + "loss": 0.4099, + "step": 8341 + }, + { + "avg_step_time": 5.944736906976411, + "epoch": 0.8897066666666666, + "eta_time": 1.7074605449482247, + "step": 8341 + }, + { + "epoch": 0.8898133333333333, + "grad_norm": 1.8798751047558326, + "learning_rate": 3.1507303589145445e-07, + "loss": 0.4331, + "step": 8342 + }, + { + "avg_step_time": 5.9292799150100866, + "epoch": 0.8898133333333333, + "eta_time": 1.7013739311681721, + "step": 8342 + }, + { + "epoch": 0.88992, + "grad_norm": 1.8814033810838082, + "learning_rate": 3.144697888345427e-07, + "loss": 0.5341, + "step": 8343 + }, + { + "avg_step_time": 5.915047118158052, + "epoch": 0.88992, + "eta_time": 1.6956468405386416, + "step": 8343 + }, + { + "epoch": 0.8900266666666666, + "grad_norm": 1.848102701906104, + "learning_rate": 3.1386710107670583e-07, + "loss": 0.4437, + "step": 8344 + }, + { + "avg_step_time": 5.913043347272006, + "epoch": 0.8900266666666666, + "eta_time": 1.6934299141770661, + "step": 8344 + }, + { + "epoch": 0.8901333333333333, + "grad_norm": 2.320783035852042, + "learning_rate": 3.1326497268988623e-07, + "loss": 0.5421, + "step": 8345 + }, + { + "avg_step_time": 5.910083296323063, + "epoch": 0.8901333333333333, + "eta_time": 1.69094049867021, + "step": 8345 + }, + { + "epoch": 0.89024, + "grad_norm": 0.6564226517372339, + "learning_rate": 3.1266340374595693e-07, + "loss": 0.4438, + "step": 8346 + }, + { + "avg_step_time": 5.880625508048317, + "epoch": 0.89024, + "eta_time": 1.6808787910504772, + "step": 8346 + }, + { + "epoch": 0.8903466666666666, + "grad_norm": 1.6841207127660138, + "learning_rate": 3.120623943167267e-07, + "loss": 0.3968, + "step": 8347 + }, + { + "avg_step_time": 5.882810149529968, + "epoch": 0.8903466666666666, + "eta_time": 1.6798691204768907, + "step": 8347 + }, + { + "epoch": 0.8904533333333333, + "grad_norm": 1.5373387622619983, + "learning_rate": 3.1146194447393587e-07, + "loss": 0.4036, + "step": 8348 + }, + { + "avg_step_time": 5.921024137073093, + "epoch": 0.8904533333333333, + "eta_time": 1.6891366079927965, + "step": 8348 + }, + { + "epoch": 0.89056, + "grad_norm": 1.8497793023125548, + "learning_rate": 3.108620542892593e-07, + "loss": 0.4038, + "step": 8349 + }, + { + "avg_step_time": 5.927224645710955, + "epoch": 0.89056, + "eta_time": 1.689259024027622, + "step": 8349 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 1.8402858152452297, + "learning_rate": 3.102627238343026e-07, + "loss": 0.4826, + "step": 8350 + }, + { + "avg_step_time": 5.9604538305841315, + "epoch": 0.8906666666666667, + "eta_time": 1.6970736600968708, + "step": 8350 + }, + { + "epoch": 0.8907733333333333, + "grad_norm": 2.09372415898304, + "learning_rate": 3.0966395318060725e-07, + "loss": 0.5104, + "step": 8351 + }, + { + "avg_step_time": 5.96080653354375, + "epoch": 0.8907733333333333, + "eta_time": 1.6955183028746668, + "step": 8351 + }, + { + "epoch": 0.89088, + "grad_norm": 2.096921950010842, + "learning_rate": 3.0906574239964795e-07, + "loss": 0.516, + "step": 8352 + }, + { + "avg_step_time": 5.96046779854129, + "epoch": 0.89088, + "eta_time": 1.6937662660854833, + "step": 8352 + }, + { + "epoch": 0.8909866666666667, + "grad_norm": 1.6189419366027584, + "learning_rate": 3.0846809156282906e-07, + "loss": 0.4377, + "step": 8353 + }, + { + "avg_step_time": 5.977648412338411, + "epoch": 0.8909866666666667, + "eta_time": 1.696987965947182, + "step": 8353 + }, + { + "epoch": 0.8910933333333333, + "grad_norm": 1.716238759888833, + "learning_rate": 3.078710007414931e-07, + "loss": 0.415, + "step": 8354 + }, + { + "avg_step_time": 5.971813649842233, + "epoch": 0.8910933333333333, + "eta_time": 1.6936727045802555, + "step": 8354 + }, + { + "epoch": 0.8912, + "grad_norm": 1.8049336197350376, + "learning_rate": 3.072744700069119e-07, + "loss": 0.437, + "step": 8355 + }, + { + "avg_step_time": 5.948840150929461, + "epoch": 0.8912, + "eta_time": 1.6855047094300137, + "step": 8355 + }, + { + "epoch": 0.8913066666666667, + "grad_norm": 2.011862668919635, + "learning_rate": 3.066784994302907e-07, + "loss": 0.4463, + "step": 8356 + }, + { + "avg_step_time": 5.949094586902195, + "epoch": 0.8913066666666667, + "eta_time": 1.6839242733481492, + "step": 8356 + }, + { + "epoch": 0.8914133333333333, + "grad_norm": 1.6388441755175858, + "learning_rate": 3.060830890827704e-07, + "loss": 0.3963, + "step": 8357 + }, + { + "avg_step_time": 5.921031682178228, + "epoch": 0.8914133333333333, + "eta_time": 1.6743361812381767, + "step": 8357 + }, + { + "epoch": 0.89152, + "grad_norm": 1.9009500444491645, + "learning_rate": 3.054882390354241e-07, + "loss": 0.4784, + "step": 8358 + }, + { + "avg_step_time": 5.937475235775263, + "epoch": 0.89152, + "eta_time": 1.6773367541065118, + "step": 8358 + }, + { + "epoch": 0.8916266666666667, + "grad_norm": 1.8500000530347267, + "learning_rate": 3.048939493592551e-07, + "loss": 0.5334, + "step": 8359 + }, + { + "avg_step_time": 5.939167894498266, + "epoch": 0.8916266666666667, + "eta_time": 1.6761651613361772, + "step": 8359 + }, + { + "epoch": 0.8917333333333334, + "grad_norm": 1.567669750022765, + "learning_rate": 3.0430022012520486e-07, + "loss": 0.4231, + "step": 8360 + }, + { + "avg_step_time": 5.943103130417641, + "epoch": 0.8917333333333334, + "eta_time": 1.6756249103816405, + "step": 8360 + }, + { + "epoch": 0.89184, + "grad_norm": 1.9782209355124667, + "learning_rate": 3.0370705140414293e-07, + "loss": 0.4748, + "step": 8361 + }, + { + "avg_step_time": 5.942178865875861, + "epoch": 0.89184, + "eta_time": 1.6737137138883675, + "step": 8361 + }, + { + "epoch": 0.8919466666666667, + "grad_norm": 1.7653797920489058, + "learning_rate": 3.031144432668759e-07, + "loss": 0.4336, + "step": 8362 + }, + { + "avg_step_time": 5.943009788339788, + "epoch": 0.8919466666666667, + "eta_time": 1.6722969209967238, + "step": 8362 + }, + { + "epoch": 0.8920533333333334, + "grad_norm": 2.1079243984718232, + "learning_rate": 3.0252239578414e-07, + "loss": 0.5284, + "step": 8363 + }, + { + "avg_step_time": 5.906242914874144, + "epoch": 0.8920533333333334, + "eta_time": 1.6603105082923983, + "step": 8363 + }, + { + "epoch": 0.89216, + "grad_norm": 1.5359915248777685, + "learning_rate": 3.019309090266087e-07, + "loss": 0.369, + "step": 8364 + }, + { + "avg_step_time": 5.876770835934264, + "epoch": 0.89216, + "eta_time": 1.650393143091539, + "step": 8364 + }, + { + "epoch": 0.8922666666666667, + "grad_norm": 1.937930064402525, + "learning_rate": 3.0133998306488443e-07, + "loss": 0.482, + "step": 8365 + }, + { + "avg_step_time": 5.877830965350372, + "epoch": 0.8922666666666667, + "eta_time": 1.649058131945521, + "step": 8365 + }, + { + "epoch": 0.8923733333333334, + "grad_norm": 1.5323408985146068, + "learning_rate": 3.007496179695046e-07, + "loss": 0.4345, + "step": 8366 + }, + { + "avg_step_time": 5.8779904264392275, + "epoch": 0.8923733333333334, + "eta_time": 1.647470094521439, + "step": 8366 + }, + { + "epoch": 0.89248, + "grad_norm": 1.972105995938279, + "learning_rate": 3.0015981381094073e-07, + "loss": 0.5018, + "step": 8367 + }, + { + "avg_step_time": 5.874902178542783, + "epoch": 0.89248, + "eta_time": 1.644972609991979, + "step": 8367 + }, + { + "epoch": 0.8925866666666666, + "grad_norm": 1.8368482068488514, + "learning_rate": 2.995705706595947e-07, + "loss": 0.4723, + "step": 8368 + }, + { + "avg_step_time": 5.87549814070114, + "epoch": 0.8925866666666666, + "eta_time": 1.6435073965794578, + "step": 8368 + }, + { + "epoch": 0.8926933333333333, + "grad_norm": 1.8657216383002, + "learning_rate": 2.9898188858580313e-07, + "loss": 0.4501, + "step": 8369 + }, + { + "avg_step_time": 5.876936616319599, + "epoch": 0.8926933333333333, + "eta_time": 1.6422772877826435, + "step": 8369 + }, + { + "epoch": 0.8928, + "grad_norm": 1.816277547731597, + "learning_rate": 2.9839376765983583e-07, + "loss": 0.4903, + "step": 8370 + }, + { + "avg_step_time": 5.8795196167146315, + "epoch": 0.8928, + "eta_time": 1.6413658929995012, + "step": 8370 + }, + { + "epoch": 0.8929066666666666, + "grad_norm": 0.6342388737567785, + "learning_rate": 2.978062079518956e-07, + "loss": 0.418, + "step": 8371 + }, + { + "avg_step_time": 5.848412333112774, + "epoch": 0.8929066666666666, + "eta_time": 1.631057217345896, + "step": 8371 + }, + { + "epoch": 0.8930133333333333, + "grad_norm": 1.8759609042507341, + "learning_rate": 2.972192095321169e-07, + "loss": 0.5328, + "step": 8372 + }, + { + "avg_step_time": 5.852662794517748, + "epoch": 0.8930133333333333, + "eta_time": 1.6306168841392503, + "step": 8372 + }, + { + "epoch": 0.89312, + "grad_norm": 1.832587829894927, + "learning_rate": 2.9663277247056923e-07, + "loss": 0.4939, + "step": 8373 + }, + { + "avg_step_time": 5.855050084566829, + "epoch": 0.89312, + "eta_time": 1.6296556068711008, + "step": 8373 + }, + { + "epoch": 0.8932266666666666, + "grad_norm": 2.293367249374219, + "learning_rate": 2.960468968372532e-07, + "loss": 0.4955, + "step": 8374 + }, + { + "avg_step_time": 5.858031737684, + "epoch": 0.8932266666666666, + "eta_time": 1.6288582692838012, + "step": 8374 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 1.8244202281714856, + "learning_rate": 2.954615827021018e-07, + "loss": 0.5232, + "step": 8375 + }, + { + "avg_step_time": 5.859304370302143, + "epoch": 0.8933333333333333, + "eta_time": 1.6275845473061505, + "step": 8375 + }, + { + "epoch": 0.89344, + "grad_norm": 2.1671811038651523, + "learning_rate": 2.9487683013498523e-07, + "loss": 0.5052, + "step": 8376 + }, + { + "avg_step_time": 5.863276443096122, + "epoch": 0.89344, + "eta_time": 1.627059212959174, + "step": 8376 + }, + { + "epoch": 0.8935466666666667, + "grad_norm": 1.6789342690326223, + "learning_rate": 2.942926392057027e-07, + "loss": 0.4367, + "step": 8377 + }, + { + "avg_step_time": 5.865722374482588, + "epoch": 0.8935466666666667, + "eta_time": 1.626108591592673, + "step": 8377 + }, + { + "epoch": 0.8936533333333333, + "grad_norm": 1.737253090858914, + "learning_rate": 2.9370900998398675e-07, + "loss": 0.5292, + "step": 8378 + }, + { + "avg_step_time": 5.861348547116674, + "epoch": 0.8936533333333333, + "eta_time": 1.623267917076479, + "step": 8378 + }, + { + "epoch": 0.89376, + "grad_norm": 1.8417338627340156, + "learning_rate": 2.93125942539505e-07, + "loss": 0.4585, + "step": 8379 + }, + { + "avg_step_time": 5.859032922320896, + "epoch": 0.89376, + "eta_time": 1.6209991085087814, + "step": 8379 + }, + { + "epoch": 0.8938666666666667, + "grad_norm": 0.5978988100872692, + "learning_rate": 2.925434369418545e-07, + "loss": 0.4091, + "step": 8380 + }, + { + "avg_step_time": 5.825583229161272, + "epoch": 0.8938666666666667, + "eta_time": 1.6101264758376292, + "step": 8380 + }, + { + "epoch": 0.8939733333333333, + "grad_norm": 2.2241524084434356, + "learning_rate": 2.9196149326056967e-07, + "loss": 0.5432, + "step": 8381 + }, + { + "avg_step_time": 5.825907926366787, + "epoch": 0.8939733333333333, + "eta_time": 1.608597910780163, + "step": 8381 + }, + { + "epoch": 0.89408, + "grad_norm": 2.1173040529323974, + "learning_rate": 2.913801115651144e-07, + "loss": 0.4814, + "step": 8382 + }, + { + "avg_step_time": 5.829424020015832, + "epoch": 0.89408, + "eta_time": 1.607949458854367, + "step": 8382 + }, + { + "epoch": 0.8941866666666667, + "grad_norm": 2.02203771059473, + "learning_rate": 2.9079929192488756e-07, + "loss": 0.5113, + "step": 8383 + }, + { + "avg_step_time": 5.828506554015959, + "epoch": 0.8941866666666667, + "eta_time": 1.6060773615510642, + "step": 8383 + }, + { + "epoch": 0.8942933333333334, + "grad_norm": 1.9474857875993112, + "learning_rate": 2.902190344092182e-07, + "loss": 0.4352, + "step": 8384 + }, + { + "avg_step_time": 5.833555055387093, + "epoch": 0.8942933333333334, + "eta_time": 1.6058480721912802, + "step": 8384 + }, + { + "epoch": 0.8944, + "grad_norm": 1.771021793975984, + "learning_rate": 2.896393390873714e-07, + "loss": 0.5135, + "step": 8385 + }, + { + "avg_step_time": 5.83157934082879, + "epoch": 0.8944, + "eta_time": 1.603684318727917, + "step": 8385 + }, + { + "epoch": 0.8945066666666667, + "grad_norm": 2.213895175944617, + "learning_rate": 2.8906020602854414e-07, + "loss": 0.5062, + "step": 8386 + }, + { + "avg_step_time": 5.8344148842975345, + "epoch": 0.8945066666666667, + "eta_time": 1.602843422380628, + "step": 8386 + }, + { + "epoch": 0.8946133333333334, + "grad_norm": 1.8821932306899651, + "learning_rate": 2.884816353018649e-07, + "loss": 0.453, + "step": 8387 + }, + { + "avg_step_time": 5.833013411724206, + "epoch": 0.8946133333333334, + "eta_time": 1.6008381252176433, + "step": 8387 + }, + { + "epoch": 0.89472, + "grad_norm": 1.929353238504802, + "learning_rate": 2.8790362697639685e-07, + "loss": 0.4754, + "step": 8388 + }, + { + "avg_step_time": 5.832354634699195, + "epoch": 0.89472, + "eta_time": 1.5990372290133628, + "step": 8388 + }, + { + "epoch": 0.8948266666666667, + "grad_norm": 1.717109823626898, + "learning_rate": 2.8732618112113586e-07, + "loss": 0.5202, + "step": 8389 + }, + { + "avg_step_time": 5.835078453776812, + "epoch": 0.8948266666666667, + "eta_time": 1.5981631542844268, + "step": 8389 + }, + { + "epoch": 0.8949333333333334, + "grad_norm": 2.055545828422329, + "learning_rate": 2.867492978050079e-07, + "loss": 0.5154, + "step": 8390 + }, + { + "avg_step_time": 5.826853217500629, + "epoch": 0.8949333333333334, + "eta_time": 1.5942917831216998, + "step": 8390 + }, + { + "epoch": 0.89504, + "grad_norm": 1.7216960761264406, + "learning_rate": 2.8617297709687577e-07, + "loss": 0.5056, + "step": 8391 + }, + { + "avg_step_time": 5.826831208335029, + "epoch": 0.89504, + "eta_time": 1.5926671969449078, + "step": 8391 + }, + { + "epoch": 0.8951466666666666, + "grad_norm": 2.156969718441532, + "learning_rate": 2.855972190655337e-07, + "loss": 0.435, + "step": 8392 + }, + { + "avg_step_time": 5.825299898783366, + "epoch": 0.8951466666666666, + "eta_time": 1.5906305001400136, + "step": 8392 + }, + { + "epoch": 0.8952533333333333, + "grad_norm": 0.6462027822387417, + "learning_rate": 2.8502202377970746e-07, + "loss": 0.4419, + "step": 8393 + }, + { + "avg_step_time": 5.786260992589623, + "epoch": 0.8952533333333333, + "eta_time": 1.5783634152008361, + "step": 8393 + }, + { + "epoch": 0.89536, + "grad_norm": 1.9790409850731683, + "learning_rate": 2.8444739130805587e-07, + "loss": 0.4374, + "step": 8394 + }, + { + "avg_step_time": 5.785164091322157, + "epoch": 0.89536, + "eta_time": 1.5764572148852878, + "step": 8394 + }, + { + "epoch": 0.8954666666666666, + "grad_norm": 2.0253130011232554, + "learning_rate": 2.8387332171917247e-07, + "loss": 0.5764, + "step": 8395 + }, + { + "avg_step_time": 5.824006832007206, + "epoch": 0.8954666666666666, + "eta_time": 1.585424082046406, + "step": 8395 + }, + { + "epoch": 0.8955733333333333, + "grad_norm": 2.0819691283576787, + "learning_rate": 2.832998150815819e-07, + "loss": 0.4555, + "step": 8396 + }, + { + "avg_step_time": 5.826139385049993, + "epoch": 0.8955733333333333, + "eta_time": 1.5843862383233176, + "step": 8396 + }, + { + "epoch": 0.89568, + "grad_norm": 1.6499261570335988, + "learning_rate": 2.827268714637421e-07, + "loss": 0.4404, + "step": 8397 + }, + { + "avg_step_time": 5.848143690764302, + "epoch": 0.89568, + "eta_time": 1.5887457026576355, + "step": 8397 + }, + { + "epoch": 0.8957866666666666, + "grad_norm": 1.6263489239465645, + "learning_rate": 2.8215449093404457e-07, + "loss": 0.562, + "step": 8398 + }, + { + "avg_step_time": 5.836100197801686, + "epoch": 0.8957866666666666, + "eta_time": 1.5838527481256244, + "step": 8398 + }, + { + "epoch": 0.8958933333333333, + "grad_norm": 1.7787029139267034, + "learning_rate": 2.815826735608124e-07, + "loss": 0.4964, + "step": 8399 + }, + { + "avg_step_time": 5.837879195357814, + "epoch": 0.8958933333333333, + "eta_time": 1.5827139151858962, + "step": 8399 + }, + { + "epoch": 0.896, + "grad_norm": 1.9917412921874549, + "learning_rate": 2.810114194122998e-07, + "loss": 0.4588, + "step": 8400 + }, + { + "avg_step_time": 5.832763115564982, + "epoch": 0.896, + "eta_time": 1.5797066771321826, + "step": 8400 + }, + { + "epoch": 0.8961066666666667, + "grad_norm": 1.877454619161926, + "learning_rate": 2.80440728556699e-07, + "loss": 0.4943, + "step": 8401 + }, + { + "avg_step_time": 5.808260409518926, + "epoch": 0.8961066666666667, + "eta_time": 1.5714571219087317, + "step": 8401 + }, + { + "epoch": 0.8962133333333333, + "grad_norm": 0.667264215837139, + "learning_rate": 2.798706010621305e-07, + "loss": 0.441, + "step": 8402 + }, + { + "avg_step_time": 5.780648903413252, + "epoch": 0.8962133333333333, + "eta_time": 1.5623809397280817, + "step": 8402 + }, + { + "epoch": 0.89632, + "grad_norm": 2.090241635844555, + "learning_rate": 2.793010369966487e-07, + "loss": 0.5036, + "step": 8403 + }, + { + "avg_step_time": 5.777137652792112, + "epoch": 0.89632, + "eta_time": 1.55982716625387, + "step": 8403 + }, + { + "epoch": 0.8964266666666667, + "grad_norm": 2.0057254533296778, + "learning_rate": 2.787320364282414e-07, + "loss": 0.4463, + "step": 8404 + }, + { + "avg_step_time": 5.77778221380831, + "epoch": 0.8964266666666667, + "eta_time": 1.558396258224408, + "step": 8404 + }, + { + "epoch": 0.8965333333333333, + "grad_norm": 1.7666047077473386, + "learning_rate": 2.781635994248272e-07, + "loss": 0.4648, + "step": 8405 + }, + { + "avg_step_time": 5.775590992937184, + "epoch": 0.8965333333333333, + "eta_time": 1.556200906430297, + "step": 8405 + }, + { + "epoch": 0.89664, + "grad_norm": 1.6613734312595336, + "learning_rate": 2.7759572605426057e-07, + "loss": 0.5334, + "step": 8406 + }, + { + "avg_step_time": 5.775092112897623, + "epoch": 0.89664, + "eta_time": 1.5544622937216102, + "step": 8406 + }, + { + "epoch": 0.8967466666666667, + "grad_norm": 1.83913411499597, + "learning_rate": 2.7702841638432734e-07, + "loss": 0.4929, + "step": 8407 + }, + { + "avg_step_time": 5.817113837810478, + "epoch": 0.8967466666666667, + "eta_time": 1.5641572763890397, + "step": 8407 + }, + { + "epoch": 0.8968533333333333, + "grad_norm": 1.7730184927934391, + "learning_rate": 2.764616704827444e-07, + "loss": 0.4623, + "step": 8408 + }, + { + "avg_step_time": 5.835839172806403, + "epoch": 0.8968533333333333, + "eta_time": 1.5675712444732754, + "step": 8408 + }, + { + "epoch": 0.89696, + "grad_norm": 2.035595105425438, + "learning_rate": 2.7589548841716274e-07, + "loss": 0.5303, + "step": 8409 + }, + { + "avg_step_time": 5.834942364933515, + "epoch": 0.89696, + "eta_time": 1.5657095345904932, + "step": 8409 + }, + { + "epoch": 0.8970666666666667, + "grad_norm": 1.8283913704087231, + "learning_rate": 2.7532987025516653e-07, + "loss": 0.5081, + "step": 8410 + }, + { + "avg_step_time": 5.83102710078461, + "epoch": 0.8970666666666667, + "eta_time": 1.563039208960319, + "step": 8410 + }, + { + "epoch": 0.8971733333333334, + "grad_norm": 2.1818505413338007, + "learning_rate": 2.747648160642724e-07, + "loss": 0.5025, + "step": 8411 + }, + { + "avg_step_time": 5.828884433014224, + "epoch": 0.8971733333333334, + "eta_time": 1.560845720396031, + "step": 8411 + }, + { + "epoch": 0.89728, + "grad_norm": 2.194787427256221, + "learning_rate": 2.7420032591192856e-07, + "loss": 0.4604, + "step": 8412 + }, + { + "avg_step_time": 5.821866276288273, + "epoch": 0.89728, + "eta_time": 1.5573492289071131, + "step": 8412 + }, + { + "epoch": 0.8973866666666667, + "grad_norm": 1.8048039041518285, + "learning_rate": 2.736363998655173e-07, + "loss": 0.4899, + "step": 8413 + }, + { + "avg_step_time": 5.8261982768472995, + "epoch": 0.8973866666666667, + "eta_time": 1.5568896506464174, + "step": 8413 + }, + { + "epoch": 0.8974933333333334, + "grad_norm": 0.6316216717755018, + "learning_rate": 2.730730379923524e-07, + "loss": 0.4396, + "step": 8414 + }, + { + "avg_step_time": 5.788105974293718, + "epoch": 0.8974933333333334, + "eta_time": 1.5451027336934064, + "step": 8414 + }, + { + "epoch": 0.8976, + "grad_norm": 1.7736875475532623, + "learning_rate": 2.7251024035968134e-07, + "loss": 0.4361, + "step": 8415 + }, + { + "avg_step_time": 5.792874642092772, + "epoch": 0.8976, + "eta_time": 1.5447665712247394, + "step": 8415 + }, + { + "epoch": 0.8977066666666667, + "grad_norm": 1.7965223607332983, + "learning_rate": 2.7194800703468305e-07, + "loss": 0.4692, + "step": 8416 + }, + { + "avg_step_time": 5.791497473764902, + "epoch": 0.8977066666666667, + "eta_time": 1.5427905770390389, + "step": 8416 + }, + { + "epoch": 0.8978133333333334, + "grad_norm": 2.013995992334368, + "learning_rate": 2.7138633808447057e-07, + "loss": 0.5261, + "step": 8417 + }, + { + "avg_step_time": 5.792066205631603, + "epoch": 0.8978133333333334, + "eta_time": 1.541333173609743, + "step": 8417 + }, + { + "epoch": 0.89792, + "grad_norm": 1.8937238885777339, + "learning_rate": 2.7082523357608856e-07, + "loss": 0.4691, + "step": 8418 + }, + { + "avg_step_time": 5.791751370285496, + "epoch": 0.89792, + "eta_time": 1.5396405726008946, + "step": 8418 + }, + { + "epoch": 0.8980266666666666, + "grad_norm": 0.6548574065605315, + "learning_rate": 2.702646935765141e-07, + "loss": 0.4335, + "step": 8419 + }, + { + "avg_step_time": 5.754124809997251, + "epoch": 0.8980266666666666, + "eta_time": 1.5280398106548256, + "step": 8419 + }, + { + "epoch": 0.8981333333333333, + "grad_norm": 1.9445977258721767, + "learning_rate": 2.69704718152658e-07, + "loss": 0.4416, + "step": 8420 + }, + { + "avg_step_time": 5.755878523142651, + "epoch": 0.8981333333333333, + "eta_time": 1.52690666377812, + "step": 8420 + }, + { + "epoch": 0.89824, + "grad_norm": 2.114305703633348, + "learning_rate": 2.6914530737136346e-07, + "loss": 0.4779, + "step": 8421 + }, + { + "avg_step_time": 5.760056722043741, + "epoch": 0.89824, + "eta_time": 1.5264150313415914, + "step": 8421 + }, + { + "epoch": 0.8983466666666666, + "grad_norm": 1.7602012339156592, + "learning_rate": 2.685864612994038e-07, + "loss": 0.5144, + "step": 8422 + }, + { + "avg_step_time": 5.750244049110798, + "epoch": 0.8983466666666666, + "eta_time": 1.5222173830007195, + "step": 8422 + }, + { + "epoch": 0.8984533333333333, + "grad_norm": 1.5931237449838225, + "learning_rate": 2.6802818000348894e-07, + "loss": 0.6011, + "step": 8423 + }, + { + "avg_step_time": 5.763844848883273, + "epoch": 0.8984533333333333, + "eta_time": 1.5242167489269098, + "step": 8423 + }, + { + "epoch": 0.89856, + "grad_norm": 1.8836390920049662, + "learning_rate": 2.674704635502584e-07, + "loss": 0.4642, + "step": 8424 + }, + { + "avg_step_time": 5.75872227639863, + "epoch": 0.89856, + "eta_time": 1.5212624680153046, + "step": 8424 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 1.8682104987404897, + "learning_rate": 2.6691331200628556e-07, + "loss": 0.4554, + "step": 8425 + }, + { + "avg_step_time": 5.79582375227803, + "epoch": 0.8986666666666666, + "eta_time": 1.5294534901844798, + "step": 8425 + }, + { + "epoch": 0.8987733333333333, + "grad_norm": 1.723523270311129, + "learning_rate": 2.663567254380772e-07, + "loss": 0.4842, + "step": 8426 + }, + { + "avg_step_time": 5.796762897510721, + "epoch": 0.8987733333333333, + "eta_time": 1.5280911082604651, + "step": 8426 + }, + { + "epoch": 0.89888, + "grad_norm": 2.010349845915649, + "learning_rate": 2.658007039120697e-07, + "loss": 0.4796, + "step": 8427 + }, + { + "avg_step_time": 5.79562168651157, + "epoch": 0.89888, + "eta_time": 1.5261803774480467, + "step": 8427 + }, + { + "epoch": 0.8989866666666667, + "grad_norm": 1.719510024239071, + "learning_rate": 2.652452474946349e-07, + "loss": 0.4737, + "step": 8428 + }, + { + "avg_step_time": 5.797193845113118, + "epoch": 0.8989866666666667, + "eta_time": 1.5249840475894785, + "step": 8428 + }, + { + "epoch": 0.8990933333333333, + "grad_norm": 0.6728919655252928, + "learning_rate": 2.646903562520753e-07, + "loss": 0.4042, + "step": 8429 + }, + { + "avg_step_time": 5.767173625002004, + "epoch": 0.8990933333333333, + "eta_time": 1.5154850692366375, + "step": 8429 + }, + { + "epoch": 0.8992, + "grad_norm": 2.2077055162866333, + "learning_rate": 2.64136030250628e-07, + "loss": 0.519, + "step": 8430 + }, + { + "avg_step_time": 5.724256917683765, + "epoch": 0.8992, + "eta_time": 1.5026174408919883, + "step": 8430 + }, + { + "epoch": 0.8993066666666667, + "grad_norm": 0.6373410698001779, + "learning_rate": 2.6358226955645994e-07, + "loss": 0.4327, + "step": 8431 + }, + { + "avg_step_time": 5.659066467574148, + "epoch": 0.8993066666666667, + "eta_time": 1.4839329848305547, + "step": 8431 + }, + { + "epoch": 0.8994133333333333, + "grad_norm": 0.6722985266396337, + "learning_rate": 2.630290742356739e-07, + "loss": 0.4377, + "step": 8432 + }, + { + "avg_step_time": 5.663055244118277, + "epoch": 0.8994133333333333, + "eta_time": 1.4834058597787596, + "step": 8432 + }, + { + "epoch": 0.89952, + "grad_norm": 1.830005027051944, + "learning_rate": 2.6247644435430263e-07, + "loss": 0.4949, + "step": 8433 + }, + { + "avg_step_time": 5.665872029583864, + "epoch": 0.89952, + "eta_time": 1.482569847741111, + "step": 8433 + }, + { + "epoch": 0.8996266666666667, + "grad_norm": 1.6757242589041148, + "learning_rate": 2.6192437997830946e-07, + "loss": 0.4002, + "step": 8434 + }, + { + "avg_step_time": 5.663084747815373, + "epoch": 0.8996266666666667, + "eta_time": 1.480267429915074, + "step": 8434 + }, + { + "epoch": 0.8997333333333334, + "grad_norm": 1.6931915513276328, + "learning_rate": 2.6137288117359716e-07, + "loss": 0.4403, + "step": 8435 + }, + { + "avg_step_time": 5.6532278807476315, + "epoch": 0.8997333333333334, + "eta_time": 1.4761206133063258, + "step": 8435 + }, + { + "epoch": 0.89984, + "grad_norm": 1.8046945585920373, + "learning_rate": 2.6082194800599424e-07, + "loss": 0.4548, + "step": 8436 + }, + { + "avg_step_time": 5.653179421569362, + "epoch": 0.89984, + "eta_time": 1.474537632459342, + "step": 8436 + }, + { + "epoch": 0.8999466666666667, + "grad_norm": 1.6346452356853545, + "learning_rate": 2.602715805412637e-07, + "loss": 0.4292, + "step": 8437 + }, + { + "avg_step_time": 5.653372844060262, + "epoch": 0.8999466666666667, + "eta_time": 1.4730177021468125, + "step": 8437 + }, + { + "epoch": 0.9000533333333334, + "grad_norm": 1.7814992143856514, + "learning_rate": 2.5972177884510287e-07, + "loss": 0.4647, + "step": 8438 + }, + { + "avg_step_time": 5.64794427457482, + "epoch": 0.9000533333333334, + "eta_time": 1.4700343847990573, + "step": 8438 + }, + { + "epoch": 0.90016, + "grad_norm": 1.9798639341767044, + "learning_rate": 2.591725429831382e-07, + "loss": 0.4767, + "step": 8439 + }, + { + "avg_step_time": 5.649601941156869, + "epoch": 0.90016, + "eta_time": 1.468896504700786, + "step": 8439 + }, + { + "epoch": 0.9002666666666667, + "grad_norm": 1.9610379091054275, + "learning_rate": 2.586238730209323e-07, + "loss": 0.4947, + "step": 8440 + }, + { + "avg_step_time": 5.652224851377083, + "epoch": 0.9002666666666667, + "eta_time": 1.4680083988993258, + "step": 8440 + }, + { + "epoch": 0.9003733333333334, + "grad_norm": 1.5990058938686833, + "learning_rate": 2.5807576902397823e-07, + "loss": 0.4298, + "step": 8441 + }, + { + "avg_step_time": 5.6535725930724485, + "epoch": 0.9003733333333334, + "eta_time": 1.4667880005360185, + "step": 8441 + }, + { + "epoch": 0.90048, + "grad_norm": 1.8471457795711366, + "learning_rate": 2.57528231057701e-07, + "loss": 0.5202, + "step": 8442 + }, + { + "avg_step_time": 5.653973528833101, + "epoch": 0.90048, + "eta_time": 1.4653214728892454, + "step": 8442 + }, + { + "epoch": 0.9005866666666666, + "grad_norm": 2.0761084554453317, + "learning_rate": 2.5698125918745874e-07, + "loss": 0.4186, + "step": 8443 + }, + { + "avg_step_time": 5.654788034130829, + "epoch": 0.9005866666666666, + "eta_time": 1.4639617910583145, + "step": 8443 + }, + { + "epoch": 0.9006933333333333, + "grad_norm": 2.029485805809639, + "learning_rate": 2.564348534785416e-07, + "loss": 0.4851, + "step": 8444 + }, + { + "avg_step_time": 5.658187237652865, + "epoch": 0.9006933333333333, + "eta_time": 1.463270088404116, + "step": 8444 + }, + { + "epoch": 0.9008, + "grad_norm": 1.9779909985545332, + "learning_rate": 2.558890139961745e-07, + "loss": 0.4119, + "step": 8445 + }, + { + "avg_step_time": 5.685716347260908, + "epoch": 0.9008, + "eta_time": 1.4688100563757345, + "step": 8445 + }, + { + "epoch": 0.9009066666666666, + "grad_norm": 1.7790663120283905, + "learning_rate": 2.5534374080551094e-07, + "loss": 0.4262, + "step": 8446 + }, + { + "avg_step_time": 5.6879132492373685, + "epoch": 0.9009066666666666, + "eta_time": 1.4677976134837543, + "step": 8446 + }, + { + "epoch": 0.9010133333333333, + "grad_norm": 1.98169219284158, + "learning_rate": 2.5479903397163887e-07, + "loss": 0.5001, + "step": 8447 + }, + { + "avg_step_time": 5.683134295723655, + "epoch": 0.9010133333333333, + "eta_time": 1.46498572956432, + "step": 8447 + }, + { + "epoch": 0.90112, + "grad_norm": 2.097736299680891, + "learning_rate": 2.5425489355957956e-07, + "loss": 0.4644, + "step": 8448 + }, + { + "avg_step_time": 5.680665914458458, + "epoch": 0.90112, + "eta_time": 1.462771472973053, + "step": 8448 + }, + { + "epoch": 0.9012266666666666, + "grad_norm": 1.8641933550875043, + "learning_rate": 2.537113196342844e-07, + "loss": 0.4802, + "step": 8449 + }, + { + "avg_step_time": 5.647416309876875, + "epoch": 0.9012266666666666, + "eta_time": 1.4526409730405516, + "step": 8449 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 1.4640285818695573, + "learning_rate": 2.531683122606382e-07, + "loss": 0.3855, + "step": 8450 + }, + { + "avg_step_time": 5.64668839868873, + "epoch": 0.9013333333333333, + "eta_time": 1.4508852135519654, + "step": 8450 + }, + { + "epoch": 0.90144, + "grad_norm": 1.6847933618874167, + "learning_rate": 2.526258715034602e-07, + "loss": 0.394, + "step": 8451 + }, + { + "avg_step_time": 5.642462222263067, + "epoch": 0.90144, + "eta_time": 1.4482319703808537, + "step": 8451 + }, + { + "epoch": 0.9015466666666667, + "grad_norm": 1.9543540346767345, + "learning_rate": 2.5208399742749855e-07, + "loss": 0.4657, + "step": 8452 + }, + { + "avg_step_time": 5.6239114481993395, + "epoch": 0.9015466666666667, + "eta_time": 1.4419084074133308, + "step": 8452 + }, + { + "epoch": 0.9016533333333333, + "grad_norm": 1.70196454657617, + "learning_rate": 2.5154269009743383e-07, + "loss": 0.4726, + "step": 8453 + }, + { + "avg_step_time": 5.623527965160331, + "epoch": 0.9016533333333333, + "eta_time": 1.440247995521618, + "step": 8453 + }, + { + "epoch": 0.90176, + "grad_norm": 2.107667918914487, + "learning_rate": 2.510019495778837e-07, + "loss": 0.4587, + "step": 8454 + }, + { + "avg_step_time": 5.622653127920748, + "epoch": 0.90176, + "eta_time": 1.4384620918930582, + "step": 8454 + }, + { + "epoch": 0.9018666666666667, + "grad_norm": 1.9618471582756847, + "learning_rate": 2.5046177593339385e-07, + "loss": 0.4915, + "step": 8455 + }, + { + "avg_step_time": 5.629255932990951, + "epoch": 0.9018666666666667, + "eta_time": 1.4385876273199096, + "step": 8455 + }, + { + "epoch": 0.9019733333333333, + "grad_norm": 1.830549834916703, + "learning_rate": 2.499221692284415e-07, + "loss": 0.482, + "step": 8456 + }, + { + "avg_step_time": 5.6351332977564645, + "epoch": 0.9019733333333333, + "eta_time": 1.4385243057328307, + "step": 8456 + }, + { + "epoch": 0.90208, + "grad_norm": 2.0411287502450097, + "learning_rate": 2.4938312952744016e-07, + "loss": 0.5134, + "step": 8457 + }, + { + "avg_step_time": 5.631614489988848, + "epoch": 0.90208, + "eta_time": 1.436061694947156, + "step": 8457 + }, + { + "epoch": 0.9021866666666667, + "grad_norm": 1.9571107818617748, + "learning_rate": 2.4884465689473223e-07, + "loss": 0.5158, + "step": 8458 + }, + { + "avg_step_time": 5.629634021508573, + "epoch": 0.9021866666666667, + "eta_time": 1.4339928882564894, + "step": 8458 + }, + { + "epoch": 0.9022933333333333, + "grad_norm": 2.150507383012938, + "learning_rate": 2.4830675139459416e-07, + "loss": 0.4585, + "step": 8459 + }, + { + "avg_step_time": 5.631243183155252, + "epoch": 0.9022933333333333, + "eta_time": 1.432838543269503, + "step": 8459 + }, + { + "epoch": 0.9024, + "grad_norm": 1.8651916397428907, + "learning_rate": 2.477694130912356e-07, + "loss": 0.5489, + "step": 8460 + }, + { + "avg_step_time": 5.633218599088265, + "epoch": 0.9024, + "eta_time": 1.431776393934934, + "step": 8460 + }, + { + "epoch": 0.9025066666666667, + "grad_norm": 1.7870973430726365, + "learning_rate": 2.4723264204879526e-07, + "loss": 0.4615, + "step": 8461 + }, + { + "avg_step_time": 5.63089304500156, + "epoch": 0.9025066666666667, + "eta_time": 1.4296211786476185, + "step": 8461 + }, + { + "epoch": 0.9026133333333334, + "grad_norm": 1.7746295659259705, + "learning_rate": 2.4669643833134637e-07, + "loss": 0.4996, + "step": 8462 + }, + { + "avg_step_time": 5.630235946539677, + "epoch": 0.9026133333333334, + "eta_time": 1.427890394219646, + "step": 8462 + }, + { + "epoch": 0.90272, + "grad_norm": 1.8425547007093757, + "learning_rate": 2.461608020028944e-07, + "loss": 0.4784, + "step": 8463 + }, + { + "avg_step_time": 5.628399506963865, + "epoch": 0.90272, + "eta_time": 1.4258612084308457, + "step": 8463 + }, + { + "epoch": 0.9028266666666667, + "grad_norm": 1.9257097333329996, + "learning_rate": 2.456257331273776e-07, + "loss": 0.4386, + "step": 8464 + }, + { + "avg_step_time": 5.627420011192862, + "epoch": 0.9028266666666667, + "eta_time": 1.4240498972768603, + "step": 8464 + }, + { + "epoch": 0.9029333333333334, + "grad_norm": 1.9386269456381524, + "learning_rate": 2.4509123176866376e-07, + "loss": 0.4248, + "step": 8465 + }, + { + "avg_step_time": 5.6270517917594525, + "epoch": 0.9029333333333334, + "eta_time": 1.4223936473614172, + "step": 8465 + }, + { + "epoch": 0.90304, + "grad_norm": 1.5421486452372468, + "learning_rate": 2.445572979905575e-07, + "loss": 0.3513, + "step": 8466 + }, + { + "avg_step_time": 5.631520280934343, + "epoch": 0.90304, + "eta_time": 1.4219588709359217, + "step": 8466 + }, + { + "epoch": 0.9031466666666667, + "grad_norm": 1.8775966623790883, + "learning_rate": 2.440239318567911e-07, + "loss": 0.5003, + "step": 8467 + }, + { + "avg_step_time": 5.6279150548607415, + "epoch": 0.9031466666666667, + "eta_time": 1.4194852416148758, + "step": 8467 + }, + { + "epoch": 0.9032533333333334, + "grad_norm": 1.9453762517706106, + "learning_rate": 2.4349113343103135e-07, + "loss": 0.44, + "step": 8468 + }, + { + "avg_step_time": 5.636501425444478, + "epoch": 0.9032533333333334, + "eta_time": 1.420085220243928, + "step": 8468 + }, + { + "epoch": 0.90336, + "grad_norm": 1.803830739625321, + "learning_rate": 2.4295890277687695e-07, + "loss": 0.5149, + "step": 8469 + }, + { + "avg_step_time": 5.61381904765813, + "epoch": 0.90336, + "eta_time": 1.4128111269939627, + "step": 8469 + }, + { + "epoch": 0.9034666666666666, + "grad_norm": 2.153669952446175, + "learning_rate": 2.4242723995785977e-07, + "loss": 0.5175, + "step": 8470 + }, + { + "avg_step_time": 5.646188723920572, + "epoch": 0.9034666666666666, + "eta_time": 1.419389109763366, + "step": 8470 + }, + { + "epoch": 0.9035733333333333, + "grad_norm": 1.9284924489608624, + "learning_rate": 2.4189614503744183e-07, + "loss": 0.4557, + "step": 8471 + }, + { + "avg_step_time": 5.654370572831896, + "epoch": 0.9035733333333333, + "eta_time": 1.4198752771777872, + "step": 8471 + }, + { + "epoch": 0.90368, + "grad_norm": 1.8885030787909254, + "learning_rate": 2.4136561807901916e-07, + "loss": 0.4122, + "step": 8472 + }, + { + "avg_step_time": 5.652756652446708, + "epoch": 0.90368, + "eta_time": 1.4178997936553828, + "step": 8472 + }, + { + "epoch": 0.9037866666666666, + "grad_norm": 1.4995011405443792, + "learning_rate": 2.408356591459188e-07, + "loss": 0.4778, + "step": 8473 + }, + { + "avg_step_time": 5.66010374733896, + "epoch": 0.9037866666666666, + "eta_time": 1.418170438916595, + "step": 8473 + }, + { + "epoch": 0.9038933333333333, + "grad_norm": 1.912790981544666, + "learning_rate": 2.4030626830140124e-07, + "loss": 0.4992, + "step": 8474 + }, + { + "avg_step_time": 5.65878206551677, + "epoch": 0.9038933333333333, + "eta_time": 1.4162674002862807, + "step": 8474 + }, + { + "epoch": 0.904, + "grad_norm": 0.6254532791011005, + "learning_rate": 2.397774456086577e-07, + "loss": 0.3954, + "step": 8475 + }, + { + "avg_step_time": 5.64243529300497, + "epoch": 0.904, + "eta_time": 1.4106088232512426, + "step": 8475 + }, + { + "epoch": 0.9041066666666666, + "grad_norm": 1.7843719041631125, + "learning_rate": 2.392491911308126e-07, + "loss": 0.5075, + "step": 8476 + }, + { + "avg_step_time": 5.639786416834051, + "epoch": 0.9041066666666666, + "eta_time": 1.408379996870503, + "step": 8476 + }, + { + "epoch": 0.9042133333333333, + "grad_norm": 1.7526851516715338, + "learning_rate": 2.3872150493092215e-07, + "loss": 0.4159, + "step": 8477 + }, + { + "avg_step_time": 5.639789102053402, + "epoch": 0.9042133333333333, + "eta_time": 1.406814059345543, + "step": 8477 + }, + { + "epoch": 0.90432, + "grad_norm": 0.6428375061289133, + "learning_rate": 2.3819438707197495e-07, + "loss": 0.418, + "step": 8478 + }, + { + "avg_step_time": 5.608482570359201, + "epoch": 0.90432, + "eta_time": 1.397446907114501, + "step": 8478 + }, + { + "epoch": 0.9044266666666667, + "grad_norm": 1.69561783519646, + "learning_rate": 2.376678376168917e-07, + "loss": 0.5147, + "step": 8479 + }, + { + "avg_step_time": 5.650064651412193, + "epoch": 0.9044266666666667, + "eta_time": 1.406238313240368, + "step": 8479 + }, + { + "epoch": 0.9045333333333333, + "grad_norm": 1.7950354503815984, + "learning_rate": 2.3714185662852553e-07, + "loss": 0.4109, + "step": 8480 + }, + { + "avg_step_time": 5.651209407382542, + "epoch": 0.9045333333333333, + "eta_time": 1.4049534498909373, + "step": 8480 + }, + { + "epoch": 0.90464, + "grad_norm": 1.834330703759296, + "learning_rate": 2.3661644416966057e-07, + "loss": 0.4024, + "step": 8481 + }, + { + "avg_step_time": 5.648288589535338, + "epoch": 0.90464, + "eta_time": 1.4026583330679423, + "step": 8481 + }, + { + "epoch": 0.9047466666666667, + "grad_norm": 2.1530690124738636, + "learning_rate": 2.3609160030301447e-07, + "loss": 0.4766, + "step": 8482 + }, + { + "avg_step_time": 5.650083893477315, + "epoch": 0.9047466666666667, + "eta_time": 1.401534699132012, + "step": 8482 + }, + { + "epoch": 0.9048533333333333, + "grad_norm": 1.8232496298565757, + "learning_rate": 2.3556732509123603e-07, + "loss": 0.4588, + "step": 8483 + }, + { + "avg_step_time": 5.645351169085262, + "epoch": 0.9048533333333333, + "eta_time": 1.398792567451126, + "step": 8483 + }, + { + "epoch": 0.90496, + "grad_norm": 1.8184444194921465, + "learning_rate": 2.3504361859690628e-07, + "loss": 0.3743, + "step": 8484 + }, + { + "avg_step_time": 5.647746613531401, + "epoch": 0.90496, + "eta_time": 1.397817286849022, + "step": 8484 + }, + { + "epoch": 0.9050666666666667, + "grad_norm": 1.9773549146747618, + "learning_rate": 2.3452048088253965e-07, + "loss": 0.5288, + "step": 8485 + }, + { + "avg_step_time": 5.646240472793579, + "epoch": 0.9050666666666667, + "eta_time": 1.3958761168850793, + "step": 8485 + }, + { + "epoch": 0.9051733333333334, + "grad_norm": 1.7834576165678697, + "learning_rate": 2.3399791201058174e-07, + "loss": 0.5207, + "step": 8486 + }, + { + "avg_step_time": 5.651761909927985, + "epoch": 0.9051733333333334, + "eta_time": 1.3956712049794386, + "step": 8486 + }, + { + "epoch": 0.90528, + "grad_norm": 1.9564807465480014, + "learning_rate": 2.3347591204340881e-07, + "loss": 0.5701, + "step": 8487 + }, + { + "avg_step_time": 5.654449491789847, + "epoch": 0.90528, + "eta_time": 1.3947642079748288, + "step": 8487 + }, + { + "epoch": 0.9053866666666667, + "grad_norm": 2.0175387364619253, + "learning_rate": 2.3295448104333096e-07, + "loss": 0.5362, + "step": 8488 + }, + { + "avg_step_time": 5.654377462888005, + "epoch": 0.9053866666666667, + "eta_time": 1.39317578043935, + "step": 8488 + }, + { + "epoch": 0.9054933333333334, + "grad_norm": 2.079325742663034, + "learning_rate": 2.3243361907259122e-07, + "loss": 0.5101, + "step": 8489 + }, + { + "avg_step_time": 5.647744506296485, + "epoch": 0.9054933333333334, + "eta_time": 1.3899726757163018, + "step": 8489 + }, + { + "epoch": 0.9056, + "grad_norm": 1.811188868855902, + "learning_rate": 2.3191332619336204e-07, + "loss": 0.3923, + "step": 8490 + }, + { + "avg_step_time": 5.666561550564236, + "epoch": 0.9056, + "eta_time": 1.393029714513708, + "step": 8490 + }, + { + "epoch": 0.9057066666666667, + "grad_norm": 1.9216291976738775, + "learning_rate": 2.31393602467751e-07, + "loss": 0.5374, + "step": 8491 + }, + { + "avg_step_time": 5.67026604546441, + "epoch": 0.9057066666666667, + "eta_time": 1.392365328941816, + "step": 8491 + }, + { + "epoch": 0.9058133333333334, + "grad_norm": 1.7604593953638643, + "learning_rate": 2.3087444795779456e-07, + "loss": 0.4765, + "step": 8492 + }, + { + "avg_step_time": 5.704394892008618, + "epoch": 0.9058133333333334, + "eta_time": 1.3991613026787804, + "step": 8492 + }, + { + "epoch": 0.90592, + "grad_norm": 1.8271922683005586, + "learning_rate": 2.3035586272546207e-07, + "loss": 0.543, + "step": 8493 + }, + { + "avg_step_time": 5.711397101180722, + "epoch": 0.90592, + "eta_time": 1.399292289789277, + "step": 8493 + }, + { + "epoch": 0.9060266666666666, + "grad_norm": 0.6397835127892271, + "learning_rate": 2.2983784683265842e-07, + "loss": 0.4383, + "step": 8494 + }, + { + "avg_step_time": 5.6752307415008545, + "epoch": 0.9060266666666666, + "eta_time": 1.388855078683959, + "step": 8494 + }, + { + "epoch": 0.9061333333333333, + "grad_norm": 0.6677269867149539, + "learning_rate": 2.2932040034121638e-07, + "loss": 0.4416, + "step": 8495 + }, + { + "avg_step_time": 5.637933627523557, + "epoch": 0.9061333333333333, + "eta_time": 1.3781615533946474, + "step": 8495 + }, + { + "epoch": 0.90624, + "grad_norm": 1.586505321336113, + "learning_rate": 2.2880352331290102e-07, + "loss": 0.4038, + "step": 8496 + }, + { + "avg_step_time": 5.61206212669912, + "epoch": 0.90624, + "eta_time": 1.3702785026023685, + "step": 8496 + }, + { + "epoch": 0.9063466666666666, + "grad_norm": 2.07318463426697, + "learning_rate": 2.2828721580941237e-07, + "loss": 0.4557, + "step": 8497 + }, + { + "avg_step_time": 5.625537566464357, + "epoch": 0.9063466666666666, + "eta_time": 1.372006106487696, + "step": 8497 + }, + { + "epoch": 0.9064533333333333, + "grad_norm": 1.901830382923024, + "learning_rate": 2.277714778923795e-07, + "loss": 0.4371, + "step": 8498 + }, + { + "avg_step_time": 5.624065009030429, + "epoch": 0.9064533333333333, + "eta_time": 1.370084725811024, + "step": 8498 + }, + { + "epoch": 0.90656, + "grad_norm": 0.63101401228038, + "learning_rate": 2.2725630962336542e-07, + "loss": 0.4152, + "step": 8499 + }, + { + "avg_step_time": 5.590954002707895, + "epoch": 0.90656, + "eta_time": 1.3604654739922544, + "step": 8499 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 1.932253538720238, + "learning_rate": 2.2674171106386312e-07, + "loss": 0.4778, + "step": 8500 + }, + { + "avg_step_time": 5.576419401650477, + "epoch": 0.9066666666666666, + "eta_time": 1.3553797156789353, + "step": 8500 + }, + { + "epoch": 0.9067733333333333, + "grad_norm": 1.8262497600796543, + "learning_rate": 2.2622768227530068e-07, + "loss": 0.451, + "step": 8501 + }, + { + "avg_step_time": 5.58580639145591, + "epoch": 0.9067733333333333, + "eta_time": 1.3561096628145737, + "step": 8501 + }, + { + "epoch": 0.90688, + "grad_norm": 1.9938734787030075, + "learning_rate": 2.2571422331903458e-07, + "loss": 0.5246, + "step": 8502 + }, + { + "avg_step_time": 5.602696864291875, + "epoch": 0.90688, + "eta_time": 1.3586539895907797, + "step": 8502 + }, + { + "epoch": 0.9069866666666667, + "grad_norm": 1.696585303746213, + "learning_rate": 2.2520133425635526e-07, + "loss": 0.5366, + "step": 8503 + }, + { + "avg_step_time": 5.604086904814749, + "epoch": 0.9069866666666667, + "eta_time": 1.3574343836106835, + "step": 8503 + }, + { + "epoch": 0.9070933333333333, + "grad_norm": 1.8846463770828719, + "learning_rate": 2.246890151484865e-07, + "loss": 0.4655, + "step": 8504 + }, + { + "avg_step_time": 5.6061584371508975, + "epoch": 0.9070933333333333, + "eta_time": 1.3563788885440087, + "step": 8504 + }, + { + "epoch": 0.9072, + "grad_norm": 1.8981704216859043, + "learning_rate": 2.2417726605658164e-07, + "loss": 0.4791, + "step": 8505 + }, + { + "avg_step_time": 5.601135162392048, + "epoch": 0.9072, + "eta_time": 1.3536076642447448, + "step": 8505 + }, + { + "epoch": 0.9073066666666667, + "grad_norm": 1.9329181456421636, + "learning_rate": 2.2366608704172565e-07, + "loss": 0.4902, + "step": 8506 + }, + { + "avg_step_time": 5.559739599324236, + "epoch": 0.9073066666666667, + "eta_time": 1.3420593643924337, + "step": 8506 + }, + { + "epoch": 0.9074133333333333, + "grad_norm": 0.6486409648523086, + "learning_rate": 2.2315547816493698e-07, + "loss": 0.444, + "step": 8507 + }, + { + "avg_step_time": 5.505581499350192, + "epoch": 0.9074133333333333, + "eta_time": 1.3274568726211018, + "step": 8507 + }, + { + "epoch": 0.90752, + "grad_norm": 1.7504345134533916, + "learning_rate": 2.226454394871669e-07, + "loss": 0.4552, + "step": 8508 + }, + { + "avg_step_time": 5.51447648713083, + "epoch": 0.90752, + "eta_time": 1.3280697539840083, + "step": 8508 + }, + { + "epoch": 0.9076266666666667, + "grad_norm": 1.6782039811448417, + "learning_rate": 2.2213597106929608e-07, + "loss": 0.4738, + "step": 8509 + }, + { + "avg_step_time": 5.519620206620958, + "epoch": 0.9076266666666667, + "eta_time": 1.3277753052593748, + "step": 8509 + }, + { + "epoch": 0.9077333333333333, + "grad_norm": 1.7956921396158294, + "learning_rate": 2.2162707297213982e-07, + "loss": 0.4318, + "step": 8510 + }, + { + "avg_step_time": 5.517984002527564, + "epoch": 0.9077333333333333, + "eta_time": 1.3258489339406507, + "step": 8510 + }, + { + "epoch": 0.90784, + "grad_norm": 1.829289028681549, + "learning_rate": 2.2111874525644228e-07, + "loss": 0.461, + "step": 8511 + }, + { + "avg_step_time": 5.5217612391770485, + "epoch": 0.90784, + "eta_time": 1.3252226974024917, + "step": 8511 + }, + { + "epoch": 0.9079466666666667, + "grad_norm": 1.8937701573668015, + "learning_rate": 2.2061098798288107e-07, + "loss": 0.5207, + "step": 8512 + }, + { + "avg_step_time": 5.519223234870217, + "epoch": 0.9079466666666667, + "eta_time": 1.3230804588036102, + "step": 8512 + }, + { + "epoch": 0.9080533333333334, + "grad_norm": 1.7189875450244338, + "learning_rate": 2.2010380121206766e-07, + "loss": 0.4466, + "step": 8513 + }, + { + "avg_step_time": 5.5526469596708665, + "epoch": 0.9080533333333334, + "eta_time": 1.3295504664545241, + "step": 8513 + }, + { + "epoch": 0.90816, + "grad_norm": 1.6464197183909723, + "learning_rate": 2.1959718500454196e-07, + "loss": 0.4171, + "step": 8514 + }, + { + "avg_step_time": 5.545388804541694, + "epoch": 0.90816, + "eta_time": 1.3262721557528885, + "step": 8514 + }, + { + "epoch": 0.9082666666666667, + "grad_norm": 2.4429036625072857, + "learning_rate": 2.1909113942077787e-07, + "loss": 0.5313, + "step": 8515 + }, + { + "avg_step_time": 5.558015640335854, + "epoch": 0.9082666666666667, + "eta_time": 1.3277481807468985, + "step": 8515 + }, + { + "epoch": 0.9083733333333334, + "grad_norm": 1.607446763373616, + "learning_rate": 2.1858566452118146e-07, + "loss": 0.4753, + "step": 8516 + }, + { + "avg_step_time": 5.559367622992005, + "epoch": 0.9083733333333334, + "eta_time": 1.3265268855972587, + "step": 8516 + }, + { + "epoch": 0.90848, + "grad_norm": 0.6739095800516633, + "learning_rate": 2.1808076036608783e-07, + "loss": 0.4619, + "step": 8517 + }, + { + "avg_step_time": 5.5258588357405225, + "epoch": 0.90848, + "eta_time": 1.3169963558514912, + "step": 8517 + }, + { + "epoch": 0.9085866666666667, + "grad_norm": 1.7203805102160972, + "learning_rate": 2.1757642701576765e-07, + "loss": 0.4467, + "step": 8518 + }, + { + "avg_step_time": 5.563569049642544, + "epoch": 0.9085866666666667, + "eta_time": 1.3244385209843499, + "step": 8518 + }, + { + "epoch": 0.9086933333333334, + "grad_norm": 1.8180728912572341, + "learning_rate": 2.170726645304222e-07, + "loss": 0.41, + "step": 8519 + }, + { + "avg_step_time": 5.560569281529898, + "epoch": 0.9086933333333334, + "eta_time": 1.3221798069415536, + "step": 8519 + }, + { + "epoch": 0.9088, + "grad_norm": 1.9238271561948033, + "learning_rate": 2.165694729701834e-07, + "loss": 0.4256, + "step": 8520 + }, + { + "avg_step_time": 5.562819336399888, + "epoch": 0.9088, + "eta_time": 1.3211695923949733, + "step": 8520 + }, + { + "epoch": 0.9089066666666666, + "grad_norm": 1.933774646758418, + "learning_rate": 2.1606685239511537e-07, + "loss": 0.4595, + "step": 8521 + }, + { + "avg_step_time": 5.5633879719358506, + "epoch": 0.9089066666666666, + "eta_time": 1.3197592577870045, + "step": 8521 + }, + { + "epoch": 0.9090133333333333, + "grad_norm": 2.090908429112073, + "learning_rate": 2.155648028652152e-07, + "loss": 0.5111, + "step": 8522 + }, + { + "avg_step_time": 5.54918788900279, + "epoch": 0.9090133333333333, + "eta_time": 1.3148492414776056, + "step": 8522 + }, + { + "epoch": 0.90912, + "grad_norm": 0.6294421715332007, + "learning_rate": 2.1506332444041212e-07, + "loss": 0.4187, + "step": 8523 + }, + { + "avg_step_time": 5.536218823808612, + "epoch": 0.90912, + "eta_time": 1.3102384549680381, + "step": 8523 + }, + { + "epoch": 0.9092266666666666, + "grad_norm": 0.6582933686215356, + "learning_rate": 2.1456241718056436e-07, + "loss": 0.4611, + "step": 8524 + }, + { + "avg_step_time": 5.500296855213667, + "epoch": 0.9092266666666666, + "eta_time": 1.3002090621630085, + "step": 8524 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 1.8731598934371425, + "learning_rate": 2.140620811454658e-07, + "loss": 0.4265, + "step": 8525 + }, + { + "avg_step_time": 5.498656494448883, + "epoch": 0.9093333333333333, + "eta_time": 1.298293894522653, + "step": 8525 + }, + { + "epoch": 0.90944, + "grad_norm": 2.0399213682378297, + "learning_rate": 2.1356231639483917e-07, + "loss": 0.5096, + "step": 8526 + }, + { + "avg_step_time": 5.501134742390025, + "epoch": 0.90944, + "eta_time": 1.2973509434136477, + "step": 8526 + }, + { + "epoch": 0.9095466666666666, + "grad_norm": 1.90803757591174, + "learning_rate": 2.1306312298833954e-07, + "loss": 0.5186, + "step": 8527 + }, + { + "avg_step_time": 5.49792281304947, + "epoch": 0.9095466666666666, + "eta_time": 1.2950662626294307, + "step": 8527 + }, + { + "epoch": 0.9096533333333333, + "grad_norm": 1.692987184763437, + "learning_rate": 2.1256450098555426e-07, + "loss": 0.4426, + "step": 8528 + }, + { + "avg_step_time": 5.528355615307587, + "epoch": 0.9096533333333333, + "eta_time": 1.3006992239348683, + "step": 8528 + }, + { + "epoch": 0.90976, + "grad_norm": 1.6580571296506517, + "learning_rate": 2.1206645044600404e-07, + "loss": 0.4894, + "step": 8529 + }, + { + "avg_step_time": 5.53782432247894, + "epoch": 0.90976, + "eta_time": 1.301388715782551, + "step": 8529 + }, + { + "epoch": 0.9098666666666667, + "grad_norm": 1.8809445097657722, + "learning_rate": 2.1156897142913858e-07, + "loss": 0.4804, + "step": 8530 + }, + { + "avg_step_time": 5.57270950741238, + "epoch": 0.9098666666666667, + "eta_time": 1.3080387593787393, + "step": 8530 + }, + { + "epoch": 0.9099733333333333, + "grad_norm": 1.8723121130893365, + "learning_rate": 2.1107206399434144e-07, + "loss": 0.4205, + "step": 8531 + }, + { + "avg_step_time": 5.608276629688764, + "epoch": 0.9099733333333333, + "eta_time": 1.3148292987381436, + "step": 8531 + }, + { + "epoch": 0.91008, + "grad_norm": 1.8271254002436341, + "learning_rate": 2.1057572820092576e-07, + "loss": 0.5126, + "step": 8532 + }, + { + "avg_step_time": 5.605762652676515, + "epoch": 0.91008, + "eta_time": 1.3126827545017505, + "step": 8532 + }, + { + "epoch": 0.9101866666666667, + "grad_norm": 0.6506829853683701, + "learning_rate": 2.1007996410813912e-07, + "loss": 0.4245, + "step": 8533 + }, + { + "avg_step_time": 5.579471402698093, + "epoch": 0.9101866666666667, + "eta_time": 1.3049763669643872, + "step": 8533 + }, + { + "epoch": 0.9102933333333333, + "grad_norm": 0.6348773260108072, + "learning_rate": 2.0958477177515812e-07, + "loss": 0.45, + "step": 8534 + }, + { + "avg_step_time": 5.54818783143554, + "epoch": 0.9102933333333333, + "eta_time": 1.2961183239548026, + "step": 8534 + }, + { + "epoch": 0.9104, + "grad_norm": 1.999740769215745, + "learning_rate": 2.0909015126109488e-07, + "loss": 0.508, + "step": 8535 + }, + { + "avg_step_time": 5.546742494660195, + "epoch": 0.9104, + "eta_time": 1.294239915420712, + "step": 8535 + }, + { + "epoch": 0.9105066666666667, + "grad_norm": 0.6757838703735576, + "learning_rate": 2.0859610262498887e-07, + "loss": 0.4453, + "step": 8536 + }, + { + "avg_step_time": 5.512255733663386, + "epoch": 0.9105066666666667, + "eta_time": 1.284661822373217, + "step": 8536 + }, + { + "epoch": 0.9106133333333334, + "grad_norm": 2.0623393024917434, + "learning_rate": 2.0810262592581287e-07, + "loss": 0.5551, + "step": 8537 + }, + { + "avg_step_time": 5.514870169186833, + "epoch": 0.9106133333333334, + "eta_time": 1.2837392227162683, + "step": 8537 + }, + { + "epoch": 0.91072, + "grad_norm": 0.6794575680731497, + "learning_rate": 2.0760972122247425e-07, + "loss": 0.4402, + "step": 8538 + }, + { + "avg_step_time": 5.478611156193897, + "epoch": 0.91072, + "eta_time": 1.2737770938150812, + "step": 8538 + }, + { + "epoch": 0.9108266666666667, + "grad_norm": 1.734033377847286, + "learning_rate": 2.0711738857380814e-07, + "loss": 0.4439, + "step": 8539 + }, + { + "avg_step_time": 5.486316801321627, + "epoch": 0.9108266666666667, + "eta_time": 1.2740446794180225, + "step": 8539 + }, + { + "epoch": 0.9109333333333334, + "grad_norm": 1.8630581362928131, + "learning_rate": 2.0662562803858255e-07, + "loss": 0.421, + "step": 8540 + }, + { + "avg_step_time": 5.487363935721041, + "epoch": 0.9109333333333334, + "eta_time": 1.2727635795352972, + "step": 8540 + }, + { + "epoch": 0.91104, + "grad_norm": 1.9290270697527359, + "learning_rate": 2.061344396754994e-07, + "loss": 0.4868, + "step": 8541 + }, + { + "avg_step_time": 5.489723740202008, + "epoch": 0.91104, + "eta_time": 1.271785999813465, + "step": 8541 + }, + { + "epoch": 0.9111466666666667, + "grad_norm": 1.8320307425529843, + "learning_rate": 2.0564382354318791e-07, + "loss": 0.519, + "step": 8542 + }, + { + "avg_step_time": 5.491782763991693, + "epoch": 0.9111466666666667, + "eta_time": 1.270737511779189, + "step": 8542 + }, + { + "epoch": 0.9112533333333334, + "grad_norm": 0.6651801877926327, + "learning_rate": 2.05153779700214e-07, + "loss": 0.4376, + "step": 8543 + }, + { + "avg_step_time": 5.459076708013361, + "epoch": 0.9112533333333334, + "eta_time": 1.2616532836297547, + "step": 8543 + }, + { + "epoch": 0.91136, + "grad_norm": 0.6659598566081145, + "learning_rate": 2.04664308205072e-07, + "loss": 0.4496, + "step": 8544 + }, + { + "avg_step_time": 5.443975068101979, + "epoch": 0.91136, + "eta_time": 1.2566509115535403, + "step": 8544 + }, + { + "epoch": 0.9114666666666666, + "grad_norm": 1.834745894886196, + "learning_rate": 2.0417540911618906e-07, + "loss": 0.4412, + "step": 8545 + }, + { + "avg_step_time": 5.498697514485831, + "epoch": 0.9114666666666666, + "eta_time": 1.2677552602842332, + "step": 8545 + }, + { + "epoch": 0.9115733333333333, + "grad_norm": 1.66611246315972, + "learning_rate": 2.0368708249192182e-07, + "loss": 0.4663, + "step": 8546 + }, + { + "avg_step_time": 5.502989234346332, + "epoch": 0.9115733333333333, + "eta_time": 1.2672161320203081, + "step": 8546 + }, + { + "epoch": 0.91168, + "grad_norm": 1.5891592905441192, + "learning_rate": 2.0319932839056365e-07, + "loss": 0.4704, + "step": 8547 + }, + { + "avg_step_time": 5.497419771521982, + "epoch": 0.91168, + "eta_time": 1.2644065474500559, + "step": 8547 + }, + { + "epoch": 0.9117866666666666, + "grad_norm": 0.6882494615961278, + "learning_rate": 2.027121468703347e-07, + "loss": 0.4661, + "step": 8548 + }, + { + "avg_step_time": 5.463306624479968, + "epoch": 0.9117866666666666, + "eta_time": 1.255042938456926, + "step": 8548 + }, + { + "epoch": 0.9118933333333333, + "grad_norm": 0.646233482857298, + "learning_rate": 2.0222553798938836e-07, + "loss": 0.4316, + "step": 8549 + }, + { + "avg_step_time": 5.4287204333026, + "epoch": 0.9118933333333333, + "eta_time": 1.2455897438633188, + "step": 8549 + }, + { + "epoch": 0.912, + "grad_norm": 1.9891418850790898, + "learning_rate": 2.0173950180581047e-07, + "loss": 0.4782, + "step": 8550 + }, + { + "avg_step_time": 5.42890120034266, + "epoch": 0.912, + "eta_time": 1.244123191745193, + "step": 8550 + }, + { + "epoch": 0.9121066666666666, + "grad_norm": 2.2050118717979568, + "learning_rate": 2.0125403837761736e-07, + "loss": 0.4044, + "step": 8551 + }, + { + "avg_step_time": 5.432823431612265, + "epoch": 0.9121066666666666, + "eta_time": 1.2435129187912517, + "step": 8551 + }, + { + "epoch": 0.9122133333333333, + "grad_norm": 2.1828383032965775, + "learning_rate": 2.0076914776275824e-07, + "loss": 0.4993, + "step": 8552 + }, + { + "avg_step_time": 5.431008163124624, + "epoch": 0.9122133333333333, + "eta_time": 1.241588810625435, + "step": 8552 + }, + { + "epoch": 0.91232, + "grad_norm": 1.833836835756654, + "learning_rate": 2.002848300191118e-07, + "loss": 0.4577, + "step": 8553 + }, + { + "avg_step_time": 5.433341385138156, + "epoch": 0.91232, + "eta_time": 1.2406129496065454, + "step": 8553 + }, + { + "epoch": 0.9124266666666667, + "grad_norm": 1.9499398610133447, + "learning_rate": 1.9980108520449127e-07, + "loss": 0.5156, + "step": 8554 + }, + { + "avg_step_time": 5.428298716593271, + "epoch": 0.9124266666666667, + "eta_time": 1.2379536795341877, + "step": 8554 + }, + { + "epoch": 0.9125333333333333, + "grad_norm": 2.160855990174203, + "learning_rate": 1.9931791337663875e-07, + "loss": 0.5524, + "step": 8555 + }, + { + "avg_step_time": 5.424468551019226, + "epoch": 0.9125333333333333, + "eta_time": 1.2355733921766014, + "step": 8555 + }, + { + "epoch": 0.91264, + "grad_norm": 1.6874265551382481, + "learning_rate": 1.988353145932298e-07, + "loss": 0.396, + "step": 8556 + }, + { + "avg_step_time": 5.406338489416874, + "epoch": 0.91264, + "eta_time": 1.2299420063423387, + "step": 8556 + }, + { + "epoch": 0.9127466666666667, + "grad_norm": 1.5854845053344, + "learning_rate": 1.983532889118711e-07, + "loss": 0.4942, + "step": 8557 + }, + { + "avg_step_time": 5.4036346950916325, + "epoch": 0.9127466666666667, + "eta_time": 1.2278258834958211, + "step": 8557 + }, + { + "epoch": 0.9128533333333333, + "grad_norm": 1.8111968893798933, + "learning_rate": 1.9787183639010055e-07, + "loss": 0.4648, + "step": 8558 + }, + { + "avg_step_time": 5.400206158859561, + "epoch": 0.9128533333333333, + "eta_time": 1.2255467866078502, + "step": 8558 + }, + { + "epoch": 0.91296, + "grad_norm": 1.9405409761547208, + "learning_rate": 1.9739095708538714e-07, + "loss": 0.5056, + "step": 8559 + }, + { + "avg_step_time": 5.400013230063698, + "epoch": 0.91296, + "eta_time": 1.224002998814438, + "step": 8559 + }, + { + "epoch": 0.9130666666666667, + "grad_norm": 1.8870286436478603, + "learning_rate": 1.9691065105513328e-07, + "loss": 0.4188, + "step": 8560 + }, + { + "avg_step_time": 5.4150067050047594, + "epoch": 0.9130666666666667, + "eta_time": 1.225897351271911, + "step": 8560 + }, + { + "epoch": 0.9131733333333333, + "grad_norm": 2.3191989858692086, + "learning_rate": 1.9643091835667095e-07, + "loss": 0.6281, + "step": 8561 + }, + { + "avg_step_time": 5.420846219014639, + "epoch": 0.9131733333333333, + "eta_time": 1.2257135617438657, + "step": 8561 + }, + { + "epoch": 0.91328, + "grad_norm": 1.9835493669309003, + "learning_rate": 1.9595175904726481e-07, + "loss": 0.3932, + "step": 8562 + }, + { + "avg_step_time": 5.421358773202607, + "epoch": 0.91328, + "eta_time": 1.2243235229482556, + "step": 8562 + }, + { + "epoch": 0.9133866666666667, + "grad_norm": 2.124451960227007, + "learning_rate": 1.954731731841114e-07, + "loss": 0.5165, + "step": 8563 + }, + { + "avg_step_time": 5.427421543333265, + "epoch": 0.9133866666666667, + "eta_time": 1.2241850814407256, + "step": 8563 + }, + { + "epoch": 0.9134933333333334, + "grad_norm": 1.7065464065999003, + "learning_rate": 1.9499516082433723e-07, + "loss": 0.5323, + "step": 8564 + }, + { + "avg_step_time": 5.427418142858178, + "epoch": 0.9134933333333334, + "eta_time": 1.222676698293884, + "step": 8564 + }, + { + "epoch": 0.9136, + "grad_norm": 1.7243399990867976, + "learning_rate": 1.9451772202500163e-07, + "loss": 0.4869, + "step": 8565 + }, + { + "avg_step_time": 5.4257861845421065, + "epoch": 0.9136, + "eta_time": 1.2208018915219738, + "step": 8565 + }, + { + "epoch": 0.9137066666666667, + "grad_norm": 1.7514361344511795, + "learning_rate": 1.9404085684309516e-07, + "loss": 0.5266, + "step": 8566 + }, + { + "avg_step_time": 5.426015731060144, + "epoch": 0.9137066666666667, + "eta_time": 1.2193463128965711, + "step": 8566 + }, + { + "epoch": 0.9138133333333334, + "grad_norm": 2.106860367152982, + "learning_rate": 1.9356456533554113e-07, + "loss": 0.5283, + "step": 8567 + }, + { + "avg_step_time": 5.423317427587027, + "epoch": 0.9138133333333334, + "eta_time": 1.2172334670806437, + "step": 8567 + }, + { + "epoch": 0.91392, + "grad_norm": 1.9681700236834128, + "learning_rate": 1.9308884755919132e-07, + "loss": 0.4737, + "step": 8568 + }, + { + "avg_step_time": 5.42288219808328, + "epoch": 0.91392, + "eta_time": 1.215629426070335, + "step": 8568 + }, + { + "epoch": 0.9140266666666667, + "grad_norm": 1.717237957838931, + "learning_rate": 1.9261370357083198e-07, + "loss": 0.4388, + "step": 8569 + }, + { + "avg_step_time": 5.425008997772679, + "epoch": 0.9140266666666667, + "eta_time": 1.2145992367235496, + "step": 8569 + }, + { + "epoch": 0.9141333333333334, + "grad_norm": 1.8377709012771097, + "learning_rate": 1.9213913342717995e-07, + "loss": 0.4577, + "step": 8570 + }, + { + "avg_step_time": 5.412295112706194, + "epoch": 0.9141333333333334, + "eta_time": 1.2102493238134684, + "step": 8570 + }, + { + "epoch": 0.91424, + "grad_norm": 1.9491470690729549, + "learning_rate": 1.9166513718488155e-07, + "loss": 0.4927, + "step": 8571 + }, + { + "avg_step_time": 5.413413050198796, + "epoch": 0.91424, + "eta_time": 1.2089955812110644, + "step": 8571 + }, + { + "epoch": 0.9143466666666666, + "grad_norm": 1.810688721890946, + "learning_rate": 1.911917149005188e-07, + "loss": 0.5459, + "step": 8572 + }, + { + "avg_step_time": 5.408506222445555, + "epoch": 0.9143466666666666, + "eta_time": 1.2063973601732725, + "step": 8572 + }, + { + "epoch": 0.9144533333333333, + "grad_norm": 1.7978885818931547, + "learning_rate": 1.9071886663060202e-07, + "loss": 0.4737, + "step": 8573 + }, + { + "avg_step_time": 5.411143153604835, + "epoch": 0.9144533333333333, + "eta_time": 1.2054824469975216, + "step": 8573 + }, + { + "epoch": 0.91456, + "grad_norm": 2.2003100160862594, + "learning_rate": 1.902465924315733e-07, + "loss": 0.494, + "step": 8574 + }, + { + "avg_step_time": 5.424322359489672, + "epoch": 0.91456, + "eta_time": 1.206911724986452, + "step": 8574 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 2.291781591817497, + "learning_rate": 1.897748923598075e-07, + "loss": 0.529, + "step": 8575 + }, + { + "avg_step_time": 5.4313275043410485, + "epoch": 0.9146666666666666, + "eta_time": 1.2069616676313442, + "step": 8575 + }, + { + "epoch": 0.9147733333333333, + "grad_norm": 1.585473541727038, + "learning_rate": 1.8930376647160908e-07, + "loss": 0.4292, + "step": 8576 + }, + { + "avg_step_time": 5.434947290805855, + "epoch": 0.9147733333333333, + "eta_time": 1.206256357042744, + "step": 8576 + }, + { + "epoch": 0.91488, + "grad_norm": 1.9317856622553493, + "learning_rate": 1.8883321482321583e-07, + "loss": 0.4411, + "step": 8577 + }, + { + "avg_step_time": 5.4670088098506735, + "epoch": 0.91488, + "eta_time": 1.2118536195168994, + "step": 8577 + }, + { + "epoch": 0.9149866666666666, + "grad_norm": 1.8535951767626373, + "learning_rate": 1.8836323747079665e-07, + "loss": 0.4849, + "step": 8578 + }, + { + "avg_step_time": 5.484387513363, + "epoch": 0.9149866666666666, + "eta_time": 1.214182457819531, + "step": 8578 + }, + { + "epoch": 0.9150933333333333, + "grad_norm": 1.5545347204972189, + "learning_rate": 1.8789383447045119e-07, + "loss": 0.4149, + "step": 8579 + }, + { + "avg_step_time": 5.483774702958386, + "epoch": 0.9150933333333333, + "eta_time": 1.212523517654132, + "step": 8579 + }, + { + "epoch": 0.9152, + "grad_norm": 0.6426313875067268, + "learning_rate": 1.8742500587820955e-07, + "loss": 0.4348, + "step": 8580 + }, + { + "avg_step_time": 5.452678109660293, + "epoch": 0.9152, + "eta_time": 1.2041330825499812, + "step": 8580 + }, + { + "epoch": 0.9153066666666667, + "grad_norm": 1.936624184518259, + "learning_rate": 1.8695675175003592e-07, + "loss": 0.4761, + "step": 8581 + }, + { + "avg_step_time": 5.453015539381239, + "epoch": 0.9153066666666667, + "eta_time": 1.2026928717413068, + "step": 8581 + }, + { + "epoch": 0.9154133333333333, + "grad_norm": 1.5470621026546134, + "learning_rate": 1.86489072141825e-07, + "loss": 0.43, + "step": 8582 + }, + { + "avg_step_time": 5.485656206053917, + "epoch": 0.9154133333333333, + "eta_time": 1.2083681587224322, + "step": 8582 + }, + { + "epoch": 0.91552, + "grad_norm": 2.058373357177383, + "learning_rate": 1.86021967109401e-07, + "loss": 0.5261, + "step": 8583 + }, + { + "avg_step_time": 5.5445570825326325, + "epoch": 0.91552, + "eta_time": 1.2198025581571792, + "step": 8583 + }, + { + "epoch": 0.9156266666666667, + "grad_norm": 0.6508106439261927, + "learning_rate": 1.855554367085216e-07, + "loss": 0.4357, + "step": 8584 + }, + { + "avg_step_time": 5.512793211021808, + "epoch": 0.9156266666666667, + "eta_time": 1.2112831749772919, + "step": 8584 + }, + { + "epoch": 0.9157333333333333, + "grad_norm": 1.788981693268355, + "learning_rate": 1.850894809948761e-07, + "loss": 0.4299, + "step": 8585 + }, + { + "avg_step_time": 5.50362638512043, + "epoch": 0.9157333333333333, + "eta_time": 1.207740234512539, + "step": 8585 + }, + { + "epoch": 0.91584, + "grad_norm": 1.9906619770987084, + "learning_rate": 1.8462410002408228e-07, + "loss": 0.5238, + "step": 8586 + }, + { + "avg_step_time": 5.498994244469537, + "epoch": 0.91584, + "eta_time": 1.2051962385795734, + "step": 8586 + }, + { + "epoch": 0.9159466666666667, + "grad_norm": 1.8917301854380826, + "learning_rate": 1.8415929385169285e-07, + "loss": 0.4746, + "step": 8587 + }, + { + "avg_step_time": 5.497003815390847, + "epoch": 0.9159466666666667, + "eta_time": 1.2032330573688854, + "step": 8587 + }, + { + "epoch": 0.9160533333333334, + "grad_norm": 1.809163015777621, + "learning_rate": 1.8369506253319124e-07, + "loss": 0.4933, + "step": 8588 + }, + { + "avg_step_time": 5.499800438832755, + "epoch": 0.9160533333333334, + "eta_time": 1.202317484822605, + "step": 8588 + }, + { + "epoch": 0.91616, + "grad_norm": 0.6549356462152208, + "learning_rate": 1.8323140612399038e-07, + "loss": 0.4223, + "step": 8589 + }, + { + "avg_step_time": 5.444603691197405, + "epoch": 0.91616, + "eta_time": 1.1887384725781, + "step": 8589 + }, + { + "epoch": 0.9162666666666667, + "grad_norm": 0.6519154475937149, + "learning_rate": 1.827683246794343e-07, + "loss": 0.4196, + "step": 8590 + }, + { + "avg_step_time": 5.408095961869365, + "epoch": 0.9162666666666667, + "eta_time": 1.179265369463181, + "step": 8590 + }, + { + "epoch": 0.9163733333333334, + "grad_norm": 1.9762911616471064, + "learning_rate": 1.8230581825480264e-07, + "loss": 0.4392, + "step": 8591 + }, + { + "avg_step_time": 5.406762664968317, + "epoch": 0.9163733333333334, + "eta_time": 1.177472758148656, + "step": 8591 + }, + { + "epoch": 0.91648, + "grad_norm": 1.820550581481776, + "learning_rate": 1.8184388690530242e-07, + "loss": 0.4599, + "step": 8592 + }, + { + "avg_step_time": 5.405568797178943, + "epoch": 0.91648, + "eta_time": 1.17571121338642, + "step": 8592 + }, + { + "epoch": 0.9165866666666667, + "grad_norm": 1.7744032580458644, + "learning_rate": 1.813825306860728e-07, + "loss": 0.4354, + "step": 8593 + }, + { + "avg_step_time": 5.441266820888327, + "epoch": 0.9165866666666667, + "eta_time": 1.1819640705374088, + "step": 8593 + }, + { + "epoch": 0.9166933333333334, + "grad_norm": 1.8417651336052923, + "learning_rate": 1.809217496521848e-07, + "loss": 0.4893, + "step": 8594 + }, + { + "avg_step_time": 5.479299591045187, + "epoch": 0.9166933333333334, + "eta_time": 1.1887036057239697, + "step": 8594 + }, + { + "epoch": 0.9168, + "grad_norm": 0.6326316951167634, + "learning_rate": 1.804615438586399e-07, + "loss": 0.443, + "step": 8595 + }, + { + "avg_step_time": 5.443977717197303, + "epoch": 0.9168, + "eta_time": 1.1795285053927491, + "step": 8595 + }, + { + "epoch": 0.9169066666666666, + "grad_norm": 0.6499766612649517, + "learning_rate": 1.8000191336037252e-07, + "loss": 0.4749, + "step": 8596 + }, + { + "avg_step_time": 5.397090803493153, + "epoch": 0.9169066666666666, + "eta_time": 1.167870482200324, + "step": 8596 + }, + { + "epoch": 0.9170133333333333, + "grad_norm": 1.6807867365641571, + "learning_rate": 1.7954285821224827e-07, + "loss": 0.4684, + "step": 8597 + }, + { + "avg_step_time": 5.398915842326001, + "epoch": 0.9170133333333333, + "eta_time": 1.1667657014804522, + "step": 8597 + }, + { + "epoch": 0.91712, + "grad_norm": 1.7380300032519935, + "learning_rate": 1.7908437846906158e-07, + "loss": 0.4502, + "step": 8598 + }, + { + "avg_step_time": 5.439057460939042, + "epoch": 0.91712, + "eta_time": 1.1739299019860099, + "step": 8598 + }, + { + "epoch": 0.9172266666666666, + "grad_norm": 2.091976182808583, + "learning_rate": 1.786264741855409e-07, + "loss": 0.5254, + "step": 8599 + }, + { + "avg_step_time": 5.4371420253406875, + "epoch": 0.9172266666666666, + "eta_time": 1.1720061699067703, + "step": 8599 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 1.8862373171202245, + "learning_rate": 1.7816914541634423e-07, + "loss": 0.4598, + "step": 8600 + }, + { + "avg_step_time": 5.442491528963802, + "epoch": 0.9173333333333333, + "eta_time": 1.1716474819297074, + "step": 8600 + }, + { + "epoch": 0.91744, + "grad_norm": 1.9409576148530185, + "learning_rate": 1.7771239221606285e-07, + "loss": 0.4688, + "step": 8601 + }, + { + "avg_step_time": 5.428133422678167, + "epoch": 0.91744, + "eta_time": 1.167048685875806, + "step": 8601 + }, + { + "epoch": 0.9175466666666666, + "grad_norm": 2.067496474244498, + "learning_rate": 1.7725621463921761e-07, + "loss": 0.5007, + "step": 8602 + }, + { + "avg_step_time": 5.427998065948486, + "epoch": 0.9175466666666666, + "eta_time": 1.1655118069383834, + "step": 8602 + }, + { + "epoch": 0.9176533333333333, + "grad_norm": 0.6578261847099475, + "learning_rate": 1.7680061274026105e-07, + "loss": 0.4269, + "step": 8603 + }, + { + "avg_step_time": 5.39584872698543, + "epoch": 0.9176533333333333, + "eta_time": 1.1571097825646532, + "step": 8603 + }, + { + "epoch": 0.91776, + "grad_norm": 1.6224095024438838, + "learning_rate": 1.7634558657357748e-07, + "loss": 0.5061, + "step": 8604 + }, + { + "avg_step_time": 5.396976656383938, + "epoch": 0.91776, + "eta_time": 1.15585250057556, + "step": 8604 + }, + { + "epoch": 0.9178666666666667, + "grad_norm": 1.8815822911819817, + "learning_rate": 1.7589113619348174e-07, + "loss": 0.5379, + "step": 8605 + }, + { + "avg_step_time": 5.3960821170999544, + "epoch": 0.9178666666666667, + "eta_time": 1.1541620083797124, + "step": 8605 + }, + { + "epoch": 0.9179733333333333, + "grad_norm": 1.7112364809299945, + "learning_rate": 1.7543726165421993e-07, + "loss": 0.4424, + "step": 8606 + }, + { + "avg_step_time": 5.4293324923274495, + "epoch": 0.9179733333333333, + "eta_time": 1.1597657462777244, + "step": 8606 + }, + { + "epoch": 0.91808, + "grad_norm": 1.879028347475937, + "learning_rate": 1.7498396300997146e-07, + "loss": 0.4327, + "step": 8607 + }, + { + "avg_step_time": 5.421644398660371, + "epoch": 0.91808, + "eta_time": 1.1566174717142126, + "step": 8607 + }, + { + "epoch": 0.9181866666666667, + "grad_norm": 1.7317703793015993, + "learning_rate": 1.7453124031484303e-07, + "loss": 0.4489, + "step": 8608 + }, + { + "avg_step_time": 5.426084752034659, + "epoch": 0.9181866666666667, + "eta_time": 1.1560575013362733, + "step": 8608 + }, + { + "epoch": 0.9182933333333333, + "grad_norm": 1.643031789158687, + "learning_rate": 1.7407909362287756e-07, + "loss": 0.4223, + "step": 8609 + }, + { + "avg_step_time": 5.426222536298964, + "epoch": 0.9182933333333333, + "eta_time": 1.1545795730013906, + "step": 8609 + }, + { + "epoch": 0.9184, + "grad_norm": 1.9164597877427298, + "learning_rate": 1.736275229880441e-07, + "loss": 0.5438, + "step": 8610 + }, + { + "avg_step_time": 5.423184416510842, + "epoch": 0.9184, + "eta_time": 1.1524266885085537, + "step": 8610 + }, + { + "epoch": 0.9185066666666667, + "grad_norm": 0.6538343309685459, + "learning_rate": 1.7317652846424727e-07, + "loss": 0.4351, + "step": 8611 + }, + { + "avg_step_time": 5.38048741311738, + "epoch": 0.9185066666666667, + "eta_time": 1.141858995450466, + "step": 8611 + }, + { + "epoch": 0.9186133333333333, + "grad_norm": 1.7872867351700008, + "learning_rate": 1.7272611010532014e-07, + "loss": 0.462, + "step": 8612 + }, + { + "avg_step_time": 5.399485332797272, + "epoch": 0.9186133333333333, + "eta_time": 1.1443909191456438, + "step": 8612 + }, + { + "epoch": 0.91872, + "grad_norm": 2.1859753108233435, + "learning_rate": 1.7227626796502807e-07, + "loss": 0.5594, + "step": 8613 + }, + { + "avg_step_time": 5.401652396327317, + "epoch": 0.91872, + "eta_time": 1.1433497572226154, + "step": 8613 + }, + { + "epoch": 0.9188266666666667, + "grad_norm": 0.6457880346829111, + "learning_rate": 1.718270020970675e-07, + "loss": 0.4588, + "step": 8614 + }, + { + "avg_step_time": 5.354122067942764, + "epoch": 0.9188266666666667, + "eta_time": 1.1318019149179008, + "step": 8614 + }, + { + "epoch": 0.9189333333333334, + "grad_norm": 2.0314882256653712, + "learning_rate": 1.713783125550661e-07, + "loss": 0.4526, + "step": 8615 + }, + { + "avg_step_time": 5.351920491517192, + "epoch": 0.9189333333333334, + "eta_time": 1.1298498815425184, + "step": 8615 + }, + { + "epoch": 0.91904, + "grad_norm": 1.8592308639593764, + "learning_rate": 1.7093019939258327e-07, + "loss": 0.4877, + "step": 8616 + }, + { + "avg_step_time": 5.385279995022398, + "epoch": 0.91904, + "eta_time": 1.135396532283889, + "step": 8616 + }, + { + "epoch": 0.9191466666666667, + "grad_norm": 1.7737006077773907, + "learning_rate": 1.7048266266310842e-07, + "loss": 0.4112, + "step": 8617 + }, + { + "avg_step_time": 5.385658594092938, + "epoch": 0.9191466666666667, + "eta_time": 1.1339803373117907, + "step": 8617 + }, + { + "epoch": 0.9192533333333334, + "grad_norm": 0.6392349587551772, + "learning_rate": 1.7003570242006273e-07, + "loss": 0.422, + "step": 8618 + }, + { + "avg_step_time": 5.354223631849193, + "epoch": 0.9192533333333334, + "eta_time": 1.1258742470305108, + "step": 8618 + }, + { + "epoch": 0.91936, + "grad_norm": 1.9492511941198896, + "learning_rate": 1.6958931871679908e-07, + "loss": 0.4102, + "step": 8619 + }, + { + "avg_step_time": 5.34853705011233, + "epoch": 0.91936, + "eta_time": 1.1231927805235893, + "step": 8619 + }, + { + "epoch": 0.9194666666666667, + "grad_norm": 2.032808740757184, + "learning_rate": 1.6914351160660036e-07, + "loss": 0.459, + "step": 8620 + }, + { + "avg_step_time": 5.357259882820977, + "epoch": 0.9194666666666667, + "eta_time": 1.1235364476471772, + "step": 8620 + }, + { + "epoch": 0.9195733333333334, + "grad_norm": 2.1994773392869456, + "learning_rate": 1.6869828114268183e-07, + "loss": 0.4513, + "step": 8621 + }, + { + "avg_step_time": 5.361805499202073, + "epoch": 0.9195733333333334, + "eta_time": 1.1230003739995453, + "step": 8621 + }, + { + "epoch": 0.91968, + "grad_norm": 1.822616370158794, + "learning_rate": 1.6825362737818985e-07, + "loss": 0.5236, + "step": 8622 + }, + { + "avg_step_time": 5.373249839050601, + "epoch": 0.91968, + "eta_time": 1.1239047580014174, + "step": 8622 + }, + { + "epoch": 0.9197866666666666, + "grad_norm": 1.726676433707025, + "learning_rate": 1.6780955036620138e-07, + "loss": 0.4892, + "step": 8623 + }, + { + "avg_step_time": 5.410501973797577, + "epoch": 0.9197866666666666, + "eta_time": 1.130193745637716, + "step": 8623 + }, + { + "epoch": 0.9198933333333333, + "grad_norm": 1.756886249374039, + "learning_rate": 1.6736605015972406e-07, + "loss": 0.537, + "step": 8624 + }, + { + "avg_step_time": 5.415052972658716, + "epoch": 0.9198933333333333, + "eta_time": 1.12964021735186, + "step": 8624 + }, + { + "epoch": 0.92, + "grad_norm": 1.8303095887590204, + "learning_rate": 1.6692312681169775e-07, + "loss": 0.4783, + "step": 8625 + }, + { + "avg_step_time": 5.415118426987619, + "epoch": 0.92, + "eta_time": 1.1281496722890874, + "step": 8625 + }, + { + "epoch": 0.9201066666666666, + "grad_norm": 1.8642341501698632, + "learning_rate": 1.664807803749935e-07, + "loss": 0.5617, + "step": 8626 + }, + { + "avg_step_time": 5.414246838502209, + "epoch": 0.9201066666666666, + "eta_time": 1.1264641338994874, + "step": 8626 + }, + { + "epoch": 0.9202133333333333, + "grad_norm": 1.7940633132894481, + "learning_rate": 1.660390109024118e-07, + "loss": 0.4879, + "step": 8627 + }, + { + "avg_step_time": 5.414499752449267, + "epoch": 0.9202133333333333, + "eta_time": 1.1250127263422365, + "step": 8627 + }, + { + "epoch": 0.92032, + "grad_norm": 0.6089221831295917, + "learning_rate": 1.6559781844668666e-07, + "loss": 0.4394, + "step": 8628 + }, + { + "avg_step_time": 5.373136790111811, + "epoch": 0.92032, + "eta_time": 1.1149258839482008, + "step": 8628 + }, + { + "epoch": 0.9204266666666666, + "grad_norm": 1.9419209647847504, + "learning_rate": 1.65157203060482e-07, + "loss": 0.4792, + "step": 8629 + }, + { + "avg_step_time": 5.374950652170663, + "epoch": 0.9204266666666666, + "eta_time": 1.1138092184775876, + "step": 8629 + }, + { + "epoch": 0.9205333333333333, + "grad_norm": 2.0444690529166607, + "learning_rate": 1.6471716479639077e-07, + "loss": 0.5376, + "step": 8630 + }, + { + "avg_step_time": 5.386466943856441, + "epoch": 0.9205333333333333, + "eta_time": 1.1146994092147358, + "step": 8630 + }, + { + "epoch": 0.92064, + "grad_norm": 1.7036477703370871, + "learning_rate": 1.6427770370694208e-07, + "loss": 0.3873, + "step": 8631 + }, + { + "avg_step_time": 5.387674909649474, + "epoch": 0.92064, + "eta_time": 1.113452814660891, + "step": 8631 + }, + { + "epoch": 0.9207466666666667, + "grad_norm": 1.9308384365730924, + "learning_rate": 1.6383881984459227e-07, + "loss": 0.5476, + "step": 8632 + }, + { + "avg_step_time": 5.435729291703966, + "epoch": 0.9207466666666667, + "eta_time": 1.1218741288155685, + "step": 8632 + }, + { + "epoch": 0.9208533333333333, + "grad_norm": 1.974217443056019, + "learning_rate": 1.6340051326172834e-07, + "loss": 0.4664, + "step": 8633 + }, + { + "avg_step_time": 5.46786197989878, + "epoch": 0.9208533333333333, + "eta_time": 1.1269871080791374, + "step": 8633 + }, + { + "epoch": 0.92096, + "grad_norm": 1.63799239126003, + "learning_rate": 1.6296278401067122e-07, + "loss": 0.4498, + "step": 8634 + }, + { + "avg_step_time": 5.474324869387077, + "epoch": 0.92096, + "eta_time": 1.1267985356155068, + "step": 8634 + }, + { + "epoch": 0.9210666666666667, + "grad_norm": 2.0836082934118325, + "learning_rate": 1.6252563214367134e-07, + "loss": 0.3837, + "step": 8635 + }, + { + "avg_step_time": 5.524526668317391, + "epoch": 0.9210666666666667, + "eta_time": 1.1355971484874636, + "step": 8635 + }, + { + "epoch": 0.9211733333333333, + "grad_norm": 1.6989088387670044, + "learning_rate": 1.6208905771290974e-07, + "loss": 0.47, + "step": 8636 + }, + { + "avg_step_time": 5.525279083637276, + "epoch": 0.9211733333333333, + "eta_time": 1.1342170118910964, + "step": 8636 + }, + { + "epoch": 0.92128, + "grad_norm": 2.0281869085003357, + "learning_rate": 1.6165306077049969e-07, + "loss": 0.4725, + "step": 8637 + }, + { + "avg_step_time": 5.562109660620641, + "epoch": 0.92128, + "eta_time": 1.1402324804272315, + "step": 8637 + }, + { + "epoch": 0.9213866666666667, + "grad_norm": 1.9494902743211113, + "learning_rate": 1.6121764136848517e-07, + "loss": 0.4332, + "step": 8638 + }, + { + "avg_step_time": 5.554985111409968, + "epoch": 0.9213866666666667, + "eta_time": 1.1372288964192072, + "step": 8638 + }, + { + "epoch": 0.9214933333333334, + "grad_norm": 1.8450449413199297, + "learning_rate": 1.6078279955883957e-07, + "loss": 0.4915, + "step": 8639 + }, + { + "avg_step_time": 5.555856646913471, + "epoch": 0.9214933333333334, + "eta_time": 1.1358640255911985, + "step": 8639 + }, + { + "epoch": 0.9216, + "grad_norm": 1.7507767700025652, + "learning_rate": 1.603485353934703e-07, + "loss": 0.4152, + "step": 8640 + }, + { + "avg_step_time": 5.553392065895928, + "epoch": 0.9216, + "eta_time": 1.1338175467870855, + "step": 8640 + }, + { + "epoch": 0.9217066666666667, + "grad_norm": 1.9125191274695992, + "learning_rate": 1.5991484892421416e-07, + "loss": 0.5208, + "step": 8641 + }, + { + "avg_step_time": 5.550686826609602, + "epoch": 0.9217066666666667, + "eta_time": 1.1317233696476245, + "step": 8641 + }, + { + "epoch": 0.9218133333333334, + "grad_norm": 0.6683195981395702, + "learning_rate": 1.594817402028387e-07, + "loss": 0.4374, + "step": 8642 + }, + { + "avg_step_time": 5.546605678519818, + "epoch": 0.9218133333333334, + "eta_time": 1.1293505450986185, + "step": 8642 + }, + { + "epoch": 0.92192, + "grad_norm": 2.1768596799770292, + "learning_rate": 1.5904920928104196e-07, + "loss": 0.4845, + "step": 8643 + }, + { + "avg_step_time": 5.564407025924837, + "epoch": 0.92192, + "eta_time": 1.1314294286047166, + "step": 8643 + }, + { + "epoch": 0.9220266666666667, + "grad_norm": 2.0045627618135655, + "learning_rate": 1.5861725621045542e-07, + "loss": 0.4963, + "step": 8644 + }, + { + "avg_step_time": 5.509203785597676, + "epoch": 0.9220266666666667, + "eta_time": 1.118674435353306, + "step": 8644 + }, + { + "epoch": 0.9221333333333334, + "grad_norm": 2.0222412389712416, + "learning_rate": 1.5818588104264065e-07, + "loss": 0.5303, + "step": 8645 + }, + { + "avg_step_time": 5.504575563199593, + "epoch": 0.9221333333333334, + "eta_time": 1.116205600315473, + "step": 8645 + }, + { + "epoch": 0.92224, + "grad_norm": 1.8138906941726771, + "learning_rate": 1.577550838290881e-07, + "loss": 0.4145, + "step": 8646 + }, + { + "avg_step_time": 5.506206977246988, + "epoch": 0.92224, + "eta_time": 1.115006912892515, + "step": 8646 + }, + { + "epoch": 0.9223466666666666, + "grad_norm": 0.6406350327377118, + "learning_rate": 1.5732486462122166e-07, + "loss": 0.4219, + "step": 8647 + }, + { + "avg_step_time": 5.508104820444126, + "epoch": 0.9223466666666666, + "eta_time": 1.1138611970231456, + "step": 8647 + }, + { + "epoch": 0.9224533333333333, + "grad_norm": 1.3850876296234509, + "learning_rate": 1.5689522347039577e-07, + "loss": 0.4361, + "step": 8648 + }, + { + "avg_step_time": 5.543545470093235, + "epoch": 0.9224533333333333, + "eta_time": 1.119488210210495, + "step": 8648 + }, + { + "epoch": 0.92256, + "grad_norm": 1.750136463189089, + "learning_rate": 1.564661604278944e-07, + "loss": 0.4663, + "step": 8649 + }, + { + "avg_step_time": 5.54532542132368, + "epoch": 0.92256, + "eta_time": 1.1183072933002753, + "step": 8649 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 1.8638252395727704, + "learning_rate": 1.56037675544935e-07, + "loss": 0.4956, + "step": 8650 + }, + { + "avg_step_time": 5.540139624566743, + "epoch": 0.9226666666666666, + "eta_time": 1.1157225632808023, + "step": 8650 + }, + { + "epoch": 0.9227733333333333, + "grad_norm": 1.8065958301621707, + "learning_rate": 1.5560976887266433e-07, + "loss": 0.4894, + "step": 8651 + }, + { + "avg_step_time": 5.543699341590958, + "epoch": 0.9227733333333333, + "eta_time": 1.1148995342532928, + "step": 8651 + }, + { + "epoch": 0.92288, + "grad_norm": 0.6723167185438134, + "learning_rate": 1.5518244046215936e-07, + "loss": 0.4675, + "step": 8652 + }, + { + "avg_step_time": 5.509036343507092, + "epoch": 0.92288, + "eta_time": 1.1063981323210077, + "step": 8652 + }, + { + "epoch": 0.9229866666666666, + "grad_norm": 1.9748428776628797, + "learning_rate": 1.547556903644304e-07, + "loss": 0.4119, + "step": 8653 + }, + { + "avg_step_time": 5.509944583430435, + "epoch": 0.9229866666666666, + "eta_time": 1.105049997010215, + "step": 8653 + }, + { + "epoch": 0.9230933333333333, + "grad_norm": 1.7705040440237696, + "learning_rate": 1.5432951863041666e-07, + "loss": 0.4444, + "step": 8654 + }, + { + "avg_step_time": 5.5115229529563825, + "epoch": 0.9230933333333333, + "eta_time": 1.10383556918932, + "step": 8654 + }, + { + "epoch": 0.9232, + "grad_norm": 1.7924201256708587, + "learning_rate": 1.539039253109892e-07, + "loss": 0.4583, + "step": 8655 + }, + { + "avg_step_time": 5.52965254735465, + "epoch": 0.9232, + "eta_time": 1.10593050947093, + "step": 8655 + }, + { + "epoch": 0.9233066666666667, + "grad_norm": 1.7174440502020725, + "learning_rate": 1.5347891045695118e-07, + "loss": 0.5018, + "step": 8656 + }, + { + "avg_step_time": 5.536025218289308, + "epoch": 0.9233066666666667, + "eta_time": 1.1056672588750034, + "step": 8656 + }, + { + "epoch": 0.9234133333333333, + "grad_norm": 2.109804588945592, + "learning_rate": 1.530544741190343e-07, + "loss": 0.4783, + "step": 8657 + }, + { + "avg_step_time": 5.540011639546866, + "epoch": 0.9234133333333333, + "eta_time": 1.1049245436651804, + "step": 8657 + }, + { + "epoch": 0.92352, + "grad_norm": 1.7988339924876813, + "learning_rate": 1.526306163479019e-07, + "loss": 0.4914, + "step": 8658 + }, + { + "avg_step_time": 5.537525872991543, + "epoch": 0.92352, + "eta_time": 1.102890569704149, + "step": 8658 + }, + { + "epoch": 0.9236266666666667, + "grad_norm": 1.8271276633456177, + "learning_rate": 1.5220733719414904e-07, + "loss": 0.4792, + "step": 8659 + }, + { + "avg_step_time": 5.529228212857487, + "epoch": 0.9236266666666667, + "eta_time": 1.0997020556683224, + "step": 8659 + }, + { + "epoch": 0.9237333333333333, + "grad_norm": 0.6504179061556422, + "learning_rate": 1.5178463670830312e-07, + "loss": 0.4498, + "step": 8660 + }, + { + "avg_step_time": 5.491331059523303, + "epoch": 0.9237333333333333, + "eta_time": 1.0906393632108784, + "step": 8660 + }, + { + "epoch": 0.92384, + "grad_norm": 1.9056029957318896, + "learning_rate": 1.5136251494081822e-07, + "loss": 0.4458, + "step": 8661 + }, + { + "avg_step_time": 5.517963777888905, + "epoch": 0.92384, + "eta_time": 1.0943961492812995, + "step": 8661 + }, + { + "epoch": 0.9239466666666667, + "grad_norm": 0.6292039718594321, + "learning_rate": 1.5094097194208402e-07, + "loss": 0.4161, + "step": 8662 + }, + { + "avg_step_time": 5.477583439663203, + "epoch": 0.9239466666666667, + "eta_time": 1.0848658312444066, + "step": 8662 + }, + { + "epoch": 0.9240533333333333, + "grad_norm": 1.8099184845892031, + "learning_rate": 1.5052000776241748e-07, + "loss": 0.5029, + "step": 8663 + }, + { + "avg_step_time": 5.477618477561257, + "epoch": 0.9240533333333333, + "eta_time": 1.0833512100065597, + "step": 8663 + }, + { + "epoch": 0.92416, + "grad_norm": 1.9918998888602095, + "learning_rate": 1.5009962245206845e-07, + "loss": 0.5045, + "step": 8664 + }, + { + "avg_step_time": 5.471883990547874, + "epoch": 0.92416, + "eta_time": 1.0806970881332052, + "step": 8664 + }, + { + "epoch": 0.9242666666666667, + "grad_norm": 1.7320003445811567, + "learning_rate": 1.4967981606121673e-07, + "loss": 0.4593, + "step": 8665 + }, + { + "avg_step_time": 5.4765371337081445, + "epoch": 0.9242666666666667, + "eta_time": 1.0800948235924397, + "step": 8665 + }, + { + "epoch": 0.9243733333333334, + "grad_norm": 0.6705249840590266, + "learning_rate": 1.492605886399745e-07, + "loss": 0.4479, + "step": 8666 + }, + { + "avg_step_time": 5.434509525395403, + "epoch": 0.9243733333333334, + "eta_time": 1.0702964593070392, + "step": 8666 + }, + { + "epoch": 0.92448, + "grad_norm": 0.6802443554203189, + "learning_rate": 1.488419402383834e-07, + "loss": 0.4374, + "step": 8667 + }, + { + "avg_step_time": 5.398695081171363, + "epoch": 0.92448, + "eta_time": 1.0617433659637014, + "step": 8667 + }, + { + "epoch": 0.9245866666666667, + "grad_norm": 0.6320299174543159, + "learning_rate": 1.484238709064162e-07, + "loss": 0.4371, + "step": 8668 + }, + { + "avg_step_time": 5.362289910364633, + "epoch": 0.9245866666666667, + "eta_time": 1.05309415739661, + "step": 8668 + }, + { + "epoch": 0.9246933333333334, + "grad_norm": 2.074869836679227, + "learning_rate": 1.4800638069397633e-07, + "loss": 0.5079, + "step": 8669 + }, + { + "avg_step_time": 5.362313116439665, + "epoch": 0.9246933333333334, + "eta_time": 1.0516091833906678, + "step": 8669 + }, + { + "epoch": 0.9248, + "grad_norm": 2.1598749374018733, + "learning_rate": 1.4758946965089894e-07, + "loss": 0.4338, + "step": 8670 + }, + { + "avg_step_time": 5.358527963811701, + "epoch": 0.9248, + "eta_time": 1.0493783929131248, + "step": 8670 + }, + { + "epoch": 0.9249066666666667, + "grad_norm": 1.9505425134129886, + "learning_rate": 1.4717313782694975e-07, + "loss": 0.5173, + "step": 8671 + }, + { + "avg_step_time": 5.355385854990796, + "epoch": 0.9249066666666667, + "eta_time": 1.047275456087089, + "step": 8671 + }, + { + "epoch": 0.9250133333333334, + "grad_norm": 2.024948691153403, + "learning_rate": 1.467573852718246e-07, + "loss": 0.5064, + "step": 8672 + }, + { + "avg_step_time": 5.36134909138535, + "epoch": 0.9250133333333334, + "eta_time": 1.046952336456639, + "step": 8672 + }, + { + "epoch": 0.92512, + "grad_norm": 1.9436421865794022, + "learning_rate": 1.4634221203515097e-07, + "loss": 0.4902, + "step": 8673 + }, + { + "avg_step_time": 5.359672074366098, + "epoch": 0.92512, + "eta_time": 1.045136054501389, + "step": 8673 + }, + { + "epoch": 0.9252266666666666, + "grad_norm": 1.7672282145202192, + "learning_rate": 1.459276181664876e-07, + "loss": 0.488, + "step": 8674 + }, + { + "avg_step_time": 5.3548931497516055, + "epoch": 0.9252266666666666, + "eta_time": 1.0427166938821877, + "step": 8674 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 2.0337206506025653, + "learning_rate": 1.4551360371532264e-07, + "loss": 0.4555, + "step": 8675 + }, + { + "avg_step_time": 5.354553993302162, + "epoch": 0.9253333333333333, + "eta_time": 1.0411632764754204, + "step": 8675 + }, + { + "epoch": 0.92544, + "grad_norm": 1.9934219961732471, + "learning_rate": 1.4510016873107657e-07, + "loss": 0.4202, + "step": 8676 + }, + { + "avg_step_time": 5.357530885272556, + "epoch": 0.92544, + "eta_time": 1.040253913557088, + "step": 8676 + }, + { + "epoch": 0.9255466666666666, + "grad_norm": 1.6660605401145723, + "learning_rate": 1.446873132630988e-07, + "loss": 0.4438, + "step": 8677 + }, + { + "avg_step_time": 5.327949528742319, + "epoch": 0.9255466666666666, + "eta_time": 1.0330302141839274, + "step": 8677 + }, + { + "epoch": 0.9256533333333333, + "grad_norm": 2.1570109003660773, + "learning_rate": 1.4427503736067162e-07, + "loss": 0.3736, + "step": 8678 + }, + { + "avg_step_time": 5.348978567605067, + "epoch": 0.9256533333333333, + "eta_time": 1.0356216837835366, + "step": 8678 + }, + { + "epoch": 0.92576, + "grad_norm": 2.116020030403346, + "learning_rate": 1.4386334107300727e-07, + "loss": 0.5478, + "step": 8679 + }, + { + "avg_step_time": 5.381174465622565, + "epoch": 0.92576, + "eta_time": 1.0403603966870292, + "step": 8679 + }, + { + "epoch": 0.9258666666666666, + "grad_norm": 1.8012957058470105, + "learning_rate": 1.4345222444924867e-07, + "loss": 0.4927, + "step": 8680 + }, + { + "avg_step_time": 5.376139224177659, + "epoch": 0.9258666666666666, + "eta_time": 1.0378935446676314, + "step": 8680 + }, + { + "epoch": 0.9259733333333333, + "grad_norm": 1.494159694731445, + "learning_rate": 1.4304168753847049e-07, + "loss": 0.37, + "step": 8681 + }, + { + "avg_step_time": 5.346672845609261, + "epoch": 0.9259733333333333, + "eta_time": 1.0307197096813407, + "step": 8681 + }, + { + "epoch": 0.92608, + "grad_norm": 1.8450785952512505, + "learning_rate": 1.4263173038967627e-07, + "loss": 0.4759, + "step": 8682 + }, + { + "avg_step_time": 5.2909436683462125, + "epoch": 0.92608, + "eta_time": 1.0185066561566458, + "step": 8682 + }, + { + "epoch": 0.9261866666666667, + "grad_norm": 2.130289446225665, + "learning_rate": 1.4222235305180133e-07, + "loss": 0.4815, + "step": 8683 + }, + { + "avg_step_time": 5.323103230408948, + "epoch": 0.9261866666666667, + "eta_time": 1.0232187320674977, + "step": 8683 + }, + { + "epoch": 0.9262933333333333, + "grad_norm": 1.859572649821777, + "learning_rate": 1.4181355557371323e-07, + "loss": 0.5199, + "step": 8684 + }, + { + "avg_step_time": 5.326487632712933, + "epoch": 0.9262933333333333, + "eta_time": 1.022389709501288, + "step": 8684 + }, + { + "epoch": 0.9264, + "grad_norm": 1.8303254825370396, + "learning_rate": 1.4140533800420853e-07, + "loss": 0.4153, + "step": 8685 + }, + { + "avg_step_time": 5.3265073251242585, + "epoch": 0.9264, + "eta_time": 1.0209139039821495, + "step": 8685 + }, + { + "epoch": 0.9265066666666667, + "grad_norm": 0.6474029941728631, + "learning_rate": 1.409977003920143e-07, + "loss": 0.4219, + "step": 8686 + }, + { + "avg_step_time": 5.315400193435977, + "epoch": 0.9265066666666667, + "eta_time": 1.0173085370214967, + "step": 8686 + }, + { + "epoch": 0.9266133333333333, + "grad_norm": 1.911642008432578, + "learning_rate": 1.4059064278579005e-07, + "loss": 0.4729, + "step": 8687 + }, + { + "avg_step_time": 5.316048335547399, + "epoch": 0.9266133333333333, + "eta_time": 1.0159559041268362, + "step": 8687 + }, + { + "epoch": 0.92672, + "grad_norm": 1.7327395901330007, + "learning_rate": 1.401841652341246e-07, + "loss": 0.4545, + "step": 8688 + }, + { + "avg_step_time": 5.35185544659393, + "epoch": 0.92672, + "eta_time": 1.021312414391675, + "step": 8688 + }, + { + "epoch": 0.9268266666666667, + "grad_norm": 1.9375929717742415, + "learning_rate": 1.3977826778553805e-07, + "loss": 0.4686, + "step": 8689 + }, + { + "avg_step_time": 5.387543608443906, + "epoch": 0.9268266666666667, + "eta_time": 1.026626365386811, + "step": 8689 + }, + { + "epoch": 0.9269333333333334, + "grad_norm": 1.7343166322638113, + "learning_rate": 1.393729504884822e-07, + "loss": 0.4313, + "step": 8690 + }, + { + "avg_step_time": 5.390218953893642, + "epoch": 0.9269333333333334, + "eta_time": 1.0256388842825404, + "step": 8690 + }, + { + "epoch": 0.92704, + "grad_norm": 2.06610062034543, + "learning_rate": 1.389682133913378e-07, + "loss": 0.4669, + "step": 8691 + }, + { + "avg_step_time": 5.387167032318886, + "epoch": 0.92704, + "eta_time": 1.0235617361405884, + "step": 8691 + }, + { + "epoch": 0.9271466666666667, + "grad_norm": 1.7543786626512003, + "learning_rate": 1.3856405654241678e-07, + "loss": 0.4557, + "step": 8692 + }, + { + "avg_step_time": 5.38523006439209, + "epoch": 0.9271466666666667, + "eta_time": 1.021697814994388, + "step": 8692 + }, + { + "epoch": 0.9272533333333334, + "grad_norm": 1.9329300136017102, + "learning_rate": 1.3816047998996275e-07, + "loss": 0.5491, + "step": 8693 + }, + { + "avg_step_time": 5.39185668482925, + "epoch": 0.9272533333333334, + "eta_time": 1.0214572941815412, + "step": 8693 + }, + { + "epoch": 0.92736, + "grad_norm": 1.7779942815431615, + "learning_rate": 1.3775748378215047e-07, + "loss": 0.4445, + "step": 8694 + }, + { + "avg_step_time": 5.436645695657441, + "epoch": 0.92736, + "eta_time": 1.0284321440951993, + "step": 8694 + }, + { + "epoch": 0.9274666666666667, + "grad_norm": 2.092122767626153, + "learning_rate": 1.3735506796708375e-07, + "loss": 0.6163, + "step": 8695 + }, + { + "avg_step_time": 5.468572640659834, + "epoch": 0.9274666666666667, + "eta_time": 1.032952609902413, + "step": 8695 + }, + { + "epoch": 0.9275733333333334, + "grad_norm": 2.126113240623268, + "learning_rate": 1.3695323259279748e-07, + "loss": 0.5255, + "step": 8696 + }, + { + "avg_step_time": 5.467367405843253, + "epoch": 0.9275733333333334, + "eta_time": 1.031206241268769, + "step": 8696 + }, + { + "epoch": 0.92768, + "grad_norm": 1.9609400730323976, + "learning_rate": 1.3655197770725826e-07, + "loss": 0.5416, + "step": 8697 + }, + { + "avg_step_time": 5.461607364693073, + "epoch": 0.92768, + "eta_time": 1.0286027203505288, + "step": 8697 + }, + { + "epoch": 0.9277866666666666, + "grad_norm": 1.8929471283562522, + "learning_rate": 1.361513033583617e-07, + "loss": 0.4063, + "step": 8698 + }, + { + "avg_step_time": 5.462435953544848, + "epoch": 0.9277866666666666, + "eta_time": 1.027241427930517, + "step": 8698 + }, + { + "epoch": 0.9278933333333333, + "grad_norm": 1.862810950760623, + "learning_rate": 1.3575120959393672e-07, + "loss": 0.4923, + "step": 8699 + }, + { + "avg_step_time": 5.460345899215852, + "epoch": 0.9278933333333333, + "eta_time": 1.0253316188527546, + "step": 8699 + }, + { + "epoch": 0.928, + "grad_norm": 1.740314631251559, + "learning_rate": 1.3535169646174073e-07, + "loss": 0.4034, + "step": 8700 + }, + { + "avg_step_time": 5.460111314600164, + "epoch": 0.928, + "eta_time": 1.0237708714875307, + "step": 8700 + }, + { + "epoch": 0.9281066666666666, + "grad_norm": 1.6486636766260268, + "learning_rate": 1.3495276400946278e-07, + "loss": 0.483, + "step": 8701 + }, + { + "avg_step_time": 5.461332415089463, + "epoch": 0.9281066666666666, + "eta_time": 1.022482791047305, + "step": 8701 + }, + { + "epoch": 0.9282133333333333, + "grad_norm": 2.0400561557092325, + "learning_rate": 1.3455441228472199e-07, + "loss": 0.4375, + "step": 8702 + }, + { + "avg_step_time": 5.492028927562212, + "epoch": 0.9282133333333333, + "eta_time": 1.0267042967359359, + "step": 8702 + }, + { + "epoch": 0.92832, + "grad_norm": 1.8755058579540418, + "learning_rate": 1.3415664133506812e-07, + "loss": 0.4341, + "step": 8703 + }, + { + "avg_step_time": 5.500331734166001, + "epoch": 0.92832, + "eta_time": 1.0267285903776535, + "step": 8703 + }, + { + "epoch": 0.9284266666666666, + "grad_norm": 2.121973046442821, + "learning_rate": 1.3375945120798372e-07, + "loss": 0.4171, + "step": 8704 + }, + { + "avg_step_time": 5.502635341702086, + "epoch": 0.9284266666666666, + "eta_time": 1.0256300873005832, + "step": 8704 + }, + { + "epoch": 0.9285333333333333, + "grad_norm": 2.208615490934005, + "learning_rate": 1.333628419508781e-07, + "loss": 0.4743, + "step": 8705 + }, + { + "avg_step_time": 5.513338048048694, + "epoch": 0.9285333333333333, + "eta_time": 1.026093470053507, + "step": 8705 + }, + { + "epoch": 0.92864, + "grad_norm": 1.945180015146693, + "learning_rate": 1.3296681361109564e-07, + "loss": 0.4645, + "step": 8706 + }, + { + "avg_step_time": 5.512517912219269, + "epoch": 0.92864, + "eta_time": 1.0244095786874141, + "step": 8706 + }, + { + "epoch": 0.9287466666666667, + "grad_norm": 1.7241810237222828, + "learning_rate": 1.3257136623590795e-07, + "loss": 0.4395, + "step": 8707 + }, + { + "avg_step_time": 5.504172291418518, + "epoch": 0.9287466666666667, + "eta_time": 1.0213297474076584, + "step": 8707 + }, + { + "epoch": 0.9288533333333333, + "grad_norm": 2.085596855798397, + "learning_rate": 1.3217649987251725e-07, + "loss": 0.5407, + "step": 8708 + }, + { + "avg_step_time": 5.505618210994836, + "epoch": 0.9288533333333333, + "eta_time": 1.0200687074259878, + "step": 8708 + }, + { + "epoch": 0.92896, + "grad_norm": 1.7762265593070323, + "learning_rate": 1.3178221456806028e-07, + "loss": 0.4685, + "step": 8709 + }, + { + "avg_step_time": 5.5049882320442585, + "epoch": 0.92896, + "eta_time": 1.0184228229281878, + "step": 8709 + }, + { + "epoch": 0.9290666666666667, + "grad_norm": 2.1088293294312015, + "learning_rate": 1.3138851036959998e-07, + "loss": 0.5047, + "step": 8710 + }, + { + "avg_step_time": 5.540042527998336, + "epoch": 0.9290666666666667, + "eta_time": 1.0233689669774704, + "step": 8710 + }, + { + "epoch": 0.9291733333333333, + "grad_norm": 2.0673780892563958, + "learning_rate": 1.3099538732413263e-07, + "loss": 0.5062, + "step": 8711 + }, + { + "avg_step_time": 5.52026221728084, + "epoch": 0.9291733333333333, + "eta_time": 1.0181816978540217, + "step": 8711 + }, + { + "epoch": 0.92928, + "grad_norm": 1.8415754023355329, + "learning_rate": 1.3060284547858403e-07, + "loss": 0.5206, + "step": 8712 + }, + { + "avg_step_time": 5.5178942439532035, + "epoch": 0.92928, + "eta_time": 1.0162121899280483, + "step": 8712 + }, + { + "epoch": 0.9293866666666667, + "grad_norm": 2.072625278197614, + "learning_rate": 1.3021088487981058e-07, + "loss": 0.4811, + "step": 8713 + }, + { + "avg_step_time": 5.55258598231306, + "epoch": 0.9293866666666667, + "eta_time": 1.0210588667475682, + "step": 8713 + }, + { + "epoch": 0.9294933333333333, + "grad_norm": 2.0358031736656903, + "learning_rate": 1.2981950557459932e-07, + "loss": 0.5441, + "step": 8714 + }, + { + "avg_step_time": 5.553981530545938, + "epoch": 0.9294933333333333, + "eta_time": 1.019772719914129, + "step": 8714 + }, + { + "epoch": 0.9296, + "grad_norm": 1.7230617605862564, + "learning_rate": 1.2942870760966952e-07, + "loss": 0.4368, + "step": 8715 + }, + { + "avg_step_time": 5.551916387346056, + "epoch": 0.9296, + "eta_time": 1.0178513376801102, + "step": 8715 + }, + { + "epoch": 0.9297066666666667, + "grad_norm": 1.957443244022111, + "learning_rate": 1.2903849103166831e-07, + "loss": 0.5301, + "step": 8716 + }, + { + "avg_step_time": 5.546730063178322, + "epoch": 0.9297066666666667, + "eta_time": 1.0153597532318095, + "step": 8716 + }, + { + "epoch": 0.9298133333333334, + "grad_norm": 0.6604313679909753, + "learning_rate": 1.2864885588717512e-07, + "loss": 0.4472, + "step": 8717 + }, + { + "avg_step_time": 5.544033296180494, + "epoch": 0.9298133333333334, + "eta_time": 1.013326085801879, + "step": 8717 + }, + { + "epoch": 0.92992, + "grad_norm": 1.5706635599029715, + "learning_rate": 1.282598022226994e-07, + "loss": 0.4181, + "step": 8718 + }, + { + "avg_step_time": 5.542296951467341, + "epoch": 0.92992, + "eta_time": 1.0114691936427898, + "step": 8718 + }, + { + "epoch": 0.9300266666666667, + "grad_norm": 1.6321561632185448, + "learning_rate": 1.2787133008468289e-07, + "loss": 0.4521, + "step": 8719 + }, + { + "avg_step_time": 5.534408749956073, + "epoch": 0.9300266666666667, + "eta_time": 1.0084922611031066, + "step": 8719 + }, + { + "epoch": 0.9301333333333334, + "grad_norm": 1.5872951157647224, + "learning_rate": 1.2748343951949405e-07, + "loss": 0.4405, + "step": 8720 + }, + { + "avg_step_time": 5.532741426217435, + "epoch": 0.9301333333333334, + "eta_time": 1.0066515650478944, + "step": 8720 + }, + { + "epoch": 0.93024, + "grad_norm": 1.657027582671062, + "learning_rate": 1.270961305734364e-07, + "loss": 0.4398, + "step": 8721 + }, + { + "avg_step_time": 5.532676048953124, + "epoch": 0.93024, + "eta_time": 1.0051028155598174, + "step": 8721 + }, + { + "epoch": 0.9303466666666667, + "grad_norm": 1.931839487127455, + "learning_rate": 1.267094032927413e-07, + "loss": 0.4287, + "step": 8722 + }, + { + "avg_step_time": 5.528417970194961, + "epoch": 0.9303466666666667, + "eta_time": 1.0027935929270304, + "step": 8722 + }, + { + "epoch": 0.9304533333333334, + "grad_norm": 1.7285651476655512, + "learning_rate": 1.263232577235707e-07, + "loss": 0.5017, + "step": 8723 + }, + { + "avg_step_time": 5.526489332468823, + "epoch": 0.9304533333333334, + "eta_time": 1.0009086235471314, + "step": 8723 + }, + { + "epoch": 0.93056, + "grad_norm": 2.042261449237836, + "learning_rate": 1.2593769391201827e-07, + "loss": 0.5365, + "step": 8724 + }, + { + "avg_step_time": 5.527275937976259, + "epoch": 0.93056, + "eta_time": 0.9995157321173734, + "step": 8724 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 1.8182373404614784, + "learning_rate": 1.2555271190410833e-07, + "loss": 0.429, + "step": 8725 + }, + { + "avg_step_time": 5.531757188565804, + "epoch": 0.9306666666666666, + "eta_time": 0.9987894923799367, + "step": 8725 + }, + { + "epoch": 0.9307733333333333, + "grad_norm": 1.6985414055603272, + "learning_rate": 1.2516831174579357e-07, + "loss": 0.437, + "step": 8726 + }, + { + "avg_step_time": 5.5314252472887135, + "epoch": 0.9307733333333333, + "eta_time": 0.9971930515251042, + "step": 8726 + }, + { + "epoch": 0.93088, + "grad_norm": 1.7085021025999048, + "learning_rate": 1.247844934829606e-07, + "loss": 0.4446, + "step": 8727 + }, + { + "avg_step_time": 5.5621079700161715, + "epoch": 0.93088, + "eta_time": 1.001179434602911, + "step": 8727 + }, + { + "epoch": 0.9309866666666666, + "grad_norm": 1.5749126128874107, + "learning_rate": 1.2440125716142392e-07, + "loss": 0.4053, + "step": 8728 + }, + { + "avg_step_time": 5.5946741947019945, + "epoch": 0.9309866666666666, + "eta_time": 1.005487278881164, + "step": 8728 + }, + { + "epoch": 0.9310933333333333, + "grad_norm": 1.6314872765311041, + "learning_rate": 1.2401860282692913e-07, + "loss": 0.4288, + "step": 8729 + }, + { + "avg_step_time": 5.579126707231156, + "epoch": 0.9310933333333333, + "eta_time": 1.0011432924642574, + "step": 8729 + }, + { + "epoch": 0.9312, + "grad_norm": 1.9381045850913776, + "learning_rate": 1.2363653052515302e-07, + "loss": 0.3788, + "step": 8730 + }, + { + "avg_step_time": 5.578679901180846, + "epoch": 0.9312, + "eta_time": 0.9995134822949014, + "step": 8730 + }, + { + "epoch": 0.9313066666666666, + "grad_norm": 2.017821828998061, + "learning_rate": 1.2325504030170243e-07, + "loss": 0.5636, + "step": 8731 + }, + { + "avg_step_time": 5.555233437605579, + "epoch": 0.9313066666666666, + "eta_time": 0.9937695371716647, + "step": 8731 + }, + { + "epoch": 0.9314133333333333, + "grad_norm": 1.640634336179847, + "learning_rate": 1.2287413220211487e-07, + "loss": 0.421, + "step": 8732 + }, + { + "avg_step_time": 5.55451456946556, + "epoch": 0.9314133333333333, + "eta_time": 0.9920980189350987, + "step": 8732 + }, + { + "epoch": 0.93152, + "grad_norm": 1.567739941251698, + "learning_rate": 1.2249380627185781e-07, + "loss": 0.4433, + "step": 8733 + }, + { + "avg_step_time": 5.549936860498756, + "epoch": 0.93152, + "eta_time": 0.9897387401222781, + "step": 8733 + }, + { + "epoch": 0.9316266666666667, + "grad_norm": 1.9820716837344252, + "learning_rate": 1.2211406255633107e-07, + "loss": 0.537, + "step": 8734 + }, + { + "avg_step_time": 5.533985848378653, + "epoch": 0.9316266666666667, + "eta_time": 0.9853569246696435, + "step": 8734 + }, + { + "epoch": 0.9317333333333333, + "grad_norm": 1.9883589675289908, + "learning_rate": 1.2173490110086228e-07, + "loss": 0.4951, + "step": 8735 + }, + { + "avg_step_time": 5.534537337043068, + "epoch": 0.9317333333333333, + "eta_time": 0.9839177488076566, + "step": 8735 + }, + { + "epoch": 0.93184, + "grad_norm": 1.5713405006271444, + "learning_rate": 1.2135632195071133e-07, + "loss": 0.4873, + "step": 8736 + }, + { + "avg_step_time": 5.5330918581798825, + "epoch": 0.93184, + "eta_time": 0.9821238048269292, + "step": 8736 + }, + { + "epoch": 0.9319466666666667, + "grad_norm": 1.9293379022424795, + "learning_rate": 1.2097832515106767e-07, + "loss": 0.4783, + "step": 8737 + }, + { + "avg_step_time": 5.534408670483214, + "epoch": 0.9319466666666667, + "eta_time": 0.9808202032689696, + "step": 8737 + }, + { + "epoch": 0.9320533333333333, + "grad_norm": 1.9945704114547773, + "learning_rate": 1.206009107470535e-07, + "loss": 0.5247, + "step": 8738 + }, + { + "avg_step_time": 5.534113816540651, + "epoch": 0.9320533333333333, + "eta_time": 0.9792306947601096, + "step": 8738 + }, + { + "epoch": 0.93216, + "grad_norm": 2.1049466217443653, + "learning_rate": 1.202240787837178e-07, + "loss": 0.4544, + "step": 8739 + }, + { + "avg_step_time": 5.533156450348671, + "epoch": 0.93216, + "eta_time": 0.9775243062282652, + "step": 8739 + }, + { + "epoch": 0.9322666666666667, + "grad_norm": 1.7161043225623016, + "learning_rate": 1.1984782930604345e-07, + "loss": 0.4307, + "step": 8740 + }, + { + "avg_step_time": 5.5332005096204355, + "epoch": 0.9322666666666667, + "eta_time": 0.9759950898913823, + "step": 8740 + }, + { + "epoch": 0.9323733333333334, + "grad_norm": 1.9627051740901416, + "learning_rate": 1.194721623589412e-07, + "loss": 0.3921, + "step": 8741 + }, + { + "avg_step_time": 5.568485450262975, + "epoch": 0.9323733333333334, + "eta_time": 0.9806721598518684, + "step": 8741 + }, + { + "epoch": 0.93248, + "grad_norm": 1.841729922927391, + "learning_rate": 1.1909707798725412e-07, + "loss": 0.5145, + "step": 8742 + }, + { + "avg_step_time": 5.570763836003313, + "epoch": 0.93248, + "eta_time": 0.9795259744972492, + "step": 8742 + }, + { + "epoch": 0.9325866666666667, + "grad_norm": 1.879433873163959, + "learning_rate": 1.1872257623575412e-07, + "loss": 0.4693, + "step": 8743 + }, + { + "avg_step_time": 5.571389063440188, + "epoch": 0.9325866666666667, + "eta_time": 0.9780883022483886, + "step": 8743 + }, + { + "epoch": 0.9326933333333334, + "grad_norm": 2.0767954265256527, + "learning_rate": 1.1834865714914601e-07, + "loss": 0.4535, + "step": 8744 + }, + { + "avg_step_time": 5.584618048234419, + "epoch": 0.9326933333333334, + "eta_time": 0.9788594412321996, + "step": 8744 + }, + { + "epoch": 0.9328, + "grad_norm": 2.118181887107126, + "learning_rate": 1.1797532077206187e-07, + "loss": 0.5282, + "step": 8745 + }, + { + "avg_step_time": 5.583589052913164, + "epoch": 0.9328, + "eta_time": 0.9771280842598038, + "step": 8745 + }, + { + "epoch": 0.9329066666666667, + "grad_norm": 1.7537293866174397, + "learning_rate": 1.1760256714906715e-07, + "loss": 0.4535, + "step": 8746 + }, + { + "avg_step_time": 5.616592226606427, + "epoch": 0.9329066666666667, + "eta_time": 0.981343475148734, + "step": 8746 + }, + { + "epoch": 0.9330133333333334, + "grad_norm": 2.0506259647657474, + "learning_rate": 1.1723039632465516e-07, + "loss": 0.5405, + "step": 8747 + }, + { + "avg_step_time": 5.6177005551078105, + "epoch": 0.9330133333333334, + "eta_time": 0.9799766523910292, + "step": 8747 + }, + { + "epoch": 0.93312, + "grad_norm": 1.929699667542223, + "learning_rate": 1.1685880834325203e-07, + "loss": 0.472, + "step": 8748 + }, + { + "avg_step_time": 5.624257475438744, + "epoch": 0.93312, + "eta_time": 0.979558176972248, + "step": 8748 + }, + { + "epoch": 0.9332266666666666, + "grad_norm": 1.9169943876893434, + "learning_rate": 1.1648780324921283e-07, + "loss": 0.4886, + "step": 8749 + }, + { + "avg_step_time": 5.627961633181331, + "epoch": 0.9332266666666666, + "eta_time": 0.9786399951031981, + "step": 8749 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 1.888241352878423, + "learning_rate": 1.1611738108682325e-07, + "loss": 0.5006, + "step": 8750 + }, + { + "avg_step_time": 5.629457839811691, + "epoch": 0.9333333333333333, + "eta_time": 0.977336430522863, + "step": 8750 + }, + { + "epoch": 0.93344, + "grad_norm": 0.6467031207093453, + "learning_rate": 1.1574754190030014e-07, + "loss": 0.4499, + "step": 8751 + }, + { + "avg_step_time": 5.62991592859981, + "epoch": 0.93344, + "eta_time": 0.9758520942906337, + "step": 8751 + }, + { + "epoch": 0.9335466666666666, + "grad_norm": 1.9405195448209958, + "learning_rate": 1.1537828573378929e-07, + "loss": 0.4141, + "step": 8752 + }, + { + "avg_step_time": 5.62763407013633, + "epoch": 0.9335466666666666, + "eta_time": 0.9738933404708149, + "step": 8752 + }, + { + "epoch": 0.9336533333333333, + "grad_norm": 2.0625824027840918, + "learning_rate": 1.1500961263136878e-07, + "loss": 0.5344, + "step": 8753 + }, + { + "avg_step_time": 5.625100593374233, + "epoch": 0.9336533333333333, + "eta_time": 0.9718923802996591, + "step": 8753 + }, + { + "epoch": 0.93376, + "grad_norm": 1.7594410084600607, + "learning_rate": 1.1464152263704565e-07, + "loss": 0.4534, + "step": 8754 + }, + { + "avg_step_time": 5.606831394060694, + "epoch": 0.93376, + "eta_time": 0.9671784154754697, + "step": 8754 + }, + { + "epoch": 0.9338666666666666, + "grad_norm": 2.060695998697763, + "learning_rate": 1.142740157947575e-07, + "loss": 0.4156, + "step": 8755 + }, + { + "avg_step_time": 5.606220900410354, + "epoch": 0.9338666666666666, + "eta_time": 0.9655158217373386, + "step": 8755 + }, + { + "epoch": 0.9339733333333333, + "grad_norm": 1.6445341279298087, + "learning_rate": 1.1390709214837314e-07, + "loss": 0.5358, + "step": 8756 + }, + { + "avg_step_time": 5.605329648412839, + "epoch": 0.9339733333333333, + "eta_time": 0.9638052923243188, + "step": 8756 + }, + { + "epoch": 0.93408, + "grad_norm": 1.8417795133136576, + "learning_rate": 1.1354075174169088e-07, + "loss": 0.503, + "step": 8757 + }, + { + "avg_step_time": 5.607027116447989, + "epoch": 0.93408, + "eta_time": 0.9625396549902381, + "step": 8757 + }, + { + "epoch": 0.9341866666666667, + "grad_norm": 2.098637856791544, + "learning_rate": 1.1317499461844017e-07, + "loss": 0.574, + "step": 8758 + }, + { + "avg_step_time": 5.6012933808143694, + "epoch": 0.9341866666666667, + "eta_time": 0.9599994488784628, + "step": 8758 + }, + { + "epoch": 0.9342933333333333, + "grad_norm": 0.6563304322860816, + "learning_rate": 1.1280982082228054e-07, + "loss": 0.4359, + "step": 8759 + }, + { + "avg_step_time": 5.601535096313015, + "epoch": 0.9342933333333333, + "eta_time": 0.9584848942580046, + "step": 8759 + }, + { + "epoch": 0.9344, + "grad_norm": 2.051266613161265, + "learning_rate": 1.12445230396801e-07, + "loss": 0.4795, + "step": 8760 + }, + { + "avg_step_time": 5.573706087439951, + "epoch": 0.9344, + "eta_time": 0.9521747899376584, + "step": 8760 + }, + { + "epoch": 0.9345066666666667, + "grad_norm": 2.1833616283345667, + "learning_rate": 1.1208122338552229e-07, + "loss": 0.4941, + "step": 8761 + }, + { + "avg_step_time": 5.608577386297361, + "epoch": 0.9345066666666667, + "eta_time": 0.9565740319962721, + "step": 8761 + }, + { + "epoch": 0.9346133333333333, + "grad_norm": 1.6559023741380239, + "learning_rate": 1.1171779983189523e-07, + "loss": 0.5176, + "step": 8762 + }, + { + "avg_step_time": 5.609253315010456, + "epoch": 0.9346133333333333, + "eta_time": 0.9551311894726137, + "step": 8762 + }, + { + "epoch": 0.93472, + "grad_norm": 1.8027945538367525, + "learning_rate": 1.1135495977930011e-07, + "loss": 0.4926, + "step": 8763 + }, + { + "avg_step_time": 5.610287721710976, + "epoch": 0.93472, + "eta_time": 0.9537489126908658, + "step": 8763 + }, + { + "epoch": 0.9348266666666667, + "grad_norm": 1.868411084226993, + "learning_rate": 1.1099270327104839e-07, + "loss": 0.4787, + "step": 8764 + }, + { + "avg_step_time": 5.672405096015545, + "epoch": 0.9348266666666667, + "eta_time": 0.9627331982404161, + "step": 8764 + }, + { + "epoch": 0.9349333333333333, + "grad_norm": 2.10584173881074, + "learning_rate": 1.1063103035038214e-07, + "loss": 0.4559, + "step": 8765 + }, + { + "avg_step_time": 5.708719727968929, + "epoch": 0.9349333333333333, + "eta_time": 0.9673108427947352, + "step": 8765 + }, + { + "epoch": 0.93504, + "grad_norm": 1.8804750316364256, + "learning_rate": 1.1026994106047296e-07, + "loss": 0.5604, + "step": 8766 + }, + { + "avg_step_time": 5.7613251329672455, + "epoch": 0.93504, + "eta_time": 0.9746241683269591, + "step": 8766 + }, + { + "epoch": 0.9351466666666667, + "grad_norm": 1.9129670110011943, + "learning_rate": 1.0990943544442189e-07, + "loss": 0.3822, + "step": 8767 + }, + { + "avg_step_time": 5.800597735125609, + "epoch": 0.9351466666666667, + "eta_time": 0.9796565063767696, + "step": 8767 + }, + { + "epoch": 0.9352533333333334, + "grad_norm": 1.5991447454745107, + "learning_rate": 1.0954951354526344e-07, + "loss": 0.3632, + "step": 8768 + }, + { + "avg_step_time": 5.799777303079162, + "epoch": 0.9352533333333334, + "eta_time": 0.977906895269181, + "step": 8768 + }, + { + "epoch": 0.93536, + "grad_norm": 1.854180246418606, + "learning_rate": 1.0919017540595933e-07, + "loss": 0.4532, + "step": 8769 + }, + { + "avg_step_time": 5.803938037217265, + "epoch": 0.93536, + "eta_time": 0.9769962362649063, + "step": 8769 + }, + { + "epoch": 0.9354666666666667, + "grad_norm": 1.5725735459323258, + "learning_rate": 1.0883142106940303e-07, + "loss": 0.4588, + "step": 8770 + }, + { + "avg_step_time": 5.813333480045049, + "epoch": 0.9354666666666667, + "eta_time": 0.9769629876186818, + "step": 8770 + }, + { + "epoch": 0.9355733333333334, + "grad_norm": 2.0489671779821017, + "learning_rate": 1.0847325057841862e-07, + "loss": 0.5437, + "step": 8771 + }, + { + "avg_step_time": 5.805135055021807, + "epoch": 0.9355733333333334, + "eta_time": 0.9739726592314364, + "step": 8771 + }, + { + "epoch": 0.93568, + "grad_norm": 1.7211884939885742, + "learning_rate": 1.0811566397575912e-07, + "loss": 0.4803, + "step": 8772 + }, + { + "avg_step_time": 5.80540920989682, + "epoch": 0.93568, + "eta_time": 0.9724060426577174, + "step": 8772 + }, + { + "epoch": 0.9357866666666667, + "grad_norm": 1.9090545127428258, + "learning_rate": 1.0775866130410928e-07, + "loss": 0.4435, + "step": 8773 + }, + { + "avg_step_time": 5.8059971717873005, + "epoch": 0.9357866666666667, + "eta_time": 0.9708917492822097, + "step": 8773 + }, + { + "epoch": 0.9358933333333334, + "grad_norm": 0.6131117014179868, + "learning_rate": 1.0740224260608334e-07, + "loss": 0.3983, + "step": 8774 + }, + { + "avg_step_time": 5.7682232206518, + "epoch": 0.9358933333333334, + "eta_time": 0.9629728210032588, + "step": 8774 + }, + { + "epoch": 0.936, + "grad_norm": 1.7241126435527452, + "learning_rate": 1.0704640792422616e-07, + "loss": 0.4027, + "step": 8775 + }, + { + "avg_step_time": 5.768292210318825, + "epoch": 0.936, + "eta_time": 0.9613820350531376, + "step": 8775 + }, + { + "epoch": 0.9361066666666666, + "grad_norm": 2.0015537289199345, + "learning_rate": 1.066911573010121e-07, + "loss": 0.5291, + "step": 8776 + }, + { + "avg_step_time": 5.768920520339349, + "epoch": 0.9361066666666666, + "eta_time": 0.9598842754675749, + "step": 8776 + }, + { + "epoch": 0.9362133333333333, + "grad_norm": 1.8572393469252502, + "learning_rate": 1.0633649077884667e-07, + "loss": 0.4756, + "step": 8777 + }, + { + "avg_step_time": 5.748023567777691, + "epoch": 0.9362133333333333, + "eta_time": 0.9548105815364053, + "step": 8777 + }, + { + "epoch": 0.93632, + "grad_norm": 2.112891070290931, + "learning_rate": 1.0598240840006658e-07, + "loss": 0.4792, + "step": 8778 + }, + { + "avg_step_time": 5.747473071319888, + "epoch": 0.93632, + "eta_time": 0.9531226176605482, + "step": 8778 + }, + { + "epoch": 0.9364266666666666, + "grad_norm": 0.6312246159972537, + "learning_rate": 1.0562891020693633e-07, + "loss": 0.4179, + "step": 8779 + }, + { + "avg_step_time": 5.718446854389075, + "epoch": 0.9364266666666666, + "eta_time": 0.9467206458933025, + "step": 8779 + }, + { + "epoch": 0.9365333333333333, + "grad_norm": 1.4964553391134146, + "learning_rate": 1.0527599624165275e-07, + "loss": 0.4822, + "step": 8780 + }, + { + "avg_step_time": 5.718324121802744, + "epoch": 0.9365333333333333, + "eta_time": 0.9451119034646202, + "step": 8780 + }, + { + "epoch": 0.93664, + "grad_norm": 2.224318223917739, + "learning_rate": 1.0492366654634211e-07, + "loss": 0.4445, + "step": 8781 + }, + { + "avg_step_time": 5.7156761439159665, + "epoch": 0.93664, + "eta_time": 0.9430865637461344, + "step": 8781 + }, + { + "epoch": 0.9367466666666666, + "grad_norm": 1.8500577062268082, + "learning_rate": 1.0457192116306137e-07, + "loss": 0.4449, + "step": 8782 + }, + { + "avg_step_time": 5.714516052091964, + "epoch": 0.9367466666666666, + "eta_time": 0.9413077830251485, + "step": 8782 + }, + { + "epoch": 0.9368533333333333, + "grad_norm": 1.5728642241839796, + "learning_rate": 1.0422076013379634e-07, + "loss": 0.3988, + "step": 8783 + }, + { + "avg_step_time": 5.712245490815905, + "epoch": 0.9368533333333333, + "eta_time": 0.9393470362675044, + "step": 8783 + }, + { + "epoch": 0.93696, + "grad_norm": 1.9172364338690624, + "learning_rate": 1.0387018350046519e-07, + "loss": 0.4323, + "step": 8784 + }, + { + "avg_step_time": 5.715496022291858, + "epoch": 0.93696, + "eta_time": 0.9382939303262466, + "step": 8784 + }, + { + "epoch": 0.9370666666666667, + "grad_norm": 1.6934515224950786, + "learning_rate": 1.0352019130491552e-07, + "loss": 0.496, + "step": 8785 + }, + { + "avg_step_time": 5.724918712269176, + "epoch": 0.9370666666666667, + "eta_time": 0.9382505667330039, + "step": 8785 + }, + { + "epoch": 0.9371733333333333, + "grad_norm": 1.9417837599630314, + "learning_rate": 1.0317078358892286e-07, + "loss": 0.5078, + "step": 8786 + }, + { + "avg_step_time": 5.725010717758025, + "epoch": 0.9371733333333333, + "eta_time": 0.9366753646554101, + "step": 8786 + }, + { + "epoch": 0.93728, + "grad_norm": 1.9263106684479827, + "learning_rate": 1.0282196039419823e-07, + "loss": 0.4818, + "step": 8787 + }, + { + "avg_step_time": 5.724753914457379, + "epoch": 0.93728, + "eta_time": 0.9350431393613718, + "step": 8787 + }, + { + "epoch": 0.9373866666666667, + "grad_norm": 1.7864578110653082, + "learning_rate": 1.024737217623778e-07, + "loss": 0.4386, + "step": 8788 + }, + { + "avg_step_time": 5.821041511766838, + "epoch": 0.9373866666666667, + "eta_time": 0.9491531576130928, + "step": 8788 + }, + { + "epoch": 0.9374933333333333, + "grad_norm": 1.735175085368432, + "learning_rate": 1.0212606773502943e-07, + "loss": 0.4861, + "step": 8789 + }, + { + "avg_step_time": 5.817947816367101, + "epoch": 0.9374933333333333, + "eta_time": 0.9470326167753115, + "step": 8789 + }, + { + "epoch": 0.9376, + "grad_norm": 1.8470935914639954, + "learning_rate": 1.0177899835365323e-07, + "loss": 0.539, + "step": 8790 + }, + { + "avg_step_time": 5.822298984334926, + "epoch": 0.9376, + "eta_time": 0.9461235849544255, + "step": 8790 + }, + { + "epoch": 0.9377066666666667, + "grad_norm": 1.8983080458059851, + "learning_rate": 1.0143251365967666e-07, + "loss": 0.4816, + "step": 8791 + }, + { + "avg_step_time": 5.841803042575567, + "epoch": 0.9377066666666667, + "eta_time": 0.9476702713511475, + "step": 8791 + }, + { + "epoch": 0.9378133333333334, + "grad_norm": 1.820747322866198, + "learning_rate": 1.0108661369445882e-07, + "loss": 0.447, + "step": 8792 + }, + { + "avg_step_time": 5.834130342560585, + "epoch": 0.9378133333333334, + "eta_time": 0.9448049971424504, + "step": 8792 + }, + { + "epoch": 0.93792, + "grad_norm": 1.8577074745475188, + "learning_rate": 1.0074129849928948e-07, + "loss": 0.4628, + "step": 8793 + }, + { + "avg_step_time": 5.834338438631308, + "epoch": 0.93792, + "eta_time": 0.9432180475787281, + "step": 8793 + }, + { + "epoch": 0.9380266666666667, + "grad_norm": 1.7974091601466617, + "learning_rate": 1.0039656811538789e-07, + "loss": 0.4755, + "step": 8794 + }, + { + "avg_step_time": 5.834946916560934, + "epoch": 0.9380266666666667, + "eta_time": 0.9416955995894174, + "step": 8794 + }, + { + "epoch": 0.9381333333333334, + "grad_norm": 1.5771609740061776, + "learning_rate": 1.000524225839028e-07, + "loss": 0.4877, + "step": 8795 + }, + { + "avg_step_time": 5.8346204926269225, + "epoch": 0.9381333333333334, + "eta_time": 0.940022190478782, + "step": 8795 + }, + { + "epoch": 0.93824, + "grad_norm": 1.6886115726721094, + "learning_rate": 9.970886194591467e-08, + "loss": 0.4486, + "step": 8796 + }, + { + "avg_step_time": 5.833854200864079, + "epoch": 0.93824, + "eta_time": 0.9382782173056393, + "step": 8796 + }, + { + "epoch": 0.9383466666666667, + "grad_norm": 1.7707424008793307, + "learning_rate": 9.936588624243348e-08, + "loss": 0.4691, + "step": 8797 + }, + { + "avg_step_time": 5.834534633039224, + "epoch": 0.9383466666666667, + "eta_time": 0.9367669494157421, + "step": 8797 + }, + { + "epoch": 0.9384533333333334, + "grad_norm": 2.0293469274340663, + "learning_rate": 9.902349551439871e-08, + "loss": 0.4797, + "step": 8798 + }, + { + "avg_step_time": 5.841527931617968, + "epoch": 0.9384533333333334, + "eta_time": 0.9362671157065464, + "step": 8798 + }, + { + "epoch": 0.93856, + "grad_norm": 2.1645809412196115, + "learning_rate": 9.8681689802681e-08, + "loss": 0.5561, + "step": 8799 + }, + { + "avg_step_time": 5.843290165217236, + "epoch": 0.93856, + "eta_time": 0.9349264264347578, + "step": 8799 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 1.7340533974898094, + "learning_rate": 9.834046914808104e-08, + "loss": 0.4366, + "step": 8800 + }, + { + "avg_step_time": 5.84076698861941, + "epoch": 0.9386666666666666, + "eta_time": 0.9329002829044891, + "step": 8800 + }, + { + "epoch": 0.9387733333333333, + "grad_norm": 2.0665168288274445, + "learning_rate": 9.799983359132848e-08, + "loss": 0.5715, + "step": 8801 + }, + { + "avg_step_time": 5.840791158001832, + "epoch": 0.9387733333333333, + "eta_time": 0.9312817013036255, + "step": 8801 + }, + { + "epoch": 0.93888, + "grad_norm": 2.054555223064628, + "learning_rate": 9.765978317308522e-08, + "loss": 0.5113, + "step": 8802 + }, + { + "avg_step_time": 5.832297582819004, + "epoch": 0.93888, + "eta_time": 0.9283073652653582, + "step": 8802 + }, + { + "epoch": 0.9389866666666666, + "grad_norm": 1.692390191193261, + "learning_rate": 9.732031793394158e-08, + "loss": 0.4359, + "step": 8803 + }, + { + "avg_step_time": 5.829355177253183, + "epoch": 0.9389866666666666, + "eta_time": 0.9262197670524502, + "step": 8803 + }, + { + "epoch": 0.9390933333333333, + "grad_norm": 0.6378337292192248, + "learning_rate": 9.698143791441794e-08, + "loss": 0.4506, + "step": 8804 + }, + { + "avg_step_time": 5.7852872044149075, + "epoch": 0.9390933333333333, + "eta_time": 0.9176108315891423, + "step": 8804 + }, + { + "epoch": 0.9392, + "grad_norm": 1.8593365120192322, + "learning_rate": 9.664314315496692e-08, + "loss": 0.4539, + "step": 8805 + }, + { + "avg_step_time": 5.784586099663166, + "epoch": 0.9392, + "eta_time": 0.9158927991133345, + "step": 8805 + }, + { + "epoch": 0.9393066666666666, + "grad_norm": 0.6240714855920744, + "learning_rate": 9.630543369596846e-08, + "loss": 0.4276, + "step": 8806 + }, + { + "avg_step_time": 5.757997707887129, + "epoch": 0.9393066666666666, + "eta_time": 0.9100835266077157, + "step": 8806 + }, + { + "epoch": 0.9394133333333333, + "grad_norm": 1.9859495537182714, + "learning_rate": 9.596830957773528e-08, + "loss": 0.4481, + "step": 8807 + }, + { + "avg_step_time": 5.759284672110971, + "epoch": 0.9394133333333333, + "eta_time": 0.9086871371552866, + "step": 8807 + }, + { + "epoch": 0.93952, + "grad_norm": 2.3561822903618714, + "learning_rate": 9.5631770840508e-08, + "loss": 0.5117, + "step": 8808 + }, + { + "avg_step_time": 5.759645734170471, + "epoch": 0.93952, + "eta_time": 0.9071442031318492, + "step": 8808 + }, + { + "epoch": 0.9396266666666667, + "grad_norm": 1.9915205901526363, + "learning_rate": 9.529581752445949e-08, + "loss": 0.53, + "step": 8809 + }, + { + "avg_step_time": 5.756301778735536, + "epoch": 0.9396266666666667, + "eta_time": 0.9050185574345316, + "step": 8809 + }, + { + "epoch": 0.9397333333333333, + "grad_norm": 1.6431450663737925, + "learning_rate": 9.496044966968987e-08, + "loss": 0.4088, + "step": 8810 + }, + { + "avg_step_time": 5.7576338763188835, + "epoch": 0.9397333333333333, + "eta_time": 0.9036286500333803, + "step": 8810 + }, + { + "epoch": 0.93984, + "grad_norm": 2.2625173789054323, + "learning_rate": 9.462566731623213e-08, + "loss": 0.5021, + "step": 8811 + }, + { + "avg_step_time": 5.759674640616986, + "epoch": 0.93984, + "eta_time": 0.9023490270299944, + "step": 8811 + }, + { + "epoch": 0.9399466666666667, + "grad_norm": 0.6651842638515381, + "learning_rate": 9.429147050404874e-08, + "loss": 0.4404, + "step": 8812 + }, + { + "avg_step_time": 5.726093017693722, + "epoch": 0.9399466666666667, + "eta_time": 0.895497324711546, + "step": 8812 + }, + { + "epoch": 0.9400533333333333, + "grad_norm": 1.9030828782160896, + "learning_rate": 9.395785927303169e-08, + "loss": 0.5429, + "step": 8813 + }, + { + "avg_step_time": 5.733655052955704, + "epoch": 0.9400533333333333, + "eta_time": 0.8950872610447516, + "step": 8813 + }, + { + "epoch": 0.94016, + "grad_norm": 1.7769865896378192, + "learning_rate": 9.36248336630019e-08, + "loss": 0.4402, + "step": 8814 + }, + { + "avg_step_time": 5.734935625635012, + "epoch": 0.94016, + "eta_time": 0.8936941349947893, + "step": 8814 + }, + { + "epoch": 0.9402666666666667, + "grad_norm": 1.9052794042606633, + "learning_rate": 9.329239371371312e-08, + "loss": 0.5147, + "step": 8815 + }, + { + "avg_step_time": 5.737602896160549, + "epoch": 0.9402666666666667, + "eta_time": 0.8925160060694188, + "step": 8815 + }, + { + "epoch": 0.9403733333333333, + "grad_norm": 1.666325877375227, + "learning_rate": 9.296053946484807e-08, + "loss": 0.4969, + "step": 8816 + }, + { + "avg_step_time": 5.7731001184444235, + "epoch": 0.9403733333333333, + "eta_time": 0.8964341572806758, + "step": 8816 + }, + { + "epoch": 0.94048, + "grad_norm": 2.1638644496931185, + "learning_rate": 9.262927095601782e-08, + "loss": 0.545, + "step": 8817 + }, + { + "avg_step_time": 5.776778018835819, + "epoch": 0.94048, + "eta_time": 0.8954005929195521, + "step": 8817 + }, + { + "epoch": 0.9405866666666667, + "grad_norm": 1.916867364747106, + "learning_rate": 9.22985882267663e-08, + "loss": 0.6097, + "step": 8818 + }, + { + "avg_step_time": 5.774709072980014, + "epoch": 0.9405866666666667, + "eta_time": 0.8934758204582965, + "step": 8818 + }, + { + "epoch": 0.9406933333333334, + "grad_norm": 0.6287098151628329, + "learning_rate": 9.196849131656638e-08, + "loss": 0.4296, + "step": 8819 + }, + { + "avg_step_time": 5.741558024377534, + "epoch": 0.9406933333333334, + "eta_time": 0.8867517393205302, + "step": 8819 + }, + { + "epoch": 0.9408, + "grad_norm": 2.0932489543406274, + "learning_rate": 9.163898026481876e-08, + "loss": 0.6586, + "step": 8820 + }, + { + "avg_step_time": 5.743110639880402, + "epoch": 0.9408, + "eta_time": 0.8853962236482287, + "step": 8820 + }, + { + "epoch": 0.9409066666666667, + "grad_norm": 0.6163065122697352, + "learning_rate": 9.131005511085867e-08, + "loss": 0.4286, + "step": 8821 + }, + { + "avg_step_time": 5.731571635814628, + "epoch": 0.9409066666666667, + "eta_time": 0.8820251906225846, + "step": 8821 + }, + { + "epoch": 0.9410133333333334, + "grad_norm": 1.7222386640274645, + "learning_rate": 9.098171589394855e-08, + "loss": 0.5147, + "step": 8822 + }, + { + "avg_step_time": 5.729004676895912, + "epoch": 0.9410133333333334, + "eta_time": 0.8800387739787333, + "step": 8822 + }, + { + "epoch": 0.94112, + "grad_norm": 1.5700989207102345, + "learning_rate": 9.065396265327986e-08, + "loss": 0.4118, + "step": 8823 + }, + { + "avg_step_time": 5.726993392212222, + "epoch": 0.94112, + "eta_time": 0.878138986805874, + "step": 8823 + }, + { + "epoch": 0.9412266666666667, + "grad_norm": 1.9817099425579203, + "learning_rate": 9.03267954279774e-08, + "loss": 0.4989, + "step": 8824 + }, + { + "avg_step_time": 5.723671592847265, + "epoch": 0.9412266666666667, + "eta_time": 0.8760397354607897, + "step": 8824 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 1.6720335204499195, + "learning_rate": 9.000021425709326e-08, + "loss": 0.3727, + "step": 8825 + }, + { + "avg_step_time": 5.728948699103461, + "epoch": 0.9413333333333334, + "eta_time": 0.8752560512519177, + "step": 8825 + }, + { + "epoch": 0.94144, + "grad_norm": 1.9663660435322416, + "learning_rate": 8.967421917961072e-08, + "loss": 0.446, + "step": 8826 + }, + { + "avg_step_time": 5.777551472789109, + "epoch": 0.94144, + "eta_time": 0.8810765996003391, + "step": 8826 + }, + { + "epoch": 0.9415466666666666, + "grad_norm": 1.8528345521459406, + "learning_rate": 8.934881023444365e-08, + "loss": 0.4063, + "step": 8827 + }, + { + "avg_step_time": 5.743058288940276, + "epoch": 0.9415466666666666, + "eta_time": 0.874221095094242, + "step": 8827 + }, + { + "epoch": 0.9416533333333333, + "grad_norm": 0.6486447100975596, + "learning_rate": 8.902398746043428e-08, + "loss": 0.4328, + "step": 8828 + }, + { + "avg_step_time": 5.7094465771106755, + "epoch": 0.9416533333333333, + "eta_time": 0.8675186882443165, + "step": 8828 + }, + { + "epoch": 0.94176, + "grad_norm": 1.8927060314200876, + "learning_rate": 8.869975089635552e-08, + "loss": 0.4411, + "step": 8829 + }, + { + "avg_step_time": 5.710823786379111, + "epoch": 0.94176, + "eta_time": 0.8661416076008318, + "step": 8829 + }, + { + "epoch": 0.9418666666666666, + "grad_norm": 1.858893799997795, + "learning_rate": 8.83761005809114e-08, + "loss": 0.4507, + "step": 8830 + }, + { + "avg_step_time": 5.7092294596662425, + "epoch": 0.9418666666666666, + "eta_time": 0.8643139043105839, + "step": 8830 + }, + { + "epoch": 0.9419733333333333, + "grad_norm": 2.023950331186064, + "learning_rate": 8.805303655273601e-08, + "loss": 0.4956, + "step": 8831 + }, + { + "avg_step_time": 5.724226922699899, + "epoch": 0.9419733333333333, + "eta_time": 0.8649942905413182, + "step": 8831 + }, + { + "epoch": 0.94208, + "grad_norm": 1.6600403567364723, + "learning_rate": 8.773055885039072e-08, + "loss": 0.4334, + "step": 8832 + }, + { + "avg_step_time": 5.759824377117735, + "epoch": 0.94208, + "eta_time": 0.8687735102152585, + "step": 8832 + }, + { + "epoch": 0.9421866666666666, + "grad_norm": 1.8892541209092122, + "learning_rate": 8.740866751236976e-08, + "loss": 0.3592, + "step": 8833 + }, + { + "avg_step_time": 5.761570321189033, + "epoch": 0.9421866666666666, + "eta_time": 0.8674364205790155, + "step": 8833 + }, + { + "epoch": 0.9422933333333333, + "grad_norm": 1.807884140181426, + "learning_rate": 8.708736257709738e-08, + "loss": 0.4928, + "step": 8834 + }, + { + "avg_step_time": 5.767414145999485, + "epoch": 0.9422933333333333, + "eta_time": 0.8667141813849226, + "step": 8834 + }, + { + "epoch": 0.9424, + "grad_norm": 1.8030859654331244, + "learning_rate": 8.676664408292457e-08, + "loss": 0.4582, + "step": 8835 + }, + { + "avg_step_time": 5.767472192494556, + "epoch": 0.9424, + "eta_time": 0.8651208288741834, + "step": 8835 + }, + { + "epoch": 0.9425066666666667, + "grad_norm": 0.6166824573175513, + "learning_rate": 8.644651206813625e-08, + "loss": 0.4212, + "step": 8836 + }, + { + "avg_step_time": 5.731334895798654, + "epoch": 0.9425066666666667, + "eta_time": 0.858108196898743, + "step": 8836 + }, + { + "epoch": 0.9426133333333333, + "grad_norm": 1.847534856377893, + "learning_rate": 8.612696657094633e-08, + "loss": 0.4592, + "step": 8837 + }, + { + "avg_step_time": 5.747251662341031, + "epoch": 0.9426133333333333, + "eta_time": 0.8588948317609651, + "step": 8837 + }, + { + "epoch": 0.94272, + "grad_norm": 1.7805150149811493, + "learning_rate": 8.580800762949704e-08, + "loss": 0.5048, + "step": 8838 + }, + { + "avg_step_time": 5.751883824666341, + "epoch": 0.94272, + "eta_time": 0.8579893371793959, + "step": 8838 + }, + { + "epoch": 0.9428266666666667, + "grad_norm": 0.6370762775192388, + "learning_rate": 8.548963528186071e-08, + "loss": 0.4512, + "step": 8839 + }, + { + "avg_step_time": 5.743644540960139, + "epoch": 0.9428266666666667, + "eta_time": 0.8551648538762873, + "step": 8839 + }, + { + "epoch": 0.9429333333333333, + "grad_norm": 1.7508517093709426, + "learning_rate": 8.517184956604252e-08, + "loss": 0.4586, + "step": 8840 + }, + { + "avg_step_time": 5.763834765463164, + "epoch": 0.9429333333333333, + "eta_time": 0.8565698887563313, + "step": 8840 + }, + { + "epoch": 0.94304, + "grad_norm": 1.842231812403565, + "learning_rate": 8.485465051997488e-08, + "loss": 0.4548, + "step": 8841 + }, + { + "avg_step_time": 5.763128193941983, + "epoch": 0.94304, + "eta_time": 0.8548640154347276, + "step": 8841 + }, + { + "epoch": 0.9431466666666667, + "grad_norm": 1.7964584659995215, + "learning_rate": 8.453803818152029e-08, + "loss": 0.4993, + "step": 8842 + }, + { + "avg_step_time": 5.801715650943795, + "epoch": 0.9431466666666667, + "eta_time": 0.8589762338758452, + "step": 8842 + }, + { + "epoch": 0.9432533333333334, + "grad_norm": 1.8280933763342793, + "learning_rate": 8.422201258847351e-08, + "loss": 0.4787, + "step": 8843 + }, + { + "avg_step_time": 5.789717893407802, + "epoch": 0.9432533333333334, + "eta_time": 0.8555916442480419, + "step": 8843 + }, + { + "epoch": 0.94336, + "grad_norm": 1.7343429852568104, + "learning_rate": 8.39065737785566e-08, + "loss": 0.4374, + "step": 8844 + }, + { + "avg_step_time": 5.7937413923668135, + "epoch": 0.94336, + "eta_time": 0.854576855374105, + "step": 8844 + }, + { + "epoch": 0.9434666666666667, + "grad_norm": 0.6234463717811811, + "learning_rate": 8.359172178942165e-08, + "loss": 0.4125, + "step": 8845 + }, + { + "avg_step_time": 5.78299387055214, + "epoch": 0.9434666666666667, + "eta_time": 0.8513852087201762, + "step": 8845 + }, + { + "epoch": 0.9435733333333334, + "grad_norm": 2.0297243434184753, + "learning_rate": 8.327745665865417e-08, + "loss": 0.5123, + "step": 8846 + }, + { + "avg_step_time": 5.780458009604252, + "epoch": 0.9435733333333334, + "eta_time": 0.849406190855736, + "step": 8846 + }, + { + "epoch": 0.94368, + "grad_norm": 1.748360686366822, + "learning_rate": 8.296377842376524e-08, + "loss": 0.465, + "step": 8847 + }, + { + "avg_step_time": 5.774596782645794, + "epoch": 0.94368, + "eta_time": 0.8469408614547165, + "step": 8847 + }, + { + "epoch": 0.9437866666666667, + "grad_norm": 1.891453870357158, + "learning_rate": 8.265068712219826e-08, + "loss": 0.4891, + "step": 8848 + }, + { + "avg_step_time": 5.773080322477552, + "epoch": 0.9437866666666667, + "eta_time": 0.8451148138737973, + "step": 8848 + }, + { + "epoch": 0.9438933333333334, + "grad_norm": 1.733023698442121, + "learning_rate": 8.233818279132611e-08, + "loss": 0.4264, + "step": 8849 + }, + { + "avg_step_time": 5.775706084087641, + "epoch": 0.9438933333333334, + "eta_time": 0.8438948333972499, + "step": 8849 + }, + { + "epoch": 0.944, + "grad_norm": 1.753325972086686, + "learning_rate": 8.202626546845172e-08, + "loss": 0.4118, + "step": 8850 + }, + { + "avg_step_time": 5.808410080996427, + "epoch": 0.944, + "eta_time": 0.8470598034786456, + "step": 8850 + }, + { + "epoch": 0.9441066666666666, + "grad_norm": 0.628555573639946, + "learning_rate": 8.171493519080753e-08, + "loss": 0.4531, + "step": 8851 + }, + { + "avg_step_time": 5.782649760294443, + "epoch": 0.9441066666666666, + "eta_time": 0.8416967984428577, + "step": 8851 + }, + { + "epoch": 0.9442133333333333, + "grad_norm": 1.8886429110683611, + "learning_rate": 8.14041919955566e-08, + "loss": 0.6223, + "step": 8852 + }, + { + "avg_step_time": 5.782319343451298, + "epoch": 0.9442133333333333, + "eta_time": 0.8400425046180635, + "step": 8852 + }, + { + "epoch": 0.94432, + "grad_norm": 2.0460748390435852, + "learning_rate": 8.109403591979148e-08, + "loss": 0.4925, + "step": 8853 + }, + { + "avg_step_time": 5.783245965687915, + "epoch": 0.94432, + "eta_time": 0.8385706650247478, + "step": 8853 + }, + { + "epoch": 0.9444266666666666, + "grad_norm": 1.9743761396732082, + "learning_rate": 8.078446700053422e-08, + "loss": 0.435, + "step": 8854 + }, + { + "avg_step_time": 5.7777345830743965, + "epoch": 0.9444266666666666, + "eta_time": 0.8361665882727113, + "step": 8854 + }, + { + "epoch": 0.9445333333333333, + "grad_norm": 1.938563544264593, + "learning_rate": 8.047548527473748e-08, + "loss": 0.5101, + "step": 8855 + }, + { + "avg_step_time": 5.772420182372585, + "epoch": 0.9445333333333333, + "eta_time": 0.8337940263427067, + "step": 8855 + }, + { + "epoch": 0.94464, + "grad_norm": 1.4138860573345164, + "learning_rate": 8.016709077928397e-08, + "loss": 0.4314, + "step": 8856 + }, + { + "avg_step_time": 5.779769765006171, + "epoch": 0.94464, + "eta_time": 0.833250141121723, + "step": 8856 + }, + { + "epoch": 0.9447466666666666, + "grad_norm": 1.8706727573504514, + "learning_rate": 7.985928355098483e-08, + "loss": 0.521, + "step": 8857 + }, + { + "avg_step_time": 5.787674070608737, + "epoch": 0.9447466666666666, + "eta_time": 0.8327819912709238, + "step": 8857 + }, + { + "epoch": 0.9448533333333333, + "grad_norm": 1.9191136044455996, + "learning_rate": 7.955206362658341e-08, + "loss": 0.4198, + "step": 8858 + }, + { + "avg_step_time": 5.823537123323691, + "epoch": 0.9448533333333333, + "eta_time": 0.836324636877319, + "step": 8858 + }, + { + "epoch": 0.94496, + "grad_norm": 1.7986701695549352, + "learning_rate": 7.924543104275095e-08, + "loss": 0.565, + "step": 8859 + }, + { + "avg_step_time": 5.826667128187237, + "epoch": 0.94496, + "eta_time": 0.8351556217068373, + "step": 8859 + }, + { + "epoch": 0.9450666666666667, + "grad_norm": 1.5084222494220605, + "learning_rate": 7.893938583608985e-08, + "loss": 0.4469, + "step": 8860 + }, + { + "avg_step_time": 5.826403832194781, + "epoch": 0.9450666666666667, + "eta_time": 0.8334994371056422, + "step": 8860 + }, + { + "epoch": 0.9451733333333333, + "grad_norm": 2.259915149654681, + "learning_rate": 7.863392804313086e-08, + "loss": 0.4797, + "step": 8861 + }, + { + "avg_step_time": 5.84337885933693, + "epoch": 0.9451733333333333, + "eta_time": 0.8343046482497728, + "step": 8861 + }, + { + "epoch": 0.94528, + "grad_norm": 2.581292351826233, + "learning_rate": 7.832905770033705e-08, + "loss": 0.4517, + "step": 8862 + }, + { + "avg_step_time": 5.843461954232418, + "epoch": 0.94528, + "eta_time": 0.8326933284781195, + "step": 8862 + }, + { + "epoch": 0.9453866666666667, + "grad_norm": 1.8272772430256097, + "learning_rate": 7.802477484409931e-08, + "loss": 0.5175, + "step": 8863 + }, + { + "avg_step_time": 5.776909801695082, + "epoch": 0.9453866666666667, + "eta_time": 0.8216049495744117, + "step": 8863 + }, + { + "epoch": 0.9454933333333333, + "grad_norm": 1.764108307401628, + "learning_rate": 7.77210795107386e-08, + "loss": 0.4778, + "step": 8864 + }, + { + "avg_step_time": 5.774742608118539, + "epoch": 0.9454933333333333, + "eta_time": 0.8196926313190482, + "step": 8864 + }, + { + "epoch": 0.9456, + "grad_norm": 1.7173427849562655, + "learning_rate": 7.7417971736507e-08, + "loss": 0.3815, + "step": 8865 + }, + { + "avg_step_time": 5.764398627811008, + "epoch": 0.9456, + "eta_time": 0.8166231389398928, + "step": 8865 + }, + { + "epoch": 0.9457066666666667, + "grad_norm": 1.6179272805824612, + "learning_rate": 7.711545155758615e-08, + "loss": 0.3853, + "step": 8866 + }, + { + "avg_step_time": 5.759052047825823, + "epoch": 0.9457066666666667, + "eta_time": 0.8142659700953733, + "step": 8866 + }, + { + "epoch": 0.9458133333333333, + "grad_norm": 1.6537837498351189, + "learning_rate": 7.681351901008494e-08, + "loss": 0.4797, + "step": 8867 + }, + { + "avg_step_time": 5.778933696072511, + "epoch": 0.9458133333333333, + "eta_time": 0.8154717548902322, + "step": 8867 + }, + { + "epoch": 0.94592, + "grad_norm": 2.1024281938308973, + "learning_rate": 7.651217413004674e-08, + "loss": 0.5176, + "step": 8868 + }, + { + "avg_step_time": 5.777507796432033, + "epoch": 0.94592, + "eta_time": 0.8136656813308447, + "step": 8868 + }, + { + "epoch": 0.9460266666666667, + "grad_norm": 0.6532653294451705, + "learning_rate": 7.621141695344003e-08, + "loss": 0.4276, + "step": 8869 + }, + { + "avg_step_time": 5.740672983304418, + "epoch": 0.9460266666666667, + "eta_time": 0.806883480431121, + "step": 8869 + }, + { + "epoch": 0.9461333333333334, + "grad_norm": 1.9485932349114499, + "learning_rate": 7.591124751616718e-08, + "loss": 0.4072, + "step": 8870 + }, + { + "avg_step_time": 5.740220611745661, + "epoch": 0.9461333333333334, + "eta_time": 0.8052253913698775, + "step": 8870 + }, + { + "epoch": 0.94624, + "grad_norm": 0.6469738885729003, + "learning_rate": 7.561166585405789e-08, + "loss": 0.4252, + "step": 8871 + }, + { + "avg_step_time": 5.705106162061595, + "epoch": 0.94624, + "eta_time": 0.7987148626886232, + "step": 8871 + }, + { + "epoch": 0.9463466666666667, + "grad_norm": 0.6537558607850216, + "learning_rate": 7.53126720028724e-08, + "loss": 0.4217, + "step": 8872 + }, + { + "avg_step_time": 5.670420415473707, + "epoch": 0.9463466666666667, + "eta_time": 0.792283741384243, + "step": 8872 + }, + { + "epoch": 0.9464533333333334, + "grad_norm": 1.8477045875151266, + "learning_rate": 7.501426599830053e-08, + "loss": 0.3741, + "step": 8873 + }, + { + "avg_step_time": 5.706683050502431, + "epoch": 0.9464533333333334, + "eta_time": 0.795765247597839, + "step": 8873 + }, + { + "epoch": 0.94656, + "grad_norm": 0.6486966910763785, + "learning_rate": 7.47164478759621e-08, + "loss": 0.4366, + "step": 8874 + }, + { + "avg_step_time": 5.672051244311863, + "epoch": 0.94656, + "eta_time": 0.7893604648334009, + "step": 8874 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 1.928735003152833, + "learning_rate": 7.441921767140814e-08, + "loss": 0.4865, + "step": 8875 + }, + { + "avg_step_time": 5.691565101796931, + "epoch": 0.9466666666666667, + "eta_time": 0.7904951530273514, + "step": 8875 + }, + { + "epoch": 0.9467733333333334, + "grad_norm": 1.933666566538162, + "learning_rate": 7.412257542011692e-08, + "loss": 0.5508, + "step": 8876 + }, + { + "avg_step_time": 5.6897826435590035, + "epoch": 0.9467733333333334, + "eta_time": 0.7886670942044286, + "step": 8876 + }, + { + "epoch": 0.94688, + "grad_norm": 1.7395303728112084, + "learning_rate": 7.382652115749789e-08, + "loss": 0.4884, + "step": 8877 + }, + { + "avg_step_time": 5.708918961611661, + "epoch": 0.94688, + "eta_time": 0.7897337896896132, + "step": 8877 + }, + { + "epoch": 0.9469866666666666, + "grad_norm": 1.8293995997698953, + "learning_rate": 7.353105491889112e-08, + "loss": 0.4419, + "step": 8878 + }, + { + "avg_step_time": 5.741829152059073, + "epoch": 0.9469866666666666, + "eta_time": 0.7926914134925998, + "step": 8878 + }, + { + "epoch": 0.9470933333333333, + "grad_norm": 2.2972232580926115, + "learning_rate": 7.323617673956452e-08, + "loss": 0.4516, + "step": 8879 + }, + { + "avg_step_time": 5.742150561978119, + "epoch": 0.9470933333333333, + "eta_time": 0.791140744094763, + "step": 8879 + }, + { + "epoch": 0.9472, + "grad_norm": 1.9765494163744197, + "learning_rate": 7.294188665471769e-08, + "loss": 0.462, + "step": 8880 + }, + { + "avg_step_time": 5.744357451043948, + "epoch": 0.9472, + "eta_time": 0.7898491495185428, + "step": 8880 + }, + { + "epoch": 0.9473066666666666, + "grad_norm": 1.9343854937720235, + "learning_rate": 7.264818469947921e-08, + "loss": 0.4438, + "step": 8881 + }, + { + "avg_step_time": 5.759044037924872, + "epoch": 0.9473066666666666, + "eta_time": 0.7902688207596908, + "step": 8881 + }, + { + "epoch": 0.9474133333333333, + "grad_norm": 1.9662272447934315, + "learning_rate": 7.235507090890715e-08, + "loss": 0.4584, + "step": 8882 + }, + { + "avg_step_time": 5.7576324096833815, + "epoch": 0.9474133333333333, + "eta_time": 0.7884757716594187, + "step": 8882 + }, + { + "epoch": 0.94752, + "grad_norm": 1.8062958189693583, + "learning_rate": 7.206254531799018e-08, + "loss": 0.5107, + "step": 8883 + }, + { + "avg_step_time": 5.753495994240347, + "epoch": 0.94752, + "eta_time": 0.7863111192128475, + "step": 8883 + }, + { + "epoch": 0.9476266666666666, + "grad_norm": 1.9366623564775254, + "learning_rate": 7.177060796164536e-08, + "loss": 0.519, + "step": 8884 + }, + { + "avg_step_time": 5.754249868970929, + "epoch": 0.9476266666666666, + "eta_time": 0.7848157460179794, + "step": 8884 + }, + { + "epoch": 0.9477333333333333, + "grad_norm": 1.7568913974356881, + "learning_rate": 7.147925887472096e-08, + "loss": 0.4523, + "step": 8885 + }, + { + "avg_step_time": 5.750581107958399, + "epoch": 0.9477333333333333, + "eta_time": 0.7827179841387821, + "step": 8885 + }, + { + "epoch": 0.94784, + "grad_norm": 1.8807683037484866, + "learning_rate": 7.118849809199524e-08, + "loss": 0.5608, + "step": 8886 + }, + { + "avg_step_time": 5.752349352595782, + "epoch": 0.94784, + "eta_time": 0.781360787060927, + "step": 8886 + }, + { + "epoch": 0.9479466666666667, + "grad_norm": 1.9228953626142042, + "learning_rate": 7.089832564817434e-08, + "loss": 0.4428, + "step": 8887 + }, + { + "avg_step_time": 5.655427990537701, + "epoch": 0.9479466666666667, + "eta_time": 0.7666246831617772, + "step": 8887 + }, + { + "epoch": 0.9480533333333333, + "grad_norm": 1.8258593029197465, + "learning_rate": 7.06087415778961e-08, + "loss": 0.4862, + "step": 8888 + }, + { + "avg_step_time": 5.6591492831104935, + "epoch": 0.9480533333333333, + "eta_time": 0.7655571391318917, + "step": 8888 + }, + { + "epoch": 0.94816, + "grad_norm": 1.9914479147781823, + "learning_rate": 7.031974591572732e-08, + "loss": 0.4841, + "step": 8889 + }, + { + "avg_step_time": 5.65303235824662, + "epoch": 0.94816, + "eta_time": 0.7631593683632938, + "step": 8889 + }, + { + "epoch": 0.9482666666666667, + "grad_norm": 1.756001710200282, + "learning_rate": 7.003133869616485e-08, + "loss": 0.4899, + "step": 8890 + }, + { + "avg_step_time": 5.631293915738963, + "epoch": 0.9482666666666667, + "eta_time": 0.7586604303148324, + "step": 8890 + }, + { + "epoch": 0.9483733333333333, + "grad_norm": 1.8827751600821407, + "learning_rate": 6.974351995363449e-08, + "loss": 0.5187, + "step": 8891 + }, + { + "avg_step_time": 5.658713049358791, + "epoch": 0.9483733333333333, + "eta_time": 0.7607825321915708, + "step": 8891 + }, + { + "epoch": 0.94848, + "grad_norm": 1.7459468993091665, + "learning_rate": 6.945628972249208e-08, + "loss": 0.3956, + "step": 8892 + }, + { + "avg_step_time": 5.648624921085859, + "epoch": 0.94848, + "eta_time": 0.7578571769123528, + "step": 8892 + }, + { + "epoch": 0.9485866666666667, + "grad_norm": 2.032834707358506, + "learning_rate": 6.91696480370252e-08, + "loss": 0.5144, + "step": 8893 + }, + { + "avg_step_time": 5.661196506384647, + "epoch": 0.9485866666666667, + "eta_time": 0.7579713100215001, + "step": 8893 + }, + { + "epoch": 0.9486933333333334, + "grad_norm": 1.7076564461337342, + "learning_rate": 6.888359493144758e-08, + "loss": 0.4805, + "step": 8894 + }, + { + "avg_step_time": 5.660249883478338, + "epoch": 0.9486933333333334, + "eta_time": 0.756272276098078, + "step": 8894 + }, + { + "epoch": 0.9488, + "grad_norm": 1.8542556674794781, + "learning_rate": 6.859813043990526e-08, + "loss": 0.4751, + "step": 8895 + }, + { + "avg_step_time": 5.675766297061034, + "epoch": 0.9488, + "eta_time": 0.7567688396081379, + "step": 8895 + }, + { + "epoch": 0.9489066666666667, + "grad_norm": 1.9912740980719443, + "learning_rate": 6.831325459647375e-08, + "loss": 0.5107, + "step": 8896 + }, + { + "avg_step_time": 5.67594790699506, + "epoch": 0.9489066666666667, + "eta_time": 0.7552164020696205, + "step": 8896 + }, + { + "epoch": 0.9490133333333334, + "grad_norm": 1.8506862834738806, + "learning_rate": 6.802896743515807e-08, + "loss": 0.4417, + "step": 8897 + }, + { + "avg_step_time": 5.667523824807369, + "epoch": 0.9490133333333334, + "eta_time": 0.752521218960534, + "step": 8897 + }, + { + "epoch": 0.94912, + "grad_norm": 2.0136939166502392, + "learning_rate": 6.77452689898922e-08, + "loss": 0.4508, + "step": 8898 + }, + { + "avg_step_time": 5.666312749939736, + "epoch": 0.94912, + "eta_time": 0.750786439367015, + "step": 8898 + }, + { + "epoch": 0.9492266666666667, + "grad_norm": 1.957300641854093, + "learning_rate": 6.746215929454014e-08, + "loss": 0.4939, + "step": 8899 + }, + { + "avg_step_time": 5.667954408761227, + "epoch": 0.9492266666666667, + "eta_time": 0.749429527380651, + "step": 8899 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 1.997761253548643, + "learning_rate": 6.71796383828971e-08, + "loss": 0.5147, + "step": 8900 + }, + { + "avg_step_time": 5.676897653425582, + "epoch": 0.9493333333333334, + "eta_time": 0.7490351070492088, + "step": 8900 + }, + { + "epoch": 0.94944, + "grad_norm": 0.6444507726460381, + "learning_rate": 6.689770628868609e-08, + "loss": 0.4202, + "step": 8901 + }, + { + "avg_step_time": 5.643713640444206, + "epoch": 0.94944, + "eta_time": 0.7430889626584871, + "step": 8901 + }, + { + "epoch": 0.9495466666666666, + "grad_norm": 1.8699893521013182, + "learning_rate": 6.661636304556074e-08, + "loss": 0.4726, + "step": 8902 + }, + { + "avg_step_time": 5.6447329473013825, + "epoch": 0.9495466666666666, + "eta_time": 0.7416551900204316, + "step": 8902 + }, + { + "epoch": 0.9496533333333333, + "grad_norm": 1.7495844069071578, + "learning_rate": 6.63356086871042e-08, + "loss": 0.4756, + "step": 8903 + }, + { + "avg_step_time": 5.678253024515479, + "epoch": 0.9496533333333333, + "eta_time": 0.7444820632142517, + "step": 8903 + }, + { + "epoch": 0.94976, + "grad_norm": 1.833166064966047, + "learning_rate": 6.605544324682855e-08, + "loss": 0.3909, + "step": 8904 + }, + { + "avg_step_time": 5.678880055745442, + "epoch": 0.94976, + "eta_time": 0.7429868072933621, + "step": 8904 + }, + { + "epoch": 0.9498666666666666, + "grad_norm": 0.6832836420100425, + "learning_rate": 6.577586675817816e-08, + "loss": 0.4335, + "step": 8905 + }, + { + "avg_step_time": 5.669979006353051, + "epoch": 0.9498666666666666, + "eta_time": 0.7402472591627595, + "step": 8905 + }, + { + "epoch": 0.9499733333333333, + "grad_norm": 1.7500197508609152, + "learning_rate": 6.549687925452408e-08, + "loss": 0.4142, + "step": 8906 + }, + { + "avg_step_time": 5.665700440454965, + "epoch": 0.9499733333333333, + "eta_time": 0.7381148629370496, + "step": 8906 + }, + { + "epoch": 0.95008, + "grad_norm": 1.7964818575573742, + "learning_rate": 6.521848076916859e-08, + "loss": 0.3893, + "step": 8907 + }, + { + "avg_step_time": 5.667334479514999, + "epoch": 0.95008, + "eta_time": 0.7367534823369498, + "step": 8907 + }, + { + "epoch": 0.9501866666666666, + "grad_norm": 1.8348011311675192, + "learning_rate": 6.494067133534288e-08, + "loss": 0.5464, + "step": 8908 + }, + { + "avg_step_time": 5.673676608788846, + "epoch": 0.9501866666666666, + "eta_time": 0.7360019378623308, + "step": 8908 + }, + { + "epoch": 0.9502933333333333, + "grad_norm": 2.2048736240570084, + "learning_rate": 6.46634509862093e-08, + "loss": 0.5387, + "step": 8909 + }, + { + "avg_step_time": 5.673855887518989, + "epoch": 0.9502933333333333, + "eta_time": 0.7344491232177357, + "step": 8909 + }, + { + "epoch": 0.9504, + "grad_norm": 1.8684751161886652, + "learning_rate": 6.438681975485805e-08, + "loss": 0.4745, + "step": 8910 + }, + { + "avg_step_time": 5.6780769993560485, + "epoch": 0.9504, + "eta_time": 0.7334182790834896, + "step": 8910 + }, + { + "epoch": 0.9505066666666667, + "grad_norm": 1.8204668397224306, + "learning_rate": 6.411077767431051e-08, + "loss": 0.5531, + "step": 8911 + }, + { + "avg_step_time": 5.715903580790818, + "epoch": 0.9505066666666667, + "eta_time": 0.7367164615241499, + "step": 8911 + }, + { + "epoch": 0.9506133333333333, + "grad_norm": 1.683423286178447, + "learning_rate": 6.383532477751641e-08, + "loss": 0.4347, + "step": 8912 + }, + { + "avg_step_time": 5.709044003727461, + "epoch": 0.9506133333333333, + "eta_time": 0.734246492701615, + "step": 8912 + }, + { + "epoch": 0.95072, + "grad_norm": 2.0296746372735015, + "learning_rate": 6.356046109735614e-08, + "loss": 0.489, + "step": 8913 + }, + { + "avg_step_time": 5.712922471942323, + "epoch": 0.95072, + "eta_time": 0.7331583838992649, + "step": 8913 + }, + { + "epoch": 0.9508266666666667, + "grad_norm": 1.8564171791802153, + "learning_rate": 6.328618666663899e-08, + "loss": 0.4856, + "step": 8914 + }, + { + "avg_step_time": 5.712378882398509, + "epoch": 0.9508266666666667, + "eta_time": 0.7315018513293646, + "step": 8914 + }, + { + "epoch": 0.9509333333333333, + "grad_norm": 1.865824439154249, + "learning_rate": 6.301250151810545e-08, + "loss": 0.3535, + "step": 8915 + }, + { + "avg_step_time": 5.714277611838447, + "epoch": 0.9509333333333333, + "eta_time": 0.7301576948460238, + "step": 8915 + }, + { + "epoch": 0.95104, + "grad_norm": 1.5989667979691649, + "learning_rate": 6.273940568442327e-08, + "loss": 0.4431, + "step": 8916 + }, + { + "avg_step_time": 5.712145181617352, + "epoch": 0.95104, + "eta_time": 0.7282985106562123, + "step": 8916 + }, + { + "epoch": 0.9511466666666667, + "grad_norm": 1.7253202904678746, + "learning_rate": 6.246689919819249e-08, + "loss": 0.4998, + "step": 8917 + }, + { + "avg_step_time": 5.7148628283028655, + "epoch": 0.9511466666666667, + "eta_time": 0.7270575487118645, + "step": 8917 + }, + { + "epoch": 0.9512533333333333, + "grad_norm": 1.725476636296345, + "learning_rate": 6.219498209194042e-08, + "loss": 0.4424, + "step": 8918 + }, + { + "avg_step_time": 5.744617866747307, + "epoch": 0.9512533333333333, + "eta_time": 0.7292473236398663, + "step": 8918 + }, + { + "epoch": 0.95136, + "grad_norm": 1.8498719167216136, + "learning_rate": 6.192365439812553e-08, + "loss": 0.4767, + "step": 8919 + }, + { + "avg_step_time": 5.770092494560011, + "epoch": 0.95136, + "eta_time": 0.730878382644268, + "step": 8919 + }, + { + "epoch": 0.9514666666666667, + "grad_norm": 0.6299869729454609, + "learning_rate": 6.165291614913527e-08, + "loss": 0.4181, + "step": 8920 + }, + { + "avg_step_time": 5.7482272567171036, + "epoch": 0.9514666666666667, + "eta_time": 0.7265120560573006, + "step": 8920 + }, + { + "epoch": 0.9515733333333334, + "grad_norm": 1.7062482837830606, + "learning_rate": 6.13827673772871e-08, + "loss": 0.5179, + "step": 8921 + }, + { + "avg_step_time": 5.748977203561802, + "epoch": 0.9515733333333334, + "eta_time": 0.7250099028936272, + "step": 8921 + }, + { + "epoch": 0.95168, + "grad_norm": 2.041398360611756, + "learning_rate": 6.111320811482802e-08, + "loss": 0.4746, + "step": 8922 + }, + { + "avg_step_time": 5.776086616997767, + "epoch": 0.95168, + "eta_time": 0.7268242326388857, + "step": 8922 + }, + { + "epoch": 0.9517866666666667, + "grad_norm": 0.6340675365524909, + "learning_rate": 6.084423839393394e-08, + "loss": 0.4423, + "step": 8923 + }, + { + "avg_step_time": 5.7466697283465455, + "epoch": 0.9517866666666667, + "eta_time": 0.721526310336844, + "step": 8923 + }, + { + "epoch": 0.9518933333333334, + "grad_norm": 1.777175836735349, + "learning_rate": 6.057585824671252e-08, + "loss": 0.3711, + "step": 8924 + }, + { + "avg_step_time": 5.780212676886356, + "epoch": 0.9518933333333334, + "eta_time": 0.724132199243263, + "step": 8924 + }, + { + "epoch": 0.952, + "grad_norm": 1.7042591219512655, + "learning_rate": 6.030806770519815e-08, + "loss": 0.4739, + "step": 8925 + }, + { + "avg_step_time": 5.74158441659176, + "epoch": 0.952, + "eta_time": 0.71769805207397, + "step": 8925 + }, + { + "epoch": 0.9521066666666667, + "grad_norm": 2.04050634022227, + "learning_rate": 6.004086680135634e-08, + "loss": 0.5441, + "step": 8926 + }, + { + "avg_step_time": 5.7411989370981855, + "epoch": 0.9521066666666667, + "eta_time": 0.716055089654746, + "step": 8926 + }, + { + "epoch": 0.9522133333333334, + "grad_norm": 1.7499507205721325, + "learning_rate": 5.977425556708327e-08, + "loss": 0.456, + "step": 8927 + }, + { + "avg_step_time": 5.774892385559853, + "epoch": 0.9522133333333334, + "eta_time": 0.7186532746474483, + "step": 8927 + }, + { + "epoch": 0.95232, + "grad_norm": 2.0549132519314983, + "learning_rate": 5.9508234034202364e-08, + "loss": 0.4605, + "step": 8928 + }, + { + "avg_step_time": 5.770388588760838, + "epoch": 0.95232, + "eta_time": 0.716489916437804, + "step": 8928 + }, + { + "epoch": 0.9524266666666666, + "grad_norm": 1.8969756142097023, + "learning_rate": 5.924280223446821e-08, + "loss": 0.4907, + "step": 8929 + }, + { + "avg_step_time": 5.777010879131279, + "epoch": 0.9524266666666666, + "eta_time": 0.7157074589145973, + "step": 8929 + }, + { + "epoch": 0.9525333333333333, + "grad_norm": 1.6606092539187498, + "learning_rate": 5.897796019956492e-08, + "loss": 0.4831, + "step": 8930 + }, + { + "avg_step_time": 5.7798043092091875, + "epoch": 0.9525333333333333, + "eta_time": 0.7144480326661357, + "step": 8930 + }, + { + "epoch": 0.95264, + "grad_norm": 1.8554402292938703, + "learning_rate": 5.871370796110665e-08, + "loss": 0.5234, + "step": 8931 + }, + { + "avg_step_time": 5.740822746296121, + "epoch": 0.95264, + "eta_time": 0.7080348053765216, + "step": 8931 + }, + { + "epoch": 0.9527466666666666, + "grad_norm": 1.7952206510707516, + "learning_rate": 5.8450045550634826e-08, + "loss": 0.4486, + "step": 8932 + }, + { + "avg_step_time": 5.741650477804319, + "epoch": 0.9527466666666666, + "eta_time": 0.7065419893520315, + "step": 8932 + }, + { + "epoch": 0.9528533333333333, + "grad_norm": 1.8788049055630027, + "learning_rate": 5.8186972999623724e-08, + "loss": 0.5027, + "step": 8933 + }, + { + "avg_step_time": 5.736263024686563, + "epoch": 0.9528533333333333, + "eta_time": 0.7042856269198502, + "step": 8933 + }, + { + "epoch": 0.95296, + "grad_norm": 1.6840702364741802, + "learning_rate": 5.7924490339474335e-08, + "loss": 0.4715, + "step": 8934 + }, + { + "avg_step_time": 5.737759334872467, + "epoch": 0.95296, + "eta_time": 0.7028755185218772, + "step": 8934 + }, + { + "epoch": 0.9530666666666666, + "grad_norm": 1.4577814811129417, + "learning_rate": 5.7662597601519374e-08, + "loss": 0.4584, + "step": 8935 + }, + { + "avg_step_time": 5.790068072502059, + "epoch": 0.9530666666666666, + "eta_time": 0.7076749866391406, + "step": 8935 + }, + { + "epoch": 0.9531733333333333, + "grad_norm": 1.9745000495717775, + "learning_rate": 5.7401294817020505e-08, + "loss": 0.4252, + "step": 8936 + }, + { + "avg_step_time": 5.7727762256005795, + "epoch": 0.9531733333333333, + "eta_time": 0.7039579897329595, + "step": 8936 + }, + { + "epoch": 0.95328, + "grad_norm": 1.6534766279108284, + "learning_rate": 5.7140582017167764e-08, + "loss": 0.4366, + "step": 8937 + }, + { + "avg_step_time": 5.7800400570185495, + "epoch": 0.95328, + "eta_time": 0.7032382069372569, + "step": 8937 + }, + { + "epoch": 0.9533866666666667, + "grad_norm": 2.150809874052801, + "learning_rate": 5.688045923308183e-08, + "loss": 0.6065, + "step": 8938 + }, + { + "avg_step_time": 5.789763371149699, + "epoch": 0.9533866666666667, + "eta_time": 0.7028129425534496, + "step": 8938 + }, + { + "epoch": 0.9534933333333333, + "grad_norm": 2.054477890309957, + "learning_rate": 5.662092649581341e-08, + "loss": 0.4607, + "step": 8939 + }, + { + "avg_step_time": 5.769710528730142, + "epoch": 0.9534933333333333, + "eta_time": 0.6987760529239839, + "step": 8939 + }, + { + "epoch": 0.9536, + "grad_norm": 2.011605823562385, + "learning_rate": 5.636198383634217e-08, + "loss": 0.4892, + "step": 8940 + }, + { + "avg_step_time": 5.768634300039272, + "epoch": 0.9536, + "eta_time": 0.6970433112547453, + "step": 8940 + }, + { + "epoch": 0.9537066666666667, + "grad_norm": 1.8010287523094803, + "learning_rate": 5.610363128557727e-08, + "loss": 0.4522, + "step": 8941 + }, + { + "avg_step_time": 5.727215355092829, + "epoch": 0.9537066666666667, + "eta_time": 0.6904476289195244, + "step": 8941 + }, + { + "epoch": 0.9538133333333333, + "grad_norm": 1.775862882145547, + "learning_rate": 5.584586887435739e-08, + "loss": 0.4605, + "step": 8942 + }, + { + "avg_step_time": 5.727508296870222, + "epoch": 0.9538133333333333, + "eta_time": 0.6888919701513351, + "step": 8942 + }, + { + "epoch": 0.95392, + "grad_norm": 1.8689784810699461, + "learning_rate": 5.558869663345123e-08, + "loss": 0.4463, + "step": 8943 + }, + { + "avg_step_time": 5.724649800194634, + "epoch": 0.95392, + "eta_time": 0.6869579760233561, + "step": 8943 + }, + { + "epoch": 0.9540266666666667, + "grad_norm": 1.677946570695263, + "learning_rate": 5.533211459355648e-08, + "loss": 0.4661, + "step": 8944 + }, + { + "avg_step_time": 5.737081067730682, + "epoch": 0.9540266666666667, + "eta_time": 0.6868560944977568, + "step": 8944 + }, + { + "epoch": 0.9541333333333334, + "grad_norm": 1.7745146831370258, + "learning_rate": 5.507612278530083e-08, + "loss": 0.4911, + "step": 8945 + }, + { + "avg_step_time": 5.739345047208998, + "epoch": 0.9541333333333334, + "eta_time": 0.6855328806388524, + "step": 8945 + }, + { + "epoch": 0.95424, + "grad_norm": 0.6582795675769658, + "learning_rate": 5.482072123924098e-08, + "loss": 0.4385, + "step": 8946 + }, + { + "avg_step_time": 5.705028052281851, + "epoch": 0.95424, + "eta_time": 0.6798491762302539, + "step": 8946 + }, + { + "epoch": 0.9543466666666667, + "grad_norm": 1.6454497599766564, + "learning_rate": 5.4565909985864196e-08, + "loss": 0.4004, + "step": 8947 + }, + { + "avg_step_time": 5.702807939413822, + "epoch": 0.9543466666666667, + "eta_time": 0.6780004994636434, + "step": 8947 + }, + { + "epoch": 0.9544533333333334, + "grad_norm": 1.7173250260863835, + "learning_rate": 5.431168905558559e-08, + "loss": 0.5114, + "step": 8948 + }, + { + "avg_step_time": 5.6966132515608665, + "epoch": 0.9544533333333334, + "eta_time": 0.6756816273379139, + "step": 8948 + }, + { + "epoch": 0.95456, + "grad_norm": 1.8715316995280955, + "learning_rate": 5.405805847875256e-08, + "loss": 0.4325, + "step": 8949 + }, + { + "avg_step_time": 5.698821994993422, + "epoch": 0.95456, + "eta_time": 0.6743606027408882, + "step": 8949 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 0.6447551226449596, + "learning_rate": 5.3805018285638664e-08, + "loss": 0.4367, + "step": 8950 + }, + { + "avg_step_time": 5.714272161926886, + "epoch": 0.9546666666666667, + "eta_time": 0.674601574671924, + "step": 8950 + }, + { + "epoch": 0.9547733333333334, + "grad_norm": 1.7933935792050189, + "learning_rate": 5.3552568506448633e-08, + "loss": 0.4126, + "step": 8951 + }, + { + "avg_step_time": 5.71503641388633, + "epoch": 0.9547733333333334, + "eta_time": 0.6731042887466122, + "step": 8951 + }, + { + "epoch": 0.95488, + "grad_norm": 1.6483076796092626, + "learning_rate": 5.330070917131724e-08, + "loss": 0.4399, + "step": 8952 + }, + { + "avg_step_time": 5.714349082022002, + "epoch": 0.95488, + "eta_time": 0.6714360171375853, + "step": 8952 + }, + { + "epoch": 0.9549866666666667, + "grad_norm": 1.7565640990491067, + "learning_rate": 5.304944031030879e-08, + "loss": 0.4314, + "step": 8953 + }, + { + "avg_step_time": 5.71597327126397, + "epoch": 0.9549866666666667, + "eta_time": 0.6700390890203877, + "step": 8953 + }, + { + "epoch": 0.9550933333333333, + "grad_norm": 1.96671870642048, + "learning_rate": 5.279876195341593e-08, + "loss": 0.5107, + "step": 8954 + }, + { + "avg_step_time": 5.71682035320937, + "epoch": 0.9550933333333333, + "eta_time": 0.6685503801947624, + "step": 8954 + }, + { + "epoch": 0.9552, + "grad_norm": 0.6465840217513836, + "learning_rate": 5.2548674130561974e-08, + "loss": 0.4365, + "step": 8955 + }, + { + "avg_step_time": 5.692532977672538, + "epoch": 0.9552, + "eta_time": 0.6641288473951295, + "step": 8955 + }, + { + "epoch": 0.9553066666666666, + "grad_norm": 1.7294096356391435, + "learning_rate": 5.229917687159802e-08, + "loss": 0.4715, + "step": 8956 + }, + { + "avg_step_time": 5.683821497541485, + "epoch": 0.9553066666666666, + "eta_time": 0.661533668741634, + "step": 8956 + }, + { + "epoch": 0.9554133333333333, + "grad_norm": 1.9948543800749317, + "learning_rate": 5.205027020630693e-08, + "loss": 0.5367, + "step": 8957 + }, + { + "avg_step_time": 5.682653831713127, + "epoch": 0.9554133333333333, + "eta_time": 0.6598192504600241, + "step": 8957 + }, + { + "epoch": 0.95552, + "grad_norm": 2.2895805009749584, + "learning_rate": 5.1801954164399925e-08, + "loss": 0.5577, + "step": 8958 + }, + { + "avg_step_time": 5.678885486390856, + "epoch": 0.95552, + "eta_time": 0.6578042355069408, + "step": 8958 + }, + { + "epoch": 0.9556266666666666, + "grad_norm": 2.026313171611619, + "learning_rate": 5.155422877551774e-08, + "loss": 0.5563, + "step": 8959 + }, + { + "avg_step_time": 5.680856550582732, + "epoch": 0.9556266666666666, + "eta_time": 0.6564545347340046, + "step": 8959 + }, + { + "epoch": 0.9557333333333333, + "grad_norm": 1.6570709739149962, + "learning_rate": 5.130709406923007e-08, + "loss": 0.4354, + "step": 8960 + }, + { + "avg_step_time": 5.660839458908698, + "epoch": 0.9557333333333333, + "eta_time": 0.6525689931797527, + "step": 8960 + }, + { + "epoch": 0.95584, + "grad_norm": 2.153089281236407, + "learning_rate": 5.106055007503774e-08, + "loss": 0.4194, + "step": 8961 + }, + { + "avg_step_time": 5.66159277973753, + "epoch": 0.95584, + "eta_time": 0.6510831696698159, + "step": 8961 + }, + { + "epoch": 0.9559466666666666, + "grad_norm": 1.8929149758612096, + "learning_rate": 5.081459682236889e-08, + "loss": 0.4937, + "step": 8962 + }, + { + "avg_step_time": 5.667167757496689, + "epoch": 0.9559466666666666, + "eta_time": 0.650150078846148, + "step": 8962 + }, + { + "epoch": 0.9560533333333333, + "grad_norm": 2.015208012149186, + "learning_rate": 5.056923434058336e-08, + "loss": 0.4734, + "step": 8963 + }, + { + "avg_step_time": 5.667306413554182, + "epoch": 0.9560533333333333, + "eta_time": 0.6485917339956452, + "step": 8963 + }, + { + "epoch": 0.95616, + "grad_norm": 2.0610360965457133, + "learning_rate": 5.0324462658969395e-08, + "loss": 0.5352, + "step": 8964 + }, + { + "avg_step_time": 5.673173523912526, + "epoch": 0.95616, + "eta_time": 0.6476873106466801, + "step": 8964 + }, + { + "epoch": 0.9562666666666667, + "grad_norm": 1.698390476488925, + "learning_rate": 5.008028180674418e-08, + "loss": 0.529, + "step": 8965 + }, + { + "avg_step_time": 5.6742627981937295, + "epoch": 0.9562666666666667, + "eta_time": 0.6462354853498414, + "step": 8965 + }, + { + "epoch": 0.9563733333333333, + "grad_norm": 2.0600834385080384, + "learning_rate": 4.983669181305495e-08, + "loss": 0.4268, + "step": 8966 + }, + { + "avg_step_time": 5.690079992467707, + "epoch": 0.9563733333333333, + "eta_time": 0.6464563102553589, + "step": 8966 + }, + { + "epoch": 0.95648, + "grad_norm": 1.648723357106334, + "learning_rate": 4.959369270697789e-08, + "loss": 0.4719, + "step": 8967 + }, + { + "avg_step_time": 5.689097021565293, + "epoch": 0.95648, + "eta_time": 0.6447643291107331, + "step": 8967 + }, + { + "epoch": 0.9565866666666667, + "grad_norm": 1.852250554728268, + "learning_rate": 4.935128451752091e-08, + "loss": 0.4415, + "step": 8968 + }, + { + "avg_step_time": 5.715167014285772, + "epoch": 0.9565866666666667, + "eta_time": 0.6461313818928636, + "step": 8968 + }, + { + "epoch": 0.9566933333333333, + "grad_norm": 1.6563252674296676, + "learning_rate": 4.910946727361754e-08, + "loss": 0.4396, + "step": 8969 + }, + { + "avg_step_time": 5.7147828930556175, + "epoch": 0.9566933333333333, + "eta_time": 0.6445005151612725, + "step": 8969 + }, + { + "epoch": 0.9568, + "grad_norm": 1.8036775459220022, + "learning_rate": 4.886824100413412e-08, + "loss": 0.4596, + "step": 8970 + }, + { + "avg_step_time": 5.754713667763604, + "epoch": 0.9568, + "eta_time": 0.6474052876234054, + "step": 8970 + }, + { + "epoch": 0.9569066666666667, + "grad_norm": 1.8936013763353532, + "learning_rate": 4.86276057378654e-08, + "loss": 0.5025, + "step": 8971 + }, + { + "avg_step_time": 5.7847905833311755, + "epoch": 0.9569066666666667, + "eta_time": 0.6491820543516097, + "step": 8971 + }, + { + "epoch": 0.9570133333333334, + "grad_norm": 1.934856787055788, + "learning_rate": 4.838756150353396e-08, + "loss": 0.4646, + "step": 8972 + }, + { + "avg_step_time": 5.792292308325719, + "epoch": 0.9570133333333334, + "eta_time": 0.6484149445153514, + "step": 8972 + }, + { + "epoch": 0.95712, + "grad_norm": 1.965658275905748, + "learning_rate": 4.814810832979411e-08, + "loss": 0.4534, + "step": 8973 + }, + { + "avg_step_time": 5.828627689920291, + "epoch": 0.95712, + "eta_time": 0.6508634253744324, + "step": 8973 + }, + { + "epoch": 0.9572266666666667, + "grad_norm": 1.9728791631198919, + "learning_rate": 4.790924624522908e-08, + "loss": 0.5548, + "step": 8974 + }, + { + "avg_step_time": 5.814270932265003, + "epoch": 0.9572266666666667, + "eta_time": 0.6476451788439628, + "step": 8974 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 1.8912767804068877, + "learning_rate": 4.767097527835052e-08, + "loss": 0.5329, + "step": 8975 + }, + { + "avg_step_time": 5.814278067964496, + "epoch": 0.9573333333333334, + "eta_time": 0.6460308964404996, + "step": 8975 + }, + { + "epoch": 0.95744, + "grad_norm": 1.9783252297511489, + "learning_rate": 4.743329545760122e-08, + "loss": 0.437, + "step": 8976 + }, + { + "avg_step_time": 5.816880787261809, + "epoch": 0.95744, + "eta_time": 0.6447042872548505, + "step": 8976 + }, + { + "epoch": 0.9575466666666667, + "grad_norm": 0.6265009805246851, + "learning_rate": 4.719620681135073e-08, + "loss": 0.4311, + "step": 8977 + }, + { + "avg_step_time": 5.780022317712957, + "epoch": 0.9575466666666667, + "eta_time": 0.6390135784582659, + "step": 8977 + }, + { + "epoch": 0.9576533333333334, + "grad_norm": 2.016803457719436, + "learning_rate": 4.695970936790084e-08, + "loss": 0.4927, + "step": 8978 + }, + { + "avg_step_time": 5.799032076440676, + "epoch": 0.9576533333333334, + "eta_time": 0.6395043706519301, + "step": 8978 + }, + { + "epoch": 0.95776, + "grad_norm": 1.790749033936049, + "learning_rate": 4.67238031554812e-08, + "loss": 0.4371, + "step": 8979 + }, + { + "avg_step_time": 5.796670162316524, + "epoch": 0.95776, + "eta_time": 0.6376337178548177, + "step": 8979 + }, + { + "epoch": 0.9578666666666666, + "grad_norm": 1.8659196078682374, + "learning_rate": 4.648848820225205e-08, + "loss": 0.5243, + "step": 8980 + }, + { + "avg_step_time": 5.780766162005338, + "epoch": 0.9578666666666666, + "eta_time": 0.6342785094422523, + "step": 8980 + }, + { + "epoch": 0.9579733333333333, + "grad_norm": 1.8685066332258586, + "learning_rate": 4.625376453630148e-08, + "loss": 0.4436, + "step": 8981 + }, + { + "avg_step_time": 5.7822118431630765, + "epoch": 0.9579733333333333, + "eta_time": 0.6328309628350701, + "step": 8981 + }, + { + "epoch": 0.95808, + "grad_norm": 1.9451506645227115, + "learning_rate": 4.6019632185647645e-08, + "loss": 0.4929, + "step": 8982 + }, + { + "avg_step_time": 5.785417739791099, + "epoch": 0.95808, + "eta_time": 0.6315747699271951, + "step": 8982 + }, + { + "epoch": 0.9581866666666666, + "grad_norm": 0.6208079783857194, + "learning_rate": 4.578609117823873e-08, + "loss": 0.4417, + "step": 8983 + }, + { + "avg_step_time": 5.758493375296545, + "epoch": 0.9581866666666666, + "eta_time": 0.6270359453100681, + "step": 8983 + }, + { + "epoch": 0.9582933333333333, + "grad_norm": 1.795574625345524, + "learning_rate": 4.555314154195245e-08, + "loss": 0.4517, + "step": 8984 + }, + { + "avg_step_time": 5.792587612614487, + "epoch": 0.9582933333333333, + "eta_time": 0.6291393768145179, + "step": 8984 + }, + { + "epoch": 0.9584, + "grad_norm": 1.730135365286105, + "learning_rate": 4.532078330459433e-08, + "loss": 0.441, + "step": 8985 + }, + { + "avg_step_time": 5.79052148202453, + "epoch": 0.9584, + "eta_time": 0.6273064938859907, + "step": 8985 + }, + { + "epoch": 0.9585066666666666, + "grad_norm": 2.093555702112836, + "learning_rate": 4.508901649390107e-08, + "loss": 0.4468, + "step": 8986 + }, + { + "avg_step_time": 5.790593380879874, + "epoch": 0.9585066666666666, + "eta_time": 0.6257057847672974, + "step": 8986 + }, + { + "epoch": 0.9586133333333333, + "grad_norm": 1.7769751343675995, + "learning_rate": 4.4857841137537216e-08, + "loss": 0.4426, + "step": 8987 + }, + { + "avg_step_time": 5.797912513366853, + "epoch": 0.9586133333333333, + "eta_time": 0.6248861264406498, + "step": 8987 + }, + { + "epoch": 0.95872, + "grad_norm": 1.7552923574303767, + "learning_rate": 4.4627257263098465e-08, + "loss": 0.4432, + "step": 8988 + }, + { + "avg_step_time": 5.801315187203763, + "epoch": 0.95872, + "eta_time": 0.6236413826244046, + "step": 8988 + }, + { + "epoch": 0.9588266666666667, + "grad_norm": 1.7887745749427357, + "learning_rate": 4.439726489810836e-08, + "loss": 0.4452, + "step": 8989 + }, + { + "avg_step_time": 5.807794125393183, + "epoch": 0.9588266666666667, + "eta_time": 0.6227245923338247, + "step": 8989 + }, + { + "epoch": 0.9589333333333333, + "grad_norm": 1.8288951076095161, + "learning_rate": 4.4167864070021605e-08, + "loss": 0.4862, + "step": 8990 + }, + { + "avg_step_time": 5.779202251723318, + "epoch": 0.9589333333333333, + "eta_time": 0.6180535741426326, + "step": 8990 + }, + { + "epoch": 0.95904, + "grad_norm": 2.0761344654409437, + "learning_rate": 4.393905480621907e-08, + "loss": 0.5491, + "step": 8991 + }, + { + "avg_step_time": 5.782531345733489, + "epoch": 0.95904, + "eta_time": 0.6168033435449054, + "step": 8991 + }, + { + "epoch": 0.9591466666666667, + "grad_norm": 2.0693436576849025, + "learning_rate": 4.371083713401503e-08, + "loss": 0.4207, + "step": 8992 + }, + { + "avg_step_time": 5.769904389525905, + "epoch": 0.9591466666666667, + "eta_time": 0.6138537169967838, + "step": 8992 + }, + { + "epoch": 0.9592533333333333, + "grad_norm": 1.8733214332396326, + "learning_rate": 4.348321108065046e-08, + "loss": 0.615, + "step": 8993 + }, + { + "avg_step_time": 5.772468684899686, + "epoch": 0.9592533333333333, + "eta_time": 0.6125230660088001, + "step": 8993 + }, + { + "epoch": 0.95936, + "grad_norm": 1.9564490517272541, + "learning_rate": 4.3256176673295846e-08, + "loss": 0.4801, + "step": 8994 + }, + { + "avg_step_time": 5.7575518386532565, + "epoch": 0.95936, + "eta_time": 0.6093409029241363, + "step": 8994 + }, + { + "epoch": 0.9594666666666667, + "grad_norm": 2.0229249445461037, + "learning_rate": 4.302973393905341e-08, + "loss": 0.4896, + "step": 8995 + }, + { + "avg_step_time": 5.757800167257136, + "epoch": 0.9594666666666667, + "eta_time": 0.6077677954326977, + "step": 8995 + }, + { + "epoch": 0.9595733333333333, + "grad_norm": 1.7138191575705168, + "learning_rate": 4.280388290495097e-08, + "loss": 0.4694, + "step": 8996 + }, + { + "avg_step_time": 5.75625287161933, + "epoch": 0.9595733333333333, + "eta_time": 0.6060055106510351, + "step": 8996 + }, + { + "epoch": 0.95968, + "grad_norm": 1.8374779589315993, + "learning_rate": 4.2578623597949174e-08, + "loss": 0.475, + "step": 8997 + }, + { + "avg_step_time": 5.787750468109593, + "epoch": 0.95968, + "eta_time": 0.6077137991515073, + "step": 8997 + }, + { + "epoch": 0.9597866666666667, + "grad_norm": 1.8923316054402528, + "learning_rate": 4.2353956044935974e-08, + "loss": 0.4327, + "step": 8998 + }, + { + "avg_step_time": 5.787212711392027, + "epoch": 0.9597866666666667, + "eta_time": 0.606049775609665, + "step": 8998 + }, + { + "epoch": 0.9598933333333334, + "grad_norm": 2.028654490625101, + "learning_rate": 4.212988027272991e-08, + "loss": 0.4714, + "step": 8999 + }, + { + "avg_step_time": 5.7830808331268, + "epoch": 0.9598933333333334, + "eta_time": 0.6040106647932436, + "step": 8999 + }, + { + "epoch": 0.96, + "grad_norm": 1.5554947800359042, + "learning_rate": 4.1906396308077356e-08, + "loss": 0.4237, + "step": 9000 + }, + { + "avg_step_time": 5.828456156181566, + "epoch": 0.96, + "eta_time": 0.6071308496022465, + "step": 9000 + }, + { + "epoch": 0.9601066666666667, + "grad_norm": 1.7901079133151419, + "learning_rate": 4.1683504177655875e-08, + "loss": 0.4787, + "step": 9001 + }, + { + "avg_step_time": 5.829258634586527, + "epoch": 0.9601066666666667, + "eta_time": 0.6055952025931558, + "step": 9001 + }, + { + "epoch": 0.9602133333333334, + "grad_norm": 1.8433434407730978, + "learning_rate": 4.146120390807085e-08, + "loss": 0.5718, + "step": 9002 + }, + { + "avg_step_time": 5.829409869030268, + "epoch": 0.9602133333333334, + "eta_time": 0.6039916336523028, + "step": 9002 + }, + { + "epoch": 0.96032, + "grad_norm": 1.8696137963633674, + "learning_rate": 4.123949552585826e-08, + "loss": 0.517, + "step": 9003 + }, + { + "avg_step_time": 5.830741364546497, + "epoch": 0.96032, + "eta_time": 0.6025099410031379, + "step": 9003 + }, + { + "epoch": 0.9604266666666667, + "grad_norm": 1.8438926160446245, + "learning_rate": 4.1018379057482517e-08, + "loss": 0.4311, + "step": 9004 + }, + { + "avg_step_time": 5.868489865100745, + "epoch": 0.9604266666666667, + "eta_time": 0.6047804833201046, + "step": 9004 + }, + { + "epoch": 0.9605333333333334, + "grad_norm": 1.990083818002506, + "learning_rate": 4.079785452933749e-08, + "loss": 0.4712, + "step": 9005 + }, + { + "avg_step_time": 5.870110661092431, + "epoch": 0.9605333333333334, + "eta_time": 0.6033169290567221, + "step": 9005 + }, + { + "epoch": 0.96064, + "grad_norm": 1.8919226950631018, + "learning_rate": 4.0577921967747126e-08, + "loss": 0.4508, + "step": 9006 + }, + { + "avg_step_time": 5.868105693296953, + "epoch": 0.96064, + "eta_time": 0.6014808335629377, + "step": 9006 + }, + { + "epoch": 0.9607466666666666, + "grad_norm": 1.8394040074093962, + "learning_rate": 4.035858139896376e-08, + "loss": 0.4131, + "step": 9007 + }, + { + "avg_step_time": 5.862254019939538, + "epoch": 0.9607466666666666, + "eta_time": 0.5992526331493749, + "step": 9007 + }, + { + "epoch": 0.9608533333333333, + "grad_norm": 1.8675717358640485, + "learning_rate": 4.0139832849169224e-08, + "loss": 0.5053, + "step": 9008 + }, + { + "avg_step_time": 5.862893853524719, + "epoch": 0.9608533333333333, + "eta_time": 0.5976894567343255, + "step": 9008 + }, + { + "epoch": 0.96096, + "grad_norm": 1.823957366569987, + "learning_rate": 3.9921676344475966e-08, + "loss": 0.5181, + "step": 9009 + }, + { + "avg_step_time": 5.860228027960266, + "epoch": 0.96096, + "eta_time": 0.5957898495092938, + "step": 9009 + }, + { + "epoch": 0.9610666666666666, + "grad_norm": 1.5457380668076819, + "learning_rate": 3.970411191092372e-08, + "loss": 0.4671, + "step": 9010 + }, + { + "avg_step_time": 5.859461266585071, + "epoch": 0.9610666666666666, + "eta_time": 0.594084267306542, + "step": 9010 + }, + { + "epoch": 0.9611733333333333, + "grad_norm": 1.9791242703108127, + "learning_rate": 3.94871395744828e-08, + "loss": 0.4247, + "step": 9011 + }, + { + "avg_step_time": 5.857421773852724, + "epoch": 0.9611733333333333, + "eta_time": 0.5922504238006644, + "step": 9011 + }, + { + "epoch": 0.96128, + "grad_norm": 0.6519423144276948, + "learning_rate": 3.927075936105307e-08, + "loss": 0.4414, + "step": 9012 + }, + { + "avg_step_time": 5.8201224105526705, + "epoch": 0.96128, + "eta_time": 0.586862343064061, + "step": 9012 + }, + { + "epoch": 0.9613866666666666, + "grad_norm": 1.8453271716118256, + "learning_rate": 3.905497129646274e-08, + "loss": 0.5107, + "step": 9013 + }, + { + "avg_step_time": 5.8207900211064505, + "epoch": 0.9613866666666666, + "eta_time": 0.5853127743445931, + "step": 9013 + }, + { + "epoch": 0.9614933333333333, + "grad_norm": 0.6343882865715623, + "learning_rate": 3.88397754064701e-08, + "loss": 0.4293, + "step": 9014 + }, + { + "avg_step_time": 5.805455988103693, + "epoch": 0.9614933333333333, + "eta_time": 0.5821582254737315, + "step": 9014 + }, + { + "epoch": 0.9616, + "grad_norm": 1.6145332930963292, + "learning_rate": 3.8625171716762385e-08, + "loss": 0.4186, + "step": 9015 + }, + { + "avg_step_time": 5.806094848748409, + "epoch": 0.9616, + "eta_time": 0.580609484874841, + "step": 9015 + }, + { + "epoch": 0.9617066666666667, + "grad_norm": 1.8217723914892177, + "learning_rate": 3.841116025295633e-08, + "loss": 0.4308, + "step": 9016 + }, + { + "avg_step_time": 5.80727625615669, + "epoch": 0.9617066666666667, + "eta_time": 0.5791144933222921, + "step": 9016 + }, + { + "epoch": 0.9618133333333333, + "grad_norm": 1.7634380297327223, + "learning_rate": 3.819774104059759e-08, + "loss": 0.4109, + "step": 9017 + }, + { + "avg_step_time": 5.8082486234530055, + "epoch": 0.9618133333333333, + "eta_time": 0.5775980575544933, + "step": 9017 + }, + { + "epoch": 0.96192, + "grad_norm": 1.8060793846228322, + "learning_rate": 3.7984914105162474e-08, + "loss": 0.4822, + "step": 9018 + }, + { + "avg_step_time": 5.782038621228151, + "epoch": 0.96192, + "eta_time": 0.5733854966051251, + "step": 9018 + }, + { + "epoch": 0.9620266666666667, + "grad_norm": 1.9539116472216385, + "learning_rate": 3.7772679472053986e-08, + "loss": 0.4494, + "step": 9019 + }, + { + "avg_step_time": 5.818497361558856, + "epoch": 0.9620266666666667, + "eta_time": 0.5753847390874869, + "step": 9019 + }, + { + "epoch": 0.9621333333333333, + "grad_norm": 1.8285055295560428, + "learning_rate": 3.756103716660742e-08, + "loss": 0.5482, + "step": 9020 + }, + { + "avg_step_time": 5.82452311901131, + "epoch": 0.9621333333333333, + "eta_time": 0.5743626964580598, + "step": 9020 + }, + { + "epoch": 0.96224, + "grad_norm": 2.099161227874057, + "learning_rate": 3.7349987214084784e-08, + "loss": 0.4863, + "step": 9021 + }, + { + "avg_step_time": 5.80152274141408, + "epoch": 0.96224, + "eta_time": 0.5704830695723845, + "step": 9021 + }, + { + "epoch": 0.9623466666666667, + "grad_norm": 1.8173967871482304, + "learning_rate": 3.713952963967982e-08, + "loss": 0.4482, + "step": 9022 + }, + { + "avg_step_time": 5.834080956198952, + "epoch": 0.9623466666666667, + "eta_time": 0.5720640493161749, + "step": 9022 + }, + { + "epoch": 0.9624533333333334, + "grad_norm": 1.6787244437597475, + "learning_rate": 3.692966446851298e-08, + "loss": 0.4856, + "step": 9023 + }, + { + "avg_step_time": 5.801470498846035, + "epoch": 0.9624533333333334, + "eta_time": 0.5672548932205012, + "step": 9023 + }, + { + "epoch": 0.96256, + "grad_norm": 1.9584024149466488, + "learning_rate": 3.672039172563646e-08, + "loss": 0.4975, + "step": 9024 + }, + { + "avg_step_time": 5.79739980986624, + "epoch": 0.96256, + "eta_time": 0.5652464814619584, + "step": 9024 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 1.8459828689365438, + "learning_rate": 3.651171143602972e-08, + "loss": 0.4436, + "step": 9025 + }, + { + "avg_step_time": 5.799102229301376, + "epoch": 0.9626666666666667, + "eta_time": 0.5638016056265226, + "step": 9025 + }, + { + "epoch": 0.9627733333333334, + "grad_norm": 2.1721321920948107, + "learning_rate": 3.630362362460227e-08, + "loss": 0.495, + "step": 9026 + }, + { + "avg_step_time": 5.798630726457846, + "epoch": 0.9627733333333334, + "eta_time": 0.5621450343149412, + "step": 9026 + }, + { + "epoch": 0.96288, + "grad_norm": 0.6410244001682586, + "learning_rate": 3.609612831619369e-08, + "loss": 0.4308, + "step": 9027 + }, + { + "avg_step_time": 5.768418104961665, + "epoch": 0.96288, + "eta_time": 0.5576137501462942, + "step": 9027 + }, + { + "epoch": 0.9629866666666667, + "grad_norm": 2.0131762326761113, + "learning_rate": 3.5889225535571945e-08, + "loss": 0.5619, + "step": 9028 + }, + { + "avg_step_time": 5.766297371700556, + "epoch": 0.9629866666666667, + "eta_time": 0.555806996661137, + "step": 9028 + }, + { + "epoch": 0.9630933333333334, + "grad_norm": 2.027048127070497, + "learning_rate": 3.5682915307434505e-08, + "loss": 0.4508, + "step": 9029 + }, + { + "avg_step_time": 5.7586461895644065, + "epoch": 0.9630933333333334, + "eta_time": 0.5534698837748012, + "step": 9029 + }, + { + "epoch": 0.9632, + "grad_norm": 1.9831124795044415, + "learning_rate": 3.547719765640778e-08, + "loss": 0.4471, + "step": 9030 + }, + { + "avg_step_time": 5.757823264960087, + "epoch": 0.9632, + "eta_time": 0.5517913962253417, + "step": 9030 + }, + { + "epoch": 0.9633066666666666, + "grad_norm": 1.7557432805106505, + "learning_rate": 3.527207260704713e-08, + "loss": 0.5033, + "step": 9031 + }, + { + "avg_step_time": 5.771434280607435, + "epoch": 0.9633066666666666, + "eta_time": 0.5514926090358216, + "step": 9031 + }, + { + "epoch": 0.9634133333333333, + "grad_norm": 2.0422140904169495, + "learning_rate": 3.5067540183839064e-08, + "loss": 0.4681, + "step": 9032 + }, + { + "avg_step_time": 5.768866112737944, + "epoch": 0.9634133333333333, + "eta_time": 0.5496447435191986, + "step": 9032 + }, + { + "epoch": 0.96352, + "grad_norm": 1.7570570147596931, + "learning_rate": 3.4863600411197404e-08, + "loss": 0.5075, + "step": 9033 + }, + { + "avg_step_time": 5.7860912217034235, + "epoch": 0.96352, + "eta_time": 0.5496786660618252, + "step": 9033 + }, + { + "epoch": 0.9636266666666666, + "grad_norm": 1.7719053533351885, + "learning_rate": 3.4660253313466564e-08, + "loss": 0.4643, + "step": 9034 + }, + { + "avg_step_time": 5.7690718198063395, + "epoch": 0.9636266666666666, + "eta_time": 0.546459302931656, + "step": 9034 + }, + { + "epoch": 0.9637333333333333, + "grad_norm": 0.6276659081777077, + "learning_rate": 3.445749891491823e-08, + "loss": 0.4273, + "step": 9035 + }, + { + "avg_step_time": 5.734025538569749, + "epoch": 0.9637333333333333, + "eta_time": 0.5415468564204763, + "step": 9035 + }, + { + "epoch": 0.96384, + "grad_norm": 1.8182611877576897, + "learning_rate": 3.425533723975527e-08, + "loss": 0.424, + "step": 9036 + }, + { + "avg_step_time": 5.731007616929333, + "epoch": 0.96384, + "eta_time": 0.5396698839275123, + "step": 9036 + }, + { + "epoch": 0.9639466666666666, + "grad_norm": 0.6494551875997067, + "learning_rate": 3.405376831211005e-08, + "loss": 0.4596, + "step": 9037 + }, + { + "avg_step_time": 5.696058437077686, + "epoch": 0.9639466666666666, + "eta_time": 0.5347965977034049, + "step": 9037 + }, + { + "epoch": 0.9640533333333333, + "grad_norm": 1.853489667972979, + "learning_rate": 3.3852792156041646e-08, + "loss": 0.4952, + "step": 9038 + }, + { + "avg_step_time": 5.696208479428532, + "epoch": 0.9640533333333333, + "eta_time": 0.5332284048798376, + "step": 9038 + }, + { + "epoch": 0.96416, + "grad_norm": 0.6633459174911238, + "learning_rate": 3.365240879554144e-08, + "loss": 0.4617, + "step": 9039 + }, + { + "avg_step_time": 5.660939948727386, + "epoch": 0.96416, + "eta_time": 0.5283543952145561, + "step": 9039 + }, + { + "epoch": 0.9642666666666667, + "grad_norm": 1.9051593694838993, + "learning_rate": 3.345261825452806e-08, + "loss": 0.4919, + "step": 9040 + }, + { + "avg_step_time": 5.664591447271482, + "epoch": 0.9642666666666667, + "eta_time": 0.5271217041210963, + "step": 9040 + }, + { + "epoch": 0.9643733333333333, + "grad_norm": 0.6562475301529724, + "learning_rate": 3.325342055684966e-08, + "loss": 0.435, + "step": 9041 + }, + { + "avg_step_time": 5.6532399630305745, + "epoch": 0.9643733333333333, + "eta_time": 0.5244950410145033, + "step": 9041 + }, + { + "epoch": 0.96448, + "grad_norm": 2.2003512086047414, + "learning_rate": 3.3054815726285e-08, + "loss": 0.5171, + "step": 9042 + }, + { + "avg_step_time": 5.654323917446715, + "epoch": 0.96448, + "eta_time": 0.5230249623638211, + "step": 9042 + }, + { + "epoch": 0.9645866666666667, + "grad_norm": 2.0409943950026834, + "learning_rate": 3.2856803786540105e-08, + "loss": 0.5911, + "step": 9043 + }, + { + "avg_step_time": 5.651283880676886, + "epoch": 0.9645866666666667, + "eta_time": 0.5211739578846462, + "step": 9043 + }, + { + "epoch": 0.9646933333333333, + "grad_norm": 1.7264012752560622, + "learning_rate": 3.265938476125108e-08, + "loss": 0.4074, + "step": 9044 + }, + { + "avg_step_time": 5.650207832606152, + "epoch": 0.9646933333333333, + "eta_time": 0.5195052201646212, + "step": 9044 + }, + { + "epoch": 0.9648, + "grad_norm": 1.980947093076151, + "learning_rate": 3.2462558673983516e-08, + "loss": 0.5448, + "step": 9045 + }, + { + "avg_step_time": 5.691453794036248, + "epoch": 0.9648, + "eta_time": 0.5217165977866561, + "step": 9045 + }, + { + "epoch": 0.9649066666666667, + "grad_norm": 1.6539927975734832, + "learning_rate": 3.22663255482325e-08, + "loss": 0.5064, + "step": 9046 + }, + { + "avg_step_time": 5.692240570530747, + "epoch": 0.9649066666666667, + "eta_time": 0.52020754102906, + "step": 9046 + }, + { + "epoch": 0.9650133333333333, + "grad_norm": 1.9137563157191686, + "learning_rate": 3.2070685407420974e-08, + "loss": 0.4847, + "step": 9047 + }, + { + "avg_step_time": 5.690618640244609, + "epoch": 0.9650133333333333, + "eta_time": 0.5184785872222866, + "step": 9047 + }, + { + "epoch": 0.96512, + "grad_norm": 1.8848279571616362, + "learning_rate": 3.1875638274902476e-08, + "loss": 0.4711, + "step": 9048 + }, + { + "avg_step_time": 5.688332439673068, + "epoch": 0.96512, + "eta_time": 0.516690196603637, + "step": 9048 + }, + { + "epoch": 0.9652266666666667, + "grad_norm": 1.9283017953302952, + "learning_rate": 3.168118417395949e-08, + "loss": 0.5189, + "step": 9049 + }, + { + "avg_step_time": 5.704935993811096, + "epoch": 0.9652266666666667, + "eta_time": 0.5166136483284494, + "step": 9049 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 2.0196960851506267, + "learning_rate": 3.148732312780234e-08, + "loss": 0.4829, + "step": 9050 + }, + { + "avg_step_time": 5.704020584472502, + "epoch": 0.9653333333333334, + "eta_time": 0.5149463027648786, + "step": 9050 + }, + { + "epoch": 0.96544, + "grad_norm": 1.5708165774053284, + "learning_rate": 3.129405515957307e-08, + "loss": 0.5037, + "step": 9051 + }, + { + "avg_step_time": 5.705350158190487, + "epoch": 0.96544, + "eta_time": 0.5134815142371438, + "step": 9051 + }, + { + "epoch": 0.9655466666666667, + "grad_norm": 1.7735159497136628, + "learning_rate": 3.1101380292341e-08, + "loss": 0.5418, + "step": 9052 + }, + { + "avg_step_time": 5.707794849318687, + "epoch": 0.9655466666666667, + "eta_time": 0.5121160378694266, + "step": 9052 + }, + { + "epoch": 0.9656533333333334, + "grad_norm": 0.6181737083587299, + "learning_rate": 3.090929854910552e-08, + "loss": 0.3974, + "step": 9053 + }, + { + "avg_step_time": 5.675149671959154, + "epoch": 0.9656533333333334, + "eta_time": 0.5076106095474577, + "step": 9053 + }, + { + "epoch": 0.96576, + "grad_norm": 1.8598863236880296, + "learning_rate": 3.071780995279439e-08, + "loss": 0.4855, + "step": 9054 + }, + { + "avg_step_time": 5.70808052294182, + "epoch": 0.96576, + "eta_time": 0.5089705132956457, + "step": 9054 + }, + { + "epoch": 0.9658666666666667, + "grad_norm": 1.874254483501557, + "learning_rate": 3.0526914526264884e-08, + "loss": 0.4815, + "step": 9055 + }, + { + "avg_step_time": 5.710217097792962, + "epoch": 0.9658666666666667, + "eta_time": 0.5075748531371522, + "step": 9055 + }, + { + "epoch": 0.9659733333333334, + "grad_norm": 1.8117843291084965, + "learning_rate": 3.033661229230434e-08, + "loss": 0.5656, + "step": 9056 + }, + { + "avg_step_time": 5.707003718674785, + "epoch": 0.9659733333333334, + "eta_time": 0.5057039406270156, + "step": 9056 + }, + { + "epoch": 0.96608, + "grad_norm": 1.7368999711785307, + "learning_rate": 3.014690327362846e-08, + "loss": 0.4459, + "step": 9057 + }, + { + "avg_step_time": 5.71030328972171, + "epoch": 0.96608, + "eta_time": 0.5044101239254177, + "step": 9057 + }, + { + "epoch": 0.9661866666666666, + "grad_norm": 1.7643109904433696, + "learning_rate": 2.9957787492882474e-08, + "loss": 0.4789, + "step": 9058 + }, + { + "avg_step_time": 5.706573734379778, + "epoch": 0.9661866666666666, + "eta_time": 0.5024955204995527, + "step": 9058 + }, + { + "epoch": 0.9662933333333333, + "grad_norm": 0.6230718613068977, + "learning_rate": 2.9769264972639435e-08, + "loss": 0.4322, + "step": 9059 + }, + { + "avg_step_time": 5.697479067426739, + "epoch": 0.9662933333333333, + "eta_time": 0.500112051474125, + "step": 9059 + }, + { + "epoch": 0.9664, + "grad_norm": 2.0837403884662593, + "learning_rate": 2.9581335735404672e-08, + "loss": 0.5272, + "step": 9060 + }, + { + "avg_step_time": 5.70266308928981, + "epoch": 0.9664, + "eta_time": 0.49898302031285835, + "step": 9060 + }, + { + "epoch": 0.9665066666666666, + "grad_norm": 1.8172886399074561, + "learning_rate": 2.939399980360913e-08, + "loss": 0.4351, + "step": 9061 + }, + { + "avg_step_time": 5.702020522319909, + "epoch": 0.9665066666666666, + "eta_time": 0.49734290111345875, + "step": 9061 + }, + { + "epoch": 0.9666133333333333, + "grad_norm": 2.228746343825319, + "learning_rate": 2.9207257199616033e-08, + "loss": 0.5062, + "step": 9062 + }, + { + "avg_step_time": 5.705083598994245, + "epoch": 0.9666133333333333, + "eta_time": 0.49602532402366634, + "step": 9062 + }, + { + "epoch": 0.96672, + "grad_norm": 3.473058886990661, + "learning_rate": 2.9021107945714777e-08, + "loss": 0.4494, + "step": 9063 + }, + { + "avg_step_time": 5.70038875184878, + "epoch": 0.96672, + "eta_time": 0.4940336918268943, + "step": 9063 + }, + { + "epoch": 0.9668266666666666, + "grad_norm": 1.706575647864, + "learning_rate": 2.883555206412647e-08, + "loss": 0.4374, + "step": 9064 + }, + { + "avg_step_time": 5.70140056417446, + "epoch": 0.9668266666666666, + "eta_time": 0.4925376598495158, + "step": 9064 + }, + { + "epoch": 0.9669333333333333, + "grad_norm": 0.6155722716274871, + "learning_rate": 2.8650589577000066e-08, + "loss": 0.4088, + "step": 9065 + }, + { + "avg_step_time": 5.6354314727012556, + "epoch": 0.9669333333333333, + "eta_time": 0.4852732657048303, + "step": 9065 + }, + { + "epoch": 0.96704, + "grad_norm": 1.9427425231530233, + "learning_rate": 2.8466220506414565e-08, + "loss": 0.5, + "step": 9066 + }, + { + "avg_step_time": 5.638682904869619, + "epoch": 0.96704, + "eta_time": 0.48398694933464237, + "step": 9066 + }, + { + "epoch": 0.9671466666666667, + "grad_norm": 1.9265218610290669, + "learning_rate": 2.828244487437737e-08, + "loss": 0.4798, + "step": 9067 + }, + { + "avg_step_time": 5.640161849031545, + "epoch": 0.9671466666666667, + "eta_time": 0.4825471804171433, + "step": 9067 + }, + { + "epoch": 0.9672533333333333, + "grad_norm": 1.7485233930483939, + "learning_rate": 2.8099262702824814e-08, + "loss": 0.3927, + "step": 9068 + }, + { + "avg_step_time": 5.63825116976343, + "epoch": 0.9672533333333333, + "eta_time": 0.48081753031038144, + "step": 9068 + }, + { + "epoch": 0.96736, + "grad_norm": 1.6485558146502344, + "learning_rate": 2.79166740136233e-08, + "loss": 0.3969, + "step": 9069 + }, + { + "avg_step_time": 5.647050070040153, + "epoch": 0.96736, + "eta_time": 0.47999925595341303, + "step": 9069 + }, + { + "epoch": 0.9674666666666667, + "grad_norm": 1.7613939946668415, + "learning_rate": 2.773467882856762e-08, + "loss": 0.4322, + "step": 9070 + }, + { + "avg_step_time": 5.655306071946115, + "epoch": 0.9674666666666667, + "eta_time": 0.4791300977621014, + "step": 9070 + }, + { + "epoch": 0.9675733333333333, + "grad_norm": 1.913383437470053, + "learning_rate": 2.755327716938261e-08, + "loss": 0.5364, + "step": 9071 + }, + { + "avg_step_time": 5.650488383842237, + "epoch": 0.9675733333333333, + "eta_time": 0.4771523524133445, + "step": 9071 + }, + { + "epoch": 0.96768, + "grad_norm": 1.90238709774815, + "learning_rate": 2.7372469057721506e-08, + "loss": 0.5688, + "step": 9072 + }, + { + "avg_step_time": 5.649493513685284, + "epoch": 0.96768, + "eta_time": 0.47549903740184474, + "step": 9072 + }, + { + "epoch": 0.9677866666666667, + "grad_norm": 2.0189901946476305, + "learning_rate": 2.7192254515166495e-08, + "loss": 0.4393, + "step": 9073 + }, + { + "avg_step_time": 5.65186254665105, + "epoch": 0.9677866666666667, + "eta_time": 0.47412846919128254, + "step": 9073 + }, + { + "epoch": 0.9678933333333334, + "grad_norm": 1.9194761185316926, + "learning_rate": 2.7012633563229808e-08, + "loss": 0.4564, + "step": 9074 + }, + { + "avg_step_time": 5.651685298091233, + "epoch": 0.9678933333333334, + "eta_time": 0.4725436874237392, + "step": 9074 + }, + { + "epoch": 0.968, + "grad_norm": 1.9746790486915484, + "learning_rate": 2.6833606223351515e-08, + "loss": 0.451, + "step": 9075 + }, + { + "avg_step_time": 5.629696082587194, + "epoch": 0.968, + "eta_time": 0.46914134021559944, + "step": 9075 + }, + { + "epoch": 0.9681066666666667, + "grad_norm": 1.9881845107890943, + "learning_rate": 2.6655172516902304e-08, + "loss": 0.5736, + "step": 9076 + }, + { + "avg_step_time": 5.672308577431573, + "epoch": 0.9681066666666667, + "eta_time": 0.4711167401811223, + "step": 9076 + }, + { + "epoch": 0.9682133333333334, + "grad_norm": 1.9022083278974107, + "learning_rate": 2.647733246518125e-08, + "loss": 0.4875, + "step": 9077 + }, + { + "avg_step_time": 5.650884055128001, + "epoch": 0.9682133333333334, + "eta_time": 0.46776762456337345, + "step": 9077 + }, + { + "epoch": 0.96832, + "grad_norm": 2.0331158116768844, + "learning_rate": 2.6300086089416366e-08, + "loss": 0.508, + "step": 9078 + }, + { + "avg_step_time": 5.683741687524198, + "epoch": 0.96832, + "eta_time": 0.46890868922074636, + "step": 9078 + }, + { + "epoch": 0.9684266666666667, + "grad_norm": 1.8119412250715627, + "learning_rate": 2.612343341076573e-08, + "loss": 0.4286, + "step": 9079 + }, + { + "avg_step_time": 5.684153007738518, + "epoch": 0.9684266666666667, + "eta_time": 0.46736369174738923, + "step": 9079 + }, + { + "epoch": 0.9685333333333334, + "grad_norm": 2.104957429718217, + "learning_rate": 2.5947374450315254e-08, + "loss": 0.4581, + "step": 9080 + }, + { + "avg_step_time": 5.685184406511711, + "epoch": 0.9685333333333334, + "eta_time": 0.46586927775582077, + "step": 9080 + }, + { + "epoch": 0.96864, + "grad_norm": 1.8544375316852435, + "learning_rate": 2.577190922908035e-08, + "loss": 0.5769, + "step": 9081 + }, + { + "avg_step_time": 5.684989683555834, + "epoch": 0.96864, + "eta_time": 0.46427415749039314, + "step": 9081 + }, + { + "epoch": 0.9687466666666666, + "grad_norm": 2.22300327437617, + "learning_rate": 2.559703776800704e-08, + "loss": 0.532, + "step": 9082 + }, + { + "avg_step_time": 5.715543376074897, + "epoch": 0.9687466666666666, + "eta_time": 0.46518172477498465, + "step": 9082 + }, + { + "epoch": 0.9688533333333333, + "grad_norm": 2.004841619009467, + "learning_rate": 2.542276008796807e-08, + "loss": 0.5189, + "step": 9083 + }, + { + "avg_step_time": 5.708962705400255, + "epoch": 0.9688533333333333, + "eta_time": 0.4630603083269096, + "step": 9083 + }, + { + "epoch": 0.96896, + "grad_norm": 1.8850178493161895, + "learning_rate": 2.5249076209767353e-08, + "loss": 0.4375, + "step": 9084 + }, + { + "avg_step_time": 5.708670377731323, + "epoch": 0.96896, + "eta_time": 0.46145085553328197, + "step": 9084 + }, + { + "epoch": 0.9690666666666666, + "grad_norm": 1.6884201356024977, + "learning_rate": 2.507598615413609e-08, + "loss": 0.5301, + "step": 9085 + }, + { + "avg_step_time": 5.7097399596012, + "epoch": 0.9690666666666666, + "eta_time": 0.45995127452343, + "step": 9085 + }, + { + "epoch": 0.9691733333333333, + "grad_norm": 1.7573674908764636, + "learning_rate": 2.490348994173608e-08, + "loss": 0.4368, + "step": 9086 + }, + { + "avg_step_time": 5.698059481803817, + "epoch": 0.9691733333333333, + "eta_time": 0.4574275528448064, + "step": 9086 + }, + { + "epoch": 0.96928, + "grad_norm": 2.101125559007809, + "learning_rate": 2.473158759315808e-08, + "loss": 0.5526, + "step": 9087 + }, + { + "avg_step_time": 5.694703788468332, + "epoch": 0.96928, + "eta_time": 0.45557630307746655, + "step": 9087 + }, + { + "epoch": 0.9693866666666666, + "grad_norm": 1.9934865679277554, + "learning_rate": 2.4560279128921226e-08, + "loss": 0.5636, + "step": 9088 + }, + { + "avg_step_time": 5.695128929735434, + "epoch": 0.9693866666666666, + "eta_time": 0.45402833412057486, + "step": 9088 + }, + { + "epoch": 0.9694933333333333, + "grad_norm": 1.8935871754885396, + "learning_rate": 2.4389564569474166e-08, + "loss": 0.4791, + "step": 9089 + }, + { + "avg_step_time": 5.693399306499597, + "epoch": 0.9694933333333333, + "eta_time": 0.45230894490524576, + "step": 9089 + }, + { + "epoch": 0.9696, + "grad_norm": 1.9601790945945408, + "learning_rate": 2.421944393519504e-08, + "loss": 0.4498, + "step": 9090 + }, + { + "avg_step_time": 5.688761858024982, + "epoch": 0.9696, + "eta_time": 0.45036031376031105, + "step": 9090 + }, + { + "epoch": 0.9697066666666667, + "grad_norm": 1.7721122936597804, + "learning_rate": 2.404991724638983e-08, + "loss": 0.4098, + "step": 9091 + }, + { + "avg_step_time": 5.6941515532406894, + "epoch": 0.9697066666666667, + "eta_time": 0.44920528920009883, + "step": 9091 + }, + { + "epoch": 0.9698133333333333, + "grad_norm": 1.9738859821328836, + "learning_rate": 2.3880984523295124e-08, + "loss": 0.5259, + "step": 9092 + }, + { + "avg_step_time": 5.695420310954855, + "epoch": 0.9698133333333333, + "eta_time": 0.4477233188889511, + "step": 9092 + }, + { + "epoch": 0.96992, + "grad_norm": 1.753253638443278, + "learning_rate": 2.3712645786075905e-08, + "loss": 0.4723, + "step": 9093 + }, + { + "avg_step_time": 5.696881472462356, + "epoch": 0.96992, + "eta_time": 0.44625571534288455, + "step": 9093 + }, + { + "epoch": 0.9700266666666667, + "grad_norm": 1.7718826682184428, + "learning_rate": 2.35449010548261e-08, + "loss": 0.519, + "step": 9094 + }, + { + "avg_step_time": 5.6976820989088575, + "epoch": 0.9700266666666667, + "eta_time": 0.4447357416092747, + "step": 9094 + }, + { + "epoch": 0.9701333333333333, + "grad_norm": 1.9904342474731394, + "learning_rate": 2.337775034956913e-08, + "loss": 0.5335, + "step": 9095 + }, + { + "avg_step_time": 5.699160852817574, + "epoch": 0.9701333333333333, + "eta_time": 0.44326806633025573, + "step": 9095 + }, + { + "epoch": 0.97024, + "grad_norm": 1.8364158043128458, + "learning_rate": 2.3211193690257373e-08, + "loss": 0.5069, + "step": 9096 + }, + { + "avg_step_time": 5.6866744985484114, + "epoch": 0.97024, + "eta_time": 0.44071727363750185, + "step": 9096 + }, + { + "epoch": 0.9703466666666667, + "grad_norm": 2.0662999177047614, + "learning_rate": 2.304523109677159e-08, + "loss": 0.5416, + "step": 9097 + }, + { + "avg_step_time": 5.807447840469052, + "epoch": 0.9703466666666667, + "eta_time": 0.4484640276806657, + "step": 9097 + }, + { + "epoch": 0.9704533333333333, + "grad_norm": 1.9611191503059477, + "learning_rate": 2.2879862588923717e-08, + "loss": 0.5572, + "step": 9098 + }, + { + "avg_step_time": 5.819551915833444, + "epoch": 0.9704533333333333, + "eta_time": 0.44778218907940665, + "step": 9098 + }, + { + "epoch": 0.97056, + "grad_norm": 1.7484680545114235, + "learning_rate": 2.271508818645185e-08, + "loss": 0.5277, + "step": 9099 + }, + { + "avg_step_time": 5.8104772808575875, + "epoch": 0.97056, + "eta_time": 0.4454699248657484, + "step": 9099 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 2.0579048578840733, + "learning_rate": 2.2550907909025255e-08, + "loss": 0.5292, + "step": 9100 + }, + { + "avg_step_time": 5.81557578992362, + "epoch": 0.9706666666666667, + "eta_time": 0.44424537284138765, + "step": 9100 + }, + { + "epoch": 0.9707733333333334, + "grad_norm": 1.725561813495525, + "learning_rate": 2.2387321776242143e-08, + "loss": 0.4015, + "step": 9101 + }, + { + "avg_step_time": 5.826632270909319, + "epoch": 0.9707733333333334, + "eta_time": 0.44347145617476486, + "step": 9101 + }, + { + "epoch": 0.97088, + "grad_norm": 1.7284777932597406, + "learning_rate": 2.222432980762912e-08, + "loss": 0.4986, + "step": 9102 + }, + { + "avg_step_time": 5.827557366303723, + "epoch": 0.97088, + "eta_time": 0.44192310027803233, + "step": 9102 + }, + { + "epoch": 0.9709866666666667, + "grad_norm": 1.9018524847281753, + "learning_rate": 2.2061932022641175e-08, + "loss": 0.4924, + "step": 9103 + }, + { + "avg_step_time": 5.8266408949187305, + "epoch": 0.9709866666666667, + "eta_time": 0.44023508983830406, + "step": 9103 + }, + { + "epoch": 0.9710933333333334, + "grad_norm": 0.6554674080228784, + "learning_rate": 2.1900128440663913e-08, + "loss": 0.4224, + "step": 9104 + }, + { + "avg_step_time": 5.789513575910318, + "epoch": 0.9710933333333334, + "eta_time": 0.43582171640880446, + "step": 9104 + }, + { + "epoch": 0.9712, + "grad_norm": 1.911039491888803, + "learning_rate": 2.1738919081012446e-08, + "loss": 0.553, + "step": 9105 + }, + { + "avg_step_time": 5.790171013938056, + "epoch": 0.9712, + "eta_time": 0.4342628260453542, + "step": 9105 + }, + { + "epoch": 0.9713066666666667, + "grad_norm": 0.65289835896424, + "learning_rate": 2.157830396292804e-08, + "loss": 0.4253, + "step": 9106 + }, + { + "avg_step_time": 5.7561756239997015, + "epoch": 0.9713066666666667, + "eta_time": 0.43011423412664435, + "step": 9106 + }, + { + "epoch": 0.9714133333333334, + "grad_norm": 1.7326759330962387, + "learning_rate": 2.1418283105584246e-08, + "loss": 0.4508, + "step": 9107 + }, + { + "avg_step_time": 5.759001796895808, + "epoch": 0.9714133333333334, + "eta_time": 0.42872568932446564, + "step": 9107 + }, + { + "epoch": 0.97152, + "grad_norm": 2.518437949824636, + "learning_rate": 2.1258856528081906e-08, + "loss": 0.39, + "step": 9108 + }, + { + "avg_step_time": 5.756867211274426, + "epoch": 0.97152, + "eta_time": 0.4269676515028533, + "step": 9108 + }, + { + "epoch": 0.9716266666666666, + "grad_norm": 1.8184084965997571, + "learning_rate": 2.1100024249451347e-08, + "loss": 0.478, + "step": 9109 + }, + { + "avg_step_time": 5.75474939683471, + "epoch": 0.9716266666666666, + "eta_time": 0.42521203876612024, + "step": 9109 + }, + { + "epoch": 0.9717333333333333, + "grad_norm": 1.7792282016482595, + "learning_rate": 2.094178628865129e-08, + "loss": 0.4525, + "step": 9110 + }, + { + "avg_step_time": 5.75506436945212, + "epoch": 0.9717333333333333, + "eta_time": 0.42363668275133665, + "step": 9110 + }, + { + "epoch": 0.97184, + "grad_norm": 1.9236056070060812, + "learning_rate": 2.0784142664571626e-08, + "loss": 0.4672, + "step": 9111 + }, + { + "avg_step_time": 5.790112883153588, + "epoch": 0.97184, + "eta_time": 0.42460827809792984, + "step": 9111 + }, + { + "epoch": 0.9719466666666666, + "grad_norm": 0.6227386740429594, + "learning_rate": 2.0627093396028418e-08, + "loss": 0.4256, + "step": 9112 + }, + { + "avg_step_time": 5.757276462786125, + "epoch": 0.9719466666666666, + "eta_time": 0.42060103047576414, + "step": 9112 + }, + { + "epoch": 0.9720533333333333, + "grad_norm": 0.6650418281392679, + "learning_rate": 2.047063850176889e-08, + "loss": 0.4794, + "step": 9113 + }, + { + "avg_step_time": 5.734489703419233, + "epoch": 0.9720533333333333, + "eta_time": 0.4173434173043998, + "step": 9113 + }, + { + "epoch": 0.97216, + "grad_norm": 1.8287601829983406, + "learning_rate": 2.031477800046866e-08, + "loss": 0.5755, + "step": 9114 + }, + { + "avg_step_time": 5.733682622813215, + "epoch": 0.97216, + "eta_time": 0.4156919901539581, + "step": 9114 + }, + { + "epoch": 0.9722666666666666, + "grad_norm": 2.1067736959422754, + "learning_rate": 2.015951191073229e-08, + "loss": 0.4805, + "step": 9115 + }, + { + "avg_step_time": 5.735045401736944, + "epoch": 0.9722666666666666, + "eta_time": 0.41419772345877925, + "step": 9115 + }, + { + "epoch": 0.9723733333333333, + "grad_norm": 0.6340301387952495, + "learning_rate": 2.0004840251093284e-08, + "loss": 0.4452, + "step": 9116 + }, + { + "avg_step_time": 5.722753529596811, + "epoch": 0.9723733333333333, + "eta_time": 0.4117203233793261, + "step": 9116 + }, + { + "epoch": 0.97248, + "grad_norm": 1.9900788927729975, + "learning_rate": 1.9850763040014654e-08, + "loss": 0.512, + "step": 9117 + }, + { + "avg_step_time": 5.735654286663942, + "epoch": 0.97248, + "eta_time": 0.4110552238775825, + "step": 9117 + }, + { + "epoch": 0.9725866666666667, + "grad_norm": 1.9647181208800109, + "learning_rate": 1.9697280295888356e-08, + "loss": 0.466, + "step": 9118 + }, + { + "avg_step_time": 5.733721617496375, + "epoch": 0.9725866666666667, + "eta_time": 0.409324015471269, + "step": 9118 + }, + { + "epoch": 0.9726933333333333, + "grad_norm": 1.8605381792829876, + "learning_rate": 1.9544392037034175e-08, + "loss": 0.523, + "step": 9119 + }, + { + "avg_step_time": 5.729382050157797, + "epoch": 0.9726933333333333, + "eta_time": 0.40742272356677667, + "step": 9119 + }, + { + "epoch": 0.9728, + "grad_norm": 1.8552675587042773, + "learning_rate": 1.939209828170363e-08, + "loss": 0.4672, + "step": 9120 + }, + { + "avg_step_time": 5.726117008864278, + "epoch": 0.9728, + "eta_time": 0.40559995479455296, + "step": 9120 + }, + { + "epoch": 0.9729066666666667, + "grad_norm": 1.7403101638770306, + "learning_rate": 1.9240399048074398e-08, + "loss": 0.4062, + "step": 9121 + }, + { + "avg_step_time": 5.723578715565229, + "epoch": 0.9729066666666667, + "eta_time": 0.4038302760426578, + "step": 9121 + }, + { + "epoch": 0.9730133333333333, + "grad_norm": 1.8423320293835648, + "learning_rate": 1.9089294354254216e-08, + "loss": 0.4399, + "step": 9122 + }, + { + "avg_step_time": 5.7152155529369, + "epoch": 0.9730133333333333, + "eta_time": 0.4016526485813989, + "step": 9122 + }, + { + "epoch": 0.97312, + "grad_norm": 1.9990015830404346, + "learning_rate": 1.8938784218281435e-08, + "loss": 0.4419, + "step": 9123 + }, + { + "avg_step_time": 5.710731956693861, + "epoch": 0.97312, + "eta_time": 0.3997512369685703, + "step": 9123 + }, + { + "epoch": 0.9732266666666667, + "grad_norm": 1.9424484232741264, + "learning_rate": 1.8788868658120573e-08, + "loss": 0.4906, + "step": 9124 + }, + { + "avg_step_time": 5.708572724852899, + "epoch": 0.9732266666666667, + "eta_time": 0.39801437609391044, + "step": 9124 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 0.6625281265707177, + "learning_rate": 1.863954769166676e-08, + "loss": 0.4366, + "step": 9125 + }, + { + "avg_step_time": 5.6755023147120625, + "epoch": 0.9733333333333334, + "eta_time": 0.3941321051883377, + "step": 9125 + }, + { + "epoch": 0.97344, + "grad_norm": 1.822969029128937, + "learning_rate": 1.849082133674518e-08, + "loss": 0.4593, + "step": 9126 + }, + { + "avg_step_time": 5.751187078880541, + "epoch": 0.97344, + "eta_time": 0.39779043962257077, + "step": 9126 + }, + { + "epoch": 0.9735466666666667, + "grad_norm": 1.7454155940494798, + "learning_rate": 1.83426896111083e-08, + "loss": 0.5615, + "step": 9127 + }, + { + "avg_step_time": 5.754517694916388, + "epoch": 0.9735466666666667, + "eta_time": 0.3964223300942401, + "step": 9127 + }, + { + "epoch": 0.9736533333333334, + "grad_norm": 1.9491697837270647, + "learning_rate": 1.8195152532437533e-08, + "loss": 0.4894, + "step": 9128 + }, + { + "avg_step_time": 5.764587346953575, + "epoch": 0.9736533333333334, + "eta_time": 0.39551474297153694, + "step": 9128 + }, + { + "epoch": 0.97376, + "grad_norm": 1.957861068799525, + "learning_rate": 1.80482101183449e-08, + "loss": 0.4752, + "step": 9129 + }, + { + "avg_step_time": 5.76924765712083, + "epoch": 0.97376, + "eta_time": 0.39423192323659, + "step": 9129 + }, + { + "epoch": 0.9738666666666667, + "grad_norm": 0.6517551181979068, + "learning_rate": 1.790186238637026e-08, + "loss": 0.462, + "step": 9130 + }, + { + "avg_step_time": 5.7296952864136355, + "epoch": 0.9738666666666667, + "eta_time": 0.38993759588092797, + "step": 9130 + }, + { + "epoch": 0.9739733333333334, + "grad_norm": 1.7382231975751707, + "learning_rate": 1.775610935398242e-08, + "loss": 0.418, + "step": 9131 + }, + { + "avg_step_time": 5.730245961083306, + "epoch": 0.9739733333333334, + "eta_time": 0.38838333736231295, + "step": 9131 + }, + { + "epoch": 0.97408, + "grad_norm": 1.8902598441860707, + "learning_rate": 1.761095103858024e-08, + "loss": 0.5352, + "step": 9132 + }, + { + "avg_step_time": 5.714958193326237, + "epoch": 0.97408, + "eta_time": 0.385759678049521, + "step": 9132 + }, + { + "epoch": 0.9741866666666666, + "grad_norm": 1.7949303043630433, + "learning_rate": 1.7466387457489853e-08, + "loss": 0.5191, + "step": 9133 + }, + { + "avg_step_time": 5.713447717705158, + "epoch": 0.9741866666666666, + "eta_time": 0.3840706521346245, + "step": 9133 + }, + { + "epoch": 0.9742933333333333, + "grad_norm": 1.7049730062839796, + "learning_rate": 1.7322418627968574e-08, + "loss": 0.5127, + "step": 9134 + }, + { + "avg_step_time": 5.746439668867323, + "epoch": 0.9742933333333333, + "eta_time": 0.38469221116584024, + "step": 9134 + }, + { + "epoch": 0.9744, + "grad_norm": 1.7530284193039287, + "learning_rate": 1.717904456720043e-08, + "loss": 0.4738, + "step": 9135 + }, + { + "avg_step_time": 5.738507786182442, + "epoch": 0.9744, + "eta_time": 0.38256718574549614, + "step": 9135 + }, + { + "epoch": 0.9745066666666666, + "grad_norm": 1.8110645839363637, + "learning_rate": 1.7036265292300624e-08, + "loss": 0.4133, + "step": 9136 + }, + { + "avg_step_time": 5.773759637216125, + "epoch": 0.9745066666666666, + "eta_time": 0.38331348702629275, + "step": 9136 + }, + { + "epoch": 0.9746133333333333, + "grad_norm": 0.6635299149090718, + "learning_rate": 1.689408082031163e-08, + "loss": 0.4353, + "step": 9137 + }, + { + "avg_step_time": 5.742656534368342, + "epoch": 0.9746133333333333, + "eta_time": 0.3796534042165737, + "step": 9137 + }, + { + "epoch": 0.97472, + "grad_norm": 1.598172860925841, + "learning_rate": 1.675249116820543e-08, + "loss": 0.495, + "step": 9138 + }, + { + "avg_step_time": 5.779625232773598, + "epoch": 0.97472, + "eta_time": 0.3804919944909285, + "step": 9138 + }, + { + "epoch": 0.9748266666666666, + "grad_norm": 1.7385543237664192, + "learning_rate": 1.661149635288406e-08, + "loss": 0.4504, + "step": 9139 + }, + { + "avg_step_time": 5.775261592383337, + "epoch": 0.9748266666666666, + "eta_time": 0.3786004821673521, + "step": 9139 + }, + { + "epoch": 0.9749333333333333, + "grad_norm": 2.3455803318899093, + "learning_rate": 1.6471096391177388e-08, + "loss": 0.5004, + "step": 9140 + }, + { + "avg_step_time": 5.784933015553638, + "epoch": 0.9749333333333333, + "eta_time": 0.37762757184864026, + "step": 9140 + }, + { + "epoch": 0.97504, + "grad_norm": 1.9182112941216347, + "learning_rate": 1.6331291299844233e-08, + "loss": 0.5203, + "step": 9141 + }, + { + "avg_step_time": 5.78305834953231, + "epoch": 0.97504, + "eta_time": 0.37589879271960014, + "step": 9141 + }, + { + "epoch": 0.9751466666666667, + "grad_norm": 1.9033300300312574, + "learning_rate": 1.6192081095572908e-08, + "loss": 0.5439, + "step": 9142 + }, + { + "avg_step_time": 5.784669933897076, + "epoch": 0.9751466666666667, + "eta_time": 0.37439669294389405, + "step": 9142 + }, + { + "epoch": 0.9752533333333333, + "grad_norm": 1.903830572033925, + "learning_rate": 1.6053465794980682e-08, + "loss": 0.5259, + "step": 9143 + }, + { + "avg_step_time": 5.786013384058018, + "epoch": 0.9752533333333333, + "eta_time": 0.37287641808373895, + "step": 9143 + }, + { + "epoch": 0.97536, + "grad_norm": 1.7535613563612134, + "learning_rate": 1.5915445414613208e-08, + "loss": 0.4575, + "step": 9144 + }, + { + "avg_step_time": 5.777958554450912, + "epoch": 0.97536, + "eta_time": 0.3707523405772668, + "step": 9144 + }, + { + "epoch": 0.9754666666666667, + "grad_norm": 1.9021217276047628, + "learning_rate": 1.5778019970946744e-08, + "loss": 0.3429, + "step": 9145 + }, + { + "avg_step_time": 5.777021070923468, + "epoch": 0.9754666666666667, + "eta_time": 0.36908745730899933, + "step": 9145 + }, + { + "epoch": 0.9755733333333333, + "grad_norm": 2.1238501949873703, + "learning_rate": 1.564118948038429e-08, + "loss": 0.5033, + "step": 9146 + }, + { + "avg_step_time": 5.781888511445787, + "epoch": 0.9755733333333333, + "eta_time": 0.3677923525336348, + "step": 9146 + }, + { + "epoch": 0.97568, + "grad_norm": 1.891230556602961, + "learning_rate": 1.550495395925944e-08, + "loss": 0.4863, + "step": 9147 + }, + { + "avg_step_time": 5.783714954299156, + "epoch": 0.97568, + "eta_time": 0.3663019471056132, + "step": 9147 + }, + { + "epoch": 0.9757866666666667, + "grad_norm": 1.724563926726302, + "learning_rate": 1.5369313423833632e-08, + "loss": 0.4646, + "step": 9148 + }, + { + "avg_step_time": 5.785450559673888, + "epoch": 0.9757866666666667, + "eta_time": 0.3648047991794368, + "step": 9148 + }, + { + "epoch": 0.9758933333333333, + "grad_norm": 0.6818429745870277, + "learning_rate": 1.5234267890298915e-08, + "loss": 0.4337, + "step": 9149 + }, + { + "avg_step_time": 5.754427445055258, + "epoch": 0.9758933333333333, + "eta_time": 0.36125016738402455, + "step": 9149 + }, + { + "epoch": 0.976, + "grad_norm": 1.6831251486371719, + "learning_rate": 1.5099817374774615e-08, + "loss": 0.4186, + "step": 9150 + }, + { + "avg_step_time": 5.753152413801714, + "epoch": 0.976, + "eta_time": 0.3595720258626071, + "step": 9150 + }, + { + "epoch": 0.9761066666666667, + "grad_norm": 1.6840849018170085, + "learning_rate": 1.496596189331012e-08, + "loss": 0.4336, + "step": 9151 + }, + { + "avg_step_time": 5.7553248212795065, + "epoch": 0.9761066666666667, + "eta_time": 0.3581090999907248, + "step": 9151 + }, + { + "epoch": 0.9762133333333334, + "grad_norm": 0.6473845837308827, + "learning_rate": 1.4832701461883203e-08, + "loss": 0.4156, + "step": 9152 + }, + { + "avg_step_time": 5.758452225213099, + "epoch": 0.9762133333333334, + "eta_time": 0.3567041239507003, + "step": 9152 + }, + { + "epoch": 0.97632, + "grad_norm": 1.8543998647942972, + "learning_rate": 1.4700036096400028e-08, + "loss": 0.4965, + "step": 9153 + }, + { + "avg_step_time": 5.74260702036848, + "epoch": 0.97632, + "eta_time": 0.3541274329227229, + "step": 9153 + }, + { + "epoch": 0.9764266666666667, + "grad_norm": 1.9419286693443996, + "learning_rate": 1.4567965812697926e-08, + "loss": 0.4361, + "step": 9154 + }, + { + "avg_step_time": 5.743194536729292, + "epoch": 0.9764266666666667, + "eta_time": 0.35256833128254816, + "step": 9154 + }, + { + "epoch": 0.9765333333333334, + "grad_norm": 1.7073306593679944, + "learning_rate": 1.4436490626540955e-08, + "loss": 0.3508, + "step": 9155 + }, + { + "avg_step_time": 5.752671913667158, + "epoch": 0.9765333333333334, + "eta_time": 0.3515521725018819, + "step": 9155 + }, + { + "epoch": 0.97664, + "grad_norm": 2.254440726771211, + "learning_rate": 1.4305610553623228e-08, + "loss": 0.4453, + "step": 9156 + }, + { + "avg_step_time": 5.753878848721283, + "epoch": 0.97664, + "eta_time": 0.35002762996387804, + "step": 9156 + }, + { + "epoch": 0.9767466666666667, + "grad_norm": 1.8870047413737572, + "learning_rate": 1.4175325609567248e-08, + "loss": 0.5056, + "step": 9157 + }, + { + "avg_step_time": 5.756936333396218, + "epoch": 0.9767466666666667, + "eta_time": 0.348614477966771, + "step": 9157 + }, + { + "epoch": 0.9768533333333334, + "grad_norm": 1.795912798487735, + "learning_rate": 1.4045635809925018e-08, + "loss": 0.4673, + "step": 9158 + }, + { + "avg_step_time": 5.768676201502482, + "epoch": 0.9768533333333334, + "eta_time": 0.34772298214612185, + "step": 9158 + }, + { + "epoch": 0.97696, + "grad_norm": 1.9751300738177378, + "learning_rate": 1.3916541170176934e-08, + "loss": 0.5144, + "step": 9159 + }, + { + "avg_step_time": 5.765131856455947, + "epoch": 0.97696, + "eta_time": 0.3459079113873568, + "step": 9159 + }, + { + "epoch": 0.9770666666666666, + "grad_norm": 1.8216255412811133, + "learning_rate": 1.378804170573289e-08, + "loss": 0.5841, + "step": 9160 + }, + { + "avg_step_time": 5.777799832700479, + "epoch": 0.9770666666666666, + "eta_time": 0.3450630455640564, + "step": 9160 + }, + { + "epoch": 0.9771733333333333, + "grad_norm": 2.1237895132327917, + "learning_rate": 1.3660137431932286e-08, + "loss": 0.5111, + "step": 9161 + }, + { + "avg_step_time": 5.774154607695762, + "epoch": 0.9771733333333333, + "eta_time": 0.34324141279080367, + "step": 9161 + }, + { + "epoch": 0.97728, + "grad_norm": 1.9253311110141296, + "learning_rate": 1.3532828364041239e-08, + "loss": 0.4372, + "step": 9162 + }, + { + "avg_step_time": 5.766992219770797, + "epoch": 0.97728, + "eta_time": 0.3412137063364389, + "step": 9162 + }, + { + "epoch": 0.9773866666666666, + "grad_norm": 1.9933553635911674, + "learning_rate": 1.340611451725704e-08, + "loss": 0.4865, + "step": 9163 + }, + { + "avg_step_time": 5.768548153867625, + "epoch": 0.9773866666666666, + "eta_time": 0.3397033912833157, + "step": 9163 + }, + { + "epoch": 0.9774933333333333, + "grad_norm": 2.106263952699737, + "learning_rate": 1.3279995906705367e-08, + "loss": 0.5292, + "step": 9164 + }, + { + "avg_step_time": 5.803805226027364, + "epoch": 0.9774933333333333, + "eta_time": 0.34016747296993716, + "step": 9164 + }, + { + "epoch": 0.9776, + "grad_norm": 2.0322151642847346, + "learning_rate": 1.3154472547440289e-08, + "loss": 0.4668, + "step": 9165 + }, + { + "avg_step_time": 5.802120083510274, + "epoch": 0.9776, + "eta_time": 0.33845700487143265, + "step": 9165 + }, + { + "epoch": 0.9777066666666666, + "grad_norm": 1.8282118550569892, + "learning_rate": 1.302954445444593e-08, + "loss": 0.4688, + "step": 9166 + }, + { + "avg_step_time": 5.807788844060416, + "epoch": 0.9777066666666666, + "eta_time": 0.3371744078912853, + "step": 9166 + }, + { + "epoch": 0.9778133333333333, + "grad_norm": 1.7707590657312464, + "learning_rate": 1.2905211642633698e-08, + "loss": 0.4143, + "step": 9167 + }, + { + "avg_step_time": 5.814195425823481, + "epoch": 0.9778133333333333, + "eta_time": 0.33593129126980115, + "step": 9167 + }, + { + "epoch": 0.97792, + "grad_norm": 1.7972568338767654, + "learning_rate": 1.2781474126845051e-08, + "loss": 0.4678, + "step": 9168 + }, + { + "avg_step_time": 5.802858299679226, + "epoch": 0.97792, + "eta_time": 0.3336643522315555, + "step": 9168 + }, + { + "epoch": 0.9780266666666667, + "grad_norm": 1.9648950211638407, + "learning_rate": 1.2658331921850398e-08, + "loss": 0.4055, + "step": 9169 + }, + { + "avg_step_time": 5.7950409831422744, + "epoch": 0.9780266666666667, + "eta_time": 0.33160512292425237, + "step": 9169 + }, + { + "epoch": 0.9781333333333333, + "grad_norm": 1.559726833454424, + "learning_rate": 1.2535785042349091e-08, + "loss": 0.438, + "step": 9170 + }, + { + "avg_step_time": 5.791379300030795, + "epoch": 0.9781333333333333, + "eta_time": 0.3297868768073091, + "step": 9170 + }, + { + "epoch": 0.97824, + "grad_norm": 1.7077527072893262, + "learning_rate": 1.241383350296832e-08, + "loss": 0.4422, + "step": 9171 + }, + { + "avg_step_time": 5.793801981993396, + "epoch": 0.97824, + "eta_time": 0.32831544564629245, + "step": 9171 + }, + { + "epoch": 0.9783466666666667, + "grad_norm": 1.6493434643924416, + "learning_rate": 1.2292477318266438e-08, + "loss": 0.4578, + "step": 9172 + }, + { + "avg_step_time": 5.7875737565936465, + "epoch": 0.9783466666666667, + "eta_time": 0.32635485349680843, + "step": 9172 + }, + { + "epoch": 0.9784533333333333, + "grad_norm": 1.8205447643769077, + "learning_rate": 1.2171716502728525e-08, + "loss": 0.477, + "step": 9173 + }, + { + "avg_step_time": 5.78941488506818, + "epoch": 0.9784533333333333, + "eta_time": 0.32485050188438125, + "step": 9173 + }, + { + "epoch": 0.97856, + "grad_norm": 1.5610058689103228, + "learning_rate": 1.2051551070769719e-08, + "loss": 0.4195, + "step": 9174 + }, + { + "avg_step_time": 5.791290735957598, + "epoch": 0.97856, + "eta_time": 0.32334706609096586, + "step": 9174 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 1.6175684601519367, + "learning_rate": 1.1931981036733542e-08, + "loss": 0.4435, + "step": 9175 + }, + { + "avg_step_time": 5.798404782709449, + "epoch": 0.9786666666666667, + "eta_time": 0.32213359903941385, + "step": 9175 + }, + { + "epoch": 0.9787733333333334, + "grad_norm": 1.7944992303033975, + "learning_rate": 1.181300641489358e-08, + "loss": 0.4873, + "step": 9176 + }, + { + "avg_step_time": 5.811938365300496, + "epoch": 0.9787733333333334, + "eta_time": 0.32127103741522184, + "step": 9176 + }, + { + "epoch": 0.97888, + "grad_norm": 1.8917765954046502, + "learning_rate": 1.1694627219450694e-08, + "loss": 0.4532, + "step": 9177 + }, + { + "avg_step_time": 5.777998866456928, + "epoch": 0.97888, + "eta_time": 0.317789937655131, + "step": 9177 + }, + { + "epoch": 0.9789866666666667, + "grad_norm": 1.8594622386955588, + "learning_rate": 1.1576843464535248e-08, + "loss": 0.5168, + "step": 9178 + }, + { + "avg_step_time": 5.804363120685924, + "epoch": 0.9789866666666667, + "eta_time": 0.3176276485486464, + "step": 9178 + }, + { + "epoch": 0.9790933333333334, + "grad_norm": 1.9476792154341072, + "learning_rate": 1.1459655164208216e-08, + "loss": 0.4964, + "step": 9179 + }, + { + "avg_step_time": 5.801168514020516, + "epoch": 0.9790933333333334, + "eta_time": 0.3158413968744503, + "step": 9179 + }, + { + "epoch": 0.9792, + "grad_norm": 1.6458429115311812, + "learning_rate": 1.134306233245619e-08, + "loss": 0.3855, + "step": 9180 + }, + { + "avg_step_time": 5.798237085342407, + "epoch": 0.9792, + "eta_time": 0.31407117545604707, + "step": 9180 + }, + { + "epoch": 0.9793066666666667, + "grad_norm": 2.0295554738227923, + "learning_rate": 1.1227064983198032e-08, + "loss": 0.4524, + "step": 9181 + }, + { + "avg_step_time": 5.7993712666058785, + "epoch": 0.9793066666666667, + "eta_time": 0.312521673811539, + "step": 9181 + }, + { + "epoch": 0.9794133333333334, + "grad_norm": 1.8777929995367926, + "learning_rate": 1.1111663130279337e-08, + "loss": 0.4803, + "step": 9182 + }, + { + "avg_step_time": 5.779816514313823, + "epoch": 0.9794133333333334, + "eta_time": 0.3098623853507133, + "step": 9182 + }, + { + "epoch": 0.97952, + "grad_norm": 1.5556417099988031, + "learning_rate": 1.0996856787475197e-08, + "loss": 0.5091, + "step": 9183 + }, + { + "avg_step_time": 5.7797088189558545, + "epoch": 0.97952, + "eta_time": 0.30825113701097895, + "step": 9183 + }, + { + "epoch": 0.9796266666666666, + "grad_norm": 1.6518295762543533, + "learning_rate": 1.0882645968490203e-08, + "loss": 0.4011, + "step": 9184 + }, + { + "avg_step_time": 5.7778958118323125, + "epoch": 0.9796266666666666, + "eta_time": 0.306549472238881, + "step": 9184 + }, + { + "epoch": 0.9797333333333333, + "grad_norm": 1.8257360251434296, + "learning_rate": 1.0769030686956783e-08, + "loss": 0.5009, + "step": 9185 + }, + { + "avg_step_time": 5.779713594552242, + "epoch": 0.9797333333333333, + "eta_time": 0.30504043971247946, + "step": 9185 + }, + { + "epoch": 0.97984, + "grad_norm": 1.964972426544465, + "learning_rate": 1.0656010956437979e-08, + "loss": 0.494, + "step": 9186 + }, + { + "avg_step_time": 5.8831772057697025, + "epoch": 0.97984, + "eta_time": 0.3088668033029094, + "step": 9186 + }, + { + "epoch": 0.9799466666666666, + "grad_norm": 1.7319177678749875, + "learning_rate": 1.0543586790423e-08, + "loss": 0.5183, + "step": 9187 + }, + { + "avg_step_time": 5.876076903006043, + "epoch": 0.9799466666666666, + "eta_time": 0.30686179382364887, + "step": 9187 + }, + { + "epoch": 0.9800533333333333, + "grad_norm": 2.088193153843135, + "learning_rate": 1.043175820233333e-08, + "loss": 0.5415, + "step": 9188 + }, + { + "avg_step_time": 5.883669894151013, + "epoch": 0.9800533333333333, + "eta_time": 0.30562396394617763, + "step": 9188 + }, + { + "epoch": 0.98016, + "grad_norm": 2.035887836749556, + "learning_rate": 1.0320525205516629e-08, + "loss": 0.451, + "step": 9189 + }, + { + "avg_step_time": 5.9043228024184105, + "epoch": 0.98016, + "eta_time": 0.3050566781249512, + "step": 9189 + }, + { + "epoch": 0.9802666666666666, + "grad_norm": 1.7410774862709038, + "learning_rate": 1.0209887813250053e-08, + "loss": 0.4237, + "step": 9190 + }, + { + "avg_step_time": 5.917332798543603, + "epoch": 0.9802666666666666, + "eta_time": 0.30408515770293515, + "step": 9190 + }, + { + "epoch": 0.9803733333333333, + "grad_norm": 1.498688562762725, + "learning_rate": 1.0099846038741368e-08, + "loss": 0.507, + "step": 9191 + }, + { + "avg_step_time": 5.919530714401091, + "epoch": 0.9803733333333333, + "eta_time": 0.3025537920693891, + "step": 9191 + }, + { + "epoch": 0.98048, + "grad_norm": 1.9721412314610507, + "learning_rate": 9.990399895125624e-09, + "loss": 0.5298, + "step": 9192 + }, + { + "avg_step_time": 5.9172703039766565, + "epoch": 0.98048, + "eta_time": 0.3007945737854801, + "step": 9192 + }, + { + "epoch": 0.9805866666666667, + "grad_norm": 1.7096479153181459, + "learning_rate": 9.881549395466262e-09, + "loss": 0.4584, + "step": 9193 + }, + { + "avg_step_time": 5.922232389450073, + "epoch": 0.9805866666666667, + "eta_time": 0.2994017485777537, + "step": 9193 + }, + { + "epoch": 0.9806933333333333, + "grad_norm": 2.086018224590113, + "learning_rate": 9.773294552757328e-09, + "loss": 0.5614, + "step": 9194 + }, + { + "avg_step_time": 5.921474904725046, + "epoch": 0.9806933333333333, + "eta_time": 0.2977185993764537, + "step": 9194 + }, + { + "epoch": 0.9808, + "grad_norm": 1.8043005755597339, + "learning_rate": 9.665635379920157e-09, + "loss": 0.438, + "step": 9195 + }, + { + "avg_step_time": 5.9376747295109915, + "epoch": 0.9808, + "eta_time": 0.2968837364755496, + "step": 9195 + }, + { + "epoch": 0.9809066666666667, + "grad_norm": 1.963582430215891, + "learning_rate": 9.558571889806689e-09, + "loss": 0.4378, + "step": 9196 + }, + { + "avg_step_time": 5.814932697951192, + "epoch": 0.9809066666666667, + "eta_time": 0.28913137581479537, + "step": 9196 + }, + { + "epoch": 0.9810133333333333, + "grad_norm": 1.6711561954969947, + "learning_rate": 9.452104095196146e-09, + "loss": 0.48, + "step": 9197 + }, + { + "avg_step_time": 5.795996531091555, + "epoch": 0.9810133333333333, + "eta_time": 0.2865798284817491, + "step": 9197 + }, + { + "epoch": 0.98112, + "grad_norm": 1.8160899312536751, + "learning_rate": 9.346232008797252e-09, + "loss": 0.4708, + "step": 9198 + }, + { + "avg_step_time": 5.7987802991963395, + "epoch": 0.98112, + "eta_time": 0.28510669804382, + "step": 9198 + }, + { + "epoch": 0.9812266666666667, + "grad_norm": 2.0188118529361567, + "learning_rate": 9.240955643248229e-09, + "loss": 0.5162, + "step": 9199 + }, + { + "avg_step_time": 5.7937081245460895, + "epoch": 0.9812266666666667, + "eta_time": 0.2832479527555866, + "step": 9199 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 1.9740753477659607, + "learning_rate": 9.136275011115137e-09, + "loss": 0.4582, + "step": 9200 + }, + { + "avg_step_time": 5.808551234428329, + "epoch": 0.9813333333333333, + "eta_time": 0.28236012945137706, + "step": 9200 + }, + { + "epoch": 0.98144, + "grad_norm": 1.661227050248644, + "learning_rate": 9.032190124893536e-09, + "loss": 0.4345, + "step": 9201 + }, + { + "avg_step_time": 5.815412145672423, + "epoch": 0.98144, + "eta_time": 0.28107825370750045, + "step": 9201 + }, + { + "epoch": 0.9815466666666667, + "grad_norm": 1.879699993758253, + "learning_rate": 8.928700997007933e-09, + "loss": 0.5105, + "step": 9202 + }, + { + "avg_step_time": 5.821576470076436, + "epoch": 0.9815466666666667, + "eta_time": 0.27975909147867317, + "step": 9202 + }, + { + "epoch": 0.9816533333333334, + "grad_norm": 1.857937176694924, + "learning_rate": 8.825807639811224e-09, + "loss": 0.502, + "step": 9203 + }, + { + "avg_step_time": 5.856826112727926, + "epoch": 0.9816533333333334, + "eta_time": 0.27982613649700094, + "step": 9203 + }, + { + "epoch": 0.98176, + "grad_norm": 1.8529308925775991, + "learning_rate": 8.723510065585806e-09, + "loss": 0.4873, + "step": 9204 + }, + { + "avg_step_time": 5.954637850173796, + "epoch": 0.98176, + "eta_time": 0.2828452978832553, + "step": 9204 + }, + { + "epoch": 0.9818666666666667, + "grad_norm": 1.8099158346178836, + "learning_rate": 8.621808286542466e-09, + "loss": 0.4522, + "step": 9205 + }, + { + "avg_step_time": 5.986263833864771, + "epoch": 0.9818666666666667, + "eta_time": 0.2826846810436142, + "step": 9205 + }, + { + "epoch": 0.9819733333333334, + "grad_norm": 1.9532734319859753, + "learning_rate": 8.520702314821493e-09, + "loss": 0.6, + "step": 9206 + }, + { + "avg_step_time": 5.98672694630093, + "epoch": 0.9819733333333334, + "eta_time": 0.28104357053468254, + "step": 9206 + }, + { + "epoch": 0.98208, + "grad_norm": 1.5573229512738236, + "learning_rate": 8.42019216249046e-09, + "loss": 0.3896, + "step": 9207 + }, + { + "avg_step_time": 5.988918964308922, + "epoch": 0.98208, + "eta_time": 0.27948288500108304, + "step": 9207 + }, + { + "epoch": 0.9821866666666667, + "grad_norm": 1.6365703924896153, + "learning_rate": 8.320277841548652e-09, + "loss": 0.3927, + "step": 9208 + }, + { + "avg_step_time": 5.987789252791742, + "epoch": 0.9821866666666667, + "eta_time": 0.27776689033783913, + "step": 9208 + }, + { + "epoch": 0.9822933333333334, + "grad_norm": 1.8498930810322582, + "learning_rate": 8.220959363921533e-09, + "loss": 0.4413, + "step": 9209 + }, + { + "avg_step_time": 5.99639559273768, + "epoch": 0.9822933333333334, + "eta_time": 0.27650046344290413, + "step": 9209 + }, + { + "epoch": 0.9824, + "grad_norm": 1.9613994752587183, + "learning_rate": 8.122236741464618e-09, + "loss": 0.4632, + "step": 9210 + }, + { + "avg_step_time": 5.996920385746041, + "epoch": 0.9824, + "eta_time": 0.2748588510133602, + "step": 9210 + }, + { + "epoch": 0.9825066666666666, + "grad_norm": 2.142723230235978, + "learning_rate": 8.024109985961815e-09, + "loss": 0.5369, + "step": 9211 + }, + { + "avg_step_time": 6.027156921348187, + "epoch": 0.9825066666666666, + "eta_time": 0.27457048197252854, + "step": 9211 + }, + { + "epoch": 0.9826133333333333, + "grad_norm": 1.7902773074496536, + "learning_rate": 7.926579109127086e-09, + "loss": 0.4109, + "step": 9212 + }, + { + "avg_step_time": 6.059723673444806, + "epoch": 0.9826133333333333, + "eta_time": 0.27437082188097317, + "step": 9212 + }, + { + "epoch": 0.98272, + "grad_norm": 1.841339297062152, + "learning_rate": 7.82964412260223e-09, + "loss": 0.5119, + "step": 9213 + }, + { + "avg_step_time": 6.057140764563974, + "epoch": 0.98272, + "eta_time": 0.27257133440537884, + "step": 9213 + }, + { + "epoch": 0.9828266666666666, + "grad_norm": 0.6524468231761333, + "learning_rate": 7.733305037957439e-09, + "loss": 0.4497, + "step": 9214 + }, + { + "avg_step_time": 6.019081787629561, + "epoch": 0.9828266666666666, + "eta_time": 0.2691867132800998, + "step": 9214 + }, + { + "epoch": 0.9829333333333333, + "grad_norm": 0.6473791311187108, + "learning_rate": 7.637561866692955e-09, + "loss": 0.4408, + "step": 9215 + }, + { + "avg_step_time": 5.999444778519448, + "epoch": 0.9829333333333333, + "eta_time": 0.2666419901564199, + "step": 9215 + }, + { + "epoch": 0.98304, + "grad_norm": 1.9314255044386548, + "learning_rate": 7.542414620237414e-09, + "loss": 0.4501, + "step": 9216 + }, + { + "avg_step_time": 5.985753594022809, + "epoch": 0.98304, + "eta_time": 0.26437078373600736, + "step": 9216 + }, + { + "epoch": 0.9831466666666666, + "grad_norm": 0.639568720477572, + "learning_rate": 7.4478633099484e-09, + "loss": 0.4382, + "step": 9217 + }, + { + "avg_step_time": 5.9547276665466, + "epoch": 0.9831466666666666, + "eta_time": 0.2613463809206563, + "step": 9217 + }, + { + "epoch": 0.9832533333333333, + "grad_norm": 2.0034191558920575, + "learning_rate": 7.353907947111882e-09, + "loss": 0.5039, + "step": 9218 + }, + { + "avg_step_time": 5.956393446585144, + "epoch": 0.9832533333333333, + "eta_time": 0.2597649364205188, + "step": 9218 + }, + { + "epoch": 0.98336, + "grad_norm": 1.5361570537214415, + "learning_rate": 7.260548542943335e-09, + "loss": 0.4443, + "step": 9219 + }, + { + "avg_step_time": 6.016393242460309, + "epoch": 0.98336, + "eta_time": 0.2607103738399467, + "step": 9219 + }, + { + "epoch": 0.9834666666666667, + "grad_norm": 2.3035319623813733, + "learning_rate": 7.167785108586622e-09, + "loss": 0.541, + "step": 9220 + }, + { + "avg_step_time": 6.015921344660749, + "epoch": 0.9834666666666667, + "eta_time": 0.25901883567289335, + "step": 9220 + }, + { + "epoch": 0.9835733333333333, + "grad_norm": 0.6234502269273283, + "learning_rate": 7.0756176551145525e-09, + "loss": 0.4151, + "step": 9221 + }, + { + "avg_step_time": 5.987434103031351, + "epoch": 0.9835733333333333, + "eta_time": 0.2561291255185633, + "step": 9221 + }, + { + "epoch": 0.98368, + "grad_norm": 1.779981611879909, + "learning_rate": 6.984046193528881e-09, + "loss": 0.5022, + "step": 9222 + }, + { + "avg_step_time": 5.995159072105331, + "epoch": 0.98368, + "eta_time": 0.25479426056447657, + "step": 9222 + }, + { + "epoch": 0.9837866666666667, + "grad_norm": 2.5594136654328747, + "learning_rate": 6.89307073476142e-09, + "loss": 0.515, + "step": 9223 + }, + { + "avg_step_time": 5.996225171618992, + "epoch": 0.9837866666666667, + "eta_time": 0.25317395169057966, + "step": 9223 + }, + { + "epoch": 0.9838933333333333, + "grad_norm": 2.0709333705406654, + "learning_rate": 6.802691289669594e-09, + "loss": 0.4784, + "step": 9224 + }, + { + "avg_step_time": 6.030710164946739, + "epoch": 0.9838933333333333, + "eta_time": 0.2529547874741549, + "step": 9224 + }, + { + "epoch": 0.984, + "grad_norm": 0.6681097950621789, + "learning_rate": 6.712907869043661e-09, + "loss": 0.4802, + "step": 9225 + }, + { + "avg_step_time": 5.952637848227915, + "epoch": 0.984, + "eta_time": 0.24802657700949646, + "step": 9225 + }, + { + "epoch": 0.9841066666666667, + "grad_norm": 1.7451465202406526, + "learning_rate": 6.623720483600049e-09, + "loss": 0.4547, + "step": 9226 + }, + { + "avg_step_time": 5.949933762502188, + "epoch": 0.9841066666666667, + "eta_time": 0.24626114739245167, + "step": 9226 + }, + { + "epoch": 0.9842133333333334, + "grad_norm": 2.0409196158920007, + "learning_rate": 6.535129143984131e-09, + "loss": 0.4504, + "step": 9227 + }, + { + "avg_step_time": 5.929318603843149, + "epoch": 0.9842133333333334, + "eta_time": 0.24376087593577392, + "step": 9227 + }, + { + "epoch": 0.98432, + "grad_norm": 1.977673384284211, + "learning_rate": 6.447133860771893e-09, + "loss": 0.5453, + "step": 9228 + }, + { + "avg_step_time": 5.930439489056366, + "epoch": 0.98432, + "eta_time": 0.2421596124698016, + "step": 9228 + }, + { + "epoch": 0.9844266666666667, + "grad_norm": 0.6237553284392524, + "learning_rate": 6.359734644467153e-09, + "loss": 0.4114, + "step": 9229 + }, + { + "avg_step_time": 5.924425503220221, + "epoch": 0.9844266666666667, + "eta_time": 0.24026836763059786, + "step": 9229 + }, + { + "epoch": 0.9845333333333334, + "grad_norm": 2.3764929579875846, + "learning_rate": 6.272931505501567e-09, + "loss": 0.5172, + "step": 9230 + }, + { + "avg_step_time": 5.948629502094153, + "epoch": 0.9845333333333334, + "eta_time": 0.23959757716768118, + "step": 9230 + }, + { + "epoch": 0.98464, + "grad_norm": 1.7625103970706104, + "learning_rate": 6.186724454236847e-09, + "loss": 0.512, + "step": 9231 + }, + { + "avg_step_time": 5.949475078871756, + "epoch": 0.98464, + "eta_time": 0.23797900315487025, + "step": 9231 + }, + { + "epoch": 0.9847466666666667, + "grad_norm": 0.6217507174290416, + "learning_rate": 6.1011135009636515e-09, + "loss": 0.4173, + "step": 9232 + }, + { + "avg_step_time": 5.915840914755156, + "epoch": 0.9847466666666667, + "eta_time": 0.2349903474472187, + "step": 9232 + }, + { + "epoch": 0.9848533333333334, + "grad_norm": 2.0814243633448557, + "learning_rate": 6.016098655901026e-09, + "loss": 0.4687, + "step": 9233 + }, + { + "avg_step_time": 5.919983567613544, + "epoch": 0.9848533333333334, + "eta_time": 0.23351046294475644, + "step": 9233 + }, + { + "epoch": 0.98496, + "grad_norm": 0.6292327315912923, + "learning_rate": 5.9316799291969654e-09, + "loss": 0.4251, + "step": 9234 + }, + { + "avg_step_time": 5.8878876464535495, + "epoch": 0.98496, + "eta_time": 0.2306089328194307, + "step": 9234 + }, + { + "epoch": 0.9850666666666666, + "grad_norm": 2.326092646853708, + "learning_rate": 5.8478573309284085e-09, + "loss": 0.4711, + "step": 9235 + }, + { + "avg_step_time": 5.885038688929394, + "epoch": 0.9850666666666666, + "eta_time": 0.22886261568058758, + "step": 9235 + }, + { + "epoch": 0.9851733333333333, + "grad_norm": 1.856058601466109, + "learning_rate": 5.76463087110124e-09, + "loss": 0.4477, + "step": 9236 + }, + { + "avg_step_time": 5.920999310233376, + "epoch": 0.9851733333333333, + "eta_time": 0.22861636225623314, + "step": 9236 + }, + { + "epoch": 0.98528, + "grad_norm": 2.4336285640779924, + "learning_rate": 5.682000559649181e-09, + "loss": 0.5036, + "step": 9237 + }, + { + "avg_step_time": 5.916178445623379, + "epoch": 0.98528, + "eta_time": 0.22678684041556285, + "step": 9237 + }, + { + "epoch": 0.9853866666666666, + "grad_norm": 1.729445539404219, + "learning_rate": 5.599966406436008e-09, + "loss": 0.4964, + "step": 9238 + }, + { + "avg_step_time": 5.916628880934282, + "epoch": 0.9853866666666666, + "eta_time": 0.22516059907999905, + "step": 9238 + }, + { + "epoch": 0.9854933333333333, + "grad_norm": 2.263431462877384, + "learning_rate": 5.518528421253888e-09, + "loss": 0.4866, + "step": 9239 + }, + { + "avg_step_time": 5.917381291437631, + "epoch": 0.9854933333333333, + "eta_time": 0.2235455154543105, + "step": 9239 + }, + { + "epoch": 0.9856, + "grad_norm": 1.8975300722228954, + "learning_rate": 5.437686613823934e-09, + "loss": 0.4702, + "step": 9240 + }, + { + "avg_step_time": 5.921168076871622, + "epoch": 0.9856, + "eta_time": 0.22204380288268583, + "step": 9240 + }, + { + "epoch": 0.9857066666666666, + "grad_norm": 0.6239381354315098, + "learning_rate": 5.357440993796204e-09, + "loss": 0.4159, + "step": 9241 + }, + { + "avg_step_time": 5.891932506753941, + "epoch": 0.9857066666666666, + "eta_time": 0.21931082108473002, + "step": 9241 + }, + { + "epoch": 0.9858133333333333, + "grad_norm": 1.8764260449134593, + "learning_rate": 5.2777915707491465e-09, + "loss": 0.4932, + "step": 9242 + }, + { + "avg_step_time": 5.891280781139027, + "epoch": 0.9858133333333333, + "eta_time": 0.21765009552541406, + "step": 9242 + }, + { + "epoch": 0.98592, + "grad_norm": 1.823569550945428, + "learning_rate": 5.198738354190158e-09, + "loss": 0.5373, + "step": 9243 + }, + { + "avg_step_time": 5.896960465594976, + "epoch": 0.98592, + "eta_time": 0.21622188373848247, + "step": 9243 + }, + { + "epoch": 0.9860266666666667, + "grad_norm": 2.2073059250864344, + "learning_rate": 5.120281353556134e-09, + "loss": 0.5037, + "step": 9244 + }, + { + "avg_step_time": 5.897578041962903, + "epoch": 0.9860266666666667, + "eta_time": 0.21460631208253897, + "step": 9244 + }, + { + "epoch": 0.9861333333333333, + "grad_norm": 2.1499129858322497, + "learning_rate": 5.042420578211804e-09, + "loss": 0.5412, + "step": 9245 + }, + { + "avg_step_time": 5.896103276146783, + "epoch": 0.9861333333333333, + "eta_time": 0.21291484052752271, + "step": 9245 + }, + { + "epoch": 0.98624, + "grad_norm": 1.7831806132189727, + "learning_rate": 4.9651560374514015e-09, + "loss": 0.4316, + "step": 9246 + }, + { + "avg_step_time": 5.897656228807238, + "epoch": 0.98624, + "eta_time": 0.21133268153225934, + "step": 9246 + }, + { + "epoch": 0.9863466666666667, + "grad_norm": 1.8023432975046698, + "learning_rate": 4.88848774049755e-09, + "loss": 0.4444, + "step": 9247 + }, + { + "avg_step_time": 5.8955406925895, + "epoch": 0.9863466666666667, + "eta_time": 0.20961922462540444, + "step": 9247 + }, + { + "epoch": 0.9864533333333333, + "grad_norm": 1.8037128802594817, + "learning_rate": 4.812415696502371e-09, + "loss": 0.4577, + "step": 9248 + }, + { + "avg_step_time": 5.990163868123835, + "epoch": 0.9864533333333333, + "eta_time": 0.2113196697921464, + "step": 9248 + }, + { + "epoch": 0.98656, + "grad_norm": 1.692334770182029, + "learning_rate": 4.736939914545824e-09, + "loss": 0.4346, + "step": 9249 + }, + { + "avg_step_time": 5.9914636419277, + "epoch": 0.98656, + "eta_time": 0.2097012274674695, + "step": 9249 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 1.7978650672195617, + "learning_rate": 4.66206040363737e-09, + "loss": 0.4488, + "step": 9250 + }, + { + "avg_step_time": 5.985679566258132, + "epoch": 0.9866666666666667, + "eta_time": 0.2078360960506296, + "step": 9250 + }, + { + "epoch": 0.9867733333333333, + "grad_norm": 1.9173011015461667, + "learning_rate": 4.587777172715413e-09, + "loss": 0.4127, + "step": 9251 + }, + { + "avg_step_time": 6.014427623363456, + "epoch": 0.9867733333333333, + "eta_time": 0.20716361813807463, + "step": 9251 + }, + { + "epoch": 0.98688, + "grad_norm": 2.0664357917364278, + "learning_rate": 4.514090230647305e-09, + "loss": 0.5022, + "step": 9252 + }, + { + "avg_step_time": 6.021341839221993, + "epoch": 0.98688, + "eta_time": 0.20572917950675143, + "step": 9252 + }, + { + "epoch": 0.9869866666666667, + "grad_norm": 0.6538411802664322, + "learning_rate": 4.440999586228234e-09, + "loss": 0.4443, + "step": 9253 + }, + { + "avg_step_time": 5.984678251574738, + "epoch": 0.9869866666666667, + "eta_time": 0.2028140963033661, + "step": 9253 + }, + { + "epoch": 0.9870933333333334, + "grad_norm": 0.6465220088652023, + "learning_rate": 4.3685052481828864e-09, + "loss": 0.4715, + "step": 9254 + }, + { + "avg_step_time": 5.94165958539404, + "epoch": 0.9870933333333334, + "eta_time": 0.19970578050907745, + "step": 9254 + }, + { + "epoch": 0.9872, + "grad_norm": 1.9838984994260203, + "learning_rate": 4.296607225164895e-09, + "loss": 0.4838, + "step": 9255 + }, + { + "avg_step_time": 5.936877753999498, + "epoch": 0.9872, + "eta_time": 0.1978959251333166, + "step": 9255 + }, + { + "epoch": 0.9873066666666667, + "grad_norm": 1.958112983766448, + "learning_rate": 4.225305525756285e-09, + "loss": 0.4856, + "step": 9256 + }, + { + "avg_step_time": 5.935433236035434, + "epoch": 0.9873066666666667, + "eta_time": 0.19619904308006014, + "step": 9256 + }, + { + "epoch": 0.9874133333333334, + "grad_norm": 0.6288647847992981, + "learning_rate": 4.1546001584685806e-09, + "loss": 0.4335, + "step": 9257 + }, + { + "avg_step_time": 5.903237766689724, + "epoch": 0.9874133333333334, + "eta_time": 0.19349501568594096, + "step": 9257 + }, + { + "epoch": 0.98752, + "grad_norm": 1.9170735981800138, + "learning_rate": 4.084491131741697e-09, + "loss": 0.5176, + "step": 9258 + }, + { + "avg_step_time": 5.902928164511016, + "epoch": 0.98752, + "eta_time": 0.191845165346608, + "step": 9258 + }, + { + "epoch": 0.9876266666666667, + "grad_norm": 1.7770512837514763, + "learning_rate": 4.0149784539439405e-09, + "loss": 0.5657, + "step": 9259 + }, + { + "avg_step_time": 5.888861017997819, + "epoch": 0.9876266666666667, + "eta_time": 0.1897521883577075, + "step": 9259 + }, + { + "epoch": 0.9877333333333334, + "grad_norm": 1.9460273874316583, + "learning_rate": 3.946062133372563e-09, + "loss": 0.3676, + "step": 9260 + }, + { + "avg_step_time": 5.933345431029195, + "epoch": 0.9877333333333334, + "eta_time": 0.1895374234912104, + "step": 9260 + }, + { + "epoch": 0.98784, + "grad_norm": 1.8833996072275612, + "learning_rate": 3.877742178254873e-09, + "loss": 0.5341, + "step": 9261 + }, + { + "avg_step_time": 5.935317882383712, + "epoch": 0.98784, + "eta_time": 0.1879517329421509, + "step": 9261 + }, + { + "epoch": 0.9879466666666666, + "grad_norm": 0.6201235299460424, + "learning_rate": 3.810018596745457e-09, + "loss": 0.4199, + "step": 9262 + }, + { + "avg_step_time": 5.907882738595057, + "epoch": 0.9879466666666666, + "eta_time": 0.18544187485034486, + "step": 9262 + }, + { + "epoch": 0.9880533333333333, + "grad_norm": 1.8220990642754251, + "learning_rate": 3.7428913969284055e-09, + "loss": 0.4416, + "step": 9263 + }, + { + "avg_step_time": 5.9203247903573395, + "epoch": 0.9880533333333333, + "eta_time": 0.18418788236667277, + "step": 9263 + }, + { + "epoch": 0.98816, + "grad_norm": 2.2925481360157636, + "learning_rate": 3.6763605868167516e-09, + "loss": 0.4948, + "step": 9264 + }, + { + "avg_step_time": 5.931624964030102, + "epoch": 0.98816, + "eta_time": 0.1828917697242615, + "step": 9264 + }, + { + "epoch": 0.9882666666666666, + "grad_norm": 1.6543671224090923, + "learning_rate": 3.610426174351367e-09, + "loss": 0.4097, + "step": 9265 + }, + { + "avg_step_time": 5.924235864119097, + "epoch": 0.9882666666666666, + "eta_time": 0.18101831807030572, + "step": 9265 + }, + { + "epoch": 0.9883733333333333, + "grad_norm": 1.9114475008452139, + "learning_rate": 3.5450881674031766e-09, + "loss": 0.5642, + "step": 9266 + }, + { + "avg_step_time": 5.934471390464089, + "epoch": 0.9883733333333333, + "eta_time": 0.17968260598905159, + "step": 9266 + }, + { + "epoch": 0.98848, + "grad_norm": 2.0704362681757957, + "learning_rate": 3.4803465737714983e-09, + "loss": 0.5175, + "step": 9267 + }, + { + "avg_step_time": 5.9411447481675586, + "epoch": 0.98848, + "eta_time": 0.17823434244502676, + "step": 9267 + }, + { + "epoch": 0.9885866666666666, + "grad_norm": 1.743082084975942, + "learning_rate": 3.4162014011845932e-09, + "loss": 0.5275, + "step": 9268 + }, + { + "avg_step_time": 5.970357646845808, + "epoch": 0.9885866666666666, + "eta_time": 0.17745229672569485, + "step": 9268 + }, + { + "epoch": 0.9886933333333333, + "grad_norm": 1.7455636809669712, + "learning_rate": 3.3526526572985607e-09, + "loss": 0.4794, + "step": 9269 + }, + { + "avg_step_time": 5.969498020229918, + "epoch": 0.9886933333333333, + "eta_time": 0.1757685528178809, + "step": 9269 + }, + { + "epoch": 0.9888, + "grad_norm": 1.9981496261512284, + "learning_rate": 3.289700349698999e-09, + "loss": 0.5578, + "step": 9270 + }, + { + "avg_step_time": 5.96246589073027, + "epoch": 0.9888, + "eta_time": 0.17390525514629954, + "step": 9270 + }, + { + "epoch": 0.9889066666666667, + "grad_norm": 2.0996162987619993, + "learning_rate": 3.2273444859015625e-09, + "loss": 0.4994, + "step": 9271 + }, + { + "avg_step_time": 5.9614041477742825, + "epoch": 0.9889066666666667, + "eta_time": 0.1722183420468126, + "step": 9271 + }, + { + "epoch": 0.9890133333333333, + "grad_norm": 2.0195358770818412, + "learning_rate": 3.1655850733480766e-09, + "loss": 0.4671, + "step": 9272 + }, + { + "avg_step_time": 5.962771206191092, + "epoch": 0.9890133333333333, + "eta_time": 0.17060150951046735, + "step": 9272 + }, + { + "epoch": 0.98912, + "grad_norm": 1.7641408232099194, + "learning_rate": 3.104422119411532e-09, + "loss": 0.5344, + "step": 9273 + }, + { + "avg_step_time": 5.96227997240394, + "epoch": 0.98912, + "eta_time": 0.1689312658847783, + "step": 9273 + }, + { + "epoch": 0.9892266666666667, + "grad_norm": 1.9440057423554586, + "learning_rate": 3.043855631392756e-09, + "loss": 0.404, + "step": 9274 + }, + { + "avg_step_time": 5.950398825635814, + "epoch": 0.9892266666666667, + "eta_time": 0.1669417448303381, + "step": 9274 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 1.7121972176843938, + "learning_rate": 2.98388561652041e-09, + "loss": 0.4332, + "step": 9275 + }, + { + "avg_step_time": 5.944946876680008, + "epoch": 0.9893333333333333, + "eta_time": 0.16513741324111136, + "step": 9275 + }, + { + "epoch": 0.98944, + "grad_norm": 2.0434896608460615, + "learning_rate": 2.9245120819543226e-09, + "loss": 0.3944, + "step": 9276 + }, + { + "avg_step_time": 5.949043283558855, + "epoch": 0.98944, + "eta_time": 0.16359869029786853, + "step": 9276 + }, + { + "epoch": 0.9895466666666667, + "grad_norm": 0.6590708154845867, + "learning_rate": 2.8657350347810473e-09, + "loss": 0.4487, + "step": 9277 + }, + { + "avg_step_time": 5.891800032721625, + "epoch": 0.9895466666666667, + "eta_time": 0.16038788977964424, + "step": 9277 + }, + { + "epoch": 0.9896533333333334, + "grad_norm": 1.8035647205435519, + "learning_rate": 2.807554482016639e-09, + "loss": 0.4208, + "step": 9278 + }, + { + "avg_step_time": 5.8963210269658255, + "epoch": 0.9896533333333334, + "eta_time": 0.15887309433769028, + "step": 9278 + }, + { + "epoch": 0.98976, + "grad_norm": 0.647667627922065, + "learning_rate": 2.749970430605542e-09, + "loss": 0.4256, + "step": 9279 + }, + { + "avg_step_time": 5.862316822764849, + "epoch": 0.98976, + "eta_time": 0.15632844860706263, + "step": 9279 + }, + { + "epoch": 0.9898666666666667, + "grad_norm": 2.124894992273432, + "learning_rate": 2.6929828874222573e-09, + "loss": 0.4907, + "step": 9280 + }, + { + "avg_step_time": 5.859320785060073, + "epoch": 0.9898666666666667, + "eta_time": 0.1546209651613075, + "step": 9280 + }, + { + "epoch": 0.9899733333333334, + "grad_norm": 2.0767518452191145, + "learning_rate": 2.636591859269122e-09, + "loss": 0.4248, + "step": 9281 + }, + { + "avg_step_time": 5.856459742844707, + "epoch": 0.9899733333333334, + "eta_time": 0.15291867106316734, + "step": 9281 + }, + { + "epoch": 0.99008, + "grad_norm": 1.5778029369814788, + "learning_rate": 2.5807973528768626e-09, + "loss": 0.4415, + "step": 9282 + }, + { + "avg_step_time": 5.859906276067098, + "epoch": 0.99008, + "eta_time": 0.15138091213173335, + "step": 9282 + }, + { + "epoch": 0.9901866666666667, + "grad_norm": 1.9471805804787152, + "learning_rate": 2.5255993749057075e-09, + "loss": 0.491, + "step": 9283 + }, + { + "avg_step_time": 5.859738947165133, + "epoch": 0.9901866666666667, + "eta_time": 0.1497488842053312, + "step": 9283 + }, + { + "epoch": 0.9902933333333334, + "grad_norm": 1.9522208389825768, + "learning_rate": 2.4709979319442743e-09, + "loss": 0.4978, + "step": 9284 + }, + { + "avg_step_time": 5.857985942050664, + "epoch": 0.9902933333333334, + "eta_time": 0.1480768668685029, + "step": 9284 + }, + { + "epoch": 0.9904, + "grad_norm": 1.7973130382632152, + "learning_rate": 2.416993030511239e-09, + "loss": 0.4816, + "step": 9285 + }, + { + "avg_step_time": 5.759415265285607, + "epoch": 0.9904, + "eta_time": 0.14398538163214017, + "step": 9285 + }, + { + "epoch": 0.9905066666666666, + "grad_norm": 1.7713876369367343, + "learning_rate": 2.3635846770514448e-09, + "loss": 0.4568, + "step": 9286 + }, + { + "avg_step_time": 5.762351052929657, + "epoch": 0.9905066666666666, + "eta_time": 0.14245812325298318, + "step": 9286 + }, + { + "epoch": 0.9906133333333333, + "grad_norm": 1.879978927504855, + "learning_rate": 2.3107728779414584e-09, + "loss": 0.4699, + "step": 9287 + }, + { + "avg_step_time": 5.755300753044359, + "epoch": 0.9906133333333333, + "eta_time": 0.1406851295188621, + "step": 9287 + }, + { + "epoch": 0.99072, + "grad_norm": 1.7812073173540073, + "learning_rate": 2.258557639484571e-09, + "loss": 0.4754, + "step": 9288 + }, + { + "avg_step_time": 5.732091971118041, + "epoch": 0.99072, + "eta_time": 0.138525555968686, + "step": 9288 + }, + { + "epoch": 0.9908266666666666, + "grad_norm": 1.8710242153380476, + "learning_rate": 2.2069389679135746e-09, + "loss": 0.4735, + "step": 9289 + }, + { + "avg_step_time": 5.712204646582555, + "epoch": 0.9908266666666666, + "eta_time": 0.13645822211280548, + "step": 9289 + }, + { + "epoch": 0.9909333333333333, + "grad_norm": 1.7692778698805538, + "learning_rate": 2.1559168693902066e-09, + "loss": 0.4493, + "step": 9290 + }, + { + "avg_step_time": 5.713509138184365, + "epoch": 0.9909333333333333, + "eta_time": 0.13490229909601972, + "step": 9290 + }, + { + "epoch": 0.99104, + "grad_norm": 1.7001453635520476, + "learning_rate": 2.1054913500051512e-09, + "loss": 0.4933, + "step": 9291 + }, + { + "avg_step_time": 5.7127038999037305, + "epoch": 0.99104, + "eta_time": 0.13329642433108704, + "step": 9291 + }, + { + "epoch": 0.9911466666666666, + "grad_norm": 1.7435758814434448, + "learning_rate": 2.0556624157769265e-09, + "loss": 0.4651, + "step": 9292 + }, + { + "avg_step_time": 5.708485771911313, + "epoch": 0.9911466666666666, + "eta_time": 0.13161231085239972, + "step": 9292 + }, + { + "epoch": 0.9912533333333333, + "grad_norm": 0.6462435295682949, + "learning_rate": 2.0064300726541084e-09, + "loss": 0.4274, + "step": 9293 + }, + { + "avg_step_time": 5.678531196382311, + "epoch": 0.9912533333333333, + "eta_time": 0.12934432169537485, + "step": 9293 + }, + { + "epoch": 0.99136, + "grad_norm": 1.9403945771646056, + "learning_rate": 1.957794326513107e-09, + "loss": 0.4194, + "step": 9294 + }, + { + "avg_step_time": 5.666611240367697, + "epoch": 0.99136, + "eta_time": 0.12749875290827317, + "step": 9294 + }, + { + "epoch": 0.9914666666666667, + "grad_norm": 2.0074632148523874, + "learning_rate": 1.9097551831592785e-09, + "loss": 0.4925, + "step": 9295 + }, + { + "avg_step_time": 5.6660813153392136, + "epoch": 0.9914666666666667, + "eta_time": 0.1259129181186492, + "step": 9295 + }, + { + "epoch": 0.9915733333333333, + "grad_norm": 1.858853903628677, + "learning_rate": 1.862312648326925e-09, + "loss": 0.5054, + "step": 9296 + }, + { + "avg_step_time": 5.668574333190918, + "epoch": 0.9915733333333333, + "eta_time": 0.1243937145339118, + "step": 9296 + }, + { + "epoch": 0.99168, + "grad_norm": 0.6314462941240776, + "learning_rate": 1.8154667276798488e-09, + "loss": 0.4166, + "step": 9297 + }, + { + "avg_step_time": 5.632647509526724, + "epoch": 0.99168, + "eta_time": 0.1220406960397457, + "step": 9297 + }, + { + "epoch": 0.9917866666666667, + "grad_norm": 1.9585510251112268, + "learning_rate": 1.7692174268091334e-09, + "loss": 0.4435, + "step": 9298 + }, + { + "avg_step_time": 5.630381914100262, + "epoch": 0.9917866666666667, + "eta_time": 0.12042761316270004, + "step": 9298 + }, + { + "epoch": 0.9918933333333333, + "grad_norm": 1.6683225269628845, + "learning_rate": 1.7235647512353627e-09, + "loss": 0.4414, + "step": 9299 + }, + { + "avg_step_time": 5.639185736877749, + "epoch": 0.9918933333333333, + "eta_time": 0.11904947666741915, + "step": 9299 + }, + { + "epoch": 0.992, + "grad_norm": 1.807959055161964, + "learning_rate": 1.6785087064086213e-09, + "loss": 0.4754, + "step": 9300 + }, + { + "avg_step_time": 5.630486789375845, + "epoch": 0.992, + "eta_time": 0.11730180811199677, + "step": 9300 + }, + { + "epoch": 0.9921066666666667, + "grad_norm": 2.0226166013986138, + "learning_rate": 1.63404929770683e-09, + "loss": 0.5335, + "step": 9301 + }, + { + "avg_step_time": 5.627161011551365, + "epoch": 0.9921066666666667, + "eta_time": 0.1156694207930003, + "step": 9301 + }, + { + "epoch": 0.9922133333333333, + "grad_norm": 1.7688987305195198, + "learning_rate": 1.5901865304368547e-09, + "loss": 0.4822, + "step": 9302 + }, + { + "avg_step_time": 5.629135170368233, + "epoch": 0.9922133333333333, + "eta_time": 0.11414635206580029, + "step": 9302 + }, + { + "epoch": 0.99232, + "grad_norm": 0.644287888408236, + "learning_rate": 1.546920409834507e-09, + "loss": 0.4391, + "step": 9303 + }, + { + "avg_step_time": 5.498018727158055, + "epoch": 0.99232, + "eta_time": 0.1099603745431611, + "step": 9303 + }, + { + "epoch": 0.9924266666666667, + "grad_norm": 1.6827446635230605, + "learning_rate": 1.5042509410645445e-09, + "loss": 0.4564, + "step": 9304 + }, + { + "avg_step_time": 5.497658211775501, + "epoch": 0.9924266666666667, + "eta_time": 0.10842603695446126, + "step": 9304 + }, + { + "epoch": 0.9925333333333334, + "grad_norm": 1.7089912939068799, + "learning_rate": 1.4621781292201155e-09, + "loss": 0.4181, + "step": 9305 + }, + { + "avg_step_time": 5.49570431372132, + "epoch": 0.9925333333333334, + "eta_time": 0.10686091721124788, + "step": 9305 + }, + { + "epoch": 0.99264, + "grad_norm": 1.9883812473675246, + "learning_rate": 1.4207019793238686e-09, + "loss": 0.467, + "step": 9306 + }, + { + "avg_step_time": 5.501288806549226, + "epoch": 0.99264, + "eta_time": 0.1054413687921935, + "step": 9306 + }, + { + "epoch": 0.9927466666666667, + "grad_norm": 2.220561311487892, + "learning_rate": 1.3798224963257335e-09, + "loss": 0.5615, + "step": 9307 + }, + { + "avg_step_time": 5.5006376059368405, + "epoch": 0.9927466666666667, + "eta_time": 0.10390093255658477, + "step": 9307 + }, + { + "epoch": 0.9928533333333334, + "grad_norm": 1.6893381833112187, + "learning_rate": 1.3395396851056951e-09, + "loss": 0.4411, + "step": 9308 + }, + { + "avg_step_time": 5.4920684472479, + "epoch": 0.9928533333333334, + "eta_time": 0.10221349610155814, + "step": 9308 + }, + { + "epoch": 0.99296, + "grad_norm": 1.8297572577309877, + "learning_rate": 1.299853550472685e-09, + "loss": 0.567, + "step": 9309 + }, + { + "avg_step_time": 5.537256821237429, + "epoch": 0.99296, + "eta_time": 0.10151637505601954, + "step": 9309 + }, + { + "epoch": 0.9930666666666667, + "grad_norm": 2.322347388778596, + "learning_rate": 1.2607640971640245e-09, + "loss": 0.4707, + "step": 9310 + }, + { + "avg_step_time": 5.540012891846474, + "epoch": 0.9930666666666667, + "eta_time": 0.100028010547228, + "step": 9310 + }, + { + "epoch": 0.9931733333333334, + "grad_norm": 1.9223557772323323, + "learning_rate": 1.2222713298448706e-09, + "loss": 0.562, + "step": 9311 + }, + { + "avg_step_time": 5.542353584308817, + "epoch": 0.9931733333333334, + "eta_time": 0.0985307303877123, + "step": 9311 + }, + { + "epoch": 0.99328, + "grad_norm": 1.6227748206779524, + "learning_rate": 1.1843752531104368e-09, + "loss": 0.4925, + "step": 9312 + }, + { + "avg_step_time": 5.550197435147835, + "epoch": 0.99328, + "eta_time": 0.09712845511508711, + "step": 9312 + }, + { + "epoch": 0.9933866666666666, + "grad_norm": 1.9227836709708126, + "learning_rate": 1.1470758714843267e-09, + "loss": 0.5159, + "step": 9313 + }, + { + "avg_step_time": 5.6020308841358535, + "epoch": 0.9933866666666666, + "eta_time": 0.0964794207823397, + "step": 9313 + }, + { + "epoch": 0.9934933333333333, + "grad_norm": 1.7690045073495924, + "learning_rate": 1.1103731894190894e-09, + "loss": 0.4874, + "step": 9314 + }, + { + "avg_step_time": 5.657972961965234, + "epoch": 0.9934933333333333, + "eta_time": 0.09587120852218868, + "step": 9314 + }, + { + "epoch": 0.9936, + "grad_norm": 2.3156848822389793, + "learning_rate": 1.0742672112951103e-09, + "loss": 0.5486, + "step": 9315 + }, + { + "avg_step_time": 5.6619613122458405, + "epoch": 0.9936, + "eta_time": 0.09436602187076401, + "step": 9315 + }, + { + "epoch": 0.9937066666666666, + "grad_norm": 2.0655228145333173, + "learning_rate": 1.038757941423385e-09, + "loss": 0.5202, + "step": 9316 + }, + { + "avg_step_time": 5.692916422179251, + "epoch": 0.9937066666666666, + "eta_time": 0.09330057469682662, + "step": 9316 + }, + { + "epoch": 0.9938133333333333, + "grad_norm": 2.005293253600119, + "learning_rate": 1.0038453840416352e-09, + "loss": 0.522, + "step": 9317 + }, + { + "avg_step_time": 5.69032354306693, + "epoch": 0.9938133333333333, + "eta_time": 0.09167743486052277, + "step": 9317 + }, + { + "epoch": 0.99392, + "grad_norm": 1.8186874743798178, + "learning_rate": 9.695295433170826e-10, + "loss": 0.5645, + "step": 9318 + }, + { + "avg_step_time": 5.63051820764638, + "epoch": 0.99392, + "eta_time": 0.08914987162106768, + "step": 9318 + }, + { + "epoch": 0.9940266666666666, + "grad_norm": 1.8717669866905426, + "learning_rate": 9.358104233470055e-10, + "loss": 0.5001, + "step": 9319 + }, + { + "avg_step_time": 5.638133260938856, + "epoch": 0.9940266666666666, + "eta_time": 0.08770429517015998, + "step": 9319 + }, + { + "epoch": 0.9941333333333333, + "grad_norm": 1.8732328653171095, + "learning_rate": 9.026880281554073e-10, + "loss": 0.4181, + "step": 9320 + }, + { + "avg_step_time": 5.669661509870279, + "epoch": 0.9941333333333333, + "eta_time": 0.08661982862301816, + "step": 9320 + }, + { + "epoch": 0.99424, + "grad_norm": 0.6486312343147669, + "learning_rate": 8.701623616963472e-10, + "loss": 0.444, + "step": 9321 + }, + { + "avg_step_time": 5.62877417814852, + "epoch": 0.99424, + "eta_time": 0.0844316126722278, + "step": 9321 + }, + { + "epoch": 0.9943466666666667, + "grad_norm": 1.7277939530750699, + "learning_rate": 8.382334278528304e-10, + "loss": 0.4355, + "step": 9322 + }, + { + "avg_step_time": 5.628954290139554, + "epoch": 0.9943466666666667, + "eta_time": 0.08287071593816567, + "step": 9322 + }, + { + "epoch": 0.9944533333333333, + "grad_norm": 1.8881911346718563, + "learning_rate": 8.069012304351421e-10, + "loss": 0.5031, + "step": 9323 + }, + { + "avg_step_time": 5.628831297460229, + "epoch": 0.9944533333333333, + "eta_time": 0.08130534096331442, + "step": 9323 + }, + { + "epoch": 0.99456, + "grad_norm": 1.7890184886125504, + "learning_rate": 7.761657731836236e-10, + "loss": 0.4078, + "step": 9324 + }, + { + "avg_step_time": 5.673361436285154, + "epoch": 0.99456, + "eta_time": 0.08037262034737301, + "step": 9324 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 1.934060146967514, + "learning_rate": 7.460270597675622e-10, + "loss": 0.4631, + "step": 9325 + }, + { + "avg_step_time": 5.6713547176784935, + "epoch": 0.9946666666666667, + "eta_time": 0.07876881552331241, + "step": 9325 + }, + { + "epoch": 0.9947733333333333, + "grad_norm": 2.102570436314884, + "learning_rate": 7.164850937840806e-10, + "loss": 0.5069, + "step": 9326 + }, + { + "avg_step_time": 5.6756351837004075, + "epoch": 0.9947733333333333, + "eta_time": 0.07725170111147778, + "step": 9326 + }, + { + "epoch": 0.99488, + "grad_norm": 2.122250778422383, + "learning_rate": 6.87539878759802e-10, + "loss": 0.5872, + "step": 9327 + }, + { + "avg_step_time": 5.678950497598359, + "epoch": 0.99488, + "eta_time": 0.07571933996797814, + "step": 9327 + }, + { + "epoch": 0.9949866666666667, + "grad_norm": 1.621451865356145, + "learning_rate": 6.591914181497405e-10, + "loss": 0.3741, + "step": 9328 + }, + { + "avg_step_time": 5.744726342384261, + "epoch": 0.9949866666666667, + "eta_time": 0.07500059391446119, + "step": 9328 + }, + { + "epoch": 0.9950933333333334, + "grad_norm": 0.6648568117301666, + "learning_rate": 6.314397153378559e-10, + "loss": 0.4349, + "step": 9329 + }, + { + "avg_step_time": 5.683575598880498, + "epoch": 0.9950933333333334, + "eta_time": 0.07262346598569525, + "step": 9329 + }, + { + "epoch": 0.9952, + "grad_norm": 1.7748403118000173, + "learning_rate": 6.042847736364987e-10, + "loss": 0.4618, + "step": 9330 + }, + { + "avg_step_time": 5.67994446947117, + "epoch": 0.9952, + "eta_time": 0.07099930586838964, + "step": 9330 + }, + { + "epoch": 0.9953066666666667, + "grad_norm": 2.153260420175772, + "learning_rate": 5.7772659628752e-10, + "loss": 0.5071, + "step": 9331 + }, + { + "avg_step_time": 5.714537880637429, + "epoch": 0.9953066666666667, + "eta_time": 0.06984435187445746, + "step": 9331 + }, + { + "epoch": 0.9954133333333334, + "grad_norm": 1.7366565641680456, + "learning_rate": 5.517651864606066e-10, + "loss": 0.4443, + "step": 9332 + }, + { + "avg_step_time": 5.712897645102607, + "epoch": 0.9954133333333334, + "eta_time": 0.06823738853872557, + "step": 9332 + }, + { + "epoch": 0.99552, + "grad_norm": 1.9815918324381847, + "learning_rate": 5.264005472549461e-10, + "loss": 0.454, + "step": 9333 + }, + { + "avg_step_time": 5.742943202606355, + "epoch": 0.99552, + "eta_time": 0.06700100403040747, + "step": 9333 + }, + { + "epoch": 0.9956266666666667, + "grad_norm": 1.7149112000530335, + "learning_rate": 5.016326816981165e-10, + "loss": 0.4591, + "step": 9334 + }, + { + "avg_step_time": 5.748624076746931, + "epoch": 0.9956266666666667, + "eta_time": 0.06547044087406227, + "step": 9334 + }, + { + "epoch": 0.9957333333333334, + "grad_norm": 1.8852748148056515, + "learning_rate": 4.774615927471971e-10, + "loss": 0.4333, + "step": 9335 + }, + { + "avg_step_time": 5.7434938820925625, + "epoch": 0.9957333333333334, + "eta_time": 0.06381659868991736, + "step": 9335 + }, + { + "epoch": 0.99584, + "grad_norm": 0.6412159114849572, + "learning_rate": 4.538872832865471e-10, + "loss": 0.4547, + "step": 9336 + }, + { + "avg_step_time": 5.716358064401029, + "epoch": 0.99584, + "eta_time": 0.06192721236434448, + "step": 9336 + }, + { + "epoch": 0.9959466666666666, + "grad_norm": 1.7896529189710817, + "learning_rate": 4.3090975613058194e-10, + "loss": 0.404, + "step": 9337 + }, + { + "avg_step_time": 5.716067542933454, + "epoch": 0.9959466666666666, + "eta_time": 0.06033626850874202, + "step": 9337 + }, + { + "epoch": 0.9960533333333333, + "grad_norm": 0.6407332940695963, + "learning_rate": 4.0852901402210764e-10, + "loss": 0.4585, + "step": 9338 + }, + { + "avg_step_time": 5.681397129790952, + "epoch": 0.9960533333333333, + "eta_time": 0.058392137167295896, + "step": 9338 + }, + { + "epoch": 0.99616, + "grad_norm": 1.8781008575609404, + "learning_rate": 3.867450596328759e-10, + "loss": 0.4953, + "step": 9339 + }, + { + "avg_step_time": 5.682525986372823, + "epoch": 0.99616, + "eta_time": 0.056825259863728224, + "step": 9339 + }, + { + "epoch": 0.9962666666666666, + "grad_norm": 1.9051597844721735, + "learning_rate": 3.655578955624739e-10, + "loss": 0.4998, + "step": 9340 + }, + { + "avg_step_time": 5.718635152084659, + "epoch": 0.9962666666666666, + "eta_time": 0.05559784175637862, + "step": 9340 + }, + { + "epoch": 0.9963733333333333, + "grad_norm": 1.6687235127841296, + "learning_rate": 3.449675243405448e-10, + "loss": 0.5365, + "step": 9341 + }, + { + "avg_step_time": 5.715711504521996, + "epoch": 0.9963733333333333, + "eta_time": 0.053981719764929964, + "step": 9341 + }, + { + "epoch": 0.99648, + "grad_norm": 1.8756281370416725, + "learning_rate": 3.2497394842512244e-10, + "loss": 0.4616, + "step": 9342 + }, + { + "avg_step_time": 5.711014921014959, + "epoch": 0.99648, + "eta_time": 0.05235097010930379, + "step": 9342 + }, + { + "epoch": 0.9965866666666666, + "grad_norm": 1.9593848349947152, + "learning_rate": 3.05577170202076e-10, + "loss": 0.4015, + "step": 9343 + }, + { + "avg_step_time": 5.7442347280906905, + "epoch": 0.9965866666666666, + "eta_time": 0.051059864249695025, + "step": 9343 + }, + { + "epoch": 0.9966933333333333, + "grad_norm": 1.4797663502828535, + "learning_rate": 2.8677719198677566e-10, + "loss": 0.4131, + "step": 9344 + }, + { + "avg_step_time": 5.743311161946768, + "epoch": 0.9966933333333333, + "eta_time": 0.04945629056120828, + "step": 9344 + }, + { + "epoch": 0.9968, + "grad_norm": 1.839795456986653, + "learning_rate": 2.685740160240924e-10, + "loss": 0.4862, + "step": 9345 + }, + { + "avg_step_time": 5.745750078047164, + "epoch": 0.9968, + "eta_time": 0.04788125065039304, + "step": 9345 + }, + { + "epoch": 0.9969066666666667, + "grad_norm": 1.8514188649486967, + "learning_rate": 2.509676444861775e-10, + "loss": 0.3828, + "step": 9346 + }, + { + "avg_step_time": 5.747663546090174, + "epoch": 0.9969066666666667, + "eta_time": 0.04630062301017085, + "step": 9346 + }, + { + "epoch": 0.9970133333333333, + "grad_norm": 2.059020213975058, + "learning_rate": 2.339580794752383e-10, + "loss": 0.5555, + "step": 9347 + }, + { + "avg_step_time": 5.69185815917121, + "epoch": 0.9970133333333333, + "eta_time": 0.04427000790466497, + "step": 9347 + }, + { + "epoch": 0.99712, + "grad_norm": 0.6232056688572162, + "learning_rate": 2.1754532302076247e-10, + "loss": 0.4295, + "step": 9348 + }, + { + "avg_step_time": 5.661687747396604, + "epoch": 0.99712, + "eta_time": 0.042462658105474525, + "step": 9348 + }, + { + "epoch": 0.9972266666666667, + "grad_norm": 1.9311585882312925, + "learning_rate": 2.017293770828488e-10, + "loss": 0.529, + "step": 9349 + }, + { + "avg_step_time": 5.663384297881463, + "epoch": 0.9972266666666667, + "eta_time": 0.0409022199291439, + "step": 9349 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 0.6491810372045632, + "learning_rate": 1.8651024354887637e-10, + "loss": 0.4582, + "step": 9350 + }, + { + "avg_step_time": 5.633940321026427, + "epoch": 0.9973333333333333, + "eta_time": 0.039124585562683514, + "step": 9350 + }, + { + "epoch": 0.99744, + "grad_norm": 0.6121807471975335, + "learning_rate": 1.718879242357252e-10, + "loss": 0.4262, + "step": 9351 + }, + { + "avg_step_time": 5.596299946910203, + "epoch": 0.99744, + "eta_time": 0.03730866631273468, + "step": 9351 + }, + { + "epoch": 0.9975466666666667, + "grad_norm": 1.8013315119563087, + "learning_rate": 1.578624208886659e-10, + "loss": 0.4304, + "step": 9352 + }, + { + "avg_step_time": 5.634272854737561, + "epoch": 0.9975466666666667, + "eta_time": 0.03599674323860109, + "step": 9352 + }, + { + "epoch": 0.9976533333333333, + "grad_norm": 2.056440776067719, + "learning_rate": 1.4443373518246984e-10, + "loss": 0.4694, + "step": 9353 + }, + { + "avg_step_time": 5.668846561451151, + "epoch": 0.9976533333333333, + "eta_time": 0.03464295120886814, + "step": 9353 + }, + { + "epoch": 0.99776, + "grad_norm": 1.908304363186962, + "learning_rate": 1.316018687191889e-10, + "loss": 0.4772, + "step": 9354 + }, + { + "avg_step_time": 5.670881805997906, + "epoch": 0.99776, + "eta_time": 0.033080143868321116, + "step": 9354 + }, + { + "epoch": 0.9978666666666667, + "grad_norm": 1.6719090611796315, + "learning_rate": 1.1936682303037573e-10, + "loss": 0.4723, + "step": 9355 + }, + { + "avg_step_time": 5.6679074186267275, + "epoch": 0.9978666666666667, + "eta_time": 0.03148837454792626, + "step": 9355 + }, + { + "epoch": 0.9979733333333334, + "grad_norm": 1.876215928911441, + "learning_rate": 1.0772859957763892e-10, + "loss": 0.5229, + "step": 9356 + }, + { + "avg_step_time": 5.698735942744245, + "epoch": 0.9979733333333334, + "eta_time": 0.030076661920039074, + "step": 9356 + }, + { + "epoch": 0.99808, + "grad_norm": 1.744057381689304, + "learning_rate": 9.668719974986751e-11, + "loss": 0.493, + "step": 9357 + }, + { + "avg_step_time": 5.698005770192002, + "epoch": 0.99808, + "eta_time": 0.02849002885096001, + "step": 9357 + }, + { + "epoch": 0.9981866666666667, + "grad_norm": 1.8815044460969264, + "learning_rate": 8.62426248643411e-11, + "loss": 0.4335, + "step": 9358 + }, + { + "avg_step_time": 5.696585920121935, + "epoch": 0.9981866666666667, + "eta_time": 0.026900544622798027, + "step": 9358 + }, + { + "epoch": 0.9982933333333334, + "grad_norm": 2.121725195539089, + "learning_rate": 7.639487616839525e-11, + "loss": 0.4765, + "step": 9359 + }, + { + "avg_step_time": 5.6770161546842015, + "epoch": 0.9982933333333334, + "eta_time": 0.02523118290970756, + "step": 9359 + }, + { + "epoch": 0.9984, + "grad_norm": 0.6430002033598502, + "learning_rate": 6.714395483720105e-11, + "loss": 0.4212, + "step": 9360 + }, + { + "avg_step_time": 5.664619164033369, + "epoch": 0.9984, + "eta_time": 0.023602579850139038, + "step": 9360 + }, + { + "epoch": 0.9985066666666667, + "grad_norm": 1.9508574204678895, + "learning_rate": 5.848986197487528e-11, + "loss": 0.5272, + "step": 9361 + }, + { + "avg_step_time": 5.690657319444599, + "epoch": 0.9985066666666667, + "eta_time": 0.02213033402006233, + "step": 9361 + }, + { + "epoch": 0.9986133333333334, + "grad_norm": 2.1132700148956762, + "learning_rate": 5.043259861559069e-11, + "loss": 0.5388, + "step": 9362 + }, + { + "avg_step_time": 5.6757792920777295, + "epoch": 0.9986133333333334, + "eta_time": 0.020495869665836244, + "step": 9362 + }, + { + "epoch": 0.99872, + "grad_norm": 1.9267483771349883, + "learning_rate": 4.297216571969021e-11, + "loss": 0.5769, + "step": 9363 + }, + { + "avg_step_time": 5.668721721629904, + "epoch": 0.99872, + "eta_time": 0.01889573907209968, + "step": 9363 + }, + { + "epoch": 0.9988266666666666, + "grad_norm": 1.7342641103319199, + "learning_rate": 3.6108564178127804e-11, + "loss": 0.5242, + "step": 9364 + }, + { + "avg_step_time": 5.6710040448892, + "epoch": 0.9988266666666666, + "eta_time": 0.01732806791493922, + "step": 9364 + }, + { + "epoch": 0.9989333333333333, + "grad_norm": 1.9088967449528054, + "learning_rate": 2.9841794810803185e-11, + "loss": 0.4559, + "step": 9365 + }, + { + "avg_step_time": 5.65727460986436, + "epoch": 0.9989333333333333, + "eta_time": 0.015714651694067668, + "step": 9365 + }, + { + "epoch": 0.99904, + "grad_norm": 1.6423110039719933, + "learning_rate": 2.417185836545155e-11, + "loss": 0.3832, + "step": 9366 + }, + { + "avg_step_time": 5.650086506448611, + "epoch": 0.99904, + "eta_time": 0.014125216266121527, + "step": 9366 + }, + { + "epoch": 0.9991466666666666, + "grad_norm": 2.2445343262345263, + "learning_rate": 1.909875551819873e-11, + "loss": 0.5628, + "step": 9367 + }, + { + "avg_step_time": 5.624092564438328, + "epoch": 0.9991466666666666, + "eta_time": 0.012497983476529619, + "step": 9367 + }, + { + "epoch": 0.9992533333333333, + "grad_norm": 1.908549815482854, + "learning_rate": 1.4622486875226494e-11, + "loss": 0.4684, + "step": 9368 + }, + { + "avg_step_time": 5.62549926295425, + "epoch": 0.9992533333333333, + "eta_time": 0.010938470789077708, + "step": 9368 + }, + { + "epoch": 0.99936, + "grad_norm": 1.9769928279316327, + "learning_rate": 1.0743052971107225e-11, + "loss": 0.5126, + "step": 9369 + }, + { + "avg_step_time": 5.63009192486002, + "epoch": 0.99936, + "eta_time": 0.009383486541433367, + "step": 9369 + }, + { + "epoch": 0.9994666666666666, + "grad_norm": 1.8175302186192481, + "learning_rate": 7.46045426880393e-12, + "loss": 0.4716, + "step": 9370 + }, + { + "avg_step_time": 5.629836258262094, + "epoch": 0.9994666666666666, + "eta_time": 0.00781921702536402, + "step": 9370 + }, + { + "epoch": 0.9995733333333333, + "grad_norm": 1.6608847099740887, + "learning_rate": 4.774691159115108e-12, + "loss": 0.4345, + "step": 9371 + }, + { + "avg_step_time": 5.629834379812683, + "epoch": 0.9995733333333333, + "eta_time": 0.006255371533125204, + "step": 9371 + }, + { + "epoch": 0.99968, + "grad_norm": 0.6623312221831511, + "learning_rate": 2.6857639640054387e-12, + "loss": 0.4233, + "step": 9372 + }, + { + "avg_step_time": 5.593203852875064, + "epoch": 0.99968, + "eta_time": 0.00466100321072922, + "step": 9372 + }, + { + "epoch": 0.9997866666666667, + "grad_norm": 0.6289302219014059, + "learning_rate": 1.19367293216488e-12, + "loss": 0.4325, + "step": 9373 + }, + { + "avg_step_time": 5.555490710518577, + "epoch": 0.9997866666666667, + "eta_time": 0.003086383728065876, + "step": 9373 + }, + { + "epoch": 0.9998933333333333, + "grad_norm": 1.9063631729698096, + "learning_rate": 2.984182417842263e-13, + "loss": 0.5182, + "step": 9374 + }, + { + "avg_step_time": 5.558208846082591, + "epoch": 0.9998933333333333, + "eta_time": 0.0015439469016896086, + "step": 9374 + }, + { + "epoch": 1.0, + "grad_norm": 1.3285605677763141, + "learning_rate": 0.0, + "loss": 0.5022, + "step": 9375 + }, + { + "epoch": 1.0, + "step": 9375, + "total_flos": 2247637690736640.0, + "train_loss": 0.0, + "train_runtime": 0.0324, + "train_samples_per_second": 37053519.343, + "train_steps_per_second": 289480.62 + } + ], + "logging_steps": 1.0, + "max_steps": 9375, + "num_input_tokens_seen": 0, + "num_train_epochs": 1, + "save_steps": 5000, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 2247637690736640.0, + "train_batch_size": 2, + "trial_name": null, + "trial_params": null +}