Training in progress, epoch 13

5e2016a verified 8 months ago

18.1 kB

	{'loss': 1.4007, 'grad_norm': 1.7373141050338745, 'learning_rate': 4.991249562478124e-05, 'epoch': 0.09}
	{'loss': 1.3979, 'grad_norm': 1.4521712064743042, 'learning_rate': 4.982499124956248e-05, 'epoch': 0.18}
	{'loss': 1.396, 'grad_norm': 1.4701424837112427, 'learning_rate': 4.973748687434372e-05, 'epoch': 0.26}
	{'loss': 1.3946, 'grad_norm': 1.407281756401062, 'learning_rate': 4.964998249912496e-05, 'epoch': 0.35}
	{'loss': 1.3936, 'grad_norm': 1.4591513872146606, 'learning_rate': 4.95624781239062e-05, 'epoch': 0.44}
	{'loss': 1.3905, 'grad_norm': 1.5211539268493652, 'learning_rate': 4.947497374868744e-05, 'epoch': 0.53}
	{'loss': 1.391, 'grad_norm': 1.1787604093551636, 'learning_rate': 4.9387469373468674e-05, 'epoch': 0.61}
	{'loss': 1.3908, 'grad_norm': 1.2173224687576294, 'learning_rate': 4.929996499824991e-05, 'epoch': 0.7}
	{'loss': 1.3912, 'grad_norm': 1.7298877239227295, 'learning_rate': 4.9212460623031155e-05, 'epoch': 0.79}
	{'loss': 1.3908, 'grad_norm': 1.3088189363479614, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.88}
	{'loss': 1.3908, 'grad_norm': 1.181019902229309, 'learning_rate': 4.903745187259363e-05, 'epoch': 0.96}
	[0 3 3 ... 1 3 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.26225197226870667, 'eval_runtime': 31.3578, 'eval_samples_per_second': 133.396, 'eval_steps_per_second': 4.178, 'epoch': 1.0}
	{'loss': 1.3908, 'grad_norm': 1.2417933940887451, 'learning_rate': 4.894994749737487e-05, 'epoch': 1.05}
	{'loss': 1.3898, 'grad_norm': 1.142290711402893, 'learning_rate': 4.886244312215611e-05, 'epoch': 1.14}
	{'loss': 1.3904, 'grad_norm': 1.1469066143035889, 'learning_rate': 4.8774938746937346e-05, 'epoch': 1.23}
	{'loss': 1.3889, 'grad_norm': 1.1493582725524902, 'learning_rate': 4.868743437171859e-05, 'epoch': 1.31}
	{'loss': 1.3892, 'grad_norm': 0.8555408120155334, 'learning_rate': 4.859992999649983e-05, 'epoch': 1.4}
	{'loss': 1.3894, 'grad_norm': 1.3826375007629395, 'learning_rate': 4.8512425621281064e-05, 'epoch': 1.49}
	{'loss': 1.3891, 'grad_norm': 1.3947253227233887, 'learning_rate': 4.842492124606231e-05, 'epoch': 1.58}
	{'loss': 1.3889, 'grad_norm': 1.001010537147522, 'learning_rate': 4.8337416870843544e-05, 'epoch': 1.66}
	{'loss': 1.3888, 'grad_norm': 1.0130168199539185, 'learning_rate': 4.824991249562478e-05, 'epoch': 1.75}
	{'loss': 1.3887, 'grad_norm': 1.1529325246810913, 'learning_rate': 4.8162408120406025e-05, 'epoch': 1.84}
	{'loss': 1.3872, 'grad_norm': 0.9424309730529785, 'learning_rate': 4.807490374518726e-05, 'epoch': 1.93}
	[0 1 2 ... 1 0 3] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.28065981353095865, 'eval_runtime': 31.2992, 'eval_samples_per_second': 133.645, 'eval_steps_per_second': 4.185, 'epoch': 2.0}
	{'loss': 1.3886, 'grad_norm': 1.0133026838302612, 'learning_rate': 4.79873993699685e-05, 'epoch': 2.01}
	{'loss': 1.3882, 'grad_norm': 0.962411105632782, 'learning_rate': 4.7899894994749736e-05, 'epoch': 2.1}
	{'loss': 1.389, 'grad_norm': 1.1512991189956665, 'learning_rate': 4.781239061953098e-05, 'epoch': 2.19}
	{'loss': 1.3888, 'grad_norm': 1.0319995880126953, 'learning_rate': 4.7724886244312216e-05, 'epoch': 2.28}
	{'loss': 1.3875, 'grad_norm': 1.1164413690567017, 'learning_rate': 4.763738186909345e-05, 'epoch': 2.36}
	{'loss': 1.3883, 'grad_norm': 1.0944055318832397, 'learning_rate': 4.75498774938747e-05, 'epoch': 2.45}
	{'loss': 1.3878, 'grad_norm': 0.987811803817749, 'learning_rate': 4.7462373118655934e-05, 'epoch': 2.54}
	{'loss': 1.3882, 'grad_norm': 0.9401206374168396, 'learning_rate': 4.737486874343717e-05, 'epoch': 2.63}
	{'loss': 1.389, 'grad_norm': 1.3271900415420532, 'learning_rate': 4.7287364368218414e-05, 'epoch': 2.71}
	{'loss': 1.3881, 'grad_norm': 0.982054591178894, 'learning_rate': 4.719985999299965e-05, 'epoch': 2.8}
	{'loss': 1.3879, 'grad_norm': 0.9409103393554688, 'learning_rate': 4.711235561778089e-05, 'epoch': 2.89}
	{'loss': 1.388, 'grad_norm': 0.8260275721549988, 'learning_rate': 4.702485124256213e-05, 'epoch': 2.98}
	[0 0 2 ... 0 3 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2534066459478843, 'eval_runtime': 31.7996, 'eval_samples_per_second': 131.542, 'eval_steps_per_second': 4.12, 'epoch': 3.0}
	{'loss': 1.3875, 'grad_norm': 1.1651508808135986, 'learning_rate': 4.693734686734337e-05, 'epoch': 3.06}
	{'loss': 1.3875, 'grad_norm': 0.9445706009864807, 'learning_rate': 4.6849842492124606e-05, 'epoch': 3.15}
	{'loss': 1.3877, 'grad_norm': 1.1367888450622559, 'learning_rate': 4.676233811690585e-05, 'epoch': 3.24}
	{'loss': 1.3878, 'grad_norm': 1.238919734954834, 'learning_rate': 4.6674833741687086e-05, 'epoch': 3.33}
	{'loss': 1.3881, 'grad_norm': 0.9354468584060669, 'learning_rate': 4.658732936646832e-05, 'epoch': 3.41}
	{'loss': 1.3872, 'grad_norm': 0.9502829909324646, 'learning_rate': 4.649982499124956e-05, 'epoch': 3.5}
	{'loss': 1.3868, 'grad_norm': 0.9989140033721924, 'learning_rate': 4.6412320616030804e-05, 'epoch': 3.59}
	{'loss': 1.3881, 'grad_norm': 0.9745475053787231, 'learning_rate': 4.632481624081204e-05, 'epoch': 3.68}
	{'loss': 1.3877, 'grad_norm': 0.9343527555465698, 'learning_rate': 4.623731186559328e-05, 'epoch': 3.76}
	{'loss': 1.3877, 'grad_norm': 1.1528387069702148, 'learning_rate': 4.614980749037452e-05, 'epoch': 3.85}
	{'loss': 1.3874, 'grad_norm': 1.1041843891143799, 'learning_rate': 4.606230311515576e-05, 'epoch': 3.94}
	[0 0 2 ... 1 3 2] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.26870666985417163, 'eval_runtime': 31.4075, 'eval_samples_per_second': 133.185, 'eval_steps_per_second': 4.171, 'epoch': 4.0}
	{'loss': 1.3877, 'grad_norm': 0.8944958448410034, 'learning_rate': 4.5974798739936995e-05, 'epoch': 4.03}
	{'loss': 1.3874, 'grad_norm': 1.0343414545059204, 'learning_rate': 4.588729436471824e-05, 'epoch': 4.11}
	{'loss': 1.3868, 'grad_norm': 0.8568887710571289, 'learning_rate': 4.5799789989499476e-05, 'epoch': 4.2}
	{'loss': 1.3874, 'grad_norm': 1.1150667667388916, 'learning_rate': 4.571228561428071e-05, 'epoch': 4.29}
	{'loss': 1.3866, 'grad_norm': 0.8998913168907166, 'learning_rate': 4.5624781239061956e-05, 'epoch': 4.38}
	{'loss': 1.3873, 'grad_norm': 1.167543649673462, 'learning_rate': 4.553727686384319e-05, 'epoch': 4.46}
	{'loss': 1.3874, 'grad_norm': 1.0913959741592407, 'learning_rate': 4.544977248862443e-05, 'epoch': 4.55}
	{'loss': 1.3873, 'grad_norm': 1.2033382654190063, 'learning_rate': 4.5362268113405674e-05, 'epoch': 4.64}
	{'loss': 1.3867, 'grad_norm': 1.049830436706543, 'learning_rate': 4.527476373818691e-05, 'epoch': 4.73}
	{'loss': 1.387, 'grad_norm': 1.111740231513977, 'learning_rate': 4.518725936296815e-05, 'epoch': 4.81}
	{'loss': 1.3875, 'grad_norm': 0.9205018281936646, 'learning_rate': 4.5099754987749384e-05, 'epoch': 4.9}
	{'loss': 1.3872, 'grad_norm': 0.9673327207565308, 'learning_rate': 4.501225061253063e-05, 'epoch': 4.99}
	[3 1 3 ... 2 3 2] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2703801099689218, 'eval_runtime': 31.2595, 'eval_samples_per_second': 133.815, 'eval_steps_per_second': 4.191, 'epoch': 5.0}
	{'loss': 1.3867, 'grad_norm': 1.0343459844589233, 'learning_rate': 4.4924746237311865e-05, 'epoch': 5.08}
	{'loss': 1.3872, 'grad_norm': 1.0328655242919922, 'learning_rate': 4.48372418620931e-05, 'epoch': 5.16}
	{'loss': 1.3871, 'grad_norm': 1.1707868576049805, 'learning_rate': 4.4749737486874346e-05, 'epoch': 5.25}
	{'loss': 1.388, 'grad_norm': 1.3357250690460205, 'learning_rate': 4.466223311165558e-05, 'epoch': 5.34}
	{'loss': 1.3869, 'grad_norm': 1.2094460725784302, 'learning_rate': 4.457472873643682e-05, 'epoch': 5.43}
	{'loss': 1.3879, 'grad_norm': 1.6010318994522095, 'learning_rate': 4.448722436121806e-05, 'epoch': 5.51}
	{'loss': 1.3876, 'grad_norm': 1.4410781860351562, 'learning_rate': 4.43997199859993e-05, 'epoch': 5.6}
	{'loss': 1.3874, 'grad_norm': 1.585825800895691, 'learning_rate': 4.431221561078054e-05, 'epoch': 5.69}
	{'loss': 1.387, 'grad_norm': 1.2249019145965576, 'learning_rate': 4.422471123556178e-05, 'epoch': 5.78}
	{'loss': 1.3869, 'grad_norm': 1.5273207426071167, 'learning_rate': 4.413720686034302e-05, 'epoch': 5.86}
	{'loss': 1.3877, 'grad_norm': 1.5296709537506104, 'learning_rate': 4.4049702485124255e-05, 'epoch': 5.95}
	[0 0 0 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2935692087018886, 'eval_runtime': 31.3874, 'eval_samples_per_second': 133.27, 'eval_steps_per_second': 4.174, 'epoch': 6.0}
	{'loss': 1.3875, 'grad_norm': 1.3554401397705078, 'learning_rate': 4.396219810990549e-05, 'epoch': 6.04}
	{'loss': 1.3874, 'grad_norm': 1.367832064628601, 'learning_rate': 4.3874693734686735e-05, 'epoch': 6.13}
	{'loss': 1.3872, 'grad_norm': 1.668521523475647, 'learning_rate': 4.378718935946797e-05, 'epoch': 6.21}
	{'loss': 1.3875, 'grad_norm': 1.4914822578430176, 'learning_rate': 4.3699684984249216e-05, 'epoch': 6.3}
	{'loss': 1.3876, 'grad_norm': 1.329606294631958, 'learning_rate': 4.361218060903046e-05, 'epoch': 6.39}
	{'loss': 1.3869, 'grad_norm': 1.4597110748291016, 'learning_rate': 4.3524676233811696e-05, 'epoch': 6.48}
	{'loss': 1.3872, 'grad_norm': 1.3522239923477173, 'learning_rate': 4.343717185859293e-05, 'epoch': 6.56}
	{'loss': 1.387, 'grad_norm': 1.4124177694320679, 'learning_rate': 4.334966748337417e-05, 'epoch': 6.65}
	{'loss': 1.3863, 'grad_norm': 1.5860718488693237, 'learning_rate': 4.3262163108155414e-05, 'epoch': 6.74}
	{'loss': 1.3874, 'grad_norm': 1.58013117313385, 'learning_rate': 4.317465873293665e-05, 'epoch': 6.83}
	{'loss': 1.3874, 'grad_norm': 1.1720224618911743, 'learning_rate': 4.308715435771789e-05, 'epoch': 6.91}
	[0 0 0 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.3213005020320344, 'eval_runtime': 31.6095, 'eval_samples_per_second': 132.333, 'eval_steps_per_second': 4.144, 'epoch': 7.0}
	{'loss': 1.3872, 'grad_norm': 1.2224329710006714, 'learning_rate': 4.299964998249913e-05, 'epoch': 7.0}
	{'loss': 1.3872, 'grad_norm': 1.3096520900726318, 'learning_rate': 4.291214560728037e-05, 'epoch': 7.09}
	{'loss': 1.3875, 'grad_norm': 1.5711919069290161, 'learning_rate': 4.2824641232061605e-05, 'epoch': 7.18}
	{'loss': 1.3867, 'grad_norm': 1.485144853591919, 'learning_rate': 4.273713685684285e-05, 'epoch': 7.26}
	{'loss': 1.3872, 'grad_norm': 1.2670478820800781, 'learning_rate': 4.2649632481624086e-05, 'epoch': 7.35}
	{'loss': 1.3869, 'grad_norm': 1.5671718120574951, 'learning_rate': 4.256212810640532e-05, 'epoch': 7.44}
	{'loss': 1.3869, 'grad_norm': 1.4426175355911255, 'learning_rate': 4.2474623731186566e-05, 'epoch': 7.53}
	{'loss': 1.3871, 'grad_norm': 1.7244657278060913, 'learning_rate': 4.23871193559678e-05, 'epoch': 7.61}
	{'loss': 1.3866, 'grad_norm': 1.3160103559494019, 'learning_rate': 4.229961498074904e-05, 'epoch': 7.7}
	{'loss': 1.387, 'grad_norm': 1.683153748512268, 'learning_rate': 4.2212110605530284e-05, 'epoch': 7.79}
	{'loss': 1.3871, 'grad_norm': 1.4620964527130127, 'learning_rate': 4.212460623031152e-05, 'epoch': 7.88}
	{'loss': 1.3867, 'grad_norm': 1.6366734504699707, 'learning_rate': 4.203710185509276e-05, 'epoch': 7.96}
	[0 0 0 ... 1 0 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.29572077456371026, 'eval_runtime': 31.3116, 'eval_samples_per_second': 133.592, 'eval_steps_per_second': 4.184, 'epoch': 8.0}
	{'loss': 1.3869, 'grad_norm': 1.6228718757629395, 'learning_rate': 4.1949597479873995e-05, 'epoch': 8.05}
	{'loss': 1.3877, 'grad_norm': 1.4833662509918213, 'learning_rate': 4.186209310465524e-05, 'epoch': 8.14}
	{'loss': 1.387, 'grad_norm': 1.3040786981582642, 'learning_rate': 4.1774588729436475e-05, 'epoch': 8.23}
	{'loss': 1.3867, 'grad_norm': 1.5207374095916748, 'learning_rate': 4.168708435421771e-05, 'epoch': 8.31}
	{'loss': 1.3865, 'grad_norm': 1.493599534034729, 'learning_rate': 4.1599579978998956e-05, 'epoch': 8.4}
	{'loss': 1.3865, 'grad_norm': 1.5036178827285767, 'learning_rate': 4.151207560378019e-05, 'epoch': 8.49}
	{'loss': 1.3868, 'grad_norm': 1.4251501560211182, 'learning_rate': 4.142457122856143e-05, 'epoch': 8.58}
	{'loss': 1.3867, 'grad_norm': 1.3690111637115479, 'learning_rate': 4.133706685334267e-05, 'epoch': 8.66}
	{'loss': 1.387, 'grad_norm': 1.3479729890823364, 'learning_rate': 4.124956247812391e-05, 'epoch': 8.75}
	{'loss': 1.3869, 'grad_norm': 1.4524887800216675, 'learning_rate': 4.116205810290515e-05, 'epoch': 8.84}
	{'loss': 1.3874, 'grad_norm': 1.6909964084625244, 'learning_rate': 4.107455372768639e-05, 'epoch': 8.93}
	[2 0 1 ... 0 0 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.27611761893377956, 'eval_runtime': 31.7029, 'eval_samples_per_second': 131.944, 'eval_steps_per_second': 4.132, 'epoch': 9.0}
	{'loss': 1.3864, 'grad_norm': 1.6411044597625732, 'learning_rate': 4.098704935246763e-05, 'epoch': 9.01}
	{'loss': 1.3868, 'grad_norm': 1.6581811904907227, 'learning_rate': 4.0899544977248865e-05, 'epoch': 9.1}
	{'loss': 1.3873, 'grad_norm': 1.4471980333328247, 'learning_rate': 4.081204060203011e-05, 'epoch': 9.19}
	{'loss': 1.3873, 'grad_norm': 1.5096768140792847, 'learning_rate': 4.0724536226811345e-05, 'epoch': 9.28}
	{'loss': 1.3866, 'grad_norm': 1.6396162509918213, 'learning_rate': 4.063703185159258e-05, 'epoch': 9.36}
	{'loss': 1.3867, 'grad_norm': 1.6626267433166504, 'learning_rate': 4.054952747637382e-05, 'epoch': 9.45}
	{'loss': 1.3872, 'grad_norm': 1.378581166267395, 'learning_rate': 4.046202310115506e-05, 'epoch': 9.54}
	{'loss': 1.3869, 'grad_norm': 1.6200608015060425, 'learning_rate': 4.03745187259363e-05, 'epoch': 9.63}
	{'loss': 1.3869, 'grad_norm': 1.3675824403762817, 'learning_rate': 4.0287014350717536e-05, 'epoch': 9.71}
	{'loss': 1.3867, 'grad_norm': 1.5027799606323242, 'learning_rate': 4.019950997549878e-05, 'epoch': 9.8}
	{'loss': 1.3865, 'grad_norm': 1.6200268268585205, 'learning_rate': 4.011200560028002e-05, 'epoch': 9.89}
	{'loss': 1.3868, 'grad_norm': 1.5721412897109985, 'learning_rate': 4.0024501225061254e-05, 'epoch': 9.98}
	[1 0 0 ... 0 0 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.30337078651685395, 'eval_runtime': 31.2617, 'eval_samples_per_second': 133.806, 'eval_steps_per_second': 4.19, 'epoch': 10.0}
	{'loss': 1.3866, 'grad_norm': 1.355176568031311, 'learning_rate': 3.99369968498425e-05, 'epoch': 10.06}
	{'loss': 1.3869, 'grad_norm': 1.5548807382583618, 'learning_rate': 3.9849492474623735e-05, 'epoch': 10.15}
	{'loss': 1.3868, 'grad_norm': 1.3698440790176392, 'learning_rate': 3.976198809940497e-05, 'epoch': 10.24}
	{'loss': 1.3871, 'grad_norm': 1.686001181602478, 'learning_rate': 3.9674483724186215e-05, 'epoch': 10.33}
	{'loss': 1.3869, 'grad_norm': 1.5848819017410278, 'learning_rate': 3.958697934896745e-05, 'epoch': 10.41}
	{'loss': 1.3872, 'grad_norm': 1.4722261428833008, 'learning_rate': 3.949947497374869e-05, 'epoch': 10.5}
	{'loss': 1.3862, 'grad_norm': 1.4515795707702637, 'learning_rate': 3.9411970598529926e-05, 'epoch': 10.59}
	{'loss': 1.3869, 'grad_norm': 1.8516024351119995, 'learning_rate': 3.932446622331117e-05, 'epoch': 10.68}
	{'loss': 1.387, 'grad_norm': 1.6413313150405884, 'learning_rate': 3.9236961848092406e-05, 'epoch': 10.76}
	{'loss': 1.3864, 'grad_norm': 1.5505764484405518, 'learning_rate': 3.914945747287364e-05, 'epoch': 10.85}
	{'loss': 1.3866, 'grad_norm': 1.60427987575531, 'learning_rate': 3.906195309765489e-05, 'epoch': 10.94}
	[0 0 0 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.2773129333014583, 'eval_runtime': 31.5172, 'eval_samples_per_second': 132.721, 'eval_steps_per_second': 4.156, 'epoch': 11.0}
	{'loss': 1.3869, 'grad_norm': 1.7129335403442383, 'learning_rate': 3.8974448722436124e-05, 'epoch': 11.03}
	{'loss': 1.3863, 'grad_norm': 1.2940468788146973, 'learning_rate': 3.888694434721736e-05, 'epoch': 11.11}
	{'loss': 1.3864, 'grad_norm': 1.6037455797195435, 'learning_rate': 3.8799439971998605e-05, 'epoch': 11.2}
	{'loss': 1.3872, 'grad_norm': 1.6535574197769165, 'learning_rate': 3.871193559677984e-05, 'epoch': 11.29}
	{'loss': 1.3864, 'grad_norm': 1.4949287176132202, 'learning_rate': 3.862443122156108e-05, 'epoch': 11.38}
	{'loss': 1.387, 'grad_norm': 1.5116932392120361, 'learning_rate': 3.853692684634232e-05, 'epoch': 11.46}
	{'loss': 1.3866, 'grad_norm': 1.4328763484954834, 'learning_rate': 3.844942247112356e-05, 'epoch': 11.55}
	{'loss': 1.3869, 'grad_norm': 1.5736273527145386, 'learning_rate': 3.8361918095904796e-05, 'epoch': 11.64}
	{'loss': 1.3867, 'grad_norm': 1.7489657402038574, 'learning_rate': 3.827441372068604e-05, 'epoch': 11.73}
	{'loss': 1.3866, 'grad_norm': 1.4763479232788086, 'learning_rate': 3.8186909345467276e-05, 'epoch': 11.81}
	{'loss': 1.3868, 'grad_norm': 1.4320505857467651, 'learning_rate': 3.809940497024851e-05, 'epoch': 11.9}
	{'loss': 1.3869, 'grad_norm': 1.6347980499267578, 'learning_rate': 3.801190059502975e-05, 'epoch': 11.99}
	[0 0 0 ... 0 0 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3862946033477783, 'eval_accuracy': 0.3160411188142481, 'eval_runtime': 31.2795, 'eval_samples_per_second': 133.73, 'eval_steps_per_second': 4.188, 'epoch': 12.0}
	{'loss': 1.3869, 'grad_norm': 1.5249700546264648, 'learning_rate': 3.7924396219810994e-05, 'epoch': 12.08}
	{'loss': 1.387, 'grad_norm': 1.2788211107254028, 'learning_rate': 3.783689184459223e-05, 'epoch': 12.16}
	{'loss': 1.3868, 'grad_norm': 1.6066429615020752, 'learning_rate': 3.774938746937347e-05, 'epoch': 12.25}
	{'loss': 1.3869, 'grad_norm': 1.2969735860824585, 'learning_rate': 3.766188309415471e-05, 'epoch': 12.34}
	{'loss': 1.3867, 'grad_norm': 1.5080153942108154, 'learning_rate': 3.757437871893595e-05, 'epoch': 12.43}
	{'loss': 1.387, 'grad_norm': 1.6393741369247437, 'learning_rate': 3.7486874343717185e-05, 'epoch': 12.51}
	{'loss': 1.3866, 'grad_norm': 1.464860439300537, 'learning_rate': 3.739936996849843e-05, 'epoch': 12.6}
	{'loss': 1.3869, 'grad_norm': 1.5701706409454346, 'learning_rate': 3.7311865593279666e-05, 'epoch': 12.69}
	{'loss': 1.3863, 'grad_norm': 1.479953408241272, 'learning_rate': 3.72243612180609e-05, 'epoch': 12.78}
	{'loss': 1.3865, 'grad_norm': 1.6790354251861572, 'learning_rate': 3.7136856842842146e-05, 'epoch': 12.86}
	{'loss': 1.3867, 'grad_norm': 1.5029643774032593, 'learning_rate': 3.7049352467623383e-05, 'epoch': 12.95}