init commit

d044d5f 14 days ago

85.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.4284490145672665,
	"eval_steps": 500,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.000856898029134533,
	"grad_norm": 0.4453125,
	"learning_rate": 5e-05,
	"loss": 3.6595,
	"step": 1
	},
	{
	"epoch": 0.001713796058269066,
	"grad_norm": 0.4296875,
	"learning_rate": 0.0001,
	"loss": 3.6973,
	"step": 2
	},
	{
	"epoch": 0.002570694087403599,
	"grad_norm": 0.453125,
	"learning_rate": 0.00015,
	"loss": 3.6343,
	"step": 3
	},
	{
	"epoch": 0.003427592116538132,
	"grad_norm": 0.419921875,
	"learning_rate": 0.0002,
	"loss": 3.3538,
	"step": 4
	},
	{
	"epoch": 0.004284490145672665,
	"grad_norm": 0.4140625,
	"learning_rate": 0.00025,
	"loss": 3.2142,
	"step": 5
	},
	{
	"epoch": 0.005141388174807198,
	"grad_norm": 0.384765625,
	"learning_rate": 0.0003,
	"loss": 2.9167,
	"step": 6
	},
	{
	"epoch": 0.005998286203941731,
	"grad_norm": 0.349609375,
	"learning_rate": 0.00035,
	"loss": 2.7017,
	"step": 7
	},
	{
	"epoch": 0.006855184233076264,
	"grad_norm": 0.306640625,
	"learning_rate": 0.0004,
	"loss": 2.4232,
	"step": 8
	},
	{
	"epoch": 0.007712082262210797,
	"grad_norm": 0.25390625,
	"learning_rate": 0.00045000000000000004,
	"loss": 2.1348,
	"step": 9
	},
	{
	"epoch": 0.00856898029134533,
	"grad_norm": 0.24609375,
	"learning_rate": 0.0005,
	"loss": 2.0355,
	"step": 10
	},
	{
	"epoch": 0.009425878320479864,
	"grad_norm": 0.28515625,
	"learning_rate": 0.00055,
	"loss": 2.0537,
	"step": 11
	},
	{
	"epoch": 0.010282776349614395,
	"grad_norm": 0.322265625,
	"learning_rate": 0.0006,
	"loss": 2.0642,
	"step": 12
	},
	{
	"epoch": 0.011139674378748929,
	"grad_norm": 0.3203125,
	"learning_rate": 0.0006500000000000001,
	"loss": 2.0116,
	"step": 13
	},
	{
	"epoch": 0.011996572407883462,
	"grad_norm": 0.3125,
	"learning_rate": 0.0007,
	"loss": 2.0132,
	"step": 14
	},
	{
	"epoch": 0.012853470437017995,
	"grad_norm": 0.283203125,
	"learning_rate": 0.00075,
	"loss": 1.9433,
	"step": 15
	},
	{
	"epoch": 0.013710368466152529,
	"grad_norm": 0.2578125,
	"learning_rate": 0.0008,
	"loss": 1.774,
	"step": 16
	},
	{
	"epoch": 0.01456726649528706,
	"grad_norm": 0.236328125,
	"learning_rate": 0.00085,
	"loss": 1.7933,
	"step": 17
	},
	{
	"epoch": 0.015424164524421594,
	"grad_norm": 0.240234375,
	"learning_rate": 0.0009000000000000001,
	"loss": 1.6388,
	"step": 18
	},
	{
	"epoch": 0.016281062553556127,
	"grad_norm": 0.240234375,
	"learning_rate": 0.00095,
	"loss": 1.6048,
	"step": 19
	},
	{
	"epoch": 0.01713796058269066,
	"grad_norm": 0.23046875,
	"learning_rate": 0.001,
	"loss": 1.5744,
	"step": 20
	},
	{
	"epoch": 0.017994858611825194,
	"grad_norm": 0.232421875,
	"learning_rate": 0.0009999892908320648,
	"loss": 1.4603,
	"step": 21
	},
	{
	"epoch": 0.018851756640959727,
	"grad_norm": 0.201171875,
	"learning_rate": 0.0009999571637870036,
	"loss": 1.4607,
	"step": 22
	},
	{
	"epoch": 0.01970865467009426,
	"grad_norm": 0.2021484375,
	"learning_rate": 0.0009999036202410325,
	"loss": 1.3065,
	"step": 23
	},
	{
	"epoch": 0.02056555269922879,
	"grad_norm": 0.185546875,
	"learning_rate": 0.0009998286624877785,
	"loss": 1.2436,
	"step": 24
	},
	{
	"epoch": 0.021422450728363324,
	"grad_norm": 0.1787109375,
	"learning_rate": 0.0009997322937381828,
	"loss": 1.1979,
	"step": 25
	},
	{
	"epoch": 0.022279348757497857,
	"grad_norm": 0.1767578125,
	"learning_rate": 0.0009996145181203615,
	"loss": 1.1425,
	"step": 26
	},
	{
	"epoch": 0.02313624678663239,
	"grad_norm": 0.154296875,
	"learning_rate": 0.00099947534067943,
	"loss": 1.0843,
	"step": 27
	},
	{
	"epoch": 0.023993144815766924,
	"grad_norm": 0.1591796875,
	"learning_rate": 0.0009993147673772868,
	"loss": 1.12,
	"step": 28
	},
	{
	"epoch": 0.024850042844901457,
	"grad_norm": 0.154296875,
	"learning_rate": 0.000999132805092358,
	"loss": 1.0019,
	"step": 29
	},
	{
	"epoch": 0.02570694087403599,
	"grad_norm": 0.142578125,
	"learning_rate": 0.0009989294616193018,
	"loss": 1.0082,
	"step": 30
	},
	{
	"epoch": 0.026563838903170524,
	"grad_norm": 0.1376953125,
	"learning_rate": 0.000998704745668676,
	"loss": 0.9653,
	"step": 31
	},
	{
	"epoch": 0.027420736932305057,
	"grad_norm": 0.1337890625,
	"learning_rate": 0.000998458666866564,
	"loss": 0.9137,
	"step": 32
	},
	{
	"epoch": 0.028277634961439587,
	"grad_norm": 0.130859375,
	"learning_rate": 0.0009981912357541628,
	"loss": 0.8958,
	"step": 33
	},
	{
	"epoch": 0.02913453299057412,
	"grad_norm": 0.125,
	"learning_rate": 0.0009979024637873308,
	"loss": 0.8628,
	"step": 34
	},
	{
	"epoch": 0.029991431019708654,
	"grad_norm": 0.12060546875,
	"learning_rate": 0.0009975923633360985,
	"loss": 0.8233,
	"step": 35
	},
	{
	"epoch": 0.030848329048843187,
	"grad_norm": 0.1083984375,
	"learning_rate": 0.0009972609476841367,
	"loss": 0.8045,
	"step": 36
	},
	{
	"epoch": 0.031705227077977724,
	"grad_norm": 0.1171875,
	"learning_rate": 0.0009969082310281891,
	"loss": 0.7961,
	"step": 37
	},
	{
	"epoch": 0.032562125107112254,
	"grad_norm": 0.10791015625,
	"learning_rate": 0.0009965342284774632,
	"loss": 0.7864,
	"step": 38
	},
	{
	"epoch": 0.033419023136246784,
	"grad_norm": 0.103515625,
	"learning_rate": 0.0009961389560529835,
	"loss": 0.7664,
	"step": 39
	},
	{
	"epoch": 0.03427592116538132,
	"grad_norm": 0.1015625,
	"learning_rate": 0.0009957224306869053,
	"loss": 0.7723,
	"step": 40
	},
	{
	"epoch": 0.03513281919451585,
	"grad_norm": 0.09765625,
	"learning_rate": 0.0009952846702217886,
	"loss": 0.7501,
	"step": 41
	},
	{
	"epoch": 0.03598971722365039,
	"grad_norm": 0.09228515625,
	"learning_rate": 0.0009948256934098352,
	"loss": 0.6932,
	"step": 42
	},
	{
	"epoch": 0.03684661525278492,
	"grad_norm": 0.09130859375,
	"learning_rate": 0.0009943455199120836,
	"loss": 0.675,
	"step": 43
	},
	{
	"epoch": 0.037703513281919454,
	"grad_norm": 0.09033203125,
	"learning_rate": 0.0009938441702975688,
	"loss": 0.6838,
	"step": 44
	},
	{
	"epoch": 0.038560411311053984,
	"grad_norm": 0.08935546875,
	"learning_rate": 0.0009933216660424397,
	"loss": 0.6546,
	"step": 45
	},
	{
	"epoch": 0.03941730934018852,
	"grad_norm": 0.08349609375,
	"learning_rate": 0.0009927780295290389,
	"loss": 0.6443,
	"step": 46
	},
	{
	"epoch": 0.04027420736932305,
	"grad_norm": 0.0791015625,
	"learning_rate": 0.0009922132840449458,
	"loss": 0.6705,
	"step": 47
	},
	{
	"epoch": 0.04113110539845758,
	"grad_norm": 0.08251953125,
	"learning_rate": 0.0009916274537819774,
	"loss": 0.6176,
	"step": 48
	},
	{
	"epoch": 0.04198800342759212,
	"grad_norm": 0.07568359375,
	"learning_rate": 0.000991020563835152,
	"loss": 0.683,
	"step": 49
	},
	{
	"epoch": 0.04284490145672665,
	"grad_norm": 0.07861328125,
	"learning_rate": 0.0009903926402016153,
	"loss": 0.5799,
	"step": 50
	},
	{
	"epoch": 0.043701799485861184,
	"grad_norm": 0.07470703125,
	"learning_rate": 0.0009897437097795257,
	"loss": 0.6293,
	"step": 51
	},
	{
	"epoch": 0.044558697514995714,
	"grad_norm": 0.0693359375,
	"learning_rate": 0.0009890738003669028,
	"loss": 0.5864,
	"step": 52
	},
	{
	"epoch": 0.04541559554413025,
	"grad_norm": 0.0673828125,
	"learning_rate": 0.0009883829406604362,
	"loss": 0.5672,
	"step": 53
	},
	{
	"epoch": 0.04627249357326478,
	"grad_norm": 0.06884765625,
	"learning_rate": 0.0009876711602542563,
	"loss": 0.607,
	"step": 54
	},
	{
	"epoch": 0.04712939160239932,
	"grad_norm": 0.08251953125,
	"learning_rate": 0.0009869384896386668,
	"loss": 0.6006,
	"step": 55
	},
	{
	"epoch": 0.04798628963153385,
	"grad_norm": 0.0625,
	"learning_rate": 0.0009861849601988384,
	"loss": 0.536,
	"step": 56
	},
	{
	"epoch": 0.04884318766066838,
	"grad_norm": 0.05810546875,
	"learning_rate": 0.0009854106042134641,
	"loss": 0.5153,
	"step": 57
	},
	{
	"epoch": 0.049700085689802914,
	"grad_norm": 0.0615234375,
	"learning_rate": 0.0009846154548533773,
	"loss": 0.5317,
	"step": 58
	},
	{
	"epoch": 0.050556983718937444,
	"grad_norm": 0.07861328125,
	"learning_rate": 0.0009837995461801298,
	"loss": 0.5354,
	"step": 59
	},
	{
	"epoch": 0.05141388174807198,
	"grad_norm": 0.06005859375,
	"learning_rate": 0.0009829629131445341,
	"loss": 0.5109,
	"step": 60
	},
	{
	"epoch": 0.05227077977720651,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.0009821055915851646,
	"loss": 0.5122,
	"step": 61
	},
	{
	"epoch": 0.05312767780634105,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.0009812276182268236,
	"loss": 0.5057,
	"step": 62
	},
	{
	"epoch": 0.05398457583547558,
	"grad_norm": 0.058349609375,
	"learning_rate": 0.0009803290306789677,
	"loss": 0.4955,
	"step": 63
	},
	{
	"epoch": 0.054841473864610114,
	"grad_norm": 0.056396484375,
	"learning_rate": 0.0009794098674340967,
	"loss": 0.4997,
	"step": 64
	},
	{
	"epoch": 0.055698371893744644,
	"grad_norm": 0.054931640625,
	"learning_rate": 0.0009784701678661044,
	"loss": 0.4673,
	"step": 65
	},
	{
	"epoch": 0.056555269922879174,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.0009775099722285933,
	"loss": 0.4822,
	"step": 66
	},
	{
	"epoch": 0.05741216795201371,
	"grad_norm": 0.060546875,
	"learning_rate": 0.0009765293216531485,
	"loss": 0.4716,
	"step": 67
	},
	{
	"epoch": 0.05826906598114824,
	"grad_norm": 0.05078125,
	"learning_rate": 0.0009755282581475768,
	"loss": 0.463,
	"step": 68
	},
	{
	"epoch": 0.05912596401028278,
	"grad_norm": 0.052734375,
	"learning_rate": 0.000974506824594107,
	"loss": 0.461,
	"step": 69
	},
	{
	"epoch": 0.05998286203941731,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.0009734650647475529,
	"loss": 0.4503,
	"step": 70
	},
	{
	"epoch": 0.060839760068551844,
	"grad_norm": 0.0478515625,
	"learning_rate": 0.0009724030232334391,
	"loss": 0.4586,
	"step": 71
	},
	{
	"epoch": 0.061696658097686374,
	"grad_norm": 0.047119140625,
	"learning_rate": 0.0009713207455460893,
	"loss": 0.4326,
	"step": 72
	},
	{
	"epoch": 0.06255355612682091,
	"grad_norm": 0.0478515625,
	"learning_rate": 0.0009702182780466775,
	"loss": 0.4312,
	"step": 73
	},
	{
	"epoch": 0.06341045415595545,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0009690956679612422,
	"loss": 0.4472,
	"step": 74
	},
	{
	"epoch": 0.06426735218508997,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.0009679529633786629,
	"loss": 0.4427,
	"step": 75
	},
	{
	"epoch": 0.06512425021422451,
	"grad_norm": 0.04736328125,
	"learning_rate": 0.0009667902132486009,
	"loss": 0.4308,
	"step": 76
	},
	{
	"epoch": 0.06598114824335904,
	"grad_norm": 0.052490234375,
	"learning_rate": 0.0009656074673794017,
	"loss": 0.431,
	"step": 77
	},
	{
	"epoch": 0.06683804627249357,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0009644047764359622,
	"loss": 0.4219,
	"step": 78
	},
	{
	"epoch": 0.0676949443016281,
	"grad_norm": 0.0478515625,
	"learning_rate": 0.0009631821919375591,
	"loss": 0.413,
	"step": 79
	},
	{
	"epoch": 0.06855184233076264,
	"grad_norm": 0.042724609375,
	"learning_rate": 0.0009619397662556434,
	"loss": 0.4065,
	"step": 80
	},
	{
	"epoch": 0.06940874035989718,
	"grad_norm": 0.046875,
	"learning_rate": 0.0009606775526115963,
	"loss": 0.447,
	"step": 81
	},
	{
	"epoch": 0.0702656383890317,
	"grad_norm": 0.04638671875,
	"learning_rate": 0.0009593956050744492,
	"loss": 0.4243,
	"step": 82
	},
	{
	"epoch": 0.07112253641816624,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.0009580939785585681,
	"loss": 0.4003,
	"step": 83
	},
	{
	"epoch": 0.07197943444730077,
	"grad_norm": 0.046630859375,
	"learning_rate": 0.0009567727288213005,
	"loss": 0.4098,
	"step": 84
	},
	{
	"epoch": 0.0728363324764353,
	"grad_norm": 0.041015625,
	"learning_rate": 0.000955431912460588,
	"loss": 0.415,
	"step": 85
	},
	{
	"epoch": 0.07369323050556983,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.0009540715869125407,
	"loss": 0.4239,
	"step": 86
	},
	{
	"epoch": 0.07455012853470437,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.0009526918104489777,
	"loss": 0.4058,
	"step": 87
	},
	{
	"epoch": 0.07540702656383891,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.0009512926421749304,
	"loss": 0.3894,
	"step": 88
	},
	{
	"epoch": 0.07626392459297343,
	"grad_norm": 0.0390625,
	"learning_rate": 0.0009498741420261108,
	"loss": 0.389,
	"step": 89
	},
	{
	"epoch": 0.07712082262210797,
	"grad_norm": 0.04736328125,
	"learning_rate": 0.0009484363707663442,
	"loss": 0.3865,
	"step": 90
	},
	{
	"epoch": 0.0779777206512425,
	"grad_norm": 0.048828125,
	"learning_rate": 0.0009469793899849661,
	"loss": 0.3823,
	"step": 91
	},
	{
	"epoch": 0.07883461868037704,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.0009455032620941839,
	"loss": 0.3963,
	"step": 92
	},
	{
	"epoch": 0.07969151670951156,
	"grad_norm": 0.052001953125,
	"learning_rate": 0.0009440080503264037,
	"loss": 0.382,
	"step": 93
	},
	{
	"epoch": 0.0805484147386461,
	"grad_norm": 0.04296875,
	"learning_rate": 0.0009424938187315209,
	"loss": 0.3723,
	"step": 94
	},
	{
	"epoch": 0.08140531276778064,
	"grad_norm": 0.038818359375,
	"learning_rate": 0.0009409606321741775,
	"loss": 0.3766,
	"step": 95
	},
	{
	"epoch": 0.08226221079691516,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.0009394085563309827,
	"loss": 0.3798,
	"step": 96
	},
	{
	"epoch": 0.0831191088260497,
	"grad_norm": 0.053466796875,
	"learning_rate": 0.0009378376576876999,
	"loss": 0.386,
	"step": 97
	},
	{
	"epoch": 0.08397600685518423,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.0009362480035363986,
	"loss": 0.4009,
	"step": 98
	},
	{
	"epoch": 0.08483290488431877,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.0009346396619725719,
	"loss": 0.3651,
	"step": 99
	},
	{
	"epoch": 0.0856898029134533,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.0009330127018922195,
	"loss": 0.3922,
	"step": 100
	},
	{
	"epoch": 0.08654670094258783,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.0009313671929888959,
	"loss": 0.3604,
	"step": 101
	},
	{
	"epoch": 0.08740359897172237,
	"grad_norm": 0.037353515625,
	"learning_rate": 0.0009297032057507264,
	"loss": 0.3547,
	"step": 102
	},
	{
	"epoch": 0.08826049700085689,
	"grad_norm": 0.04541015625,
	"learning_rate": 0.0009280208114573858,
	"loss": 0.3611,
	"step": 103
	},
	{
	"epoch": 0.08911739502999143,
	"grad_norm": 0.036376953125,
	"learning_rate": 0.0009263200821770461,
	"loss": 0.3789,
	"step": 104
	},
	{
	"epoch": 0.08997429305912596,
	"grad_norm": 0.035400390625,
	"learning_rate": 0.0009246010907632895,
	"loss": 0.3512,
	"step": 105
	},
	{
	"epoch": 0.0908311910882605,
	"grad_norm": 0.035400390625,
	"learning_rate": 0.0009228639108519867,
	"loss": 0.3634,
	"step": 106
	},
	{
	"epoch": 0.09168808911739502,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.0009211086168581433,
	"loss": 0.3509,
	"step": 107
	},
	{
	"epoch": 0.09254498714652956,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.0009193352839727121,
	"loss": 0.3474,
	"step": 108
	},
	{
	"epoch": 0.0934018851756641,
	"grad_norm": 0.036376953125,
	"learning_rate": 0.0009175439881593715,
	"loss": 0.3742,
	"step": 109
	},
	{
	"epoch": 0.09425878320479864,
	"grad_norm": 0.033447265625,
	"learning_rate": 0.0009157348061512727,
	"loss": 0.3422,
	"step": 110
	},
	{
	"epoch": 0.09511568123393316,
	"grad_norm": 0.043212890625,
	"learning_rate": 0.0009139078154477511,
	"loss": 0.3379,
	"step": 111
	},
	{
	"epoch": 0.0959725792630677,
	"grad_norm": 0.03662109375,
	"learning_rate": 0.0009120630943110077,
	"loss": 0.3374,
	"step": 112
	},
	{
	"epoch": 0.09682947729220223,
	"grad_norm": 0.03125,
	"learning_rate": 0.0009102007217627568,
	"loss": 0.3629,
	"step": 113
	},
	{
	"epoch": 0.09768637532133675,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.0009083207775808396,
	"loss": 0.3537,
	"step": 114
	},
	{
	"epoch": 0.09854327335047129,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.0009064233422958076,
	"loss": 0.3473,
	"step": 115
	},
	{
	"epoch": 0.09940017137960583,
	"grad_norm": 0.035888671875,
	"learning_rate": 0.0009045084971874737,
	"loss": 0.3549,
	"step": 116
	},
	{
	"epoch": 0.10025706940874037,
	"grad_norm": 0.03271484375,
	"learning_rate": 0.0009025763242814291,
	"loss": 0.3407,
	"step": 117
	},
	{
	"epoch": 0.10111396743787489,
	"grad_norm": 0.03271484375,
	"learning_rate": 0.0009006269063455304,
	"loss": 0.3304,
	"step": 118
	},
	{
	"epoch": 0.10197086546700942,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.0008986603268863536,
	"loss": 0.3473,
	"step": 119
	},
	{
	"epoch": 0.10282776349614396,
	"grad_norm": 0.03857421875,
	"learning_rate": 0.0008966766701456176,
	"loss": 0.3376,
	"step": 120
	},
	{
	"epoch": 0.1036846615252785,
	"grad_norm": 0.03466796875,
	"learning_rate": 0.000894676021096575,
	"loss": 0.3262,
	"step": 121
	},
	{
	"epoch": 0.10454155955441302,
	"grad_norm": 0.03857421875,
	"learning_rate": 0.0008926584654403724,
	"loss": 0.3222,
	"step": 122
	},
	{
	"epoch": 0.10539845758354756,
	"grad_norm": 0.03515625,
	"learning_rate": 0.0008906240896023794,
	"loss": 0.3278,
	"step": 123
	},
	{
	"epoch": 0.1062553556126821,
	"grad_norm": 0.035888671875,
	"learning_rate": 0.0008885729807284854,
	"loss": 0.3251,
	"step": 124
	},
	{
	"epoch": 0.10711225364181662,
	"grad_norm": 0.033447265625,
	"learning_rate": 0.0008865052266813684,
	"loss": 0.3267,
	"step": 125
	},
	{
	"epoch": 0.10796915167095116,
	"grad_norm": 0.034912109375,
	"learning_rate": 0.0008844209160367298,
	"loss": 0.3176,
	"step": 126
	},
	{
	"epoch": 0.10882604970008569,
	"grad_norm": 0.040283203125,
	"learning_rate": 0.0008823201380795002,
	"loss": 0.3374,
	"step": 127
	},
	{
	"epoch": 0.10968294772922023,
	"grad_norm": 0.032470703125,
	"learning_rate": 0.0008802029828000156,
	"loss": 0.314,
	"step": 128
	},
	{
	"epoch": 0.11053984575835475,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.0008780695408901613,
	"loss": 0.324,
	"step": 129
	},
	{
	"epoch": 0.11139674378748929,
	"grad_norm": 0.032958984375,
	"learning_rate": 0.0008759199037394887,
	"loss": 0.3199,
	"step": 130
	},
	{
	"epoch": 0.11225364181662383,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.0008737541634312985,
	"loss": 0.3034,
	"step": 131
	},
	{
	"epoch": 0.11311053984575835,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.0008715724127386971,
	"loss": 0.3153,
	"step": 132
	},
	{
	"epoch": 0.11396743787489289,
	"grad_norm": 0.034423828125,
	"learning_rate": 0.0008693747451206231,
	"loss": 0.3202,
	"step": 133
	},
	{
	"epoch": 0.11482433590402742,
	"grad_norm": 0.03369140625,
	"learning_rate": 0.0008671612547178428,
	"loss": 0.3325,
	"step": 134
	},
	{
	"epoch": 0.11568123393316196,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.0008649320363489178,
	"loss": 0.3207,
	"step": 135
	},
	{
	"epoch": 0.11653813196229648,
	"grad_norm": 0.031982421875,
	"learning_rate": 0.0008626871855061438,
	"loss": 0.3279,
	"step": 136
	},
	{
	"epoch": 0.11739502999143102,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.0008604267983514594,
	"loss": 0.3236,
	"step": 137
	},
	{
	"epoch": 0.11825192802056556,
	"grad_norm": 0.03076171875,
	"learning_rate": 0.0008581509717123273,
	"loss": 0.315,
	"step": 138
	},
	{
	"epoch": 0.11910882604970009,
	"grad_norm": 0.032958984375,
	"learning_rate": 0.0008558598030775857,
	"loss": 0.3124,
	"step": 139
	},
	{
	"epoch": 0.11996572407883462,
	"grad_norm": 0.04052734375,
	"learning_rate": 0.0008535533905932737,
	"loss": 0.3064,
	"step": 140
	},
	{
	"epoch": 0.12082262210796915,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.0008512318330584259,
	"loss": 0.3055,
	"step": 141
	},
	{
	"epoch": 0.12167952013710369,
	"grad_norm": 0.03515625,
	"learning_rate": 0.0008488952299208401,
	"loss": 0.2951,
	"step": 142
	},
	{
	"epoch": 0.12253641816623821,
	"grad_norm": 0.032958984375,
	"learning_rate": 0.000846543681272818,
	"loss": 0.3288,
	"step": 143
	},
	{
	"epoch": 0.12339331619537275,
	"grad_norm": 0.032470703125,
	"learning_rate": 0.000844177287846877,
	"loss": 0.3015,
	"step": 144
	},
	{
	"epoch": 0.12425021422450729,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.0008417961510114356,
	"loss": 0.3013,
	"step": 145
	},
	{
	"epoch": 0.12510711225364182,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0008394003727664709,
	"loss": 0.2914,
	"step": 146
	},
	{
	"epoch": 0.12596401028277635,
	"grad_norm": 0.0306396484375,
	"learning_rate": 0.000836990055739149,
	"loss": 0.3018,
	"step": 147
	},
	{
	"epoch": 0.1268209083119109,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.0008345653031794292,
	"loss": 0.3074,
	"step": 148
	},
	{
	"epoch": 0.12767780634104542,
	"grad_norm": 0.03955078125,
	"learning_rate": 0.0008321262189556409,
	"loss": 0.3094,
	"step": 149
	},
	{
	"epoch": 0.12853470437017994,
	"grad_norm": 0.0311279296875,
	"learning_rate": 0.0008296729075500344,
	"loss": 0.2971,
	"step": 150
	},
	{
	"epoch": 0.1293916023993145,
	"grad_norm": 0.03125,
	"learning_rate": 0.0008272054740543053,
	"loss": 0.307,
	"step": 151
	},
	{
	"epoch": 0.13024850042844902,
	"grad_norm": 0.0390625,
	"learning_rate": 0.0008247240241650918,
	"loss": 0.2955,
	"step": 152
	},
	{
	"epoch": 0.13110539845758354,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.0008222286641794488,
	"loss": 0.2955,
	"step": 153
	},
	{
	"epoch": 0.1319622964867181,
	"grad_norm": 0.0306396484375,
	"learning_rate": 0.0008197195009902923,
	"loss": 0.2904,
	"step": 154
	},
	{
	"epoch": 0.1328191945158526,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0008171966420818228,
	"loss": 0.3027,
	"step": 155
	},
	{
	"epoch": 0.13367609254498714,
	"grad_norm": 0.03515625,
	"learning_rate": 0.0008146601955249188,
	"loss": 0.2864,
	"step": 156
	},
	{
	"epoch": 0.13453299057412169,
	"grad_norm": 0.0361328125,
	"learning_rate": 0.0008121102699725089,
	"loss": 0.2965,
	"step": 157
	},
	{
	"epoch": 0.1353898886032562,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.0008095469746549171,
	"loss": 0.3123,
	"step": 158
	},
	{
	"epoch": 0.13624678663239073,
	"grad_norm": 0.03125,
	"learning_rate": 0.0008069704193751832,
	"loss": 0.2912,
	"step": 159
	},
	{
	"epoch": 0.13710368466152528,
	"grad_norm": 0.033203125,
	"learning_rate": 0.0008043807145043603,
	"loss": 0.309,
	"step": 160
	},
	{
	"epoch": 0.1379605826906598,
	"grad_norm": 0.0517578125,
	"learning_rate": 0.0008017779709767858,
	"loss": 0.2938,
	"step": 161
	},
	{
	"epoch": 0.13881748071979436,
	"grad_norm": 0.031982421875,
	"learning_rate": 0.0007991623002853296,
	"loss": 0.2923,
	"step": 162
	},
	{
	"epoch": 0.13967437874892888,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.0007965338144766185,
	"loss": 0.3003,
	"step": 163
	},
	{
	"epoch": 0.1405312767780634,
	"grad_norm": 0.033447265625,
	"learning_rate": 0.0007938926261462366,
	"loss": 0.2923,
	"step": 164
	},
	{
	"epoch": 0.14138817480719795,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.0007912388484339011,
	"loss": 0.2892,
	"step": 165
	},
	{
	"epoch": 0.14224507283633248,
	"grad_norm": 0.032958984375,
	"learning_rate": 0.0007885725950186169,
	"loss": 0.3198,
	"step": 166
	},
	{
	"epoch": 0.143101970865467,
	"grad_norm": 0.037109375,
	"learning_rate": 0.000785893980113806,
	"loss": 0.2814,
	"step": 167
	},
	{
	"epoch": 0.14395886889460155,
	"grad_norm": 0.04833984375,
	"learning_rate": 0.0007832031184624164,
	"loss": 0.2911,
	"step": 168
	},
	{
	"epoch": 0.14481576692373607,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.000780500125332005,
	"loss": 0.2893,
	"step": 169
	},
	{
	"epoch": 0.1456726649528706,
	"grad_norm": 0.034912109375,
	"learning_rate": 0.0007777851165098011,
	"loss": 0.2884,
	"step": 170
	},
	{
	"epoch": 0.14652956298200515,
	"grad_norm": 0.038818359375,
	"learning_rate": 0.0007750582082977468,
	"loss": 0.3052,
	"step": 171
	},
	{
	"epoch": 0.14738646101113967,
	"grad_norm": 0.0419921875,
	"learning_rate": 0.0007723195175075137,
	"loss": 0.2833,
	"step": 172
	},
	{
	"epoch": 0.14824335904027422,
	"grad_norm": 0.040283203125,
	"learning_rate": 0.0007695691614555002,
	"loss": 0.2795,
	"step": 173
	},
	{
	"epoch": 0.14910025706940874,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.0007668072579578058,
	"loss": 0.3104,
	"step": 174
	},
	{
	"epoch": 0.14995715509854327,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.000764033925325184,
	"loss": 0.2931,
	"step": 175
	},
	{
	"epoch": 0.15081405312767782,
	"grad_norm": 0.0361328125,
	"learning_rate": 0.0007612492823579744,
	"loss": 0.2867,
	"step": 176
	},
	{
	"epoch": 0.15167095115681234,
	"grad_norm": 0.0291748046875,
	"learning_rate": 0.0007584534483410137,
	"loss": 0.3051,
	"step": 177
	},
	{
	"epoch": 0.15252784918594686,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0007556465430385259,
	"loss": 0.2852,
	"step": 178
	},
	{
	"epoch": 0.1533847472150814,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.0007528286866889924,
	"loss": 0.2919,
	"step": 179
	},
	{
	"epoch": 0.15424164524421594,
	"grad_norm": 0.0294189453125,
	"learning_rate": 0.00075,
	"loss": 0.2707,
	"step": 180
	},
	{
	"epoch": 0.15509854327335046,
	"grad_norm": 0.0277099609375,
	"learning_rate": 0.0007471606041430723,
	"loss": 0.275,
	"step": 181
	},
	{
	"epoch": 0.155955441302485,
	"grad_norm": 0.0361328125,
	"learning_rate": 0.0007443106207484776,
	"loss": 0.2718,
	"step": 182
	},
	{
	"epoch": 0.15681233933161953,
	"grad_norm": 0.031005859375,
	"learning_rate": 0.0007414501719000186,
	"loss": 0.2869,
	"step": 183
	},
	{
	"epoch": 0.15766923736075408,
	"grad_norm": 0.033203125,
	"learning_rate": 0.0007385793801298042,
	"loss": 0.275,
	"step": 184
	},
	{
	"epoch": 0.1585261353898886,
	"grad_norm": 0.0277099609375,
	"learning_rate": 0.000735698368412999,
	"loss": 0.2852,
	"step": 185
	},
	{
	"epoch": 0.15938303341902313,
	"grad_norm": 0.031005859375,
	"learning_rate": 0.0007328072601625557,
	"loss": 0.2959,
	"step": 186
	},
	{
	"epoch": 0.16023993144815768,
	"grad_norm": 0.045654296875,
	"learning_rate": 0.00072990617922393,
	"loss": 0.2681,
	"step": 187
	},
	{
	"epoch": 0.1610968294772922,
	"grad_norm": 0.034423828125,
	"learning_rate": 0.0007269952498697733,
	"loss": 0.2897,
	"step": 188
	},
	{
	"epoch": 0.16195372750642673,
	"grad_norm": 0.0281982421875,
	"learning_rate": 0.0007240745967946113,
	"loss": 0.2775,
	"step": 189
	},
	{
	"epoch": 0.16281062553556128,
	"grad_norm": 0.03564453125,
	"learning_rate": 0.0007211443451095007,
	"loss": 0.2692,
	"step": 190
	},
	{
	"epoch": 0.1636675235646958,
	"grad_norm": 0.03125,
	"learning_rate": 0.000718204620336671,
	"loss": 0.2847,
	"step": 191
	},
	{
	"epoch": 0.16452442159383032,
	"grad_norm": 0.03662109375,
	"learning_rate": 0.0007152555484041476,
	"loss": 0.2859,
	"step": 192
	},
	{
	"epoch": 0.16538131962296487,
	"grad_norm": 0.0299072265625,
	"learning_rate": 0.0007122972556403566,
	"loss": 0.2784,
	"step": 193
	},
	{
	"epoch": 0.1662382176520994,
	"grad_norm": 0.029052734375,
	"learning_rate": 0.0007093298687687141,
	"loss": 0.2801,
	"step": 194
	},
	{
	"epoch": 0.16709511568123395,
	"grad_norm": 0.027587890625,
	"learning_rate": 0.0007063535149021973,
	"loss": 0.2787,
	"step": 195
	},
	{
	"epoch": 0.16795201371036847,
	"grad_norm": 0.03173828125,
	"learning_rate": 0.0007033683215379002,
	"loss": 0.2796,
	"step": 196
	},
	{
	"epoch": 0.168808911739503,
	"grad_norm": 0.0291748046875,
	"learning_rate": 0.0007003744165515704,
	"loss": 0.2817,
	"step": 197
	},
	{
	"epoch": 0.16966580976863754,
	"grad_norm": 0.037109375,
	"learning_rate": 0.0006973719281921336,
	"loss": 0.2648,
	"step": 198
	},
	{
	"epoch": 0.17052270779777207,
	"grad_norm": 0.03173828125,
	"learning_rate": 0.0006943609850761978,
	"loss": 0.2822,
	"step": 199
	},
	{
	"epoch": 0.1713796058269066,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.000691341716182545,
	"loss": 0.2867,
	"step": 200
	},
	{
	"epoch": 0.17223650385604114,
	"grad_norm": 0.03564453125,
	"learning_rate": 0.0006883142508466054,
	"loss": 0.2901,
	"step": 201
	},
	{
	"epoch": 0.17309340188517566,
	"grad_norm": 0.027099609375,
	"learning_rate": 0.0006852787187549182,
	"loss": 0.2644,
	"step": 202
	},
	{
	"epoch": 0.17395029991431019,
	"grad_norm": 0.037353515625,
	"learning_rate": 0.000682235249939575,
	"loss": 0.277,
	"step": 203
	},
	{
	"epoch": 0.17480719794344474,
	"grad_norm": 0.038818359375,
	"learning_rate": 0.0006791839747726501,
	"loss": 0.2932,
	"step": 204
	},
	{
	"epoch": 0.17566409597257926,
	"grad_norm": 0.03466796875,
	"learning_rate": 0.0006761250239606168,
	"loss": 0.2822,
	"step": 205
	},
	{
	"epoch": 0.17652099400171378,
	"grad_norm": 0.05322265625,
	"learning_rate": 0.0006730585285387465,
	"loss": 0.3618,
	"step": 206
	},
	{
	"epoch": 0.17737789203084833,
	"grad_norm": 0.0289306640625,
	"learning_rate": 0.000669984619865497,
	"loss": 0.2766,
	"step": 207
	},
	{
	"epoch": 0.17823479005998286,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.0006669034296168854,
	"loss": 0.2795,
	"step": 208
	},
	{
	"epoch": 0.1790916880891174,
	"grad_norm": 0.03369140625,
	"learning_rate": 0.0006638150897808468,
	"loss": 0.2788,
	"step": 209
	},
	{
	"epoch": 0.17994858611825193,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.0006607197326515808,
	"loss": 0.2795,
	"step": 210
	},
	{
	"epoch": 0.18080548414738645,
	"grad_norm": 0.027099609375,
	"learning_rate": 0.0006576174908238849,
	"loss": 0.2742,
	"step": 211
	},
	{
	"epoch": 0.181662382176521,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.0006545084971874737,
	"loss": 0.2704,
	"step": 212
	},
	{
	"epoch": 0.18251928020565553,
	"grad_norm": 0.02734375,
	"learning_rate": 0.0006513928849212874,
	"loss": 0.2725,
	"step": 213
	},
	{
	"epoch": 0.18337617823479005,
	"grad_norm": 0.0400390625,
	"learning_rate": 0.0006482707874877854,
	"loss": 0.2742,
	"step": 214
	},
	{
	"epoch": 0.1842330762639246,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.0006451423386272311,
	"loss": 0.268,
	"step": 215
	},
	{
	"epoch": 0.18508997429305912,
	"grad_norm": 0.0308837890625,
	"learning_rate": 0.0006420076723519614,
	"loss": 0.2617,
	"step": 216
	},
	{
	"epoch": 0.18594687232219365,
	"grad_norm": 0.0264892578125,
	"learning_rate": 0.0006388669229406462,
	"loss": 0.2629,
	"step": 217
	},
	{
	"epoch": 0.1868037703513282,
	"grad_norm": 0.0286865234375,
	"learning_rate": 0.0006357202249325371,
	"loss": 0.2812,
	"step": 218
	},
	{
	"epoch": 0.18766066838046272,
	"grad_norm": 0.02685546875,
	"learning_rate": 0.000632567713121704,
	"loss": 0.2766,
	"step": 219
	},
	{
	"epoch": 0.18851756640959727,
	"grad_norm": 0.0291748046875,
	"learning_rate": 0.0006294095225512603,
	"loss": 0.2816,
	"step": 220
	},
	{
	"epoch": 0.1893744644387318,
	"grad_norm": 0.027099609375,
	"learning_rate": 0.000626245788507579,
	"loss": 0.2744,
	"step": 221
	},
	{
	"epoch": 0.19023136246786632,
	"grad_norm": 0.0281982421875,
	"learning_rate": 0.0006230766465144965,
	"loss": 0.2777,
	"step": 222
	},
	{
	"epoch": 0.19108826049700087,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0006199022323275083,
	"loss": 0.2632,
	"step": 223
	},
	{
	"epoch": 0.1919451585261354,
	"grad_norm": 0.0274658203125,
	"learning_rate": 0.0006167226819279528,
	"loss": 0.2759,
	"step": 224
	},
	{
	"epoch": 0.1928020565552699,
	"grad_norm": 0.026611328125,
	"learning_rate": 0.0006135381315171866,
	"loss": 0.2926,
	"step": 225
	},
	{
	"epoch": 0.19365895458440446,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.0006103487175107507,
	"loss": 0.2759,
	"step": 226
	},
	{
	"epoch": 0.194515852613539,
	"grad_norm": 0.0274658203125,
	"learning_rate": 0.0006071545765325253,
	"loss": 0.2706,
	"step": 227
	},
	{
	"epoch": 0.1953727506426735,
	"grad_norm": 0.0390625,
	"learning_rate": 0.0006039558454088796,
	"loss": 0.2816,
	"step": 228
	},
	{
	"epoch": 0.19622964867180806,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.0006007526611628086,
	"loss": 0.2698,
	"step": 229
	},
	{
	"epoch": 0.19708654670094258,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.0005975451610080642,
	"loss": 0.2719,
	"step": 230
	},
	{
	"epoch": 0.19794344473007713,
	"grad_norm": 0.0361328125,
	"learning_rate": 0.0005943334823432777,
	"loss": 0.2647,
	"step": 231
	},
	{
	"epoch": 0.19880034275921166,
	"grad_norm": 0.029052734375,
	"learning_rate": 0.0005911177627460738,
	"loss": 0.2688,
	"step": 232
	},
	{
	"epoch": 0.19965724078834618,
	"grad_norm": 0.032470703125,
	"learning_rate": 0.0005878981399671774,
	"loss": 0.2762,
	"step": 233
	},
	{
	"epoch": 0.20051413881748073,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.0005846747519245122,
	"loss": 0.2664,
	"step": 234
	},
	{
	"epoch": 0.20137103684661525,
	"grad_norm": 0.033203125,
	"learning_rate": 0.0005814477366972944,
	"loss": 0.2715,
	"step": 235
	},
	{
	"epoch": 0.20222793487574978,
	"grad_norm": 0.03955078125,
	"learning_rate": 0.0005782172325201155,
	"loss": 0.2728,
	"step": 236
	},
	{
	"epoch": 0.20308483290488433,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.0005749833777770225,
	"loss": 0.2638,
	"step": 237
	},
	{
	"epoch": 0.20394173093401885,
	"grad_norm": 0.026611328125,
	"learning_rate": 0.0005717463109955896,
	"loss": 0.271,
	"step": 238
	},
	{
	"epoch": 0.20479862896315337,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.0005685061708409841,
	"loss": 0.2682,
	"step": 239
	},
	{
	"epoch": 0.20565552699228792,
	"grad_norm": 0.0274658203125,
	"learning_rate": 0.000565263096110026,
	"loss": 0.2635,
	"step": 240
	},
	{
	"epoch": 0.20651242502142245,
	"grad_norm": 0.02685546875,
	"learning_rate": 0.0005620172257252427,
	"loss": 0.2513,
	"step": 241
	},
	{
	"epoch": 0.207369323050557,
	"grad_norm": 0.02734375,
	"learning_rate": 0.0005587686987289189,
	"loss": 0.2672,
	"step": 242
	},
	{
	"epoch": 0.20822622107969152,
	"grad_norm": 0.0311279296875,
	"learning_rate": 0.0005555176542771388,
	"loss": 0.2777,
	"step": 243
	},
	{
	"epoch": 0.20908311910882604,
	"grad_norm": 0.0255126953125,
	"learning_rate": 0.0005522642316338268,
	"loss": 0.2669,
	"step": 244
	},
	{
	"epoch": 0.2099400171379606,
	"grad_norm": 0.0286865234375,
	"learning_rate": 0.0005490085701647804,
	"loss": 0.2708,
	"step": 245
	},
	{
	"epoch": 0.21079691516709512,
	"grad_norm": 0.0260009765625,
	"learning_rate": 0.0005457508093317013,
	"loss": 0.2727,
	"step": 246
	},
	{
	"epoch": 0.21165381319622964,
	"grad_norm": 0.02490234375,
	"learning_rate": 0.0005424910886862209,
	"loss": 0.2751,
	"step": 247
	},
	{
	"epoch": 0.2125107112253642,
	"grad_norm": 0.023193359375,
	"learning_rate": 0.0005392295478639225,
	"loss": 0.2649,
	"step": 248
	},
	{
	"epoch": 0.2133676092544987,
	"grad_norm": 0.023681640625,
	"learning_rate": 0.0005359663265783598,
	"loss": 0.2647,
	"step": 249
	},
	{
	"epoch": 0.21422450728363324,
	"grad_norm": 0.0283203125,
	"learning_rate": 0.0005327015646150716,
	"loss": 0.2594,
	"step": 250
	},
	{
	"epoch": 0.2150814053127678,
	"grad_norm": 0.026611328125,
	"learning_rate": 0.0005294354018255945,
	"loss": 0.2944,
	"step": 251
	},
	{
	"epoch": 0.2159383033419023,
	"grad_norm": 0.0257568359375,
	"learning_rate": 0.000526167978121472,
	"loss": 0.2886,
	"step": 252
	},
	{
	"epoch": 0.21679520137103683,
	"grad_norm": 0.0281982421875,
	"learning_rate": 0.0005228994334682604,
	"loss": 0.2558,
	"step": 253
	},
	{
	"epoch": 0.21765209940017138,
	"grad_norm": 0.025634765625,
	"learning_rate": 0.0005196299078795343,
	"loss": 0.2571,
	"step": 254
	},
	{
	"epoch": 0.2185089974293059,
	"grad_norm": 0.02685546875,
	"learning_rate": 0.0005163595414108881,
	"loss": 0.2524,
	"step": 255
	},
	{
	"epoch": 0.21936589545844046,
	"grad_norm": 0.0250244140625,
	"learning_rate": 0.0005130884741539367,
	"loss": 0.2698,
	"step": 256
	},
	{
	"epoch": 0.22022279348757498,
	"grad_norm": 0.024658203125,
	"learning_rate": 0.0005098168462303141,
	"loss": 0.2716,
	"step": 257
	},
	{
	"epoch": 0.2210796915167095,
	"grad_norm": 0.0238037109375,
	"learning_rate": 0.0005065447977856722,
	"loss": 0.2605,
	"step": 258
	},
	{
	"epoch": 0.22193658954584405,
	"grad_norm": 0.025146484375,
	"learning_rate": 0.0005032724689836759,
	"loss": 0.2584,
	"step": 259
	},
	{
	"epoch": 0.22279348757497858,
	"grad_norm": 0.025146484375,
	"learning_rate": 0.0005,
	"loss": 0.2618,
	"step": 260
	},
	{
	"epoch": 0.2236503856041131,
	"grad_norm": 0.0289306640625,
	"learning_rate": 0.0004967275310163241,
	"loss": 0.2602,
	"step": 261
	},
	{
	"epoch": 0.22450728363324765,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.0004934552022143279,
	"loss": 0.2744,
	"step": 262
	},
	{
	"epoch": 0.22536418166238217,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.0004901831537696859,
	"loss": 0.2598,
	"step": 263
	},
	{
	"epoch": 0.2262210796915167,
	"grad_norm": 0.0264892578125,
	"learning_rate": 0.0004869115258460635,
	"loss": 0.2629,
	"step": 264
	},
	{
	"epoch": 0.22707797772065125,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.00048364045858911197,
	"loss": 0.2601,
	"step": 265
	},
	{
	"epoch": 0.22793487574978577,
	"grad_norm": 0.035888671875,
	"learning_rate": 0.00048037009212046586,
	"loss": 0.261,
	"step": 266
	},
	{
	"epoch": 0.22879177377892032,
	"grad_norm": 0.03076171875,
	"learning_rate": 0.0004771005665317397,
	"loss": 0.2531,
	"step": 267
	},
	{
	"epoch": 0.22964867180805484,
	"grad_norm": 0.0250244140625,
	"learning_rate": 0.0004738320218785281,
	"loss": 0.2707,
	"step": 268
	},
	{
	"epoch": 0.23050556983718937,
	"grad_norm": 0.0240478515625,
	"learning_rate": 0.00047056459817440544,
	"loss": 0.2636,
	"step": 269
	},
	{
	"epoch": 0.23136246786632392,
	"grad_norm": 0.0264892578125,
	"learning_rate": 0.00046729843538492847,
	"loss": 0.2606,
	"step": 270
	},
	{
	"epoch": 0.23221936589545844,
	"grad_norm": 0.0286865234375,
	"learning_rate": 0.00046403367342164026,
	"loss": 0.257,
	"step": 271
	},
	{
	"epoch": 0.23307626392459296,
	"grad_norm": 0.028564453125,
	"learning_rate": 0.0004607704521360776,
	"loss": 0.2646,
	"step": 272
	},
	{
	"epoch": 0.23393316195372751,
	"grad_norm": 0.028076171875,
	"learning_rate": 0.0004575089113137792,
	"loss": 0.2735,
	"step": 273
	},
	{
	"epoch": 0.23479005998286204,
	"grad_norm": 0.0257568359375,
	"learning_rate": 0.00045424919066829885,
	"loss": 0.272,
	"step": 274
	},
	{
	"epoch": 0.23564695801199656,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.0004509914298352197,
	"loss": 0.266,
	"step": 275
	},
	{
	"epoch": 0.2365038560411311,
	"grad_norm": 0.0242919921875,
	"learning_rate": 0.00044773576836617336,
	"loss": 0.2607,
	"step": 276
	},
	{
	"epoch": 0.23736075407026563,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.0004444823457228612,
	"loss": 0.2696,
	"step": 277
	},
	{
	"epoch": 0.23821765209940018,
	"grad_norm": 0.024658203125,
	"learning_rate": 0.00044123130127108126,
	"loss": 0.2598,
	"step": 278
	},
	{
	"epoch": 0.2390745501285347,
	"grad_norm": 0.0301513671875,
	"learning_rate": 0.0004379827742747575,
	"loss": 0.2581,
	"step": 279
	},
	{
	"epoch": 0.23993144815766923,
	"grad_norm": 0.0252685546875,
	"learning_rate": 0.00043473690388997434,
	"loss": 0.2652,
	"step": 280
	},
	{
	"epoch": 0.24078834618680378,
	"grad_norm": 0.024658203125,
	"learning_rate": 0.0004314938291590161,
	"loss": 0.2635,
	"step": 281
	},
	{
	"epoch": 0.2416452442159383,
	"grad_norm": 0.0223388671875,
	"learning_rate": 0.0004282536890044104,
	"loss": 0.2546,
	"step": 282
	},
	{
	"epoch": 0.24250214224507283,
	"grad_norm": 0.0234375,
	"learning_rate": 0.0004250166222229774,
	"loss": 0.2533,
	"step": 283
	},
	{
	"epoch": 0.24335904027420738,
	"grad_norm": 0.026123046875,
	"learning_rate": 0.0004217827674798845,
	"loss": 0.2712,
	"step": 284
	},
	{
	"epoch": 0.2442159383033419,
	"grad_norm": 0.024658203125,
	"learning_rate": 0.0004185522633027057,
	"loss": 0.2658,
	"step": 285
	},
	{
	"epoch": 0.24507283633247642,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.0004153252480754877,
	"loss": 0.2588,
	"step": 286
	},
	{
	"epoch": 0.24592973436161097,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.00041210186003282274,
	"loss": 0.2671,
	"step": 287
	},
	{
	"epoch": 0.2467866323907455,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.00040888223725392626,
	"loss": 0.2741,
	"step": 288
	},
	{
	"epoch": 0.24764353041988005,
	"grad_norm": 0.0242919921875,
	"learning_rate": 0.00040566651765672245,
	"loss": 0.27,
	"step": 289
	},
	{
	"epoch": 0.24850042844901457,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.00040245483899193594,
	"loss": 0.2679,
	"step": 290
	},
	{
	"epoch": 0.2493573264781491,
	"grad_norm": 0.0224609375,
	"learning_rate": 0.00039924733883719147,
	"loss": 0.2685,
	"step": 291
	},
	{
	"epoch": 0.25021422450728364,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.0003960441545911204,
	"loss": 0.2687,
	"step": 292
	},
	{
	"epoch": 0.25107112253641817,
	"grad_norm": 0.0281982421875,
	"learning_rate": 0.0003928454234674747,
	"loss": 0.2554,
	"step": 293
	},
	{
	"epoch": 0.2519280205655527,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.0003896512824892495,
	"loss": 0.268,
	"step": 294
	},
	{
	"epoch": 0.2527849185946872,
	"grad_norm": 0.0296630859375,
	"learning_rate": 0.00038646186848281344,
	"loss": 0.2694,
	"step": 295
	},
	{
	"epoch": 0.2536418166238218,
	"grad_norm": 0.0283203125,
	"learning_rate": 0.00038327731807204744,
	"loss": 0.2585,
	"step": 296
	},
	{
	"epoch": 0.2544987146529563,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0003800977676724919,
	"loss": 0.2764,
	"step": 297
	},
	{
	"epoch": 0.25535561268209084,
	"grad_norm": 0.024658203125,
	"learning_rate": 0.0003769233534855035,
	"loss": 0.2688,
	"step": 298
	},
	{
	"epoch": 0.25621251071122536,
	"grad_norm": 0.0277099609375,
	"learning_rate": 0.00037375421149242103,
	"loss": 0.2561,
	"step": 299
	},
	{
	"epoch": 0.2570694087403599,
	"grad_norm": 0.0269775390625,
	"learning_rate": 0.0003705904774487396,
	"loss": 0.2564,
	"step": 300
	},
	{
	"epoch": 0.2579263067694944,
	"grad_norm": 0.0247802734375,
	"learning_rate": 0.0003674322868782959,
	"loss": 0.2543,
	"step": 301
	},
	{
	"epoch": 0.258783204798629,
	"grad_norm": 0.0255126953125,
	"learning_rate": 0.0003642797750674629,
	"loss": 0.2586,
	"step": 302
	},
	{
	"epoch": 0.2596401028277635,
	"grad_norm": 0.0228271484375,
	"learning_rate": 0.00036113307705935393,
	"loss": 0.2624,
	"step": 303
	},
	{
	"epoch": 0.26049700085689803,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.0003579923276480387,
	"loss": 0.2658,
	"step": 304
	},
	{
	"epoch": 0.26135389888603255,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.0003548576613727689,
	"loss": 0.2793,
	"step": 305
	},
	{
	"epoch": 0.2622107969151671,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.0003517292125122146,
	"loss": 0.2605,
	"step": 306
	},
	{
	"epoch": 0.26306769494430166,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.0003486071150787128,
	"loss": 0.2654,
	"step": 307
	},
	{
	"epoch": 0.2639245929734362,
	"grad_norm": 0.0260009765625,
	"learning_rate": 0.00034549150281252633,
	"loss": 0.2711,
	"step": 308
	},
	{
	"epoch": 0.2647814910025707,
	"grad_norm": 0.0233154296875,
	"learning_rate": 0.0003423825091761153,
	"loss": 0.2686,
	"step": 309
	},
	{
	"epoch": 0.2656383890317052,
	"grad_norm": 0.0260009765625,
	"learning_rate": 0.0003392802673484193,
	"loss": 0.2539,
	"step": 310
	},
	{
	"epoch": 0.26649528706083975,
	"grad_norm": 0.023193359375,
	"learning_rate": 0.0003361849102191533,
	"loss": 0.2706,
	"step": 311
	},
	{
	"epoch": 0.26735218508997427,
	"grad_norm": 0.0260009765625,
	"learning_rate": 0.00033309657038311456,
	"loss": 0.2854,
	"step": 312
	},
	{
	"epoch": 0.26820908311910885,
	"grad_norm": 0.0235595703125,
	"learning_rate": 0.00033001538013450283,
	"loss": 0.2714,
	"step": 313
	},
	{
	"epoch": 0.26906598114824337,
	"grad_norm": 0.0213623046875,
	"learning_rate": 0.0003269414714612534,
	"loss": 0.2624,
	"step": 314
	},
	{
	"epoch": 0.2699228791773779,
	"grad_norm": 0.0224609375,
	"learning_rate": 0.00032387497603938325,
	"loss": 0.264,
	"step": 315
	},
	{
	"epoch": 0.2707797772065124,
	"grad_norm": 0.022705078125,
	"learning_rate": 0.00032081602522734986,
	"loss": 0.2611,
	"step": 316
	},
	{
	"epoch": 0.27163667523564694,
	"grad_norm": 0.0262451171875,
	"learning_rate": 0.0003177647500604252,
	"loss": 0.2697,
	"step": 317
	},
	{
	"epoch": 0.27249357326478146,
	"grad_norm": 0.024169921875,
	"learning_rate": 0.00031472128124508187,
	"loss": 0.2684,
	"step": 318
	},
	{
	"epoch": 0.27335047129391604,
	"grad_norm": 0.0289306640625,
	"learning_rate": 0.00031168574915339467,
	"loss": 0.2627,
	"step": 319
	},
	{
	"epoch": 0.27420736932305056,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.0003086582838174551,
	"loss": 0.2661,
	"step": 320
	},
	{
	"epoch": 0.2750642673521851,
	"grad_norm": 0.023193359375,
	"learning_rate": 0.0003056390149238022,
	"loss": 0.2733,
	"step": 321
	},
	{
	"epoch": 0.2759211653813196,
	"grad_norm": 0.0240478515625,
	"learning_rate": 0.00030262807180786645,
	"loss": 0.2619,
	"step": 322
	},
	{
	"epoch": 0.27677806341045413,
	"grad_norm": 0.0218505859375,
	"learning_rate": 0.00029962558344842963,
	"loss": 0.2607,
	"step": 323
	},
	{
	"epoch": 0.2776349614395887,
	"grad_norm": 0.034912109375,
	"learning_rate": 0.0002966316784621,
	"loss": 0.2662,
	"step": 324
	},
	{
	"epoch": 0.27849185946872324,
	"grad_norm": 0.029052734375,
	"learning_rate": 0.0002936464850978027,
	"loss": 0.2581,
	"step": 325
	},
	{
	"epoch": 0.27934875749785776,
	"grad_norm": 0.0223388671875,
	"learning_rate": 0.0002906701312312861,
	"loss": 0.2662,
	"step": 326
	},
	{
	"epoch": 0.2802056555269923,
	"grad_norm": 0.023681640625,
	"learning_rate": 0.00028770274435964356,
	"loss": 0.26,
	"step": 327
	},
	{
	"epoch": 0.2810625535561268,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.0002847444515958523,
	"loss": 0.2645,
	"step": 328
	},
	{
	"epoch": 0.2819194515852613,
	"grad_norm": 0.025146484375,
	"learning_rate": 0.0002817953796633289,
	"loss": 0.2635,
	"step": 329
	},
	{
	"epoch": 0.2827763496143959,
	"grad_norm": 0.0233154296875,
	"learning_rate": 0.00027885565489049947,
	"loss": 0.2619,
	"step": 330
	},
	{
	"epoch": 0.28363324764353043,
	"grad_norm": 0.0213623046875,
	"learning_rate": 0.0002759254032053888,
	"loss": 0.2668,
	"step": 331
	},
	{
	"epoch": 0.28449014567266495,
	"grad_norm": 0.0216064453125,
	"learning_rate": 0.00027300475013022663,
	"loss": 0.2553,
	"step": 332
	},
	{
	"epoch": 0.2853470437017995,
	"grad_norm": 0.0228271484375,
	"learning_rate": 0.0002700938207760701,
	"loss": 0.2614,
	"step": 333
	},
	{
	"epoch": 0.286203941730934,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.0002671927398374443,
	"loss": 0.2541,
	"step": 334
	},
	{
	"epoch": 0.2870608397600686,
	"grad_norm": 0.022216796875,
	"learning_rate": 0.00026430163158700117,
	"loss": 0.256,
	"step": 335
	},
	{
	"epoch": 0.2879177377892031,
	"grad_norm": 0.024169921875,
	"learning_rate": 0.00026142061987019576,
	"loss": 0.2675,
	"step": 336
	},
	{
	"epoch": 0.2887746358183376,
	"grad_norm": 0.0284423828125,
	"learning_rate": 0.0002585498280999815,
	"loss": 0.2666,
	"step": 337
	},
	{
	"epoch": 0.28963153384747214,
	"grad_norm": 0.02490234375,
	"learning_rate": 0.0002556893792515227,
	"loss": 0.2888,
	"step": 338
	},
	{
	"epoch": 0.29048843187660667,
	"grad_norm": 0.030029296875,
	"learning_rate": 0.00025283939585692784,
	"loss": 0.2674,
	"step": 339
	},
	{
	"epoch": 0.2913453299057412,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.0002500000000000001,
	"loss": 0.2624,
	"step": 340
	},
	{
	"epoch": 0.29220222793487577,
	"grad_norm": 0.0205078125,
	"learning_rate": 0.0002471713133110078,
	"loss": 0.2457,
	"step": 341
	},
	{
	"epoch": 0.2930591259640103,
	"grad_norm": 0.0244140625,
	"learning_rate": 0.00024435345696147403,
	"loss": 0.2567,
	"step": 342
	},
	{
	"epoch": 0.2939160239931448,
	"grad_norm": 0.026123046875,
	"learning_rate": 0.00024154655165898627,
	"loss": 0.2569,
	"step": 343
	},
	{
	"epoch": 0.29477292202227934,
	"grad_norm": 0.0244140625,
	"learning_rate": 0.00023875071764202561,
	"loss": 0.2583,
	"step": 344
	},
	{
	"epoch": 0.29562982005141386,
	"grad_norm": 0.0230712890625,
	"learning_rate": 0.00023596607467481602,
	"loss": 0.2549,
	"step": 345
	},
	{
	"epoch": 0.29648671808054844,
	"grad_norm": 0.030517578125,
	"learning_rate": 0.00023319274204219425,
	"loss": 0.2647,
	"step": 346
	},
	{
	"epoch": 0.29734361610968296,
	"grad_norm": 0.0284423828125,
	"learning_rate": 0.00023043083854449987,
	"loss": 0.2848,
	"step": 347
	},
	{
	"epoch": 0.2982005141388175,
	"grad_norm": 0.026123046875,
	"learning_rate": 0.00022768048249248646,
	"loss": 0.2724,
	"step": 348
	},
	{
	"epoch": 0.299057412167952,
	"grad_norm": 0.027587890625,
	"learning_rate": 0.00022494179170225333,
	"loss": 0.2684,
	"step": 349
	},
	{
	"epoch": 0.29991431019708653,
	"grad_norm": 0.0255126953125,
	"learning_rate": 0.00022221488349019903,
	"loss": 0.2623,
	"step": 350
	},
	{
	"epoch": 0.30077120822622105,
	"grad_norm": 0.0269775390625,
	"learning_rate": 0.0002194998746679952,
	"loss": 0.2608,
	"step": 351
	},
	{
	"epoch": 0.30162810625535563,
	"grad_norm": 0.03662109375,
	"learning_rate": 0.0002167968815375837,
	"loss": 0.2671,
	"step": 352
	},
	{
	"epoch": 0.30248500428449016,
	"grad_norm": 0.031494140625,
	"learning_rate": 0.00021410601988619394,
	"loss": 0.2583,
	"step": 353
	},
	{
	"epoch": 0.3033419023136247,
	"grad_norm": 0.02490234375,
	"learning_rate": 0.00021142740498138323,
	"loss": 0.2617,
	"step": 354
	},
	{
	"epoch": 0.3041988003427592,
	"grad_norm": 0.022216796875,
	"learning_rate": 0.000208761151566099,
	"loss": 0.2569,
	"step": 355
	},
	{
	"epoch": 0.3050556983718937,
	"grad_norm": 0.0250244140625,
	"learning_rate": 0.00020610737385376348,
	"loss": 0.2612,
	"step": 356
	},
	{
	"epoch": 0.3059125964010283,
	"grad_norm": 0.02783203125,
	"learning_rate": 0.00020346618552338148,
	"loss": 0.2629,
	"step": 357
	},
	{
	"epoch": 0.3067694944301628,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.00020083769971467047,
	"loss": 0.2629,
	"step": 358
	},
	{
	"epoch": 0.30762639245929735,
	"grad_norm": 0.024169921875,
	"learning_rate": 0.0001982220290232143,
	"loss": 0.2847,
	"step": 359
	},
	{
	"epoch": 0.30848329048843187,
	"grad_norm": 0.026611328125,
	"learning_rate": 0.00019561928549563967,
	"loss": 0.266,
	"step": 360
	},
	{
	"epoch": 0.3093401885175664,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.00019302958062481672,
	"loss": 0.2563,
	"step": 361
	},
	{
	"epoch": 0.3101970865467009,
	"grad_norm": 0.031005859375,
	"learning_rate": 0.00019045302534508295,
	"loss": 0.2696,
	"step": 362
	},
	{
	"epoch": 0.3110539845758355,
	"grad_norm": 0.0234375,
	"learning_rate": 0.0001878897300274911,
	"loss": 0.2636,
	"step": 363
	},
	{
	"epoch": 0.31191088260497,
	"grad_norm": 0.0220947265625,
	"learning_rate": 0.00018533980447508135,
	"loss": 0.258,
	"step": 364
	},
	{
	"epoch": 0.31276778063410454,
	"grad_norm": 0.022705078125,
	"learning_rate": 0.00018280335791817732,
	"loss": 0.2534,
	"step": 365
	},
	{
	"epoch": 0.31362467866323906,
	"grad_norm": 0.0211181640625,
	"learning_rate": 0.00018028049900970766,
	"loss": 0.2709,
	"step": 366
	},
	{
	"epoch": 0.3144815766923736,
	"grad_norm": 0.021728515625,
	"learning_rate": 0.0001777713358205514,
	"loss": 0.2708,
	"step": 367
	},
	{
	"epoch": 0.31533847472150817,
	"grad_norm": 0.0205078125,
	"learning_rate": 0.00017527597583490823,
	"loss": 0.2587,
	"step": 368
	},
	{
	"epoch": 0.3161953727506427,
	"grad_norm": 0.020263671875,
	"learning_rate": 0.00017279452594569483,
	"loss": 0.2597,
	"step": 369
	},
	{
	"epoch": 0.3170522707797772,
	"grad_norm": 0.0242919921875,
	"learning_rate": 0.00017032709244996558,
	"loss": 0.2611,
	"step": 370
	},
	{
	"epoch": 0.31790916880891174,
	"grad_norm": 0.021484375,
	"learning_rate": 0.00016787378104435928,
	"loss": 0.2697,
	"step": 371
	},
	{
	"epoch": 0.31876606683804626,
	"grad_norm": 0.020751953125,
	"learning_rate": 0.00016543469682057105,
	"loss": 0.2641,
	"step": 372
	},
	{
	"epoch": 0.3196229648671808,
	"grad_norm": 0.022216796875,
	"learning_rate": 0.00016300994426085103,
	"loss": 0.2658,
	"step": 373
	},
	{
	"epoch": 0.32047986289631536,
	"grad_norm": 0.0213623046875,
	"learning_rate": 0.0001605996272335291,
	"loss": 0.2641,
	"step": 374
	},
	{
	"epoch": 0.3213367609254499,
	"grad_norm": 0.0184326171875,
	"learning_rate": 0.00015820384898856434,
	"loss": 0.2651,
	"step": 375
	},
	{
	"epoch": 0.3221936589545844,
	"grad_norm": 0.0262451171875,
	"learning_rate": 0.00015582271215312294,
	"loss": 0.2559,
	"step": 376
	},
	{
	"epoch": 0.32305055698371893,
	"grad_norm": 0.023681640625,
	"learning_rate": 0.00015345631872718213,
	"loss": 0.2558,
	"step": 377
	},
	{
	"epoch": 0.32390745501285345,
	"grad_norm": 0.0252685546875,
	"learning_rate": 0.00015110477007916002,
	"loss": 0.2537,
	"step": 378
	},
	{
	"epoch": 0.32476435304198803,
	"grad_norm": 0.019775390625,
	"learning_rate": 0.0001487681669415742,
	"loss": 0.2565,
	"step": 379
	},
	{
	"epoch": 0.32562125107112255,
	"grad_norm": 0.019775390625,
	"learning_rate": 0.00014644660940672628,
	"loss": 0.2562,
	"step": 380
	},
	{
	"epoch": 0.3264781491002571,
	"grad_norm": 0.0301513671875,
	"learning_rate": 0.00014414019692241437,
	"loss": 0.2644,
	"step": 381
	},
	{
	"epoch": 0.3273350471293916,
	"grad_norm": 0.019287109375,
	"learning_rate": 0.00014184902828767287,
	"loss": 0.2671,
	"step": 382
	},
	{
	"epoch": 0.3281919451585261,
	"grad_norm": 0.0262451171875,
	"learning_rate": 0.0001395732016485406,
	"loss": 0.249,
	"step": 383
	},
	{
	"epoch": 0.32904884318766064,
	"grad_norm": 0.0198974609375,
	"learning_rate": 0.0001373128144938563,
	"loss": 0.2558,
	"step": 384
	},
	{
	"epoch": 0.3299057412167952,
	"grad_norm": 0.021728515625,
	"learning_rate": 0.00013506796365108232,
	"loss": 0.2693,
	"step": 385
	},
	{
	"epoch": 0.33076263924592975,
	"grad_norm": 0.021484375,
	"learning_rate": 0.00013283874528215734,
	"loss": 0.2686,
	"step": 386
	},
	{
	"epoch": 0.33161953727506427,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.00013062525487937698,
	"loss": 0.2711,
	"step": 387
	},
	{
	"epoch": 0.3324764353041988,
	"grad_norm": 0.018798828125,
	"learning_rate": 0.00012842758726130281,
	"loss": 0.2559,
	"step": 388
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.0189208984375,
	"learning_rate": 0.00012624583656870153,
	"loss": 0.2639,
	"step": 389
	},
	{
	"epoch": 0.3341902313624679,
	"grad_norm": 0.0196533203125,
	"learning_rate": 0.00012408009626051135,
	"loss": 0.2681,
	"step": 390
	},
	{
	"epoch": 0.3350471293916024,
	"grad_norm": 0.02001953125,
	"learning_rate": 0.00012193045910983863,
	"loss": 0.2629,
	"step": 391
	},
	{
	"epoch": 0.33590402742073694,
	"grad_norm": 0.019775390625,
	"learning_rate": 0.00011979701719998454,
	"loss": 0.2671,
	"step": 392
	},
	{
	"epoch": 0.33676092544987146,
	"grad_norm": 0.0240478515625,
	"learning_rate": 0.00011767986192049984,
	"loss": 0.2651,
	"step": 393
	},
	{
	"epoch": 0.337617823479006,
	"grad_norm": 0.0201416015625,
	"learning_rate": 0.00011557908396327027,
	"loss": 0.2646,
	"step": 394
	},
	{
	"epoch": 0.3384747215081405,
	"grad_norm": 0.0257568359375,
	"learning_rate": 0.00011349477331863151,
	"loss": 0.2723,
	"step": 395
	},
	{
	"epoch": 0.3393316195372751,
	"grad_norm": 0.023681640625,
	"learning_rate": 0.00011142701927151455,
	"loss": 0.2775,
	"step": 396
	},
	{
	"epoch": 0.3401885175664096,
	"grad_norm": 0.032470703125,
	"learning_rate": 0.00010937591039762085,
	"loss": 0.265,
	"step": 397
	},
	{
	"epoch": 0.34104541559554413,
	"grad_norm": 0.0198974609375,
	"learning_rate": 0.00010734153455962764,
	"loss": 0.2661,
	"step": 398
	},
	{
	"epoch": 0.34190231362467866,
	"grad_norm": 0.0184326171875,
	"learning_rate": 0.00010532397890342504,
	"loss": 0.2526,
	"step": 399
	},
	{
	"epoch": 0.3427592116538132,
	"grad_norm": 0.0181884765625,
	"learning_rate": 0.00010332332985438247,
	"loss": 0.2583,
	"step": 400
	},
	{
	"epoch": 0.34361610968294776,
	"grad_norm": 0.0216064453125,
	"learning_rate": 0.0001013396731136465,
	"loss": 0.2544,
	"step": 401
	},
	{
	"epoch": 0.3444730077120823,
	"grad_norm": 0.0247802734375,
	"learning_rate": 9.937309365446973e-05,
	"loss": 0.2796,
	"step": 402
	},
	{
	"epoch": 0.3453299057412168,
	"grad_norm": 0.0189208984375,
	"learning_rate": 9.742367571857092e-05,
	"loss": 0.2611,
	"step": 403
	},
	{
	"epoch": 0.3461868037703513,
	"grad_norm": 0.0225830078125,
	"learning_rate": 9.549150281252633e-05,
	"loss": 0.2568,
	"step": 404
	},
	{
	"epoch": 0.34704370179948585,
	"grad_norm": 0.0233154296875,
	"learning_rate": 9.357665770419243e-05,
	"loss": 0.2661,
	"step": 405
	},
	{
	"epoch": 0.34790059982862037,
	"grad_norm": 0.0245361328125,
	"learning_rate": 9.167922241916055e-05,
	"loss": 0.27,
	"step": 406
	},
	{
	"epoch": 0.34875749785775495,
	"grad_norm": 0.0198974609375,
	"learning_rate": 8.979927823724321e-05,
	"loss": 0.2665,
	"step": 407
	},
	{
	"epoch": 0.3496143958868895,
	"grad_norm": 0.0252685546875,
	"learning_rate": 8.793690568899215e-05,
	"loss": 0.26,
	"step": 408
	},
	{
	"epoch": 0.350471293916024,
	"grad_norm": 0.029052734375,
	"learning_rate": 8.609218455224893e-05,
	"loss": 0.2625,
	"step": 409
	},
	{
	"epoch": 0.3513281919451585,
	"grad_norm": 0.019287109375,
	"learning_rate": 8.426519384872733e-05,
	"loss": 0.2581,
	"step": 410
	},
	{
	"epoch": 0.35218508997429304,
	"grad_norm": 0.02490234375,
	"learning_rate": 8.24560118406285e-05,
	"loss": 0.2629,
	"step": 411
	},
	{
	"epoch": 0.35304198800342756,
	"grad_norm": 0.020263671875,
	"learning_rate": 8.066471602728804e-05,
	"loss": 0.2522,
	"step": 412
	},
	{
	"epoch": 0.35389888603256214,
	"grad_norm": 0.0245361328125,
	"learning_rate": 7.889138314185678e-05,
	"loss": 0.2648,
	"step": 413
	},
	{
	"epoch": 0.35475578406169667,
	"grad_norm": 0.0191650390625,
	"learning_rate": 7.71360891480134e-05,
	"loss": 0.2633,
	"step": 414
	},
	{
	"epoch": 0.3556126820908312,
	"grad_norm": 0.02099609375,
	"learning_rate": 7.53989092367106e-05,
	"loss": 0.2681,
	"step": 415
	},
	{
	"epoch": 0.3564695801199657,
	"grad_norm": 0.0294189453125,
	"learning_rate": 7.367991782295391e-05,
	"loss": 0.2681,
	"step": 416
	},
	{
	"epoch": 0.35732647814910024,
	"grad_norm": 0.020751953125,
	"learning_rate": 7.197918854261431e-05,
	"loss": 0.2531,
	"step": 417
	},
	{
	"epoch": 0.3581833761782348,
	"grad_norm": 0.021728515625,
	"learning_rate": 7.029679424927366e-05,
	"loss": 0.2607,
	"step": 418
	},
	{
	"epoch": 0.35904027420736934,
	"grad_norm": 0.029052734375,
	"learning_rate": 6.863280701110408e-05,
	"loss": 0.2623,
	"step": 419
	},
	{
	"epoch": 0.35989717223650386,
	"grad_norm": 0.0211181640625,
	"learning_rate": 6.698729810778065e-05,
	"loss": 0.2641,
	"step": 420
	},
	{
	"epoch": 0.3607540702656384,
	"grad_norm": 0.019775390625,
	"learning_rate": 6.536033802742814e-05,
	"loss": 0.2809,
	"step": 421
	},
	{
	"epoch": 0.3616109682947729,
	"grad_norm": 0.0181884765625,
	"learning_rate": 6.375199646360142e-05,
	"loss": 0.2679,
	"step": 422
	},
	{
	"epoch": 0.36246786632390743,
	"grad_norm": 0.056396484375,
	"learning_rate": 6.21623423123001e-05,
	"loss": 0.3452,
	"step": 423
	},
	{
	"epoch": 0.363324764353042,
	"grad_norm": 0.0211181640625,
	"learning_rate": 6.059144366901737e-05,
	"loss": 0.2508,
	"step": 424
	},
	{
	"epoch": 0.36418166238217653,
	"grad_norm": 0.01806640625,
	"learning_rate": 5.903936782582253e-05,
	"loss": 0.2516,
	"step": 425
	},
	{
	"epoch": 0.36503856041131105,
	"grad_norm": 0.0203857421875,
	"learning_rate": 5.750618126847912e-05,
	"loss": 0.2633,
	"step": 426
	},
	{
	"epoch": 0.3658954584404456,
	"grad_norm": 0.0186767578125,
	"learning_rate": 5.599194967359639e-05,
	"loss": 0.263,
	"step": 427
	},
	{
	"epoch": 0.3667523564695801,
	"grad_norm": 0.0257568359375,
	"learning_rate": 5.449673790581611e-05,
	"loss": 0.2754,
	"step": 428
	},
	{
	"epoch": 0.3676092544987147,
	"grad_norm": 0.023193359375,
	"learning_rate": 5.3020610015033946e-05,
	"loss": 0.2628,
	"step": 429
	},
	{
	"epoch": 0.3684661525278492,
	"grad_norm": 0.0223388671875,
	"learning_rate": 5.1563629233655876e-05,
	"loss": 0.2775,
	"step": 430
	},
	{
	"epoch": 0.3693230505569837,
	"grad_norm": 0.0213623046875,
	"learning_rate": 5.0125857973889355e-05,
	"loss": 0.2529,
	"step": 431
	},
	{
	"epoch": 0.37017994858611825,
	"grad_norm": 0.0189208984375,
	"learning_rate": 4.87073578250698e-05,
	"loss": 0.2672,
	"step": 432
	},
	{
	"epoch": 0.37103684661525277,
	"grad_norm": 0.023193359375,
	"learning_rate": 4.730818955102234e-05,
	"loss": 0.2576,
	"step": 433
	},
	{
	"epoch": 0.3718937446443873,
	"grad_norm": 0.027587890625,
	"learning_rate": 4.592841308745932e-05,
	"loss": 0.2575,
	"step": 434
	},
	{
	"epoch": 0.37275064267352187,
	"grad_norm": 0.025146484375,
	"learning_rate": 4.456808753941205e-05,
	"loss": 0.257,
	"step": 435
	},
	{
	"epoch": 0.3736075407026564,
	"grad_norm": 0.0201416015625,
	"learning_rate": 4.322727117869951e-05,
	"loss": 0.2661,
	"step": 436
	},
	{
	"epoch": 0.3744644387317909,
	"grad_norm": 0.0302734375,
	"learning_rate": 4.190602144143207e-05,
	"loss": 0.278,
	"step": 437
	},
	{
	"epoch": 0.37532133676092544,
	"grad_norm": 0.0250244140625,
	"learning_rate": 4.06043949255509e-05,
	"loss": 0.2695,
	"step": 438
	},
	{
	"epoch": 0.37617823479005996,
	"grad_norm": 0.0216064453125,
	"learning_rate": 3.932244738840379e-05,
	"loss": 0.2559,
	"step": 439
	},
	{
	"epoch": 0.37703513281919454,
	"grad_norm": 0.020751953125,
	"learning_rate": 3.806023374435663e-05,
	"loss": 0.2721,
	"step": 440
	},
	{
	"epoch": 0.37789203084832906,
	"grad_norm": 0.025146484375,
	"learning_rate": 3.681780806244095e-05,
	"loss": 0.2479,
	"step": 441
	},
	{
	"epoch": 0.3787489288774636,
	"grad_norm": 0.0223388671875,
	"learning_rate": 3.559522356403788e-05,
	"loss": 0.2686,
	"step": 442
	},
	{
	"epoch": 0.3796058269065981,
	"grad_norm": 0.018798828125,
	"learning_rate": 3.439253262059822e-05,
	"loss": 0.2404,
	"step": 443
	},
	{
	"epoch": 0.38046272493573263,
	"grad_norm": 0.021240234375,
	"learning_rate": 3.3209786751399184e-05,
	"loss": 0.2702,
	"step": 444
	},
	{
	"epoch": 0.38131962296486716,
	"grad_norm": 0.0194091796875,
	"learning_rate": 3.2047036621337236e-05,
	"loss": 0.2568,
	"step": 445
	},
	{
	"epoch": 0.38217652099400173,
	"grad_norm": 0.022216796875,
	"learning_rate": 3.0904332038757974e-05,
	"loss": 0.2586,
	"step": 446
	},
	{
	"epoch": 0.38303341902313626,
	"grad_norm": 0.0205078125,
	"learning_rate": 2.9781721953322627e-05,
	"loss": 0.2557,
	"step": 447
	},
	{
	"epoch": 0.3838903170522708,
	"grad_norm": 0.018798828125,
	"learning_rate": 2.8679254453910786e-05,
	"loss": 0.2515,
	"step": 448
	},
	{
	"epoch": 0.3847472150814053,
	"grad_norm": 0.0186767578125,
	"learning_rate": 2.7596976766560976e-05,
	"loss": 0.2532,
	"step": 449
	},
	{
	"epoch": 0.3856041131105398,
	"grad_norm": 0.0181884765625,
	"learning_rate": 2.653493525244721e-05,
	"loss": 0.2555,
	"step": 450
	},
	{
	"epoch": 0.3864610111396744,
	"grad_norm": 0.0218505859375,
	"learning_rate": 2.5493175405893076e-05,
	"loss": 0.2469,
	"step": 451
	},
	{
	"epoch": 0.3873179091688089,
	"grad_norm": 0.0242919921875,
	"learning_rate": 2.4471741852423235e-05,
	"loss": 0.2566,
	"step": 452
	},
	{
	"epoch": 0.38817480719794345,
	"grad_norm": 0.020751953125,
	"learning_rate": 2.3470678346851513e-05,
	"loss": 0.273,
	"step": 453
	},
	{
	"epoch": 0.389031705227078,
	"grad_norm": 0.01904296875,
	"learning_rate": 2.2490027771406685e-05,
	"loss": 0.2599,
	"step": 454
	},
	{
	"epoch": 0.3898886032562125,
	"grad_norm": 0.021728515625,
	"learning_rate": 2.152983213389559e-05,
	"loss": 0.2591,
	"step": 455
	},
	{
	"epoch": 0.390745501285347,
	"grad_norm": 0.01953125,
	"learning_rate": 2.0590132565903473e-05,
	"loss": 0.2733,
	"step": 456
	},
	{
	"epoch": 0.3916023993144816,
	"grad_norm": 0.019287109375,
	"learning_rate": 1.9670969321032406e-05,
	"loss": 0.2603,
	"step": 457
	},
	{
	"epoch": 0.3924592973436161,
	"grad_norm": 0.0233154296875,
	"learning_rate": 1.8772381773176416e-05,
	"loss": 0.2568,
	"step": 458
	},
	{
	"epoch": 0.39331619537275064,
	"grad_norm": 0.022216796875,
	"learning_rate": 1.7894408414835363e-05,
	"loss": 0.2858,
	"step": 459
	},
	{
	"epoch": 0.39417309340188517,
	"grad_norm": 0.0198974609375,
	"learning_rate": 1.70370868554659e-05,
	"loss": 0.2589,
	"step": 460
	},
	{
	"epoch": 0.3950299914310197,
	"grad_norm": 0.01904296875,
	"learning_rate": 1.620045381987012e-05,
	"loss": 0.2503,
	"step": 461
	},
	{
	"epoch": 0.39588688946015427,
	"grad_norm": 0.0205078125,
	"learning_rate": 1.538454514662285e-05,
	"loss": 0.2695,
	"step": 462
	},
	{
	"epoch": 0.3967437874892888,
	"grad_norm": 0.0211181640625,
	"learning_rate": 1.4589395786535953e-05,
	"loss": 0.2616,
	"step": 463
	},
	{
	"epoch": 0.3976006855184233,
	"grad_norm": 0.019287109375,
	"learning_rate": 1.3815039801161721e-05,
	"loss": 0.2542,
	"step": 464
	},
	{
	"epoch": 0.39845758354755784,
	"grad_norm": 0.0244140625,
	"learning_rate": 1.3061510361333184e-05,
	"loss": 0.254,
	"step": 465
	},
	{
	"epoch": 0.39931448157669236,
	"grad_norm": 0.0216064453125,
	"learning_rate": 1.232883974574367e-05,
	"loss": 0.2671,
	"step": 466
	},
	{
	"epoch": 0.4001713796058269,
	"grad_norm": 0.0184326171875,
	"learning_rate": 1.1617059339563806e-05,
	"loss": 0.2515,
	"step": 467
	},
	{
	"epoch": 0.40102827763496146,
	"grad_norm": 0.0201416015625,
	"learning_rate": 1.0926199633097156e-05,
	"loss": 0.2528,
	"step": 468
	},
	{
	"epoch": 0.401885175664096,
	"grad_norm": 0.02001953125,
	"learning_rate": 1.0256290220474307e-05,
	"loss": 0.2661,
	"step": 469
	},
	{
	"epoch": 0.4027420736932305,
	"grad_norm": 0.01953125,
	"learning_rate": 9.607359798384786e-06,
	"loss": 0.2616,
	"step": 470
	},
	{
	"epoch": 0.40359897172236503,
	"grad_norm": 0.0208740234375,
	"learning_rate": 8.979436164848088e-06,
	"loss": 0.2668,
	"step": 471
	},
	{
	"epoch": 0.40445586975149955,
	"grad_norm": 0.0196533203125,
	"learning_rate": 8.372546218022748e-06,
	"loss": 0.2446,
	"step": 472
	},
	{
	"epoch": 0.40531276778063413,
	"grad_norm": 0.0181884765625,
	"learning_rate": 7.786715955054202e-06,
	"loss": 0.2594,
	"step": 473
	},
	{
	"epoch": 0.40616966580976865,
	"grad_norm": 0.019775390625,
	"learning_rate": 7.221970470961125e-06,
	"loss": 0.2543,
	"step": 474
	},
	{
	"epoch": 0.4070265638389032,
	"grad_norm": 0.01904296875,
	"learning_rate": 6.678333957560512e-06,
	"loss": 0.267,
	"step": 475
	},
	{
	"epoch": 0.4078834618680377,
	"grad_norm": 0.02099609375,
	"learning_rate": 6.15582970243117e-06,
	"loss": 0.2606,
	"step": 476
	},
	{
	"epoch": 0.4087403598971722,
	"grad_norm": 0.024169921875,
	"learning_rate": 5.6544800879163026e-06,
	"loss": 0.2652,
	"step": 477
	},
	{
	"epoch": 0.40959725792630675,
	"grad_norm": 0.0201416015625,
	"learning_rate": 5.174306590164879e-06,
	"loss": 0.2613,
	"step": 478
	},
	{
	"epoch": 0.4104541559554413,
	"grad_norm": 0.0223388671875,
	"learning_rate": 4.715329778211374e-06,
	"loss": 0.2791,
	"step": 479
	},
	{
	"epoch": 0.41131105398457585,
	"grad_norm": 0.0194091796875,
	"learning_rate": 4.277569313094809e-06,
	"loss": 0.2666,
	"step": 480
	},
	{
	"epoch": 0.41216795201371037,
	"grad_norm": 0.0213623046875,
	"learning_rate": 3.861043947016474e-06,
	"loss": 0.2592,
	"step": 481
	},
	{
	"epoch": 0.4130248500428449,
	"grad_norm": 0.02294921875,
	"learning_rate": 3.4657715225368535e-06,
	"loss": 0.2629,
	"step": 482
	},
	{
	"epoch": 0.4138817480719794,
	"grad_norm": 0.0211181640625,
	"learning_rate": 3.09176897181096e-06,
	"loss": 0.2624,
	"step": 483
	},
	{
	"epoch": 0.414738646101114,
	"grad_norm": 0.017578125,
	"learning_rate": 2.739052315863355e-06,
	"loss": 0.2556,
	"step": 484
	},
	{
	"epoch": 0.4155955441302485,
	"grad_norm": 0.02099609375,
	"learning_rate": 2.4076366639015913e-06,
	"loss": 0.2665,
	"step": 485
	},
	{
	"epoch": 0.41645244215938304,
	"grad_norm": 0.01904296875,
	"learning_rate": 2.097536212669171e-06,
	"loss": 0.2584,
	"step": 486
	},
	{
	"epoch": 0.41730934018851756,
	"grad_norm": 0.0240478515625,
	"learning_rate": 1.8087642458373132e-06,
	"loss": 0.263,
	"step": 487
	},
	{
	"epoch": 0.4181662382176521,
	"grad_norm": 0.0218505859375,
	"learning_rate": 1.541333133436018e-06,
	"loss": 0.2611,
	"step": 488
	},
	{
	"epoch": 0.4190231362467866,
	"grad_norm": 0.01806640625,
	"learning_rate": 1.2952543313240472e-06,
	"loss": 0.255,
	"step": 489
	},
	{
	"epoch": 0.4198800342759212,
	"grad_norm": 0.0194091796875,
	"learning_rate": 1.0705383806982606e-06,
	"loss": 0.2719,
	"step": 490
	},
	{
	"epoch": 0.4207369323050557,
	"grad_norm": 0.0206298828125,
	"learning_rate": 8.671949076420882e-07,
	"loss": 0.2695,
	"step": 491
	},
	{
	"epoch": 0.42159383033419023,
	"grad_norm": 0.0198974609375,
	"learning_rate": 6.852326227130834e-07,
	"loss": 0.2709,
	"step": 492
	},
	{
	"epoch": 0.42245072836332476,
	"grad_norm": 0.0272216796875,
	"learning_rate": 5.246593205699424e-07,
	"loss": 0.2517,
	"step": 493
	},
	{
	"epoch": 0.4233076263924593,
	"grad_norm": 0.0211181640625,
	"learning_rate": 3.854818796385495e-07,
	"loss": 0.2614,
	"step": 494
	},
	{
	"epoch": 0.4241645244215938,
	"grad_norm": 0.0208740234375,
	"learning_rate": 2.677062618171577e-07,
	"loss": 0.2542,
	"step": 495
	},
	{
	"epoch": 0.4250214224507284,
	"grad_norm": 0.0194091796875,
	"learning_rate": 1.7133751222137007e-07,
	"loss": 0.2673,
	"step": 496
	},
	{
	"epoch": 0.4258783204798629,
	"grad_norm": 0.0223388671875,
	"learning_rate": 9.637975896759077e-08,
	"loss": 0.2686,
	"step": 497
	},
	{
	"epoch": 0.4267352185089974,
	"grad_norm": 0.0184326171875,
	"learning_rate": 4.283621299649987e-08,
	"loss": 0.2779,
	"step": 498
	},
	{
	"epoch": 0.42759211653813195,
	"grad_norm": 0.0191650390625,
	"learning_rate": 1.0709167935385456e-08,
	"loss": 0.2736,
	"step": 499
	},
	{
	"epoch": 0.4284490145672665,
	"grad_norm": 0.0223388671875,
	"learning_rate": 0.0,
	"loss": 0.2556,
	"step": 500
	},
	{
	"epoch": 0.4284490145672665,
	"step": 500,
	"total_flos": 4.430379024908288e+19,
	"train_loss": 0.41707064187526705,
	"train_runtime": 21021.7192,
	"train_samples_per_second": 0.381,
	"train_steps_per_second": 0.024
	}
	],
	"logging_steps": 1.0,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.430379024908288e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}