Upload folder using huggingface_hub

844184f verified about 2 months ago

46.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.99812382739212,
	"eval_steps": 500,
	"global_step": 266,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00375234521575985,
	"grad_norm": 1.1422045632346107,
	"learning_rate": 2.5e-06,
	"loss": 1.4765,
	"step": 1
	},
	{
	"epoch": 0.0075046904315197,
	"grad_norm": 1.10606272348653,
	"learning_rate": 5e-06,
	"loss": 1.4679,
	"step": 2
	},
	{
	"epoch": 0.01125703564727955,
	"grad_norm": 1.124285036588602,
	"learning_rate": 7.5e-06,
	"loss": 1.4926,
	"step": 3
	},
	{
	"epoch": 0.0150093808630394,
	"grad_norm": 1.175650360755083,
	"learning_rate": 1e-05,
	"loss": 1.4946,
	"step": 4
	},
	{
	"epoch": 0.01876172607879925,
	"grad_norm": 1.1176055565878193,
	"learning_rate": 1.25e-05,
	"loss": 1.4803,
	"step": 5
	},
	{
	"epoch": 0.0225140712945591,
	"grad_norm": 1.080965163228283,
	"learning_rate": 1.5e-05,
	"loss": 1.4069,
	"step": 6
	},
	{
	"epoch": 0.02626641651031895,
	"grad_norm": 1.073199125902437,
	"learning_rate": 1.75e-05,
	"loss": 1.4175,
	"step": 7
	},
	{
	"epoch": 0.0300187617260788,
	"grad_norm": 0.9895651667655394,
	"learning_rate": 2e-05,
	"loss": 1.3952,
	"step": 8
	},
	{
	"epoch": 0.03377110694183865,
	"grad_norm": 0.8484409515335725,
	"learning_rate": 2.25e-05,
	"loss": 1.3084,
	"step": 9
	},
	{
	"epoch": 0.0375234521575985,
	"grad_norm": 0.656224580389129,
	"learning_rate": 2.5e-05,
	"loss": 1.2224,
	"step": 10
	},
	{
	"epoch": 0.04127579737335835,
	"grad_norm": 0.6681802871972625,
	"learning_rate": 2.7500000000000004e-05,
	"loss": 1.2279,
	"step": 11
	},
	{
	"epoch": 0.0450281425891182,
	"grad_norm": 0.6445930931164492,
	"learning_rate": 3e-05,
	"loss": 1.1869,
	"step": 12
	},
	{
	"epoch": 0.04878048780487805,
	"grad_norm": 0.6774830464098534,
	"learning_rate": 3.2500000000000004e-05,
	"loss": 1.1345,
	"step": 13
	},
	{
	"epoch": 0.0525328330206379,
	"grad_norm": 0.7129957171173121,
	"learning_rate": 3.5e-05,
	"loss": 1.0342,
	"step": 14
	},
	{
	"epoch": 0.05628517823639775,
	"grad_norm": 0.6988046692034513,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.9683,
	"step": 15
	},
	{
	"epoch": 0.0600375234521576,
	"grad_norm": 0.7305746200421179,
	"learning_rate": 4e-05,
	"loss": 0.8998,
	"step": 16
	},
	{
	"epoch": 0.06378986866791744,
	"grad_norm": 0.6303366234907746,
	"learning_rate": 4.25e-05,
	"loss": 0.8585,
	"step": 17
	},
	{
	"epoch": 0.0675422138836773,
	"grad_norm": 0.6262466336688131,
	"learning_rate": 4.5e-05,
	"loss": 0.7913,
	"step": 18
	},
	{
	"epoch": 0.07129455909943715,
	"grad_norm": 0.5934168135285741,
	"learning_rate": 4.75e-05,
	"loss": 0.7358,
	"step": 19
	},
	{
	"epoch": 0.075046904315197,
	"grad_norm": 0.5003901957180881,
	"learning_rate": 5e-05,
	"loss": 0.6762,
	"step": 20
	},
	{
	"epoch": 0.07879924953095685,
	"grad_norm": 0.44247641980699626,
	"learning_rate": 5.25e-05,
	"loss": 0.6412,
	"step": 21
	},
	{
	"epoch": 0.0825515947467167,
	"grad_norm": 0.33108999413889184,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.6021,
	"step": 22
	},
	{
	"epoch": 0.08630393996247655,
	"grad_norm": 0.30987297699741684,
	"learning_rate": 5.7499999999999995e-05,
	"loss": 0.5678,
	"step": 23
	},
	{
	"epoch": 0.0900562851782364,
	"grad_norm": 0.2879383883871797,
	"learning_rate": 6e-05,
	"loss": 0.5653,
	"step": 24
	},
	{
	"epoch": 0.09380863039399624,
	"grad_norm": 0.4921785771111378,
	"learning_rate": 6.25e-05,
	"loss": 0.5397,
	"step": 25
	},
	{
	"epoch": 0.0975609756097561,
	"grad_norm": 0.23455468567206647,
	"learning_rate": 6.500000000000001e-05,
	"loss": 0.5392,
	"step": 26
	},
	{
	"epoch": 0.10131332082551595,
	"grad_norm": 0.21551936996375468,
	"learning_rate": 6.750000000000001e-05,
	"loss": 0.5423,
	"step": 27
	},
	{
	"epoch": 0.1050656660412758,
	"grad_norm": 0.2138475404490417,
	"learning_rate": 7e-05,
	"loss": 0.5072,
	"step": 28
	},
	{
	"epoch": 0.10881801125703565,
	"grad_norm": 0.1981260579789532,
	"learning_rate": 7.25e-05,
	"loss": 0.4927,
	"step": 29
	},
	{
	"epoch": 0.1125703564727955,
	"grad_norm": 0.19766175304738637,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.4992,
	"step": 30
	},
	{
	"epoch": 0.11632270168855535,
	"grad_norm": 0.16180823154197033,
	"learning_rate": 7.75e-05,
	"loss": 0.5078,
	"step": 31
	},
	{
	"epoch": 0.1200750469043152,
	"grad_norm": 0.15792678361397225,
	"learning_rate": 8e-05,
	"loss": 0.4834,
	"step": 32
	},
	{
	"epoch": 0.12382739212007504,
	"grad_norm": 0.17901823211719936,
	"learning_rate": 8.25e-05,
	"loss": 0.5038,
	"step": 33
	},
	{
	"epoch": 0.1275797373358349,
	"grad_norm": 0.15291985686600748,
	"learning_rate": 8.5e-05,
	"loss": 0.463,
	"step": 34
	},
	{
	"epoch": 0.13133208255159476,
	"grad_norm": 0.1402347205035838,
	"learning_rate": 8.75e-05,
	"loss": 0.4678,
	"step": 35
	},
	{
	"epoch": 0.1350844277673546,
	"grad_norm": 0.1292157193781673,
	"learning_rate": 9e-05,
	"loss": 0.48,
	"step": 36
	},
	{
	"epoch": 0.13883677298311445,
	"grad_norm": 0.12200374600393228,
	"learning_rate": 9.250000000000001e-05,
	"loss": 0.4678,
	"step": 37
	},
	{
	"epoch": 0.1425891181988743,
	"grad_norm": 0.12645974836123272,
	"learning_rate": 9.5e-05,
	"loss": 0.4783,
	"step": 38
	},
	{
	"epoch": 0.14634146341463414,
	"grad_norm": 0.12515993032794973,
	"learning_rate": 9.75e-05,
	"loss": 0.4558,
	"step": 39
	},
	{
	"epoch": 0.150093808630394,
	"grad_norm": 0.1257915818218713,
	"learning_rate": 0.0001,
	"loss": 0.4582,
	"step": 40
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 0.11519718216680118,
	"learning_rate": 0.0001025,
	"loss": 0.4433,
	"step": 41
	},
	{
	"epoch": 0.1575984990619137,
	"grad_norm": 0.11408287464445384,
	"learning_rate": 0.000105,
	"loss": 0.4566,
	"step": 42
	},
	{
	"epoch": 0.16135084427767354,
	"grad_norm": 0.11355997287120467,
	"learning_rate": 0.0001075,
	"loss": 0.4601,
	"step": 43
	},
	{
	"epoch": 0.1651031894934334,
	"grad_norm": 0.1236061343834286,
	"learning_rate": 0.00011000000000000002,
	"loss": 0.4279,
	"step": 44
	},
	{
	"epoch": 0.16885553470919323,
	"grad_norm": 0.11292335583297317,
	"learning_rate": 0.00011250000000000001,
	"loss": 0.4242,
	"step": 45
	},
	{
	"epoch": 0.1726078799249531,
	"grad_norm": 0.10830414207227934,
	"learning_rate": 0.00011499999999999999,
	"loss": 0.4392,
	"step": 46
	},
	{
	"epoch": 0.17636022514071295,
	"grad_norm": 0.1130446420034329,
	"learning_rate": 0.00011750000000000001,
	"loss": 0.4175,
	"step": 47
	},
	{
	"epoch": 0.1801125703564728,
	"grad_norm": 0.10972733489410498,
	"learning_rate": 0.00012,
	"loss": 0.4064,
	"step": 48
	},
	{
	"epoch": 0.18386491557223264,
	"grad_norm": 0.11723858927517143,
	"learning_rate": 0.00012250000000000002,
	"loss": 0.4618,
	"step": 49
	},
	{
	"epoch": 0.18761726078799248,
	"grad_norm": 0.12979793592348535,
	"learning_rate": 0.000125,
	"loss": 0.4413,
	"step": 50
	},
	{
	"epoch": 0.19136960600375236,
	"grad_norm": 0.12190484063649769,
	"learning_rate": 0.0001275,
	"loss": 0.4212,
	"step": 51
	},
	{
	"epoch": 0.1951219512195122,
	"grad_norm": 0.1200977200253699,
	"learning_rate": 0.00013000000000000002,
	"loss": 0.4236,
	"step": 52
	},
	{
	"epoch": 0.19887429643527205,
	"grad_norm": 0.11576799257930886,
	"learning_rate": 0.0001325,
	"loss": 0.4328,
	"step": 53
	},
	{
	"epoch": 0.2026266416510319,
	"grad_norm": 0.11804398873031127,
	"learning_rate": 0.00013500000000000003,
	"loss": 0.3906,
	"step": 54
	},
	{
	"epoch": 0.20637898686679174,
	"grad_norm": 0.11890529087801377,
	"learning_rate": 0.0001375,
	"loss": 0.4092,
	"step": 55
	},
	{
	"epoch": 0.2101313320825516,
	"grad_norm": 0.11537178670561035,
	"learning_rate": 0.00014,
	"loss": 0.4026,
	"step": 56
	},
	{
	"epoch": 0.21388367729831145,
	"grad_norm": 0.11591938376106178,
	"learning_rate": 0.00014250000000000002,
	"loss": 0.3678,
	"step": 57
	},
	{
	"epoch": 0.2176360225140713,
	"grad_norm": 0.12025566814049414,
	"learning_rate": 0.000145,
	"loss": 0.3791,
	"step": 58
	},
	{
	"epoch": 0.22138836772983114,
	"grad_norm": 0.13088656560108905,
	"learning_rate": 0.0001475,
	"loss": 0.3906,
	"step": 59
	},
	{
	"epoch": 0.225140712945591,
	"grad_norm": 0.12366551138693345,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.3769,
	"step": 60
	},
	{
	"epoch": 0.22889305816135083,
	"grad_norm": 0.12338960635908504,
	"learning_rate": 0.0001525,
	"loss": 0.3806,
	"step": 61
	},
	{
	"epoch": 0.2326454033771107,
	"grad_norm": 0.12957742480845902,
	"learning_rate": 0.000155,
	"loss": 0.365,
	"step": 62
	},
	{
	"epoch": 0.23639774859287055,
	"grad_norm": 0.1282017025800552,
	"learning_rate": 0.0001575,
	"loss": 0.3637,
	"step": 63
	},
	{
	"epoch": 0.2401500938086304,
	"grad_norm": 0.12685377163368308,
	"learning_rate": 0.00016,
	"loss": 0.3813,
	"step": 64
	},
	{
	"epoch": 0.24390243902439024,
	"grad_norm": 0.12515445789228635,
	"learning_rate": 0.00016250000000000002,
	"loss": 0.3665,
	"step": 65
	},
	{
	"epoch": 0.24765478424015008,
	"grad_norm": 0.12780302020094111,
	"learning_rate": 0.000165,
	"loss": 0.372,
	"step": 66
	},
	{
	"epoch": 0.25140712945590993,
	"grad_norm": 0.13509915457231544,
	"learning_rate": 0.0001675,
	"loss": 0.3964,
	"step": 67
	},
	{
	"epoch": 0.2551594746716698,
	"grad_norm": 0.1324450895974203,
	"learning_rate": 0.00017,
	"loss": 0.3809,
	"step": 68
	},
	{
	"epoch": 0.2589118198874296,
	"grad_norm": 0.14039471561000108,
	"learning_rate": 0.00017250000000000002,
	"loss": 0.3788,
	"step": 69
	},
	{
	"epoch": 0.2626641651031895,
	"grad_norm": 0.13748884493823293,
	"learning_rate": 0.000175,
	"loss": 0.3477,
	"step": 70
	},
	{
	"epoch": 0.26641651031894936,
	"grad_norm": 0.12981102084999996,
	"learning_rate": 0.0001775,
	"loss": 0.3803,
	"step": 71
	},
	{
	"epoch": 0.2701688555347092,
	"grad_norm": 0.12375391443012415,
	"learning_rate": 0.00018,
	"loss": 0.3557,
	"step": 72
	},
	{
	"epoch": 0.27392120075046905,
	"grad_norm": 0.12792478465226367,
	"learning_rate": 0.0001825,
	"loss": 0.351,
	"step": 73
	},
	{
	"epoch": 0.2776735459662289,
	"grad_norm": 0.1281934594676182,
	"learning_rate": 0.00018500000000000002,
	"loss": 0.3662,
	"step": 74
	},
	{
	"epoch": 0.28142589118198874,
	"grad_norm": 0.13402822886419208,
	"learning_rate": 0.0001875,
	"loss": 0.3491,
	"step": 75
	},
	{
	"epoch": 0.2851782363977486,
	"grad_norm": 0.1292536897601892,
	"learning_rate": 0.00019,
	"loss": 0.3415,
	"step": 76
	},
	{
	"epoch": 0.28893058161350843,
	"grad_norm": 0.16014546584829106,
	"learning_rate": 0.00019250000000000002,
	"loss": 0.3493,
	"step": 77
	},
	{
	"epoch": 0.2926829268292683,
	"grad_norm": 0.1393384528675237,
	"learning_rate": 0.000195,
	"loss": 0.3509,
	"step": 78
	},
	{
	"epoch": 0.2964352720450281,
	"grad_norm": 0.15248843449290234,
	"learning_rate": 0.00019750000000000003,
	"loss": 0.3328,
	"step": 79
	},
	{
	"epoch": 0.300187617260788,
	"grad_norm": 0.1478683373584156,
	"learning_rate": 0.0002,
	"loss": 0.339,
	"step": 80
	},
	{
	"epoch": 0.30393996247654786,
	"grad_norm": 0.1457678828189889,
	"learning_rate": 0.00019999904276147618,
	"loss": 0.3536,
	"step": 81
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.15185000879528737,
	"learning_rate": 0.00019999617106423082,
	"loss": 0.3529,
	"step": 82
	},
	{
	"epoch": 0.31144465290806755,
	"grad_norm": 0.15201189365883755,
	"learning_rate": 0.0001999913849632419,
	"loss": 0.3548,
	"step": 83
	},
	{
	"epoch": 0.3151969981238274,
	"grad_norm": 0.14879326753679958,
	"learning_rate": 0.00019998468455013823,
	"loss": 0.3264,
	"step": 84
	},
	{
	"epoch": 0.31894934333958724,
	"grad_norm": 0.14083771591440533,
	"learning_rate": 0.00019997606995319768,
	"loss": 0.3331,
	"step": 85
	},
	{
	"epoch": 0.3227016885553471,
	"grad_norm": 0.1503929432468549,
	"learning_rate": 0.00019996554133734474,
	"loss": 0.3282,
	"step": 86
	},
	{
	"epoch": 0.32645403377110693,
	"grad_norm": 0.14030605779758232,
	"learning_rate": 0.00019995309890414732,
	"loss": 0.3216,
	"step": 87
	},
	{
	"epoch": 0.3302063789868668,
	"grad_norm": 0.13891895714301467,
	"learning_rate": 0.000199938742891813,
	"loss": 0.3049,
	"step": 88
	},
	{
	"epoch": 0.3339587242026266,
	"grad_norm": 0.13742909920708118,
	"learning_rate": 0.00019992247357518428,
	"loss": 0.3252,
	"step": 89
	},
	{
	"epoch": 0.33771106941838647,
	"grad_norm": 0.14398237502236147,
	"learning_rate": 0.0001999042912657335,
	"loss": 0.3226,
	"step": 90
	},
	{
	"epoch": 0.34146341463414637,
	"grad_norm": 0.14292774523614082,
	"learning_rate": 0.00019988419631155683,
	"loss": 0.3323,
	"step": 91
	},
	{
	"epoch": 0.3452157598499062,
	"grad_norm": 0.14529808441186043,
	"learning_rate": 0.00019986218909736757,
	"loss": 0.3621,
	"step": 92
	},
	{
	"epoch": 0.34896810506566606,
	"grad_norm": 0.14363660567228131,
	"learning_rate": 0.00019983827004448873,
	"loss": 0.3325,
	"step": 93
	},
	{
	"epoch": 0.3527204502814259,
	"grad_norm": 0.14053215950288314,
	"learning_rate": 0.00019981243961084515,
	"loss": 0.3317,
	"step": 94
	},
	{
	"epoch": 0.35647279549718575,
	"grad_norm": 0.12839662363868307,
	"learning_rate": 0.0001997846982909545,
	"loss": 0.3017,
	"step": 95
	},
	{
	"epoch": 0.3602251407129456,
	"grad_norm": 0.1421301998134749,
	"learning_rate": 0.000199755046615918,
	"loss": 0.3236,
	"step": 96
	},
	{
	"epoch": 0.36397748592870544,
	"grad_norm": 0.1475029420066679,
	"learning_rate": 0.00019972348515341016,
	"loss": 0.3362,
	"step": 97
	},
	{
	"epoch": 0.3677298311444653,
	"grad_norm": 0.13378279730516257,
	"learning_rate": 0.00019969001450766794,
	"loss": 0.3254,
	"step": 98
	},
	{
	"epoch": 0.3714821763602251,
	"grad_norm": 0.1497261207938794,
	"learning_rate": 0.0001996546353194792,
	"loss": 0.3156,
	"step": 99
	},
	{
	"epoch": 0.37523452157598497,
	"grad_norm": 0.1356839966194173,
	"learning_rate": 0.00019961734826617035,
	"loss": 0.3282,
	"step": 100
	},
	{
	"epoch": 0.3789868667917448,
	"grad_norm": 0.12386942577985954,
	"learning_rate": 0.0001995781540615934,
	"loss": 0.3207,
	"step": 101
	},
	{
	"epoch": 0.3827392120075047,
	"grad_norm": 0.16584604505517364,
	"learning_rate": 0.0001995370534561125,
	"loss": 0.3026,
	"step": 102
	},
	{
	"epoch": 0.38649155722326456,
	"grad_norm": 0.1277560294599099,
	"learning_rate": 0.0001994940472365893,
	"loss": 0.322,
	"step": 103
	},
	{
	"epoch": 0.3902439024390244,
	"grad_norm": 0.13567813426924816,
	"learning_rate": 0.00019944913622636795,
	"loss": 0.3232,
	"step": 104
	},
	{
	"epoch": 0.39399624765478425,
	"grad_norm": 0.12123496832228846,
	"learning_rate": 0.0001994023212852595,
	"loss": 0.2972,
	"step": 105
	},
	{
	"epoch": 0.3977485928705441,
	"grad_norm": 0.13879373741004694,
	"learning_rate": 0.00019935360330952518,
	"loss": 0.3005,
	"step": 106
	},
	{
	"epoch": 0.40150093808630394,
	"grad_norm": 0.1274679949876301,
	"learning_rate": 0.00019930298323185945,
	"loss": 0.3119,
	"step": 107
	},
	{
	"epoch": 0.4052532833020638,
	"grad_norm": 0.13101222758435194,
	"learning_rate": 0.00019925046202137216,
	"loss": 0.2939,
	"step": 108
	},
	{
	"epoch": 0.4090056285178236,
	"grad_norm": 0.12738472548497895,
	"learning_rate": 0.00019919604068356978,
	"loss": 0.3093,
	"step": 109
	},
	{
	"epoch": 0.41275797373358347,
	"grad_norm": 0.1490015817444115,
	"learning_rate": 0.00019913972026033632,
	"loss": 0.2844,
	"step": 110
	},
	{
	"epoch": 0.4165103189493433,
	"grad_norm": 0.1470790264142207,
	"learning_rate": 0.00019908150182991339,
	"loss": 0.2872,
	"step": 111
	},
	{
	"epoch": 0.4202626641651032,
	"grad_norm": 0.12721396486874495,
	"learning_rate": 0.00019902138650687942,
	"loss": 0.3043,
	"step": 112
	},
	{
	"epoch": 0.42401500938086306,
	"grad_norm": 0.13891744298891914,
	"learning_rate": 0.00019895937544212858,
	"loss": 0.3009,
	"step": 113
	},
	{
	"epoch": 0.4277673545966229,
	"grad_norm": 0.134346074178801,
	"learning_rate": 0.00019889546982284834,
	"loss": 0.3013,
	"step": 114
	},
	{
	"epoch": 0.43151969981238275,
	"grad_norm": 0.1379066741076229,
	"learning_rate": 0.00019882967087249718,
	"loss": 0.3052,
	"step": 115
	},
	{
	"epoch": 0.4352720450281426,
	"grad_norm": 0.12972548899740632,
	"learning_rate": 0.0001987619798507809,
	"loss": 0.3124,
	"step": 116
	},
	{
	"epoch": 0.43902439024390244,
	"grad_norm": 0.12813310196115213,
	"learning_rate": 0.0001986923980536286,
	"loss": 0.2893,
	"step": 117
	},
	{
	"epoch": 0.4427767354596623,
	"grad_norm": 0.13797054317394944,
	"learning_rate": 0.00019862092681316776,
	"loss": 0.3016,
	"step": 118
	},
	{
	"epoch": 0.44652908067542213,
	"grad_norm": 0.13780600670778337,
	"learning_rate": 0.0001985475674976989,
	"loss": 0.3158,
	"step": 119
	},
	{
	"epoch": 0.450281425891182,
	"grad_norm": 0.13926178383999727,
	"learning_rate": 0.0001984723215116693,
	"loss": 0.2801,
	"step": 120
	},
	{
	"epoch": 0.4540337711069418,
	"grad_norm": 0.1369353496922525,
	"learning_rate": 0.00019839519029564605,
	"loss": 0.305,
	"step": 121
	},
	{
	"epoch": 0.45778611632270166,
	"grad_norm": 0.13937382639705567,
	"learning_rate": 0.00019831617532628862,
	"loss": 0.3176,
	"step": 122
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 0.14086276027188518,
	"learning_rate": 0.00019823527811632042,
	"loss": 0.2879,
	"step": 123
	},
	{
	"epoch": 0.4652908067542214,
	"grad_norm": 0.13282215800163436,
	"learning_rate": 0.00019815250021449997,
	"loss": 0.2996,
	"step": 124
	},
	{
	"epoch": 0.46904315196998125,
	"grad_norm": 0.12757163326850707,
	"learning_rate": 0.00019806784320559127,
	"loss": 0.3006,
	"step": 125
	},
	{
	"epoch": 0.4727954971857411,
	"grad_norm": 0.14854709123219104,
	"learning_rate": 0.00019798130871033322,
	"loss": 0.301,
	"step": 126
	},
	{
	"epoch": 0.47654784240150094,
	"grad_norm": 0.13087500973091548,
	"learning_rate": 0.00019789289838540897,
	"loss": 0.2902,
	"step": 127
	},
	{
	"epoch": 0.4803001876172608,
	"grad_norm": 0.1433475392806627,
	"learning_rate": 0.00019780261392341383,
	"loss": 0.2926,
	"step": 128
	},
	{
	"epoch": 0.48405253283302063,
	"grad_norm": 0.1341283559656879,
	"learning_rate": 0.0001977104570528231,
	"loss": 0.2602,
	"step": 129
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 0.1607197394251248,
	"learning_rate": 0.00019761642953795895,
	"loss": 0.2984,
	"step": 130
	},
	{
	"epoch": 0.4915572232645403,
	"grad_norm": 0.11856150621760517,
	"learning_rate": 0.0001975205331789566,
	"loss": 0.2988,
	"step": 131
	},
	{
	"epoch": 0.49530956848030017,
	"grad_norm": 0.14014139613661877,
	"learning_rate": 0.00019742276981172976,
	"loss": 0.291,
	"step": 132
	},
	{
	"epoch": 0.49906191369606,
	"grad_norm": 0.12881861735846314,
	"learning_rate": 0.00019732314130793568,
	"loss": 0.2971,
	"step": 133
	},
	{
	"epoch": 0.5028142589118199,
	"grad_norm": 0.11788683351931176,
	"learning_rate": 0.00019722164957493922,
	"loss": 0.2766,
	"step": 134
	},
	{
	"epoch": 0.5065666041275797,
	"grad_norm": 0.13746078706666037,
	"learning_rate": 0.0001971182965557763,
	"loss": 0.2886,
	"step": 135
	},
	{
	"epoch": 0.5103189493433395,
	"grad_norm": 0.12745519285890888,
	"learning_rate": 0.00019701308422911672,
	"loss": 0.2963,
	"step": 136
	},
	{
	"epoch": 0.5140712945590994,
	"grad_norm": 0.11835270726835292,
	"learning_rate": 0.0001969060146092264,
	"loss": 0.2995,
	"step": 137
	},
	{
	"epoch": 0.5178236397748592,
	"grad_norm": 0.14011034379489426,
	"learning_rate": 0.0001967970897459286,
	"loss": 0.2881,
	"step": 138
	},
	{
	"epoch": 0.5215759849906192,
	"grad_norm": 0.13060776440495228,
	"learning_rate": 0.0001966863117245648,
	"loss": 0.2765,
	"step": 139
	},
	{
	"epoch": 0.525328330206379,
	"grad_norm": 0.14161693580554588,
	"learning_rate": 0.00019657368266595476,
	"loss": 0.281,
	"step": 140
	},
	{
	"epoch": 0.5290806754221389,
	"grad_norm": 0.12125364150709082,
	"learning_rate": 0.00019645920472635608,
	"loss": 0.2732,
	"step": 141
	},
	{
	"epoch": 0.5328330206378987,
	"grad_norm": 0.1334127552945295,
	"learning_rate": 0.00019634288009742255,
	"loss": 0.2523,
	"step": 142
	},
	{
	"epoch": 0.5365853658536586,
	"grad_norm": 0.12113573146827264,
	"learning_rate": 0.0001962247110061625,
	"loss": 0.2775,
	"step": 143
	},
	{
	"epoch": 0.5403377110694184,
	"grad_norm": 0.12331032028922699,
	"learning_rate": 0.00019610469971489608,
	"loss": 0.2687,
	"step": 144
	},
	{
	"epoch": 0.5440900562851783,
	"grad_norm": 0.13237586077608754,
	"learning_rate": 0.00019598284852121188,
	"loss": 0.2774,
	"step": 145
	},
	{
	"epoch": 0.5478424015009381,
	"grad_norm": 0.12199880756983131,
	"learning_rate": 0.0001958591597579231,
	"loss": 0.2815,
	"step": 146
	},
	{
	"epoch": 0.551594746716698,
	"grad_norm": 0.11915746795874955,
	"learning_rate": 0.00019573363579302266,
	"loss": 0.2558,
	"step": 147
	},
	{
	"epoch": 0.5553470919324578,
	"grad_norm": 0.11644382804351376,
	"learning_rate": 0.00019560627902963807,
	"loss": 0.2951,
	"step": 148
	},
	{
	"epoch": 0.5590994371482176,
	"grad_norm": 0.1317161794959933,
	"learning_rate": 0.00019547709190598534,
	"loss": 0.2629,
	"step": 149
	},
	{
	"epoch": 0.5628517823639775,
	"grad_norm": 0.13859313218362884,
	"learning_rate": 0.00019534607689532233,
	"loss": 0.2884,
	"step": 150
	},
	{
	"epoch": 0.5666041275797373,
	"grad_norm": 0.1643061756146766,
	"learning_rate": 0.00019521323650590133,
	"loss": 0.2932,
	"step": 151
	},
	{
	"epoch": 0.5703564727954972,
	"grad_norm": 0.12366306539172685,
	"learning_rate": 0.00019507857328092108,
	"loss": 0.2861,
	"step": 152
	},
	{
	"epoch": 0.574108818011257,
	"grad_norm": 0.12624207186548378,
	"learning_rate": 0.00019494208979847812,
	"loss": 0.2796,
	"step": 153
	},
	{
	"epoch": 0.5778611632270169,
	"grad_norm": 0.12237336350000451,
	"learning_rate": 0.00019480378867151746,
	"loss": 0.273,
	"step": 154
	},
	{
	"epoch": 0.5816135084427767,
	"grad_norm": 0.12323433685041912,
	"learning_rate": 0.00019466367254778233,
	"loss": 0.2747,
	"step": 155
	},
	{
	"epoch": 0.5853658536585366,
	"grad_norm": 0.12577598956544817,
	"learning_rate": 0.0001945217441097638,
	"loss": 0.2634,
	"step": 156
	},
	{
	"epoch": 0.5891181988742964,
	"grad_norm": 0.12244570380339517,
	"learning_rate": 0.00019437800607464932,
	"loss": 0.2701,
	"step": 157
	},
	{
	"epoch": 0.5928705440900562,
	"grad_norm": 0.12004670825182381,
	"learning_rate": 0.00019423246119427043,
	"loss": 0.2781,
	"step": 158
	},
	{
	"epoch": 0.5966228893058161,
	"grad_norm": 0.13091796767694497,
	"learning_rate": 0.00019408511225505056,
	"loss": 0.2646,
	"step": 159
	},
	{
	"epoch": 0.600375234521576,
	"grad_norm": 0.11771920694416416,
	"learning_rate": 0.00019393596207795136,
	"loss": 0.2795,
	"step": 160
	},
	{
	"epoch": 0.6041275797373359,
	"grad_norm": 0.12447218651645564,
	"learning_rate": 0.00019378501351841865,
	"loss": 0.2767,
	"step": 161
	},
	{
	"epoch": 0.6078799249530957,
	"grad_norm": 0.11854916742534294,
	"learning_rate": 0.000193632269466328,
	"loss": 0.2595,
	"step": 162
	},
	{
	"epoch": 0.6116322701688556,
	"grad_norm": 0.11517649062994549,
	"learning_rate": 0.0001934777328459292,
	"loss": 0.2611,
	"step": 163
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 0.12291906434338017,
	"learning_rate": 0.00019332140661579042,
	"loss": 0.2569,
	"step": 164
	},
	{
	"epoch": 0.6191369606003753,
	"grad_norm": 0.12768661337225065,
	"learning_rate": 0.00019316329376874145,
	"loss": 0.2802,
	"step": 165
	},
	{
	"epoch": 0.6228893058161351,
	"grad_norm": 0.12224468589372722,
	"learning_rate": 0.00019300339733181642,
	"loss": 0.2742,
	"step": 166
	},
	{
	"epoch": 0.626641651031895,
	"grad_norm": 0.11873375913983374,
	"learning_rate": 0.00019284172036619594,
	"loss": 0.2496,
	"step": 167
	},
	{
	"epoch": 0.6303939962476548,
	"grad_norm": 0.1094029489278503,
	"learning_rate": 0.0001926782659671484,
	"loss": 0.2834,
	"step": 168
	},
	{
	"epoch": 0.6341463414634146,
	"grad_norm": 0.11667364916992014,
	"learning_rate": 0.00019251303726397078,
	"loss": 0.2749,
	"step": 169
	},
	{
	"epoch": 0.6378986866791745,
	"grad_norm": 0.10721206701910313,
	"learning_rate": 0.00019234603741992862,
	"loss": 0.2833,
	"step": 170
	},
	{
	"epoch": 0.6416510318949343,
	"grad_norm": 0.11114975628124507,
	"learning_rate": 0.00019217726963219567,
	"loss": 0.2412,
	"step": 171
	},
	{
	"epoch": 0.6454033771106942,
	"grad_norm": 0.11052789377191914,
	"learning_rate": 0.00019200673713179245,
	"loss": 0.2629,
	"step": 172
	},
	{
	"epoch": 0.649155722326454,
	"grad_norm": 0.1254877320751365,
	"learning_rate": 0.00019183444318352457,
	"loss": 0.2676,
	"step": 173
	},
	{
	"epoch": 0.6529080675422139,
	"grad_norm": 0.11436464042758997,
	"learning_rate": 0.0001916603910859201,
	"loss": 0.2786,
	"step": 174
	},
	{
	"epoch": 0.6566604127579737,
	"grad_norm": 0.12040982753537727,
	"learning_rate": 0.00019148458417116645,
	"loss": 0.255,
	"step": 175
	},
	{
	"epoch": 0.6604127579737336,
	"grad_norm": 0.1215472428194096,
	"learning_rate": 0.00019130702580504676,
	"loss": 0.2933,
	"step": 176
	},
	{
	"epoch": 0.6641651031894934,
	"grad_norm": 0.11127574852727158,
	"learning_rate": 0.0001911277193868751,
	"loss": 0.2638,
	"step": 177
	},
	{
	"epoch": 0.6679174484052532,
	"grad_norm": 0.11297276732299613,
	"learning_rate": 0.00019094666834943179,
	"loss": 0.2553,
	"step": 178
	},
	{
	"epoch": 0.6716697936210131,
	"grad_norm": 0.11230362581933455,
	"learning_rate": 0.00019076387615889727,
	"loss": 0.2656,
	"step": 179
	},
	{
	"epoch": 0.6754221388367729,
	"grad_norm": 0.11339982024848368,
	"learning_rate": 0.00019057934631478617,
	"loss": 0.2608,
	"step": 180
	},
	{
	"epoch": 0.6791744840525328,
	"grad_norm": 0.1157018708653507,
	"learning_rate": 0.00019039308234987992,
	"loss": 0.2661,
	"step": 181
	},
	{
	"epoch": 0.6829268292682927,
	"grad_norm": 0.12120354653706046,
	"learning_rate": 0.00019020508783015942,
	"loss": 0.2655,
	"step": 182
	},
	{
	"epoch": 0.6866791744840526,
	"grad_norm": 0.11650498536100079,
	"learning_rate": 0.00019001536635473664,
	"loss": 0.2617,
	"step": 183
	},
	{
	"epoch": 0.6904315196998124,
	"grad_norm": 0.11284326019455035,
	"learning_rate": 0.0001898239215557856,
	"loss": 0.2604,
	"step": 184
	},
	{
	"epoch": 0.6941838649155723,
	"grad_norm": 0.11137366023131207,
	"learning_rate": 0.0001896307570984731,
	"loss": 0.2695,
	"step": 185
	},
	{
	"epoch": 0.6979362101313321,
	"grad_norm": 0.10909150712308537,
	"learning_rate": 0.00018943587668088832,
	"loss": 0.261,
	"step": 186
	},
	{
	"epoch": 0.701688555347092,
	"grad_norm": 0.11533104627662898,
	"learning_rate": 0.00018923928403397208,
	"loss": 0.2662,
	"step": 187
	},
	{
	"epoch": 0.7054409005628518,
	"grad_norm": 0.11085301527387796,
	"learning_rate": 0.00018904098292144554,
	"loss": 0.26,
	"step": 188
	},
	{
	"epoch": 0.7091932457786116,
	"grad_norm": 0.1040125545017247,
	"learning_rate": 0.00018884097713973798,
	"loss": 0.2641,
	"step": 189
	},
	{
	"epoch": 0.7129455909943715,
	"grad_norm": 0.10775777270108124,
	"learning_rate": 0.00018863927051791416,
	"loss": 0.2553,
	"step": 190
	},
	{
	"epoch": 0.7166979362101313,
	"grad_norm": 0.11556746781951048,
	"learning_rate": 0.00018843586691760108,
	"loss": 0.2817,
	"step": 191
	},
	{
	"epoch": 0.7204502814258912,
	"grad_norm": 0.11370972134361729,
	"learning_rate": 0.00018823077023291397,
	"loss": 0.2715,
	"step": 192
	},
	{
	"epoch": 0.724202626641651,
	"grad_norm": 0.10785721109445355,
	"learning_rate": 0.00018802398439038176,
	"loss": 0.2604,
	"step": 193
	},
	{
	"epoch": 0.7279549718574109,
	"grad_norm": 0.10825278350141479,
	"learning_rate": 0.00018781551334887201,
	"loss": 0.2498,
	"step": 194
	},
	{
	"epoch": 0.7317073170731707,
	"grad_norm": 0.09965163182891702,
	"learning_rate": 0.0001876053610995149,
	"loss": 0.2504,
	"step": 195
	},
	{
	"epoch": 0.7354596622889306,
	"grad_norm": 0.1026489808604617,
	"learning_rate": 0.000187393531665627,
	"loss": 0.2587,
	"step": 196
	},
	{
	"epoch": 0.7392120075046904,
	"grad_norm": 0.10399821510438714,
	"learning_rate": 0.00018718002910263426,
	"loss": 0.273,
	"step": 197
	},
	{
	"epoch": 0.7429643527204502,
	"grad_norm": 0.10994775687961979,
	"learning_rate": 0.0001869648574979942,
	"loss": 0.2659,
	"step": 198
	},
	{
	"epoch": 0.7467166979362101,
	"grad_norm": 0.10593465784705908,
	"learning_rate": 0.00018674802097111784,
	"loss": 0.26,
	"step": 199
	},
	{
	"epoch": 0.7504690431519699,
	"grad_norm": 0.11280493763136354,
	"learning_rate": 0.0001865295236732907,
	"loss": 0.2677,
	"step": 200
	},
	{
	"epoch": 0.7542213883677298,
	"grad_norm": 0.10536591132251391,
	"learning_rate": 0.00018630936978759338,
	"loss": 0.2513,
	"step": 201
	},
	{
	"epoch": 0.7579737335834896,
	"grad_norm": 0.10796354732338231,
	"learning_rate": 0.00018608756352882152,
	"loss": 0.2757,
	"step": 202
	},
	{
	"epoch": 0.7617260787992496,
	"grad_norm": 0.10552783825603758,
	"learning_rate": 0.00018586410914340497,
	"loss": 0.2552,
	"step": 203
	},
	{
	"epoch": 0.7654784240150094,
	"grad_norm": 0.10937928150050989,
	"learning_rate": 0.00018563901090932672,
	"loss": 0.2675,
	"step": 204
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.11537632950908651,
	"learning_rate": 0.00018541227313604078,
	"loss": 0.2402,
	"step": 205
	},
	{
	"epoch": 0.7729831144465291,
	"grad_norm": 0.11524821367403956,
	"learning_rate": 0.0001851839001643898,
	"loss": 0.2628,
	"step": 206
	},
	{
	"epoch": 0.776735459662289,
	"grad_norm": 0.10266098148088061,
	"learning_rate": 0.00018495389636652185,
	"loss": 0.2484,
	"step": 207
	},
	{
	"epoch": 0.7804878048780488,
	"grad_norm": 0.10807777719284456,
	"learning_rate": 0.0001847222661458069,
	"loss": 0.2648,
	"step": 208
	},
	{
	"epoch": 0.7842401500938087,
	"grad_norm": 0.10744597380010515,
	"learning_rate": 0.00018448901393675233,
	"loss": 0.2575,
	"step": 209
	},
	{
	"epoch": 0.7879924953095685,
	"grad_norm": 0.10942201726245399,
	"learning_rate": 0.00018425414420491815,
	"loss": 0.266,
	"step": 210
	},
	{
	"epoch": 0.7917448405253283,
	"grad_norm": 0.10660876081865972,
	"learning_rate": 0.00018401766144683147,
	"loss": 0.2438,
	"step": 211
	},
	{
	"epoch": 0.7954971857410882,
	"grad_norm": 0.11694393967537217,
	"learning_rate": 0.0001837795701899004,
	"loss": 0.2787,
	"step": 212
	},
	{
	"epoch": 0.799249530956848,
	"grad_norm": 0.11981272200535166,
	"learning_rate": 0.00018353987499232746,
	"loss": 0.264,
	"step": 213
	},
	{
	"epoch": 0.8030018761726079,
	"grad_norm": 0.10661350248202765,
	"learning_rate": 0.00018329858044302213,
	"loss": 0.2467,
	"step": 214
	},
	{
	"epoch": 0.8067542213883677,
	"grad_norm": 0.10372037225439175,
	"learning_rate": 0.0001830556911615132,
	"loss": 0.2718,
	"step": 215
	},
	{
	"epoch": 0.8105065666041276,
	"grad_norm": 0.10573394846211595,
	"learning_rate": 0.00018281121179786024,
	"loss": 0.2414,
	"step": 216
	},
	{
	"epoch": 0.8142589118198874,
	"grad_norm": 0.10765219346551154,
	"learning_rate": 0.0001825651470325645,
	"loss": 0.2516,
	"step": 217
	},
	{
	"epoch": 0.8180112570356473,
	"grad_norm": 0.09961054466797757,
	"learning_rate": 0.0001823175015764795,
	"loss": 0.2337,
	"step": 218
	},
	{
	"epoch": 0.8217636022514071,
	"grad_norm": 0.10573680507484315,
	"learning_rate": 0.00018206828017072057,
	"loss": 0.2443,
	"step": 219
	},
	{
	"epoch": 0.8255159474671669,
	"grad_norm": 0.10617911818381037,
	"learning_rate": 0.00018181748758657438,
	"loss": 0.2409,
	"step": 220
	},
	{
	"epoch": 0.8292682926829268,
	"grad_norm": 0.10190011860666479,
	"learning_rate": 0.0001815651286254074,
	"loss": 0.2699,
	"step": 221
	},
	{
	"epoch": 0.8330206378986866,
	"grad_norm": 0.10217498312134918,
	"learning_rate": 0.000181311208118574,
	"loss": 0.261,
	"step": 222
	},
	{
	"epoch": 0.8367729831144465,
	"grad_norm": 0.10290805625127751,
	"learning_rate": 0.000181055730927324,
	"loss": 0.2544,
	"step": 223
	},
	{
	"epoch": 0.8405253283302064,
	"grad_norm": 0.10273441373621256,
	"learning_rate": 0.00018079870194270958,
	"loss": 0.2394,
	"step": 224
	},
	{
	"epoch": 0.8442776735459663,
	"grad_norm": 0.09880435844395785,
	"learning_rate": 0.00018054012608549166,
	"loss": 0.263,
	"step": 225
	},
	{
	"epoch": 0.8480300187617261,
	"grad_norm": 0.10357276059735837,
	"learning_rate": 0.0001802800083060457,
	"loss": 0.2853,
	"step": 226
	},
	{
	"epoch": 0.851782363977486,
	"grad_norm": 0.10804308023574893,
	"learning_rate": 0.00018001835358426687,
	"loss": 0.2595,
	"step": 227
	},
	{
	"epoch": 0.8555347091932458,
	"grad_norm": 0.09776326620940605,
	"learning_rate": 0.00017975516692947475,
	"loss": 0.253,
	"step": 228
	},
	{
	"epoch": 0.8592870544090057,
	"grad_norm": 0.0995125991589646,
	"learning_rate": 0.00017949045338031745,
	"loss": 0.2536,
	"step": 229
	},
	{
	"epoch": 0.8630393996247655,
	"grad_norm": 0.10281461790899643,
	"learning_rate": 0.00017922421800467512,
	"loss": 0.2592,
	"step": 230
	},
	{
	"epoch": 0.8667917448405253,
	"grad_norm": 0.11374858278223317,
	"learning_rate": 0.0001789564658995629,
	"loss": 0.2694,
	"step": 231
	},
	{
	"epoch": 0.8705440900562852,
	"grad_norm": 0.10048956101218906,
	"learning_rate": 0.00017868720219103344,
	"loss": 0.2563,
	"step": 232
	},
	{
	"epoch": 0.874296435272045,
	"grad_norm": 0.11978050473597157,
	"learning_rate": 0.00017841643203407852,
	"loss": 0.2671,
	"step": 233
	},
	{
	"epoch": 0.8780487804878049,
	"grad_norm": 0.1022948197426214,
	"learning_rate": 0.00017814416061253077,
	"loss": 0.2442,
	"step": 234
	},
	{
	"epoch": 0.8818011257035647,
	"grad_norm": 0.10648409702487768,
	"learning_rate": 0.000177870393138964,
	"loss": 0.2172,
	"step": 235
	},
	{
	"epoch": 0.8855534709193246,
	"grad_norm": 0.09682467776295996,
	"learning_rate": 0.00017759513485459367,
	"loss": 0.2503,
	"step": 236
	},
	{
	"epoch": 0.8893058161350844,
	"grad_norm": 0.10093582432576866,
	"learning_rate": 0.00017731839102917644,
	"loss": 0.2526,
	"step": 237
	},
	{
	"epoch": 0.8930581613508443,
	"grad_norm": 0.10283968277186326,
	"learning_rate": 0.00017704016696090937,
	"loss": 0.2467,
	"step": 238
	},
	{
	"epoch": 0.8968105065666041,
	"grad_norm": 0.1016691703162235,
	"learning_rate": 0.00017676046797632835,
	"loss": 0.2458,
	"step": 239
	},
	{
	"epoch": 0.900562851782364,
	"grad_norm": 0.09871178549145665,
	"learning_rate": 0.00017647929943020625,
	"loss": 0.2387,
	"step": 240
	},
	{
	"epoch": 0.9043151969981238,
	"grad_norm": 0.11005062968397657,
	"learning_rate": 0.00017619666670545033,
	"loss": 0.2485,
	"step": 241
	},
	{
	"epoch": 0.9080675422138836,
	"grad_norm": 0.10636010374538316,
	"learning_rate": 0.00017591257521299932,
	"loss": 0.2344,
	"step": 242
	},
	{
	"epoch": 0.9118198874296435,
	"grad_norm": 0.10269265934208162,
	"learning_rate": 0.00017562703039171955,
	"loss": 0.2449,
	"step": 243
	},
	{
	"epoch": 0.9155722326454033,
	"grad_norm": 0.1123496871025115,
	"learning_rate": 0.0001753400377083011,
	"loss": 0.2472,
	"step": 244
	},
	{
	"epoch": 0.9193245778611632,
	"grad_norm": 0.10731321325088286,
	"learning_rate": 0.00017505160265715304,
	"loss": 0.2257,
	"step": 245
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 0.10122280465712044,
	"learning_rate": 0.0001747617307602982,
	"loss": 0.2673,
	"step": 246
	},
	{
	"epoch": 0.926829268292683,
	"grad_norm": 0.10287633377626088,
	"learning_rate": 0.00017447042756726754,
	"loss": 0.2623,
	"step": 247
	},
	{
	"epoch": 0.9305816135084428,
	"grad_norm": 0.11180813962431274,
	"learning_rate": 0.0001741776986549938,
	"loss": 0.2588,
	"step": 248
	},
	{
	"epoch": 0.9343339587242027,
	"grad_norm": 0.10342918680770019,
	"learning_rate": 0.00017388354962770487,
	"loss": 0.2365,
	"step": 249
	},
	{
	"epoch": 0.9380863039399625,
	"grad_norm": 0.10248241650027715,
	"learning_rate": 0.0001735879861168163,
	"loss": 0.2453,
	"step": 250
	},
	{
	"epoch": 0.9418386491557224,
	"grad_norm": 0.11730400265701718,
	"learning_rate": 0.00017329101378082374,
	"loss": 0.2486,
	"step": 251
	},
	{
	"epoch": 0.9455909943714822,
	"grad_norm": 0.09685186553299667,
	"learning_rate": 0.0001729926383051943,
	"loss": 0.2572,
	"step": 252
	},
	{
	"epoch": 0.949343339587242,
	"grad_norm": 0.12090818479499119,
	"learning_rate": 0.00017269286540225805,
	"loss": 0.2248,
	"step": 253
	},
	{
	"epoch": 0.9530956848030019,
	"grad_norm": 0.10260399450357141,
	"learning_rate": 0.0001723917008110984,
	"loss": 0.2527,
	"step": 254
	},
	{
	"epoch": 0.9568480300187617,
	"grad_norm": 0.10114612523395812,
	"learning_rate": 0.0001720891502974423,
	"loss": 0.2602,
	"step": 255
	},
	{
	"epoch": 0.9606003752345216,
	"grad_norm": 0.11613810011247953,
	"learning_rate": 0.00017178521965354992,
	"loss": 0.2535,
	"step": 256
	},
	{
	"epoch": 0.9643527204502814,
	"grad_norm": 0.10548781228478918,
	"learning_rate": 0.00017147991469810368,
	"loss": 0.2616,
	"step": 257
	},
	{
	"epoch": 0.9681050656660413,
	"grad_norm": 0.10337010169414873,
	"learning_rate": 0.00017117324127609686,
	"loss": 0.2506,
	"step": 258
	},
	{
	"epoch": 0.9718574108818011,
	"grad_norm": 0.1022753450493229,
	"learning_rate": 0.00017086520525872172,
	"loss": 0.2536,
	"step": 259
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 0.10274802198295474,
	"learning_rate": 0.00017055581254325715,
	"loss": 0.2444,
	"step": 260
	},
	{
	"epoch": 0.9793621013133208,
	"grad_norm": 0.10073944882387982,
	"learning_rate": 0.00017024506905295565,
	"loss": 0.2583,
	"step": 261
	},
	{
	"epoch": 0.9831144465290806,
	"grad_norm": 0.10220040335882648,
	"learning_rate": 0.00016993298073693003,
	"loss": 0.2431,
	"step": 262
	},
	{
	"epoch": 0.9868667917448405,
	"grad_norm": 0.1060948209024435,
	"learning_rate": 0.00016961955357003947,
	"loss": 0.262,
	"step": 263
	},
	{
	"epoch": 0.9906191369606003,
	"grad_norm": 0.10004277645336798,
	"learning_rate": 0.0001693047935527751,
	"loss": 0.234,
	"step": 264
	},
	{
	"epoch": 0.9943714821763602,
	"grad_norm": 0.1000376814502259,
	"learning_rate": 0.00016898870671114527,
	"loss": 0.2566,
	"step": 265
	},
	{
	"epoch": 0.99812382739212,
	"grad_norm": 0.09911659249018077,
	"learning_rate": 0.00016867129909655998,
	"loss": 0.2657,
	"step": 266
	},
	{
	"epoch": 0.99812382739212,
	"eval_loss": 0.25076788663864136,
	"eval_runtime": 54.8199,
	"eval_samples_per_second": 32.725,
	"eval_steps_per_second": 1.04,
	"step": 266
	}
	],
	"logging_steps": 1,
	"max_steps": 798,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.692263947344282e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}