Replete-LLM-Qwen2-7b-Adapter / trainer_state.json

Upload 13 files

d68101b verified about 1 month ago

No virus

60.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.9933642609665863,
	"eval_steps": 500,
	"global_step": 34000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011744670855599272,
	"grad_norm": 0.025151433423161507,
	"learning_rate": 0.0001997648165569144,
	"loss": 1.2331,
	"step": 100
	},
	{
	"epoch": 0.023489341711198545,
	"grad_norm": 0.028844915330410004,
	"learning_rate": 0.0001992944496707432,
	"loss": 1.1461,
	"step": 200
	},
	{
	"epoch": 0.03523401256679781,
	"grad_norm": 0.0280243381857872,
	"learning_rate": 0.00019882408278457198,
	"loss": 1.1523,
	"step": 300
	},
	{
	"epoch": 0.04697868342239709,
	"grad_norm": 0.029297035187482834,
	"learning_rate": 0.00019835371589840077,
	"loss": 1.1273,
	"step": 400
	},
	{
	"epoch": 0.05872335427799636,
	"grad_norm": 0.02906208299100399,
	"learning_rate": 0.00019788334901222956,
	"loss": 1.1149,
	"step": 500
	},
	{
	"epoch": 0.07046802513359562,
	"grad_norm": 0.027980709448456764,
	"learning_rate": 0.00019741298212605835,
	"loss": 1.1108,
	"step": 600
	},
	{
	"epoch": 0.08221269598919491,
	"grad_norm": 0.03009636141359806,
	"learning_rate": 0.00019694261523988714,
	"loss": 1.1041,
	"step": 700
	},
	{
	"epoch": 0.09395736684479418,
	"grad_norm": 0.02974865213036537,
	"learning_rate": 0.00019647224835371593,
	"loss": 1.1088,
	"step": 800
	},
	{
	"epoch": 0.10570203770039345,
	"grad_norm": 0.03112063929438591,
	"learning_rate": 0.0001960018814675447,
	"loss": 1.1052,
	"step": 900
	},
	{
	"epoch": 0.11744670855599272,
	"grad_norm": 0.03213803470134735,
	"learning_rate": 0.00019553151458137348,
	"loss": 1.1037,
	"step": 1000
	},
	{
	"epoch": 0.12919137941159198,
	"grad_norm": 0.029907317832112312,
	"learning_rate": 0.00019506114769520227,
	"loss": 1.0927,
	"step": 1100
	},
	{
	"epoch": 0.14093605026719125,
	"grad_norm": 0.03029988706111908,
	"learning_rate": 0.00019459078080903106,
	"loss": 1.0926,
	"step": 1200
	},
	{
	"epoch": 0.15268072112279055,
	"grad_norm": 0.03094552271068096,
	"learning_rate": 0.00019412041392285985,
	"loss": 1.0977,
	"step": 1300
	},
	{
	"epoch": 0.16442539197838982,
	"grad_norm": 0.031248079612851143,
	"learning_rate": 0.00019365004703668864,
	"loss": 1.0914,
	"step": 1400
	},
	{
	"epoch": 0.1761700628339891,
	"grad_norm": 0.03235971927642822,
	"learning_rate": 0.00019317968015051742,
	"loss": 1.1114,
	"step": 1500
	},
	{
	"epoch": 0.18791473368958836,
	"grad_norm": 0.031699199229478836,
	"learning_rate": 0.0001927093132643462,
	"loss": 1.0883,
	"step": 1600
	},
	{
	"epoch": 0.19965940454518763,
	"grad_norm": 0.032460007816553116,
	"learning_rate": 0.00019223894637817498,
	"loss": 1.0925,
	"step": 1700
	},
	{
	"epoch": 0.2114040754007869,
	"grad_norm": 0.03195160627365112,
	"learning_rate": 0.00019176857949200376,
	"loss": 1.0849,
	"step": 1800
	},
	{
	"epoch": 0.22314874625638617,
	"grad_norm": 0.031754713505506516,
	"learning_rate": 0.00019129821260583255,
	"loss": 1.0872,
	"step": 1900
	},
	{
	"epoch": 0.23489341711198544,
	"grad_norm": 0.0315755270421505,
	"learning_rate": 0.00019082784571966134,
	"loss": 1.0899,
	"step": 2000
	},
	{
	"epoch": 0.2466380879675847,
	"grad_norm": 0.03236432373523712,
	"learning_rate": 0.00019035747883349013,
	"loss": 1.0846,
	"step": 2100
	},
	{
	"epoch": 0.25838275882318396,
	"grad_norm": 0.034620147198438644,
	"learning_rate": 0.00018988711194731892,
	"loss": 1.0813,
	"step": 2200
	},
	{
	"epoch": 0.2701274296787832,
	"grad_norm": 0.03313825652003288,
	"learning_rate": 0.0001894167450611477,
	"loss": 1.0829,
	"step": 2300
	},
	{
	"epoch": 0.2818721005343825,
	"grad_norm": 0.033103689551353455,
	"learning_rate": 0.0001889463781749765,
	"loss": 1.0889,
	"step": 2400
	},
	{
	"epoch": 0.2936167713899818,
	"grad_norm": 0.0330510288476944,
	"learning_rate": 0.0001884760112888053,
	"loss": 1.0792,
	"step": 2500
	},
	{
	"epoch": 0.3053614422455811,
	"grad_norm": 0.03478708490729332,
	"learning_rate": 0.00018800564440263405,
	"loss": 1.0819,
	"step": 2600
	},
	{
	"epoch": 0.31710611310118036,
	"grad_norm": 0.033343035727739334,
	"learning_rate": 0.00018753527751646284,
	"loss": 1.0774,
	"step": 2700
	},
	{
	"epoch": 0.32885078395677964,
	"grad_norm": 0.034466274082660675,
	"learning_rate": 0.00018706491063029163,
	"loss": 1.0814,
	"step": 2800
	},
	{
	"epoch": 0.3405954548123789,
	"grad_norm": 0.034216560423374176,
	"learning_rate": 0.00018659454374412042,
	"loss": 1.0823,
	"step": 2900
	},
	{
	"epoch": 0.3523401256679782,
	"grad_norm": 0.033088088035583496,
	"learning_rate": 0.0001861241768579492,
	"loss": 1.0745,
	"step": 3000
	},
	{
	"epoch": 0.36408479652357745,
	"grad_norm": 0.03337638080120087,
	"learning_rate": 0.000185653809971778,
	"loss": 1.0876,
	"step": 3100
	},
	{
	"epoch": 0.3758294673791767,
	"grad_norm": 0.03440937399864197,
	"learning_rate": 0.00018518344308560678,
	"loss": 1.0708,
	"step": 3200
	},
	{
	"epoch": 0.387574138234776,
	"grad_norm": 0.03419345244765282,
	"learning_rate": 0.00018471307619943557,
	"loss": 1.0849,
	"step": 3300
	},
	{
	"epoch": 0.39931880909037526,
	"grad_norm": 0.03453630208969116,
	"learning_rate": 0.00018424270931326436,
	"loss": 1.0716,
	"step": 3400
	},
	{
	"epoch": 0.41106347994597453,
	"grad_norm": 0.033510930836200714,
	"learning_rate": 0.00018377234242709312,
	"loss": 1.0708,
	"step": 3500
	},
	{
	"epoch": 0.4228081508015738,
	"grad_norm": 0.03349142521619797,
	"learning_rate": 0.00018330197554092191,
	"loss": 1.0813,
	"step": 3600
	},
	{
	"epoch": 0.43455282165717307,
	"grad_norm": 0.0351400151848793,
	"learning_rate": 0.0001828316086547507,
	"loss": 1.0835,
	"step": 3700
	},
	{
	"epoch": 0.44629749251277234,
	"grad_norm": 0.034197255969047546,
	"learning_rate": 0.0001823612417685795,
	"loss": 1.0762,
	"step": 3800
	},
	{
	"epoch": 0.4580421633683716,
	"grad_norm": 0.03609395772218704,
	"learning_rate": 0.00018189087488240828,
	"loss": 1.0665,
	"step": 3900
	},
	{
	"epoch": 0.4697868342239709,
	"grad_norm": 0.034626953303813934,
	"learning_rate": 0.00018142050799623707,
	"loss": 1.073,
	"step": 4000
	},
	{
	"epoch": 0.48153150507957015,
	"grad_norm": 0.03524584695696831,
	"learning_rate": 0.00018095014111006586,
	"loss": 1.0655,
	"step": 4100
	},
	{
	"epoch": 0.4932761759351694,
	"grad_norm": 0.0350763201713562,
	"learning_rate": 0.00018047977422389465,
	"loss": 1.0733,
	"step": 4200
	},
	{
	"epoch": 0.5050208467907686,
	"grad_norm": 0.0361902192234993,
	"learning_rate": 0.0001800094073377234,
	"loss": 1.0837,
	"step": 4300
	},
	{
	"epoch": 0.5167655176463679,
	"grad_norm": 0.03573866933584213,
	"learning_rate": 0.0001795390404515522,
	"loss": 1.0807,
	"step": 4400
	},
	{
	"epoch": 0.5285101885019672,
	"grad_norm": 0.03497539460659027,
	"learning_rate": 0.000179068673565381,
	"loss": 1.0599,
	"step": 4500
	},
	{
	"epoch": 0.5402548593575665,
	"grad_norm": 0.034839775413274765,
	"learning_rate": 0.00017859830667920978,
	"loss": 1.0732,
	"step": 4600
	},
	{
	"epoch": 0.5519995302131657,
	"grad_norm": 0.035876356065273285,
	"learning_rate": 0.0001781279397930386,
	"loss": 1.0674,
	"step": 4700
	},
	{
	"epoch": 0.563744201068765,
	"grad_norm": 0.034889355301856995,
	"learning_rate": 0.00017765757290686738,
	"loss": 1.0701,
	"step": 4800
	},
	{
	"epoch": 0.5754888719243643,
	"grad_norm": 0.03712477535009384,
	"learning_rate": 0.00017718720602069617,
	"loss": 1.0532,
	"step": 4900
	},
	{
	"epoch": 0.5872335427799636,
	"grad_norm": 0.036021534353494644,
	"learning_rate": 0.00017671683913452493,
	"loss": 1.0734,
	"step": 5000
	},
	{
	"epoch": 0.5989782136355629,
	"grad_norm": 0.03627597168087959,
	"learning_rate": 0.00017624647224835372,
	"loss": 1.0704,
	"step": 5100
	},
	{
	"epoch": 0.6107228844911622,
	"grad_norm": 0.03433089703321457,
	"learning_rate": 0.0001757761053621825,
	"loss": 1.0741,
	"step": 5200
	},
	{
	"epoch": 0.6224675553467615,
	"grad_norm": 0.03627678006887436,
	"learning_rate": 0.0001753057384760113,
	"loss": 1.0626,
	"step": 5300
	},
	{
	"epoch": 0.6342122262023607,
	"grad_norm": 0.035330165177583694,
	"learning_rate": 0.0001748353715898401,
	"loss": 1.0597,
	"step": 5400
	},
	{
	"epoch": 0.64595689705796,
	"grad_norm": 0.03662644326686859,
	"learning_rate": 0.00017436500470366888,
	"loss": 1.0712,
	"step": 5500
	},
	{
	"epoch": 0.6577015679135593,
	"grad_norm": 0.03487861156463623,
	"learning_rate": 0.00017389463781749767,
	"loss": 1.0526,
	"step": 5600
	},
	{
	"epoch": 0.6694462387691585,
	"grad_norm": 0.036091409623622894,
	"learning_rate": 0.00017342427093132646,
	"loss": 1.0641,
	"step": 5700
	},
	{
	"epoch": 0.6811909096247578,
	"grad_norm": 0.037575751543045044,
	"learning_rate": 0.00017295390404515525,
	"loss": 1.0593,
	"step": 5800
	},
	{
	"epoch": 0.6929355804803571,
	"grad_norm": 0.03606625273823738,
	"learning_rate": 0.000172483537158984,
	"loss": 1.067,
	"step": 5900
	},
	{
	"epoch": 0.7046802513359564,
	"grad_norm": 0.03537227585911751,
	"learning_rate": 0.0001720131702728128,
	"loss": 1.0635,
	"step": 6000
	},
	{
	"epoch": 0.7164249221915556,
	"grad_norm": 0.03722114861011505,
	"learning_rate": 0.0001715428033866416,
	"loss": 1.0704,
	"step": 6100
	},
	{
	"epoch": 0.7281695930471549,
	"grad_norm": 0.03697160631418228,
	"learning_rate": 0.00017107243650047038,
	"loss": 1.0523,
	"step": 6200
	},
	{
	"epoch": 0.7399142639027542,
	"grad_norm": 0.03575093299150467,
	"learning_rate": 0.00017060206961429917,
	"loss": 1.0629,
	"step": 6300
	},
	{
	"epoch": 0.7516589347583534,
	"grad_norm": 0.0371549054980278,
	"learning_rate": 0.00017013170272812795,
	"loss": 1.068,
	"step": 6400
	},
	{
	"epoch": 0.7634036056139527,
	"grad_norm": 0.03723159059882164,
	"learning_rate": 0.00016966133584195674,
	"loss": 1.0515,
	"step": 6500
	},
	{
	"epoch": 0.775148276469552,
	"grad_norm": 0.03721994906663895,
	"learning_rate": 0.00016919096895578553,
	"loss": 1.0628,
	"step": 6600
	},
	{
	"epoch": 0.7868929473251512,
	"grad_norm": 0.03621937334537506,
	"learning_rate": 0.00016872060206961432,
	"loss": 1.0691,
	"step": 6700
	},
	{
	"epoch": 0.7986376181807505,
	"grad_norm": 0.03620177507400513,
	"learning_rate": 0.00016825023518344308,
	"loss": 1.0455,
	"step": 6800
	},
	{
	"epoch": 0.8103822890363498,
	"grad_norm": 0.037204090505838394,
	"learning_rate": 0.00016777986829727187,
	"loss": 1.072,
	"step": 6900
	},
	{
	"epoch": 0.8221269598919491,
	"grad_norm": 0.03673955425620079,
	"learning_rate": 0.00016730950141110066,
	"loss": 1.0649,
	"step": 7000
	},
	{
	"epoch": 0.8338716307475483,
	"grad_norm": 0.036923281848430634,
	"learning_rate": 0.00016683913452492945,
	"loss": 1.0661,
	"step": 7100
	},
	{
	"epoch": 0.8456163016031476,
	"grad_norm": 0.03734573721885681,
	"learning_rate": 0.00016636876763875824,
	"loss": 1.0636,
	"step": 7200
	},
	{
	"epoch": 0.8573609724587469,
	"grad_norm": 0.03644491732120514,
	"learning_rate": 0.00016589840075258703,
	"loss": 1.0558,
	"step": 7300
	},
	{
	"epoch": 0.8691056433143461,
	"grad_norm": 0.03660232573747635,
	"learning_rate": 0.00016542803386641582,
	"loss": 1.0671,
	"step": 7400
	},
	{
	"epoch": 0.8808503141699454,
	"grad_norm": 0.036776404827833176,
	"learning_rate": 0.0001649576669802446,
	"loss": 1.0643,
	"step": 7500
	},
	{
	"epoch": 0.8925949850255447,
	"grad_norm": 0.03714260086417198,
	"learning_rate": 0.00016448730009407337,
	"loss": 1.0645,
	"step": 7600
	},
	{
	"epoch": 0.904339655881144,
	"grad_norm": 0.03652457147836685,
	"learning_rate": 0.00016401693320790216,
	"loss": 1.0541,
	"step": 7700
	},
	{
	"epoch": 0.9160843267367432,
	"grad_norm": 0.03829098492860794,
	"learning_rate": 0.00016354656632173095,
	"loss": 1.0585,
	"step": 7800
	},
	{
	"epoch": 0.9278289975923425,
	"grad_norm": 0.036905597895383835,
	"learning_rate": 0.00016307619943555974,
	"loss": 1.0563,
	"step": 7900
	},
	{
	"epoch": 0.9395736684479418,
	"grad_norm": 0.036890897899866104,
	"learning_rate": 0.00016260583254938853,
	"loss": 1.059,
	"step": 8000
	},
	{
	"epoch": 0.951318339303541,
	"grad_norm": 0.03704727813601494,
	"learning_rate": 0.00016213546566321731,
	"loss": 1.0567,
	"step": 8100
	},
	{
	"epoch": 0.9630630101591403,
	"grad_norm": 0.03992870822548866,
	"learning_rate": 0.0001616650987770461,
	"loss": 1.0675,
	"step": 8200
	},
	{
	"epoch": 0.9748076810147396,
	"grad_norm": 0.03689022362232208,
	"learning_rate": 0.0001611947318908749,
	"loss": 1.0592,
	"step": 8300
	},
	{
	"epoch": 0.9865523518703389,
	"grad_norm": 0.03615827485918999,
	"learning_rate": 0.00016072436500470368,
	"loss": 1.0404,
	"step": 8400
	},
	{
	"epoch": 0.9982970227259381,
	"grad_norm": 0.03881993889808655,
	"learning_rate": 0.00016025399811853244,
	"loss": 1.0506,
	"step": 8500
	},
	{
	"epoch": 1.0100416935815373,
	"grad_norm": 0.03911367058753967,
	"learning_rate": 0.00015978363123236123,
	"loss": 1.0508,
	"step": 8600
	},
	{
	"epoch": 1.0217863644371366,
	"grad_norm": 0.03765745460987091,
	"learning_rate": 0.00015931326434619002,
	"loss": 1.0432,
	"step": 8700
	},
	{
	"epoch": 1.0335310352927358,
	"grad_norm": 0.038481660187244415,
	"learning_rate": 0.0001588428974600188,
	"loss": 1.0493,
	"step": 8800
	},
	{
	"epoch": 1.045275706148335,
	"grad_norm": 0.03929019346833229,
	"learning_rate": 0.0001583725305738476,
	"loss": 1.0584,
	"step": 8900
	},
	{
	"epoch": 1.0570203770039344,
	"grad_norm": 0.03770457208156586,
	"learning_rate": 0.0001579021636876764,
	"loss": 1.0497,
	"step": 9000
	},
	{
	"epoch": 1.0687650478595336,
	"grad_norm": 0.037688400596380234,
	"learning_rate": 0.00015743179680150518,
	"loss": 1.0432,
	"step": 9100
	},
	{
	"epoch": 1.080509718715133,
	"grad_norm": 0.0388583168387413,
	"learning_rate": 0.00015696142991533397,
	"loss": 1.0406,
	"step": 9200
	},
	{
	"epoch": 1.0922543895707322,
	"grad_norm": 0.0381295308470726,
	"learning_rate": 0.00015649106302916276,
	"loss": 1.0343,
	"step": 9300
	},
	{
	"epoch": 1.1039990604263314,
	"grad_norm": 0.03957001864910126,
	"learning_rate": 0.00015602069614299155,
	"loss": 1.0445,
	"step": 9400
	},
	{
	"epoch": 1.1157437312819307,
	"grad_norm": 0.03933073207736015,
	"learning_rate": 0.00015555032925682034,
	"loss": 1.0498,
	"step": 9500
	},
	{
	"epoch": 1.12748840213753,
	"grad_norm": 0.03816806897521019,
	"learning_rate": 0.00015507996237064912,
	"loss": 1.0441,
	"step": 9600
	},
	{
	"epoch": 1.1392330729931293,
	"grad_norm": 0.038057826459407806,
	"learning_rate": 0.0001546095954844779,
	"loss": 1.0404,
	"step": 9700
	},
	{
	"epoch": 1.1509777438487285,
	"grad_norm": 0.03927973657846451,
	"learning_rate": 0.0001541392285983067,
	"loss": 1.0435,
	"step": 9800
	},
	{
	"epoch": 1.1627224147043278,
	"grad_norm": 0.039503954350948334,
	"learning_rate": 0.0001536688617121355,
	"loss": 1.0592,
	"step": 9900
	},
	{
	"epoch": 1.174467085559927,
	"grad_norm": 0.04005419462919235,
	"learning_rate": 0.00015319849482596428,
	"loss": 1.0445,
	"step": 10000
	},
	{
	"epoch": 1.1862117564155263,
	"grad_norm": 0.03986848145723343,
	"learning_rate": 0.00015272812793979304,
	"loss": 1.0569,
	"step": 10100
	},
	{
	"epoch": 1.1979564272711256,
	"grad_norm": 0.03886035457253456,
	"learning_rate": 0.00015225776105362183,
	"loss": 1.0473,
	"step": 10200
	},
	{
	"epoch": 1.2097010981267249,
	"grad_norm": 0.03941928222775459,
	"learning_rate": 0.00015178739416745062,
	"loss": 1.0399,
	"step": 10300
	},
	{
	"epoch": 1.2214457689823242,
	"grad_norm": 0.04138774052262306,
	"learning_rate": 0.0001513170272812794,
	"loss": 1.0387,
	"step": 10400
	},
	{
	"epoch": 1.2331904398379234,
	"grad_norm": 0.040227312594652176,
	"learning_rate": 0.0001508466603951082,
	"loss": 1.0592,
	"step": 10500
	},
	{
	"epoch": 1.2449351106935227,
	"grad_norm": 0.03977705165743828,
	"learning_rate": 0.000150376293508937,
	"loss": 1.047,
	"step": 10600
	},
	{
	"epoch": 1.256679781549122,
	"grad_norm": 0.040624938905239105,
	"learning_rate": 0.00014990592662276578,
	"loss": 1.0528,
	"step": 10700
	},
	{
	"epoch": 1.2684244524047212,
	"grad_norm": 0.03948456794023514,
	"learning_rate": 0.00014943555973659457,
	"loss": 1.0413,
	"step": 10800
	},
	{
	"epoch": 1.2801691232603205,
	"grad_norm": 0.0396355502307415,
	"learning_rate": 0.00014896519285042333,
	"loss": 1.0403,
	"step": 10900
	},
	{
	"epoch": 1.2919137941159198,
	"grad_norm": 0.04015343636274338,
	"learning_rate": 0.00014849482596425212,
	"loss": 1.057,
	"step": 11000
	},
	{
	"epoch": 1.303658464971519,
	"grad_norm": 0.03963370993733406,
	"learning_rate": 0.0001480244590780809,
	"loss": 1.0474,
	"step": 11100
	},
	{
	"epoch": 1.3154031358271183,
	"grad_norm": 0.03991986811161041,
	"learning_rate": 0.0001475540921919097,
	"loss": 1.0333,
	"step": 11200
	},
	{
	"epoch": 1.3271478066827176,
	"grad_norm": 0.040591537952423096,
	"learning_rate": 0.00014708372530573848,
	"loss": 1.0401,
	"step": 11300
	},
	{
	"epoch": 1.3388924775383169,
	"grad_norm": 0.039190664887428284,
	"learning_rate": 0.00014661335841956727,
	"loss": 1.0467,
	"step": 11400
	},
	{
	"epoch": 1.3506371483939161,
	"grad_norm": 0.03903213143348694,
	"learning_rate": 0.00014614299153339606,
	"loss": 1.0557,
	"step": 11500
	},
	{
	"epoch": 1.3623818192495154,
	"grad_norm": 0.03976823762059212,
	"learning_rate": 0.00014567262464722485,
	"loss": 1.055,
	"step": 11600
	},
	{
	"epoch": 1.3741264901051147,
	"grad_norm": 0.04024571180343628,
	"learning_rate": 0.00014520225776105364,
	"loss": 1.0375,
	"step": 11700
	},
	{
	"epoch": 1.385871160960714,
	"grad_norm": 0.040485769510269165,
	"learning_rate": 0.0001447318908748824,
	"loss": 1.0407,
	"step": 11800
	},
	{
	"epoch": 1.3976158318163132,
	"grad_norm": 0.04040844738483429,
	"learning_rate": 0.0001442615239887112,
	"loss": 1.0395,
	"step": 11900
	},
	{
	"epoch": 1.4093605026719125,
	"grad_norm": 0.039215583354234695,
	"learning_rate": 0.00014379115710253998,
	"loss": 1.0417,
	"step": 12000
	},
	{
	"epoch": 1.4211051735275118,
	"grad_norm": 0.040224071592092514,
	"learning_rate": 0.00014332079021636877,
	"loss": 1.0342,
	"step": 12100
	},
	{
	"epoch": 1.432849844383111,
	"grad_norm": 0.03919661417603493,
	"learning_rate": 0.00014285042333019756,
	"loss": 1.0396,
	"step": 12200
	},
	{
	"epoch": 1.4445945152387103,
	"grad_norm": 0.0384608618915081,
	"learning_rate": 0.00014238005644402635,
	"loss": 1.0467,
	"step": 12300
	},
	{
	"epoch": 1.4563391860943098,
	"grad_norm": 0.039908237755298615,
	"learning_rate": 0.00014190968955785514,
	"loss": 1.0539,
	"step": 12400
	},
	{
	"epoch": 1.468083856949909,
	"grad_norm": 0.0399697907269001,
	"learning_rate": 0.00014143932267168393,
	"loss": 1.0445,
	"step": 12500
	},
	{
	"epoch": 1.4798285278055083,
	"grad_norm": 0.04020760953426361,
	"learning_rate": 0.0001409689557855127,
	"loss": 1.0456,
	"step": 12600
	},
	{
	"epoch": 1.4915731986611076,
	"grad_norm": 0.04049207270145416,
	"learning_rate": 0.00014049858889934148,
	"loss": 1.0402,
	"step": 12700
	},
	{
	"epoch": 1.5033178695167067,
	"grad_norm": 0.0405813567340374,
	"learning_rate": 0.00014002822201317027,
	"loss": 1.0327,
	"step": 12800
	},
	{
	"epoch": 1.515062540372306,
	"grad_norm": 0.04098460450768471,
	"learning_rate": 0.00013955785512699906,
	"loss": 1.0426,
	"step": 12900
	},
	{
	"epoch": 1.5268072112279052,
	"grad_norm": 0.03912067785859108,
	"learning_rate": 0.00013908748824082785,
	"loss": 1.0398,
	"step": 13000
	},
	{
	"epoch": 1.5385518820835045,
	"grad_norm": 0.040918510407209396,
	"learning_rate": 0.00013861712135465663,
	"loss": 1.0511,
	"step": 13100
	},
	{
	"epoch": 1.5502965529391037,
	"grad_norm": 0.039643533527851105,
	"learning_rate": 0.00013814675446848542,
	"loss": 1.0408,
	"step": 13200
	},
	{
	"epoch": 1.562041223794703,
	"grad_norm": 0.04073023423552513,
	"learning_rate": 0.0001376763875823142,
	"loss": 1.0465,
	"step": 13300
	},
	{
	"epoch": 1.5737858946503023,
	"grad_norm": 0.03993350267410278,
	"learning_rate": 0.000137206020696143,
	"loss": 1.0481,
	"step": 13400
	},
	{
	"epoch": 1.5855305655059015,
	"grad_norm": 0.0393822006881237,
	"learning_rate": 0.00013673565380997176,
	"loss": 1.0378,
	"step": 13500
	},
	{
	"epoch": 1.5972752363615008,
	"grad_norm": 0.041657913476228714,
	"learning_rate": 0.00013626528692380055,
	"loss": 1.0305,
	"step": 13600
	},
	{
	"epoch": 1.6090199072171,
	"grad_norm": 0.0409579873085022,
	"learning_rate": 0.00013579492003762934,
	"loss": 1.0433,
	"step": 13700
	},
	{
	"epoch": 1.6207645780726994,
	"grad_norm": 0.039673928171396255,
	"learning_rate": 0.00013532455315145813,
	"loss": 1.0286,
	"step": 13800
	},
	{
	"epoch": 1.6325092489282986,
	"grad_norm": 0.04071459546685219,
	"learning_rate": 0.00013485418626528692,
	"loss": 1.0413,
	"step": 13900
	},
	{
	"epoch": 1.644253919783898,
	"grad_norm": 0.04058365523815155,
	"learning_rate": 0.00013438381937911574,
	"loss": 1.0465,
	"step": 14000
	},
	{
	"epoch": 1.6559985906394972,
	"grad_norm": 0.04230272024869919,
	"learning_rate": 0.00013391345249294453,
	"loss": 1.0304,
	"step": 14100
	},
	{
	"epoch": 1.6677432614950964,
	"grad_norm": 0.04120560362935066,
	"learning_rate": 0.0001334430856067733,
	"loss": 1.0459,
	"step": 14200
	},
	{
	"epoch": 1.6794879323506957,
	"grad_norm": 0.0403909832239151,
	"learning_rate": 0.00013297271872060208,
	"loss": 1.0402,
	"step": 14300
	},
	{
	"epoch": 1.691232603206295,
	"grad_norm": 0.04099250212311745,
	"learning_rate": 0.00013250235183443087,
	"loss": 1.0477,
	"step": 14400
	},
	{
	"epoch": 1.7029772740618943,
	"grad_norm": 0.039906516671180725,
	"learning_rate": 0.00013203198494825965,
	"loss": 1.057,
	"step": 14500
	},
	{
	"epoch": 1.7147219449174935,
	"grad_norm": 0.04008522629737854,
	"learning_rate": 0.00013156161806208844,
	"loss": 1.0433,
	"step": 14600
	},
	{
	"epoch": 1.7264666157730928,
	"grad_norm": 0.0416274331510067,
	"learning_rate": 0.00013109125117591723,
	"loss": 1.0405,
	"step": 14700
	},
	{
	"epoch": 1.738211286628692,
	"grad_norm": 0.04142718017101288,
	"learning_rate": 0.00013062088428974602,
	"loss": 1.0349,
	"step": 14800
	},
	{
	"epoch": 1.7499559574842916,
	"grad_norm": 0.0407978855073452,
	"learning_rate": 0.0001301505174035748,
	"loss": 1.0415,
	"step": 14900
	},
	{
	"epoch": 1.7617006283398908,
	"grad_norm": 0.03977083042263985,
	"learning_rate": 0.0001296801505174036,
	"loss": 1.0522,
	"step": 15000
	},
	{
	"epoch": 1.77344529919549,
	"grad_norm": 0.04186280444264412,
	"learning_rate": 0.00012920978363123236,
	"loss": 1.0515,
	"step": 15100
	},
	{
	"epoch": 1.7851899700510894,
	"grad_norm": 0.04049232602119446,
	"learning_rate": 0.00012873941674506115,
	"loss": 1.0517,
	"step": 15200
	},
	{
	"epoch": 1.7969346409066886,
	"grad_norm": 0.039164550602436066,
	"learning_rate": 0.00012826904985888994,
	"loss": 1.0403,
	"step": 15300
	},
	{
	"epoch": 1.808679311762288,
	"grad_norm": 0.04166054725646973,
	"learning_rate": 0.00012779868297271873,
	"loss": 1.0469,
	"step": 15400
	},
	{
	"epoch": 1.8204239826178872,
	"grad_norm": 0.0396597720682621,
	"learning_rate": 0.00012732831608654752,
	"loss": 1.0433,
	"step": 15500
	},
	{
	"epoch": 1.8321686534734865,
	"grad_norm": 0.041060902178287506,
	"learning_rate": 0.0001268579492003763,
	"loss": 1.0298,
	"step": 15600
	},
	{
	"epoch": 1.8439133243290857,
	"grad_norm": 0.04100984334945679,
	"learning_rate": 0.0001263875823142051,
	"loss": 1.0423,
	"step": 15700
	},
	{
	"epoch": 1.855657995184685,
	"grad_norm": 0.03933743014931679,
	"learning_rate": 0.00012591721542803389,
	"loss": 1.0459,
	"step": 15800
	},
	{
	"epoch": 1.8674026660402843,
	"grad_norm": 0.04171588271856308,
	"learning_rate": 0.00012544684854186265,
	"loss": 1.0411,
	"step": 15900
	},
	{
	"epoch": 1.8791473368958835,
	"grad_norm": 0.04075104370713234,
	"learning_rate": 0.00012497648165569144,
	"loss": 1.0521,
	"step": 16000
	},
	{
	"epoch": 1.8908920077514828,
	"grad_norm": 0.04037100449204445,
	"learning_rate": 0.00012450611476952023,
	"loss": 1.0482,
	"step": 16100
	},
	{
	"epoch": 1.902636678607082,
	"grad_norm": 0.04113980382680893,
	"learning_rate": 0.00012403574788334901,
	"loss": 1.0335,
	"step": 16200
	},
	{
	"epoch": 1.9143813494626813,
	"grad_norm": 0.04102000594139099,
	"learning_rate": 0.0001235653809971778,
	"loss": 1.0462,
	"step": 16300
	},
	{
	"epoch": 1.9261260203182806,
	"grad_norm": 0.041277866810560226,
	"learning_rate": 0.0001230950141110066,
	"loss": 1.0472,
	"step": 16400
	},
	{
	"epoch": 1.93787069117388,
	"grad_norm": 0.040296610444784164,
	"learning_rate": 0.00012262464722483538,
	"loss": 1.0455,
	"step": 16500
	},
	{
	"epoch": 1.9496153620294792,
	"grad_norm": 0.04030190408229828,
	"learning_rate": 0.00012215428033866417,
	"loss": 1.036,
	"step": 16600
	},
	{
	"epoch": 1.9613600328850784,
	"grad_norm": 0.04076563939452171,
	"learning_rate": 0.00012168391345249295,
	"loss": 1.0355,
	"step": 16700
	},
	{
	"epoch": 1.9731047037406777,
	"grad_norm": 0.042260345071554184,
	"learning_rate": 0.00012121354656632174,
	"loss": 1.0318,
	"step": 16800
	},
	{
	"epoch": 1.984849374596277,
	"grad_norm": 0.04094604775309563,
	"learning_rate": 0.00012074317968015052,
	"loss": 1.0272,
	"step": 16900
	},
	{
	"epoch": 1.9965940454518762,
	"grad_norm": 0.04106820747256279,
	"learning_rate": 0.0001202728127939793,
	"loss": 1.0248,
	"step": 17000
	},
	{
	"epoch": 2.0083387163074753,
	"grad_norm": 0.041894011199474335,
	"learning_rate": 0.00011980244590780809,
	"loss": 1.0415,
	"step": 17100
	},
	{
	"epoch": 2.0200833871630746,
	"grad_norm": 0.04177311062812805,
	"learning_rate": 0.00011933207902163688,
	"loss": 1.034,
	"step": 17200
	},
	{
	"epoch": 2.031828058018674,
	"grad_norm": 0.04308000206947327,
	"learning_rate": 0.00011886171213546567,
	"loss": 1.0164,
	"step": 17300
	},
	{
	"epoch": 2.043572728874273,
	"grad_norm": 0.04087553173303604,
	"learning_rate": 0.00011839134524929444,
	"loss": 1.0271,
	"step": 17400
	},
	{
	"epoch": 2.0553173997298724,
	"grad_norm": 0.04184258356690407,
	"learning_rate": 0.00011792097836312323,
	"loss": 1.0214,
	"step": 17500
	},
	{
	"epoch": 2.0670620705854716,
	"grad_norm": 0.0424019880592823,
	"learning_rate": 0.00011745061147695202,
	"loss": 1.041,
	"step": 17600
	},
	{
	"epoch": 2.078806741441071,
	"grad_norm": 0.04137306660413742,
	"learning_rate": 0.00011698024459078081,
	"loss": 1.0182,
	"step": 17700
	},
	{
	"epoch": 2.09055141229667,
	"grad_norm": 0.04244280233979225,
	"learning_rate": 0.0001165098777046096,
	"loss": 1.0269,
	"step": 17800
	},
	{
	"epoch": 2.1022960831522695,
	"grad_norm": 0.04111913591623306,
	"learning_rate": 0.00011603951081843838,
	"loss": 1.0335,
	"step": 17900
	},
	{
	"epoch": 2.1140407540078687,
	"grad_norm": 0.0424952507019043,
	"learning_rate": 0.00011556914393226716,
	"loss": 1.0266,
	"step": 18000
	},
	{
	"epoch": 2.125785424863468,
	"grad_norm": 0.0427490659058094,
	"learning_rate": 0.00011509877704609595,
	"loss": 1.0274,
	"step": 18100
	},
	{
	"epoch": 2.1375300957190673,
	"grad_norm": 0.04336949810385704,
	"learning_rate": 0.00011462841015992474,
	"loss": 1.0268,
	"step": 18200
	},
	{
	"epoch": 2.1492747665746665,
	"grad_norm": 0.04262473061680794,
	"learning_rate": 0.00011415804327375352,
	"loss": 1.0214,
	"step": 18300
	},
	{
	"epoch": 2.161019437430266,
	"grad_norm": 0.04471023753285408,
	"learning_rate": 0.00011368767638758231,
	"loss": 1.0295,
	"step": 18400
	},
	{
	"epoch": 2.172764108285865,
	"grad_norm": 0.044171739369630814,
	"learning_rate": 0.0001132173095014111,
	"loss": 1.0296,
	"step": 18500
	},
	{
	"epoch": 2.1845087791414644,
	"grad_norm": 0.04301764816045761,
	"learning_rate": 0.0001127469426152399,
	"loss": 1.0258,
	"step": 18600
	},
	{
	"epoch": 2.196253449997064,
	"grad_norm": 0.04325546696782112,
	"learning_rate": 0.00011227657572906869,
	"loss": 1.0288,
	"step": 18700
	},
	{
	"epoch": 2.207998120852663,
	"grad_norm": 0.04137617349624634,
	"learning_rate": 0.00011180620884289748,
	"loss": 1.0385,
	"step": 18800
	},
	{
	"epoch": 2.2197427917082626,
	"grad_norm": 0.043259892612695694,
	"learning_rate": 0.00011133584195672627,
	"loss": 1.0264,
	"step": 18900
	},
	{
	"epoch": 2.2314874625638614,
	"grad_norm": 0.044129449874162674,
	"learning_rate": 0.00011086547507055504,
	"loss": 1.0313,
	"step": 19000
	},
	{
	"epoch": 2.243232133419461,
	"grad_norm": 0.04146253690123558,
	"learning_rate": 0.00011039510818438383,
	"loss": 1.0304,
	"step": 19100
	},
	{
	"epoch": 2.25497680427506,
	"grad_norm": 0.042836517095565796,
	"learning_rate": 0.00010992474129821262,
	"loss": 1.0281,
	"step": 19200
	},
	{
	"epoch": 2.2667214751306597,
	"grad_norm": 0.04558749496936798,
	"learning_rate": 0.00010945437441204141,
	"loss": 1.03,
	"step": 19300
	},
	{
	"epoch": 2.2784661459862585,
	"grad_norm": 0.04284907504916191,
	"learning_rate": 0.00010898400752587018,
	"loss": 1.0469,
	"step": 19400
	},
	{
	"epoch": 2.2902108168418582,
	"grad_norm": 0.04364863410592079,
	"learning_rate": 0.00010851364063969897,
	"loss": 1.0295,
	"step": 19500
	},
	{
	"epoch": 2.301955487697457,
	"grad_norm": 0.042074691504240036,
	"learning_rate": 0.00010804327375352776,
	"loss": 1.0458,
	"step": 19600
	},
	{
	"epoch": 2.3137001585530568,
	"grad_norm": 0.043050698935985565,
	"learning_rate": 0.00010757290686735655,
	"loss": 1.0438,
	"step": 19700
	},
	{
	"epoch": 2.3254448294086556,
	"grad_norm": 0.04526820033788681,
	"learning_rate": 0.00010710253998118534,
	"loss": 1.0283,
	"step": 19800
	},
	{
	"epoch": 2.3371895002642553,
	"grad_norm": 0.04481109231710434,
	"learning_rate": 0.00010663217309501412,
	"loss": 1.0205,
	"step": 19900
	},
	{
	"epoch": 2.348934171119854,
	"grad_norm": 0.04517560824751854,
	"learning_rate": 0.0001061618062088429,
	"loss": 1.0179,
	"step": 20000
	},
	{
	"epoch": 2.3607962886840097,
	"grad_norm": 0.045082226395606995,
	"learning_rate": 0.0001056914393226717,
	"loss": 1.0406,
	"step": 20100
	},
	{
	"epoch": 2.372540959539609,
	"grad_norm": 0.042884670197963715,
	"learning_rate": 0.00010522107243650048,
	"loss": 1.0221,
	"step": 20200
	},
	{
	"epoch": 2.3842856303952082,
	"grad_norm": 0.04309197515249252,
	"learning_rate": 0.00010475070555032926,
	"loss": 1.0287,
	"step": 20300
	},
	{
	"epoch": 2.3960303012508075,
	"grad_norm": 0.04434290900826454,
	"learning_rate": 0.00010428033866415805,
	"loss": 1.0269,
	"step": 20400
	},
	{
	"epoch": 2.407774972106407,
	"grad_norm": 0.044556260108947754,
	"learning_rate": 0.00010380997177798684,
	"loss": 1.0454,
	"step": 20500
	},
	{
	"epoch": 2.419519642962006,
	"grad_norm": 0.043353039771318436,
	"learning_rate": 0.00010333960489181563,
	"loss": 1.0401,
	"step": 20600
	},
	{
	"epoch": 2.4312643138176053,
	"grad_norm": 0.045345306396484375,
	"learning_rate": 0.0001028692380056444,
	"loss": 1.0172,
	"step": 20700
	},
	{
	"epoch": 2.4430089846732046,
	"grad_norm": 0.043075308203697205,
	"learning_rate": 0.00010239887111947319,
	"loss": 1.0413,
	"step": 20800
	},
	{
	"epoch": 2.454753655528804,
	"grad_norm": 0.044308003038167953,
	"learning_rate": 0.00010192850423330198,
	"loss": 1.0292,
	"step": 20900
	},
	{
	"epoch": 2.466498326384403,
	"grad_norm": 0.04506301134824753,
	"learning_rate": 0.00010145813734713077,
	"loss": 1.0382,
	"step": 21000
	},
	{
	"epoch": 2.4782429972400024,
	"grad_norm": 0.04396146163344383,
	"learning_rate": 0.00010098777046095956,
	"loss": 1.0337,
	"step": 21100
	},
	{
	"epoch": 2.4899876680956017,
	"grad_norm": 0.044499751180410385,
	"learning_rate": 0.00010051740357478833,
	"loss": 1.0407,
	"step": 21200
	},
	{
	"epoch": 2.501732338951201,
	"grad_norm": 0.042769189924001694,
	"learning_rate": 0.00010004703668861712,
	"loss": 1.031,
	"step": 21300
	},
	{
	"epoch": 2.5134770098068,
	"grad_norm": 0.0427669994533062,
	"learning_rate": 9.957666980244591e-05,
	"loss": 1.0193,
	"step": 21400
	},
	{
	"epoch": 2.5252216806623995,
	"grad_norm": 0.04454643651843071,
	"learning_rate": 9.91063029162747e-05,
	"loss": 1.0256,
	"step": 21500
	},
	{
	"epoch": 2.5369663515179988,
	"grad_norm": 0.042179521173238754,
	"learning_rate": 9.863593603010348e-05,
	"loss": 1.0293,
	"step": 21600
	},
	{
	"epoch": 2.548711022373598,
	"grad_norm": 0.04245784506201744,
	"learning_rate": 9.816556914393227e-05,
	"loss": 1.0138,
	"step": 21700
	},
	{
	"epoch": 2.5604556932291973,
	"grad_norm": 0.04282999783754349,
	"learning_rate": 9.769520225776106e-05,
	"loss": 1.0216,
	"step": 21800
	},
	{
	"epoch": 2.5722003640847966,
	"grad_norm": 0.04309820756316185,
	"learning_rate": 9.722483537158984e-05,
	"loss": 1.0436,
	"step": 21900
	},
	{
	"epoch": 2.583945034940396,
	"grad_norm": 0.0428336001932621,
	"learning_rate": 9.675446848541862e-05,
	"loss": 1.0327,
	"step": 22000
	},
	{
	"epoch": 2.595689705795995,
	"grad_norm": 0.0433744341135025,
	"learning_rate": 9.628410159924742e-05,
	"loss": 1.0248,
	"step": 22100
	},
	{
	"epoch": 2.6074343766515944,
	"grad_norm": 0.0440264493227005,
	"learning_rate": 9.581373471307621e-05,
	"loss": 1.0276,
	"step": 22200
	},
	{
	"epoch": 2.6191790475071937,
	"grad_norm": 0.04474351555109024,
	"learning_rate": 9.5343367826905e-05,
	"loss": 1.0392,
	"step": 22300
	},
	{
	"epoch": 2.630923718362793,
	"grad_norm": 0.04529641568660736,
	"learning_rate": 9.487300094073378e-05,
	"loss": 1.0436,
	"step": 22400
	},
	{
	"epoch": 2.642668389218392,
	"grad_norm": 0.04383498802781105,
	"learning_rate": 9.440263405456257e-05,
	"loss": 1.0271,
	"step": 22500
	},
	{
	"epoch": 2.6544130600739915,
	"grad_norm": 0.04416006803512573,
	"learning_rate": 9.393226716839135e-05,
	"loss": 1.035,
	"step": 22600
	},
	{
	"epoch": 2.6661577309295907,
	"grad_norm": 0.0439978651702404,
	"learning_rate": 9.346190028222014e-05,
	"loss": 1.0242,
	"step": 22700
	},
	{
	"epoch": 2.67790240178519,
	"grad_norm": 0.043451737612485886,
	"learning_rate": 9.299153339604892e-05,
	"loss": 1.0266,
	"step": 22800
	},
	{
	"epoch": 2.6896470726407893,
	"grad_norm": 0.043133124709129333,
	"learning_rate": 9.252116650987771e-05,
	"loss": 1.0313,
	"step": 22900
	},
	{
	"epoch": 2.7013917434963886,
	"grad_norm": 0.04365682601928711,
	"learning_rate": 9.20507996237065e-05,
	"loss": 1.0164,
	"step": 23000
	},
	{
	"epoch": 2.713136414351988,
	"grad_norm": 0.045253172516822815,
	"learning_rate": 9.158043273753529e-05,
	"loss": 1.0234,
	"step": 23100
	},
	{
	"epoch": 2.724881085207587,
	"grad_norm": 0.04371510446071625,
	"learning_rate": 9.111006585136406e-05,
	"loss": 1.0262,
	"step": 23200
	},
	{
	"epoch": 2.7366257560631864,
	"grad_norm": 0.04663108289241791,
	"learning_rate": 9.063969896519285e-05,
	"loss": 1.027,
	"step": 23300
	},
	{
	"epoch": 2.7483704269187856,
	"grad_norm": 0.043591178953647614,
	"learning_rate": 9.016933207902164e-05,
	"loss": 1.0362,
	"step": 23400
	},
	{
	"epoch": 2.760115097774385,
	"grad_norm": 0.04423443600535393,
	"learning_rate": 8.969896519285043e-05,
	"loss": 1.0262,
	"step": 23500
	},
	{
	"epoch": 2.771859768629984,
	"grad_norm": 0.045264832675457,
	"learning_rate": 8.922859830667922e-05,
	"loss": 1.0227,
	"step": 23600
	},
	{
	"epoch": 2.7836044394855834,
	"grad_norm": 0.04213082045316696,
	"learning_rate": 8.8758231420508e-05,
	"loss": 1.0161,
	"step": 23700
	},
	{
	"epoch": 2.7953491103411827,
	"grad_norm": 0.04401146247982979,
	"learning_rate": 8.828786453433678e-05,
	"loss": 1.0269,
	"step": 23800
	},
	{
	"epoch": 2.807093781196782,
	"grad_norm": 0.043770622462034225,
	"learning_rate": 8.781749764816557e-05,
	"loss": 1.0429,
	"step": 23900
	},
	{
	"epoch": 2.8188384520523813,
	"grad_norm": 0.04466963931918144,
	"learning_rate": 8.734713076199436e-05,
	"loss": 1.0309,
	"step": 24000
	},
	{
	"epoch": 2.8305831229079805,
	"grad_norm": 0.042598120868206024,
	"learning_rate": 8.687676387582314e-05,
	"loss": 1.0321,
	"step": 24100
	},
	{
	"epoch": 2.84232779376358,
	"grad_norm": 0.04534047096967697,
	"learning_rate": 8.640639698965193e-05,
	"loss": 1.0335,
	"step": 24200
	},
	{
	"epoch": 2.854072464619179,
	"grad_norm": 0.044474124908447266,
	"learning_rate": 8.593603010348071e-05,
	"loss": 1.0303,
	"step": 24300
	},
	{
	"epoch": 2.8658171354747783,
	"grad_norm": 0.04398440942168236,
	"learning_rate": 8.546566321730952e-05,
	"loss": 1.0228,
	"step": 24400
	},
	{
	"epoch": 2.8775618063303776,
	"grad_norm": 0.043202903121709824,
	"learning_rate": 8.499529633113829e-05,
	"loss": 1.0299,
	"step": 24500
	},
	{
	"epoch": 2.889306477185977,
	"grad_norm": 0.04326211288571358,
	"learning_rate": 8.452492944496708e-05,
	"loss": 1.0324,
	"step": 24600
	},
	{
	"epoch": 2.901051148041576,
	"grad_norm": 0.044613469392061234,
	"learning_rate": 8.405456255879587e-05,
	"loss": 1.0269,
	"step": 24700
	},
	{
	"epoch": 2.9127958188971754,
	"grad_norm": 0.04421741142868996,
	"learning_rate": 8.358419567262466e-05,
	"loss": 1.0193,
	"step": 24800
	},
	{
	"epoch": 2.9245404897527747,
	"grad_norm": 0.044949114322662354,
	"learning_rate": 8.311382878645344e-05,
	"loss": 1.0296,
	"step": 24900
	},
	{
	"epoch": 2.936285160608374,
	"grad_norm": 0.044719964265823364,
	"learning_rate": 8.264346190028222e-05,
	"loss": 1.031,
	"step": 25000
	},
	{
	"epoch": 2.9480298314639732,
	"grad_norm": 0.04360034689307213,
	"learning_rate": 8.217309501411101e-05,
	"loss": 1.0163,
	"step": 25100
	},
	{
	"epoch": 2.9597745023195725,
	"grad_norm": 0.0441979356110096,
	"learning_rate": 8.17027281279398e-05,
	"loss": 1.0325,
	"step": 25200
	},
	{
	"epoch": 2.971519173175172,
	"grad_norm": 0.044677652418613434,
	"learning_rate": 8.123236124176858e-05,
	"loss": 1.0286,
	"step": 25300
	},
	{
	"epoch": 2.983263844030771,
	"grad_norm": 0.042885322123765945,
	"learning_rate": 8.076199435559737e-05,
	"loss": 1.0365,
	"step": 25400
	},
	{
	"epoch": 2.9950085148863703,
	"grad_norm": 0.042082566767930984,
	"learning_rate": 8.029162746942616e-05,
	"loss": 1.0351,
	"step": 25500
	},
	{
	"epoch": 3.0067531857419696,
	"grad_norm": 0.04490746557712555,
	"learning_rate": 7.982126058325495e-05,
	"loss": 1.0112,
	"step": 25600
	},
	{
	"epoch": 3.018497856597569,
	"grad_norm": 0.048318084329366684,
	"learning_rate": 7.935089369708372e-05,
	"loss": 1.0144,
	"step": 25700
	},
	{
	"epoch": 3.030242527453168,
	"grad_norm": 0.04372231662273407,
	"learning_rate": 7.888052681091251e-05,
	"loss": 1.0081,
	"step": 25800
	},
	{
	"epoch": 3.0419871983087674,
	"grad_norm": 0.04528006911277771,
	"learning_rate": 7.84101599247413e-05,
	"loss": 1.0215,
	"step": 25900
	},
	{
	"epoch": 3.0537318691643667,
	"grad_norm": 0.04795797914266586,
	"learning_rate": 7.793979303857009e-05,
	"loss": 1.0226,
	"step": 26000
	},
	{
	"epoch": 3.065476540019966,
	"grad_norm": 0.04441961273550987,
	"learning_rate": 7.746942615239888e-05,
	"loss": 1.0298,
	"step": 26100
	},
	{
	"epoch": 3.077221210875565,
	"grad_norm": 0.044861868023872375,
	"learning_rate": 7.699905926622765e-05,
	"loss": 1.0158,
	"step": 26200
	},
	{
	"epoch": 3.0889658817311645,
	"grad_norm": 0.04549916088581085,
	"learning_rate": 7.652869238005644e-05,
	"loss": 1.0107,
	"step": 26300
	},
	{
	"epoch": 3.1007105525867638,
	"grad_norm": 0.04485148563981056,
	"learning_rate": 7.605832549388523e-05,
	"loss": 1.0295,
	"step": 26400
	},
	{
	"epoch": 3.112455223442363,
	"grad_norm": 0.0463709756731987,
	"learning_rate": 7.558795860771402e-05,
	"loss": 1.0237,
	"step": 26500
	},
	{
	"epoch": 3.1241998942979623,
	"grad_norm": 0.04507851600646973,
	"learning_rate": 7.51175917215428e-05,
	"loss": 1.0257,
	"step": 26600
	},
	{
	"epoch": 3.1359445651535616,
	"grad_norm": 0.04443085938692093,
	"learning_rate": 7.46472248353716e-05,
	"loss": 1.0161,
	"step": 26700
	},
	{
	"epoch": 3.147689236009161,
	"grad_norm": 0.04493951424956322,
	"learning_rate": 7.417685794920039e-05,
	"loss": 1.0103,
	"step": 26800
	},
	{
	"epoch": 3.15943390686476,
	"grad_norm": 0.04466501250863075,
	"learning_rate": 7.370649106302918e-05,
	"loss": 1.0184,
	"step": 26900
	},
	{
	"epoch": 3.1711785777203594,
	"grad_norm": 0.04674587398767471,
	"learning_rate": 7.323612417685795e-05,
	"loss": 1.0234,
	"step": 27000
	},
	{
	"epoch": 3.1829232485759587,
	"grad_norm": 0.04568205028772354,
	"learning_rate": 7.276575729068674e-05,
	"loss": 1.0177,
	"step": 27100
	},
	{
	"epoch": 3.194667919431558,
	"grad_norm": 0.04736079275608063,
	"learning_rate": 7.229539040451553e-05,
	"loss": 1.0238,
	"step": 27200
	},
	{
	"epoch": 3.206412590287157,
	"grad_norm": 0.04510754346847534,
	"learning_rate": 7.182502351834432e-05,
	"loss": 1.0239,
	"step": 27300
	},
	{
	"epoch": 3.2181572611427565,
	"grad_norm": 0.04676396772265434,
	"learning_rate": 7.13546566321731e-05,
	"loss": 1.0226,
	"step": 27400
	},
	{
	"epoch": 3.2299019319983557,
	"grad_norm": 0.04639539122581482,
	"learning_rate": 7.088428974600188e-05,
	"loss": 1.0304,
	"step": 27500
	},
	{
	"epoch": 3.241646602853955,
	"grad_norm": 0.046673484146595,
	"learning_rate": 7.041392285983067e-05,
	"loss": 1.029,
	"step": 27600
	},
	{
	"epoch": 3.2533912737095543,
	"grad_norm": 0.04434806853532791,
	"learning_rate": 6.994355597365946e-05,
	"loss": 1.0231,
	"step": 27700
	},
	{
	"epoch": 3.2651359445651535,
	"grad_norm": 0.046948377043008804,
	"learning_rate": 6.947318908748824e-05,
	"loss": 1.0212,
	"step": 27800
	},
	{
	"epoch": 3.276880615420753,
	"grad_norm": 0.045691922307014465,
	"learning_rate": 6.900282220131703e-05,
	"loss": 1.0228,
	"step": 27900
	},
	{
	"epoch": 3.288625286276352,
	"grad_norm": 0.04534591734409332,
	"learning_rate": 6.853245531514582e-05,
	"loss": 1.0311,
	"step": 28000
	},
	{
	"epoch": 3.3003699571319514,
	"grad_norm": 0.045218247920274734,
	"learning_rate": 6.80620884289746e-05,
	"loss": 1.0145,
	"step": 28100
	},
	{
	"epoch": 3.3121146279875506,
	"grad_norm": 0.046320728957653046,
	"learning_rate": 6.75917215428034e-05,
	"loss": 1.0184,
	"step": 28200
	},
	{
	"epoch": 3.32385929884315,
	"grad_norm": 0.04595513269305229,
	"learning_rate": 6.712135465663217e-05,
	"loss": 1.0181,
	"step": 28300
	},
	{
	"epoch": 3.335603969698749,
	"grad_norm": 0.04726444184780121,
	"learning_rate": 6.665098777046096e-05,
	"loss": 1.019,
	"step": 28400
	},
	{
	"epoch": 3.3473486405543484,
	"grad_norm": 0.0476396419107914,
	"learning_rate": 6.618062088428975e-05,
	"loss": 1.0109,
	"step": 28500
	},
	{
	"epoch": 3.3590933114099477,
	"grad_norm": 0.04619845747947693,
	"learning_rate": 6.571025399811854e-05,
	"loss": 1.0322,
	"step": 28600
	},
	{
	"epoch": 3.370837982265547,
	"grad_norm": 0.04548267647624016,
	"learning_rate": 6.523988711194731e-05,
	"loss": 1.0088,
	"step": 28700
	},
	{
	"epoch": 3.3825826531211463,
	"grad_norm": 0.04472291097044945,
	"learning_rate": 6.47695202257761e-05,
	"loss": 1.0371,
	"step": 28800
	},
	{
	"epoch": 3.3943273239767455,
	"grad_norm": 0.04602396488189697,
	"learning_rate": 6.429915333960489e-05,
	"loss": 1.0246,
	"step": 28900
	},
	{
	"epoch": 3.406071994832345,
	"grad_norm": 0.0454532653093338,
	"learning_rate": 6.382878645343368e-05,
	"loss": 1.0254,
	"step": 29000
	},
	{
	"epoch": 3.417816665687944,
	"grad_norm": 0.04494043067097664,
	"learning_rate": 6.335841956726247e-05,
	"loss": 1.0193,
	"step": 29100
	},
	{
	"epoch": 3.4295613365435433,
	"grad_norm": 0.045226361602544785,
	"learning_rate": 6.288805268109126e-05,
	"loss": 1.0075,
	"step": 29200
	},
	{
	"epoch": 3.4413060073991426,
	"grad_norm": 0.04578743502497673,
	"learning_rate": 6.241768579492005e-05,
	"loss": 1.0175,
	"step": 29300
	},
	{
	"epoch": 3.453050678254742,
	"grad_norm": 0.04741055890917778,
	"learning_rate": 6.194731890874884e-05,
	"loss": 1.025,
	"step": 29400
	},
	{
	"epoch": 3.464795349110341,
	"grad_norm": 0.046121254563331604,
	"learning_rate": 6.147695202257761e-05,
	"loss": 1.0122,
	"step": 29500
	},
	{
	"epoch": 3.4765400199659404,
	"grad_norm": 0.04572110250592232,
	"learning_rate": 6.10065851364064e-05,
	"loss": 1.0226,
	"step": 29600
	},
	{
	"epoch": 3.4882846908215397,
	"grad_norm": 0.04542776942253113,
	"learning_rate": 6.053621825023519e-05,
	"loss": 1.0139,
	"step": 29700
	},
	{
	"epoch": 3.500029361677139,
	"grad_norm": 0.04612453654408455,
	"learning_rate": 6.006585136406397e-05,
	"loss": 1.0137,
	"step": 29800
	},
	{
	"epoch": 3.5117740325327382,
	"grad_norm": 0.04599248990416527,
	"learning_rate": 5.959548447789276e-05,
	"loss": 1.0254,
	"step": 29900
	},
	{
	"epoch": 3.5235187033883375,
	"grad_norm": 0.047213006764650345,
	"learning_rate": 5.9125117591721544e-05,
	"loss": 1.0202,
	"step": 30000
	},
	{
	"epoch": 3.5352633742439368,
	"grad_norm": 0.04772693291306496,
	"learning_rate": 5.865475070555033e-05,
	"loss": 1.0158,
	"step": 30100
	},
	{
	"epoch": 3.547008045099536,
	"grad_norm": 0.04780668392777443,
	"learning_rate": 5.8184383819379116e-05,
	"loss": 1.0122,
	"step": 30200
	},
	{
	"epoch": 3.5587527159551353,
	"grad_norm": 0.04593056067824364,
	"learning_rate": 5.7714016933207905e-05,
	"loss": 1.0196,
	"step": 30300
	},
	{
	"epoch": 3.5704973868107346,
	"grad_norm": 0.046468161046504974,
	"learning_rate": 5.724365004703669e-05,
	"loss": 1.016,
	"step": 30400
	},
	{
	"epoch": 3.582242057666334,
	"grad_norm": 0.046613674610853195,
	"learning_rate": 5.6773283160865476e-05,
	"loss": 1.028,
	"step": 30500
	},
	{
	"epoch": 3.593986728521933,
	"grad_norm": 0.0453767292201519,
	"learning_rate": 5.6302916274694265e-05,
	"loss": 1.0179,
	"step": 30600
	},
	{
	"epoch": 3.6057313993775324,
	"grad_norm": 0.0448760949075222,
	"learning_rate": 5.583254938852305e-05,
	"loss": 1.0107,
	"step": 30700
	},
	{
	"epoch": 3.6174760702331317,
	"grad_norm": 0.04624709486961365,
	"learning_rate": 5.5362182502351837e-05,
	"loss": 1.0191,
	"step": 30800
	},
	{
	"epoch": 3.629220741088731,
	"grad_norm": 0.04776296019554138,
	"learning_rate": 5.489181561618062e-05,
	"loss": 1.0145,
	"step": 30900
	},
	{
	"epoch": 3.64096541194433,
	"grad_norm": 0.044639695435762405,
	"learning_rate": 5.442144873000941e-05,
	"loss": 1.0286,
	"step": 31000
	},
	{
	"epoch": 3.6527100827999295,
	"grad_norm": 0.04474237933754921,
	"learning_rate": 5.395108184383819e-05,
	"loss": 1.0202,
	"step": 31100
	},
	{
	"epoch": 3.6644547536555288,
	"grad_norm": 0.045259665697813034,
	"learning_rate": 5.348071495766698e-05,
	"loss": 1.0034,
	"step": 31200
	},
	{
	"epoch": 3.676199424511128,
	"grad_norm": 0.04631993547081947,
	"learning_rate": 5.3010348071495775e-05,
	"loss": 1.026,
	"step": 31300
	},
	{
	"epoch": 3.6879440953667273,
	"grad_norm": 0.04611456021666527,
	"learning_rate": 5.253998118532456e-05,
	"loss": 1.0084,
	"step": 31400
	},
	{
	"epoch": 3.6996887662223266,
	"grad_norm": 0.04521900787949562,
	"learning_rate": 5.206961429915335e-05,
	"loss": 1.019,
	"step": 31500
	},
	{
	"epoch": 3.711433437077926,
	"grad_norm": 0.04682457074522972,
	"learning_rate": 5.1599247412982136e-05,
	"loss": 1.029,
	"step": 31600
	},
	{
	"epoch": 3.723178107933525,
	"grad_norm": 0.04528072476387024,
	"learning_rate": 5.112888052681092e-05,
	"loss": 1.0381,
	"step": 31700
	},
	{
	"epoch": 3.7349227787891244,
	"grad_norm": 0.044861361384391785,
	"learning_rate": 5.065851364063971e-05,
	"loss": 1.0215,
	"step": 31800
	},
	{
	"epoch": 3.7466674496447236,
	"grad_norm": 0.04482056945562363,
	"learning_rate": 5.018814675446849e-05,
	"loss": 1.0113,
	"step": 31900
	},
	{
	"epoch": 3.758412120500323,
	"grad_norm": 0.046249981969594955,
	"learning_rate": 4.971777986829728e-05,
	"loss": 1.0162,
	"step": 32000
	},
	{
	"epoch": 3.7702155147102,
	"grad_norm": 0.04573667049407959,
	"learning_rate": 4.924741298212606e-05,
	"loss": 1.0207,
	"step": 32100
	},
	{
	"epoch": 3.7819601855657994,
	"grad_norm": 0.045440200716257095,
	"learning_rate": 4.877704609595485e-05,
	"loss": 1.0204,
	"step": 32200
	},
	{
	"epoch": 3.7937048564213987,
	"grad_norm": 0.043568406254053116,
	"learning_rate": 4.830667920978363e-05,
	"loss": 1.0218,
	"step": 32300
	},
	{
	"epoch": 3.805449527276998,
	"grad_norm": 0.04695621505379677,
	"learning_rate": 4.783631232361242e-05,
	"loss": 1.016,
	"step": 32400
	},
	{
	"epoch": 3.817194198132597,
	"grad_norm": 0.04511117562651634,
	"learning_rate": 4.7365945437441204e-05,
	"loss": 1.018,
	"step": 32500
	},
	{
	"epoch": 3.8289388689881965,
	"grad_norm": 0.0471058115363121,
	"learning_rate": 4.689557855126999e-05,
	"loss": 1.0265,
	"step": 32600
	},
	{
	"epoch": 3.8406835398437957,
	"grad_norm": 0.04763401299715042,
	"learning_rate": 4.6425211665098775e-05,
	"loss": 1.0207,
	"step": 32700
	},
	{
	"epoch": 3.852428210699395,
	"grad_norm": 0.04863814637064934,
	"learning_rate": 4.5954844778927564e-05,
	"loss": 1.0176,
	"step": 32800
	},
	{
	"epoch": 3.8641728815549943,
	"grad_norm": 0.04665295407176018,
	"learning_rate": 4.5484477892756347e-05,
	"loss": 1.0143,
	"step": 32900
	},
	{
	"epoch": 3.8759175524105935,
	"grad_norm": 0.04519110545516014,
	"learning_rate": 4.501411100658514e-05,
	"loss": 1.0206,
	"step": 33000
	},
	{
	"epoch": 3.887662223266193,
	"grad_norm": 0.04543546214699745,
	"learning_rate": 4.4543744120413925e-05,
	"loss": 1.0204,
	"step": 33100
	},
	{
	"epoch": 3.899406894121792,
	"grad_norm": 0.04484422877430916,
	"learning_rate": 4.4073377234242714e-05,
	"loss": 1.0166,
	"step": 33200
	},
	{
	"epoch": 3.9111515649773914,
	"grad_norm": 0.04460673779249191,
	"learning_rate": 4.3603010348071496e-05,
	"loss": 1.0116,
	"step": 33300
	},
	{
	"epoch": 3.9228962358329906,
	"grad_norm": 0.04780727997422218,
	"learning_rate": 4.3132643461900285e-05,
	"loss": 1.0127,
	"step": 33400
	},
	{
	"epoch": 3.93464090668859,
	"grad_norm": 0.045138854533433914,
	"learning_rate": 4.2662276575729074e-05,
	"loss": 1.0173,
	"step": 33500
	},
	{
	"epoch": 3.946385577544189,
	"grad_norm": 0.046860042959451675,
	"learning_rate": 4.219190968955786e-05,
	"loss": 1.0164,
	"step": 33600
	},
	{
	"epoch": 3.9581302483997884,
	"grad_norm": 0.04478363320231438,
	"learning_rate": 4.1721542803386646e-05,
	"loss": 1.0339,
	"step": 33700
	},
	{
	"epoch": 3.9698749192553877,
	"grad_norm": 0.04575762897729874,
	"learning_rate": 4.125117591721543e-05,
	"loss": 1.01,
	"step": 33800
	},
	{
	"epoch": 3.981619590110987,
	"grad_norm": 0.04523037001490593,
	"learning_rate": 4.078080903104422e-05,
	"loss": 1.0145,
	"step": 33900
	},
	{
	"epoch": 3.9933642609665863,
	"grad_norm": 0.04593048244714737,
	"learning_rate": 4.0310442144873e-05,
	"loss": 1.0131,
	"step": 34000
	}
	],
	"logging_steps": 100,
	"max_steps": 42570,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.302351602279881e+20,
	"train_batch_size": 9,
	"trial_name": null,
	"trial_params": null
	}