Mayank1996

End of training

777a3d1 verified about 1 month ago

32.7 kB

	{
	"best_metric": 0.9375,
	"best_model_checkpoint": "videomae-base-finetuned-ucf101-subset_fhbh/checkpoint-638",
	"epoch": 24.0020350877193,
	"eval_steps": 500,
	"global_step": 1450,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0003508771929824561,
	"grad_norm": 5.952354907989502,
	"learning_rate": 1.7543859649122808e-07,
	"loss": 0.745,
	"step": 10
	},
	{
	"epoch": 0.0007017543859649122,
	"grad_norm": 4.616081714630127,
	"learning_rate": 3.5087719298245616e-07,
	"loss": 0.6751,
	"step": 20
	},
	{
	"epoch": 0.0010526315789473684,
	"grad_norm": 14.299074172973633,
	"learning_rate": 5.263157894736843e-07,
	"loss": 0.7311,
	"step": 30
	},
	{
	"epoch": 0.0014035087719298245,
	"grad_norm": 9.126326560974121,
	"learning_rate": 7.017543859649123e-07,
	"loss": 0.6957,
	"step": 40
	},
	{
	"epoch": 0.0017543859649122807,
	"grad_norm": 6.692790985107422,
	"learning_rate": 8.771929824561404e-07,
	"loss": 0.7533,
	"step": 50
	},
	{
	"epoch": 0.0020350877192982456,
	"eval_accuracy": 0.5416666666666666,
	"eval_loss": 0.677791178226471,
	"eval_runtime": 78.366,
	"eval_samples_per_second": 0.613,
	"eval_steps_per_second": 0.153,
	"step": 58
	},
	{
	"epoch": 1.0000701754385966,
	"grad_norm": 6.502946853637695,
	"learning_rate": 1.0526315789473685e-06,
	"loss": 0.7694,
	"step": 60
	},
	{
	"epoch": 1.0004210526315789,
	"grad_norm": 11.516799926757812,
	"learning_rate": 1.2280701754385965e-06,
	"loss": 0.7382,
	"step": 70
	},
	{
	"epoch": 1.0007719298245614,
	"grad_norm": 7.619742393493652,
	"learning_rate": 1.4035087719298246e-06,
	"loss": 0.6912,
	"step": 80
	},
	{
	"epoch": 1.001122807017544,
	"grad_norm": 5.542720794677734,
	"learning_rate": 1.5789473684210528e-06,
	"loss": 0.7054,
	"step": 90
	},
	{
	"epoch": 1.0014736842105263,
	"grad_norm": 7.172524929046631,
	"learning_rate": 1.7543859649122807e-06,
	"loss": 0.7533,
	"step": 100
	},
	{
	"epoch": 1.0018245614035088,
	"grad_norm": 6.668615341186523,
	"learning_rate": 1.929824561403509e-06,
	"loss": 0.7229,
	"step": 110
	},
	{
	"epoch": 1.0020350877192983,
	"eval_accuracy": 0.5416666666666666,
	"eval_loss": 0.663836658000946,
	"eval_runtime": 77.9477,
	"eval_samples_per_second": 0.616,
	"eval_steps_per_second": 0.154,
	"step": 116
	},
	{
	"epoch": 2.000140350877193,
	"grad_norm": 4.909543991088867,
	"learning_rate": 2.105263157894737e-06,
	"loss": 0.6922,
	"step": 120
	},
	{
	"epoch": 2.0004912280701754,
	"grad_norm": 9.0471830368042,
	"learning_rate": 2.2807017543859652e-06,
	"loss": 0.6736,
	"step": 130
	},
	{
	"epoch": 2.0008421052631578,
	"grad_norm": 6.69089412689209,
	"learning_rate": 2.456140350877193e-06,
	"loss": 0.6865,
	"step": 140
	},
	{
	"epoch": 2.0011929824561405,
	"grad_norm": 9.476597785949707,
	"learning_rate": 2.631578947368421e-06,
	"loss": 0.6844,
	"step": 150
	},
	{
	"epoch": 2.001543859649123,
	"grad_norm": 7.067219257354736,
	"learning_rate": 2.8070175438596493e-06,
	"loss": 0.6768,
	"step": 160
	},
	{
	"epoch": 2.001894736842105,
	"grad_norm": 5.748457908630371,
	"learning_rate": 2.9824561403508774e-06,
	"loss": 0.6827,
	"step": 170
	},
	{
	"epoch": 2.0020350877192983,
	"eval_accuracy": 0.6041666666666666,
	"eval_loss": 0.6515334248542786,
	"eval_runtime": 77.9754,
	"eval_samples_per_second": 0.616,
	"eval_steps_per_second": 0.154,
	"step": 174
	},
	{
	"epoch": 3.0002105263157897,
	"grad_norm": 8.415090560913086,
	"learning_rate": 3.1578947368421056e-06,
	"loss": 0.7035,
	"step": 180
	},
	{
	"epoch": 3.000561403508772,
	"grad_norm": 7.755239963531494,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.712,
	"step": 190
	},
	{
	"epoch": 3.0009122807017543,
	"grad_norm": 11.437898635864258,
	"learning_rate": 3.5087719298245615e-06,
	"loss": 0.6409,
	"step": 200
	},
	{
	"epoch": 3.0012631578947366,
	"grad_norm": 6.896209239959717,
	"learning_rate": 3.6842105263157892e-06,
	"loss": 0.6862,
	"step": 210
	},
	{
	"epoch": 3.0016140350877194,
	"grad_norm": 5.764392852783203,
	"learning_rate": 3.859649122807018e-06,
	"loss": 0.6459,
	"step": 220
	},
	{
	"epoch": 3.0019649122807017,
	"grad_norm": 8.806387901306152,
	"learning_rate": 4.035087719298246e-06,
	"loss": 0.7322,
	"step": 230
	},
	{
	"epoch": 3.0020350877192983,
	"eval_accuracy": 0.75,
	"eval_loss": 0.6666872501373291,
	"eval_runtime": 78.325,
	"eval_samples_per_second": 0.613,
	"eval_steps_per_second": 0.153,
	"step": 232
	},
	{
	"epoch": 4.000280701754386,
	"grad_norm": 11.507173538208008,
	"learning_rate": 4.210526315789474e-06,
	"loss": 0.6937,
	"step": 240
	},
	{
	"epoch": 4.0006315789473685,
	"grad_norm": 7.351099491119385,
	"learning_rate": 4.3859649122807014e-06,
	"loss": 0.6292,
	"step": 250
	},
	{
	"epoch": 4.000982456140351,
	"grad_norm": 4.936241149902344,
	"learning_rate": 4.5614035087719304e-06,
	"loss": 0.6041,
	"step": 260
	},
	{
	"epoch": 4.001333333333333,
	"grad_norm": 10.265213012695312,
	"learning_rate": 4.736842105263159e-06,
	"loss": 0.6616,
	"step": 270
	},
	{
	"epoch": 4.0016842105263155,
	"grad_norm": 14.022355079650879,
	"learning_rate": 4.912280701754386e-06,
	"loss": 0.6489,
	"step": 280
	},
	{
	"epoch": 4.002035087719298,
	"grad_norm": 14.538658142089844,
	"learning_rate": 5.087719298245614e-06,
	"loss": 0.6552,
	"step": 290
	},
	{
	"epoch": 4.002035087719298,
	"eval_accuracy": 0.75,
	"eval_loss": 0.6378026604652405,
	"eval_runtime": 78.4115,
	"eval_samples_per_second": 0.612,
	"eval_steps_per_second": 0.153,
	"step": 290
	},
	{
	"epoch": 5.000350877192982,
	"grad_norm": 6.908311367034912,
	"learning_rate": 5.263157894736842e-06,
	"loss": 0.6183,
	"step": 300
	},
	{
	"epoch": 5.000701754385965,
	"grad_norm": 6.211957931518555,
	"learning_rate": 5.43859649122807e-06,
	"loss": 0.5759,
	"step": 310
	},
	{
	"epoch": 5.001052631578947,
	"grad_norm": 4.951029300689697,
	"learning_rate": 5.6140350877192985e-06,
	"loss": 0.6144,
	"step": 320
	},
	{
	"epoch": 5.00140350877193,
	"grad_norm": 8.593265533447266,
	"learning_rate": 5.789473684210527e-06,
	"loss": 0.5619,
	"step": 330
	},
	{
	"epoch": 5.0017543859649125,
	"grad_norm": 19.80694007873535,
	"learning_rate": 5.964912280701755e-06,
	"loss": 0.4691,
	"step": 340
	},
	{
	"epoch": 5.002035087719298,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5537357926368713,
	"eval_runtime": 80.2663,
	"eval_samples_per_second": 0.598,
	"eval_steps_per_second": 0.15,
	"step": 348
	},
	{
	"epoch": 6.000070175438596,
	"grad_norm": 19.27092170715332,
	"learning_rate": 6.140350877192982e-06,
	"loss": 0.5575,
	"step": 350
	},
	{
	"epoch": 6.000421052631579,
	"grad_norm": 14.520448684692383,
	"learning_rate": 6.315789473684211e-06,
	"loss": 0.5209,
	"step": 360
	},
	{
	"epoch": 6.000771929824562,
	"grad_norm": 13.577587127685547,
	"learning_rate": 6.4912280701754385e-06,
	"loss": 0.4873,
	"step": 370
	},
	{
	"epoch": 6.001122807017544,
	"grad_norm": 2.4672834873199463,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.3996,
	"step": 380
	},
	{
	"epoch": 6.001473684210526,
	"grad_norm": 29.06943702697754,
	"learning_rate": 6.842105263157896e-06,
	"loss": 0.58,
	"step": 390
	},
	{
	"epoch": 6.001824561403509,
	"grad_norm": 10.214743614196777,
	"learning_rate": 7.017543859649123e-06,
	"loss": 0.6845,
	"step": 400
	},
	{
	"epoch": 6.002035087719298,
	"eval_accuracy": 0.7083333333333334,
	"eval_loss": 0.6998243927955627,
	"eval_runtime": 81.5316,
	"eval_samples_per_second": 0.589,
	"eval_steps_per_second": 0.147,
	"step": 406
	},
	{
	"epoch": 7.000140350877193,
	"grad_norm": 72.12657928466797,
	"learning_rate": 7.192982456140351e-06,
	"loss": 0.6733,
	"step": 410
	},
	{
	"epoch": 7.000491228070175,
	"grad_norm": 5.446975231170654,
	"learning_rate": 7.3684210526315784e-06,
	"loss": 0.2873,
	"step": 420
	},
	{
	"epoch": 7.000842105263158,
	"grad_norm": 9.24228286743164,
	"learning_rate": 7.5438596491228074e-06,
	"loss": 0.4578,
	"step": 430
	},
	{
	"epoch": 7.00119298245614,
	"grad_norm": 1.2333711385726929,
	"learning_rate": 7.719298245614036e-06,
	"loss": 0.3516,
	"step": 440
	},
	{
	"epoch": 7.001543859649122,
	"grad_norm": 6.666906833648682,
	"learning_rate": 7.894736842105263e-06,
	"loss": 0.5434,
	"step": 450
	},
	{
	"epoch": 7.001894736842106,
	"grad_norm": 18.284526824951172,
	"learning_rate": 8.070175438596492e-06,
	"loss": 0.6754,
	"step": 460
	},
	{
	"epoch": 7.002035087719298,
	"eval_accuracy": 0.875,
	"eval_loss": 0.36466991901397705,
	"eval_runtime": 80.8792,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.148,
	"step": 464
	},
	{
	"epoch": 8.00021052631579,
	"grad_norm": 8.833359718322754,
	"learning_rate": 8.245614035087721e-06,
	"loss": 0.4877,
	"step": 470
	},
	{
	"epoch": 8.000561403508772,
	"grad_norm": 10.950183868408203,
	"learning_rate": 8.421052631578948e-06,
	"loss": 0.3044,
	"step": 480
	},
	{
	"epoch": 8.000912280701755,
	"grad_norm": 2.037674903869629,
	"learning_rate": 8.596491228070176e-06,
	"loss": 0.2232,
	"step": 490
	},
	{
	"epoch": 8.001263157894737,
	"grad_norm": 78.8741455078125,
	"learning_rate": 8.771929824561403e-06,
	"loss": 0.1771,
	"step": 500
	},
	{
	"epoch": 8.00161403508772,
	"grad_norm": 90.6770248413086,
	"learning_rate": 8.947368421052632e-06,
	"loss": 1.1209,
	"step": 510
	},
	{
	"epoch": 8.001964912280702,
	"grad_norm": 39.13031768798828,
	"learning_rate": 9.122807017543861e-06,
	"loss": 0.8425,
	"step": 520
	},
	{
	"epoch": 8.002035087719298,
	"eval_accuracy": 0.5416666666666666,
	"eval_loss": 0.6199241876602173,
	"eval_runtime": 81.9922,
	"eval_samples_per_second": 0.585,
	"eval_steps_per_second": 0.146,
	"step": 522
	},
	{
	"epoch": 9.000280701754386,
	"grad_norm": 17.226152420043945,
	"learning_rate": 9.298245614035088e-06,
	"loss": 0.7695,
	"step": 530
	},
	{
	"epoch": 9.000631578947369,
	"grad_norm": 12.632246971130371,
	"learning_rate": 9.473684210526317e-06,
	"loss": 0.5423,
	"step": 540
	},
	{
	"epoch": 9.00098245614035,
	"grad_norm": 7.4788336753845215,
	"learning_rate": 9.649122807017545e-06,
	"loss": 0.6734,
	"step": 550
	},
	{
	"epoch": 9.001333333333333,
	"grad_norm": 32.823486328125,
	"learning_rate": 9.824561403508772e-06,
	"loss": 0.4033,
	"step": 560
	},
	{
	"epoch": 9.001684210526316,
	"grad_norm": 5.6088480949401855,
	"learning_rate": 1e-05,
	"loss": 0.2009,
	"step": 570
	},
	{
	"epoch": 9.002035087719298,
	"grad_norm": 0.8267044425010681,
	"learning_rate": 1.0175438596491228e-05,
	"loss": 0.2276,
	"step": 580
	},
	{
	"epoch": 9.002035087719298,
	"eval_accuracy": 0.7291666666666666,
	"eval_loss": 0.9983854293823242,
	"eval_runtime": 81.8828,
	"eval_samples_per_second": 0.586,
	"eval_steps_per_second": 0.147,
	"step": 580
	},
	{
	"epoch": 10.000350877192982,
	"grad_norm": 0.6918083429336548,
	"learning_rate": 1.0350877192982457e-05,
	"loss": 0.4027,
	"step": 590
	},
	{
	"epoch": 10.000701754385965,
	"grad_norm": 12.070817947387695,
	"learning_rate": 1.0526315789473684e-05,
	"loss": 0.1868,
	"step": 600
	},
	{
	"epoch": 10.001052631578947,
	"grad_norm": 11.899476051330566,
	"learning_rate": 1.0701754385964913e-05,
	"loss": 0.8328,
	"step": 610
	},
	{
	"epoch": 10.00140350877193,
	"grad_norm": 18.76070213317871,
	"learning_rate": 1.087719298245614e-05,
	"loss": 0.4753,
	"step": 620
	},
	{
	"epoch": 10.001754385964912,
	"grad_norm": 15.813506126403809,
	"learning_rate": 1.1052631578947368e-05,
	"loss": 0.3953,
	"step": 630
	},
	{
	"epoch": 10.002035087719298,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.3595670759677887,
	"eval_runtime": 84.5422,
	"eval_samples_per_second": 0.568,
	"eval_steps_per_second": 0.142,
	"step": 638
	},
	{
	"epoch": 11.000070175438596,
	"grad_norm": 2.381981372833252,
	"learning_rate": 1.1228070175438597e-05,
	"loss": 0.3252,
	"step": 640
	},
	{
	"epoch": 11.000421052631578,
	"grad_norm": 8.495650291442871,
	"learning_rate": 1.1403508771929824e-05,
	"loss": 0.2205,
	"step": 650
	},
	{
	"epoch": 11.00077192982456,
	"grad_norm": 0.5458263754844666,
	"learning_rate": 1.1578947368421053e-05,
	"loss": 0.4623,
	"step": 660
	},
	{
	"epoch": 11.001122807017543,
	"grad_norm": 35.78744888305664,
	"learning_rate": 1.1754385964912282e-05,
	"loss": 0.4652,
	"step": 670
	},
	{
	"epoch": 11.001473684210527,
	"grad_norm": 69.58731842041016,
	"learning_rate": 1.192982456140351e-05,
	"loss": 0.2175,
	"step": 680
	},
	{
	"epoch": 11.00182456140351,
	"grad_norm": 80.09464263916016,
	"learning_rate": 1.2105263157894737e-05,
	"loss": 0.3255,
	"step": 690
	},
	{
	"epoch": 11.002035087719298,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.39784160256385803,
	"eval_runtime": 82.0895,
	"eval_samples_per_second": 0.585,
	"eval_steps_per_second": 0.146,
	"step": 696
	},
	{
	"epoch": 12.000140350877192,
	"grad_norm": 0.08766458928585052,
	"learning_rate": 1.2280701754385964e-05,
	"loss": 0.0288,
	"step": 700
	},
	{
	"epoch": 12.000491228070176,
	"grad_norm": 10.239900588989258,
	"learning_rate": 1.2456140350877193e-05,
	"loss": 0.2648,
	"step": 710
	},
	{
	"epoch": 12.000842105263159,
	"grad_norm": 5.331236839294434,
	"learning_rate": 1.2631578947368422e-05,
	"loss": 0.3223,
	"step": 720
	},
	{
	"epoch": 12.001192982456141,
	"grad_norm": 0.24060657620429993,
	"learning_rate": 1.2807017543859651e-05,
	"loss": 0.2808,
	"step": 730
	},
	{
	"epoch": 12.001543859649123,
	"grad_norm": 0.31760913133621216,
	"learning_rate": 1.2982456140350877e-05,
	"loss": 0.2207,
	"step": 740
	},
	{
	"epoch": 12.001894736842106,
	"grad_norm": 70.13704681396484,
	"learning_rate": 1.3157894736842106e-05,
	"loss": 0.2524,
	"step": 750
	},
	{
	"epoch": 12.002035087719298,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.3351368010044098,
	"eval_runtime": 80.8837,
	"eval_samples_per_second": 0.593,
	"eval_steps_per_second": 0.148,
	"step": 754
	},
	{
	"epoch": 13.00021052631579,
	"grad_norm": 0.32135623693466187,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.2225,
	"step": 760
	},
	{
	"epoch": 13.000561403508772,
	"grad_norm": 21.094276428222656,
	"learning_rate": 1.3508771929824562e-05,
	"loss": 0.5212,
	"step": 770
	},
	{
	"epoch": 13.000912280701755,
	"grad_norm": 0.08428701013326645,
	"learning_rate": 1.3684210526315791e-05,
	"loss": 0.4246,
	"step": 780
	},
	{
	"epoch": 13.001263157894737,
	"grad_norm": 0.18355534970760345,
	"learning_rate": 1.3859649122807017e-05,
	"loss": 0.0793,
	"step": 790
	},
	{
	"epoch": 13.00161403508772,
	"grad_norm": 8.33340072631836,
	"learning_rate": 1.4035087719298246e-05,
	"loss": 0.3384,
	"step": 800
	},
	{
	"epoch": 13.001964912280702,
	"grad_norm": 0.7141004204750061,
	"learning_rate": 1.4210526315789475e-05,
	"loss": 0.5978,
	"step": 810
	},
	{
	"epoch": 13.002035087719298,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.23082482814788818,
	"eval_runtime": 81.747,
	"eval_samples_per_second": 0.587,
	"eval_steps_per_second": 0.147,
	"step": 812
	},
	{
	"epoch": 14.000280701754386,
	"grad_norm": 0.15585492551326752,
	"learning_rate": 1.4385964912280702e-05,
	"loss": 0.122,
	"step": 820
	},
	{
	"epoch": 14.000631578947369,
	"grad_norm": 49.04802322387695,
	"learning_rate": 1.4561403508771931e-05,
	"loss": 0.522,
	"step": 830
	},
	{
	"epoch": 14.00098245614035,
	"grad_norm": 0.3657858967781067,
	"learning_rate": 1.4736842105263157e-05,
	"loss": 0.0476,
	"step": 840
	},
	{
	"epoch": 14.001333333333333,
	"grad_norm": 0.05123307183384895,
	"learning_rate": 1.4912280701754386e-05,
	"loss": 0.2268,
	"step": 850
	},
	{
	"epoch": 14.001684210526316,
	"grad_norm": 0.08785073459148407,
	"learning_rate": 1.5087719298245615e-05,
	"loss": 0.4392,
	"step": 860
	},
	{
	"epoch": 14.002035087719298,
	"grad_norm": 0.33805736899375916,
	"learning_rate": 1.5263157894736842e-05,
	"loss": 0.1542,
	"step": 870
	},
	{
	"epoch": 14.002035087719298,
	"eval_accuracy": 0.8958333333333334,
	"eval_loss": 0.5762323141098022,
	"eval_runtime": 82.832,
	"eval_samples_per_second": 0.579,
	"eval_steps_per_second": 0.145,
	"step": 870
	},
	{
	"epoch": 15.000350877192982,
	"grad_norm": 0.06892251968383789,
	"learning_rate": 1.543859649122807e-05,
	"loss": 0.1377,
	"step": 880
	},
	{
	"epoch": 15.000701754385965,
	"grad_norm": 0.07005161046981812,
	"learning_rate": 1.56140350877193e-05,
	"loss": 0.0053,
	"step": 890
	},
	{
	"epoch": 15.001052631578947,
	"grad_norm": 0.03198734670877457,
	"learning_rate": 1.5789473684210526e-05,
	"loss": 0.5775,
	"step": 900
	},
	{
	"epoch": 15.00140350877193,
	"grad_norm": 171.48255920410156,
	"learning_rate": 1.5964912280701755e-05,
	"loss": 0.3737,
	"step": 910
	},
	{
	"epoch": 15.001754385964912,
	"grad_norm": 0.4068077504634857,
	"learning_rate": 1.6140350877192984e-05,
	"loss": 0.3073,
	"step": 920
	},
	{
	"epoch": 15.002035087719298,
	"eval_accuracy": 0.8958333333333334,
	"eval_loss": 0.33416375517845154,
	"eval_runtime": 83.3591,
	"eval_samples_per_second": 0.576,
	"eval_steps_per_second": 0.144,
	"step": 928
	},
	{
	"epoch": 16.000070175438598,
	"grad_norm": 0.3335668444633484,
	"learning_rate": 1.6315789473684213e-05,
	"loss": 0.7197,
	"step": 930
	},
	{
	"epoch": 16.00042105263158,
	"grad_norm": 1.4757983684539795,
	"learning_rate": 1.6491228070175442e-05,
	"loss": 0.2539,
	"step": 940
	},
	{
	"epoch": 16.000771929824563,
	"grad_norm": 0.17356331646442413,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.0063,
	"step": 950
	},
	{
	"epoch": 16.001122807017545,
	"grad_norm": 0.1452503204345703,
	"learning_rate": 1.6842105263157896e-05,
	"loss": 0.5967,
	"step": 960
	},
	{
	"epoch": 16.001473684210527,
	"grad_norm": 0.1030503362417221,
	"learning_rate": 1.7017543859649125e-05,
	"loss": 0.6578,
	"step": 970
	},
	{
	"epoch": 16.00182456140351,
	"grad_norm": 12.400784492492676,
	"learning_rate": 1.719298245614035e-05,
	"loss": 0.5518,
	"step": 980
	},
	{
	"epoch": 16.0020350877193,
	"eval_accuracy": 0.8541666666666666,
	"eval_loss": 0.4223368465900421,
	"eval_runtime": 83.4362,
	"eval_samples_per_second": 0.575,
	"eval_steps_per_second": 0.144,
	"step": 986
	},
	{
	"epoch": 17.000140350877192,
	"grad_norm": 0.28909754753112793,
	"learning_rate": 1.736842105263158e-05,
	"loss": 0.2008,
	"step": 990
	},
	{
	"epoch": 17.000491228070175,
	"grad_norm": 0.21579360961914062,
	"learning_rate": 1.7543859649122806e-05,
	"loss": 0.3298,
	"step": 1000
	},
	{
	"epoch": 17.000842105263157,
	"grad_norm": 0.10615105926990509,
	"learning_rate": 1.7719298245614035e-05,
	"loss": 0.004,
	"step": 1010
	},
	{
	"epoch": 17.00119298245614,
	"grad_norm": 0.046201951801776886,
	"learning_rate": 1.7894736842105264e-05,
	"loss": 0.3526,
	"step": 1020
	},
	{
	"epoch": 17.00154385964912,
	"grad_norm": 0.06010481342673302,
	"learning_rate": 1.8070175438596493e-05,
	"loss": 0.3399,
	"step": 1030
	},
	{
	"epoch": 17.001894736842104,
	"grad_norm": 8.584966659545898,
	"learning_rate": 1.8245614035087722e-05,
	"loss": 0.6157,
	"step": 1040
	},
	{
	"epoch": 17.0020350877193,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.17038817703723907,
	"eval_runtime": 83.7401,
	"eval_samples_per_second": 0.573,
	"eval_steps_per_second": 0.143,
	"step": 1044
	},
	{
	"epoch": 18.00021052631579,
	"grad_norm": 0.774956464767456,
	"learning_rate": 1.8421052631578947e-05,
	"loss": 0.1596,
	"step": 1050
	},
	{
	"epoch": 18.000561403508772,
	"grad_norm": 0.36749064922332764,
	"learning_rate": 1.8596491228070176e-05,
	"loss": 0.2122,
	"step": 1060
	},
	{
	"epoch": 18.000912280701755,
	"grad_norm": 0.06645552814006805,
	"learning_rate": 1.8771929824561405e-05,
	"loss": 0.2568,
	"step": 1070
	},
	{
	"epoch": 18.001263157894737,
	"grad_norm": 0.021599041298031807,
	"learning_rate": 1.8947368421052634e-05,
	"loss": 0.283,
	"step": 1080
	},
	{
	"epoch": 18.00161403508772,
	"grad_norm": 113.25637817382812,
	"learning_rate": 1.9122807017543863e-05,
	"loss": 0.3591,
	"step": 1090
	},
	{
	"epoch": 18.0019649122807,
	"grad_norm": 0.21973834931850433,
	"learning_rate": 1.929824561403509e-05,
	"loss": 0.2544,
	"step": 1100
	},
	{
	"epoch": 18.0020350877193,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.35440635681152344,
	"eval_runtime": 82.2034,
	"eval_samples_per_second": 0.584,
	"eval_steps_per_second": 0.146,
	"step": 1102
	},
	{
	"epoch": 19.000280701754384,
	"grad_norm": 0.06097158417105675,
	"learning_rate": 1.9473684210526315e-05,
	"loss": 0.3663,
	"step": 1110
	},
	{
	"epoch": 19.000631578947367,
	"grad_norm": 25.72997283935547,
	"learning_rate": 1.9649122807017544e-05,
	"loss": 0.8104,
	"step": 1120
	},
	{
	"epoch": 19.000982456140353,
	"grad_norm": 0.5115303993225098,
	"learning_rate": 1.9824561403508773e-05,
	"loss": 0.2474,
	"step": 1130
	},
	{
	"epoch": 19.001333333333335,
	"grad_norm": 0.27492067217826843,
	"learning_rate": 2e-05,
	"loss": 0.3686,
	"step": 1140
	},
	{
	"epoch": 19.001684210526317,
	"grad_norm": 22.944690704345703,
	"learning_rate": 2.0175438596491227e-05,
	"loss": 0.2315,
	"step": 1150
	},
	{
	"epoch": 19.0020350877193,
	"grad_norm": 0.11991500854492188,
	"learning_rate": 2.0350877192982456e-05,
	"loss": 0.4036,
	"step": 1160
	},
	{
	"epoch": 19.0020350877193,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.25051262974739075,
	"eval_runtime": 80.7899,
	"eval_samples_per_second": 0.594,
	"eval_steps_per_second": 0.149,
	"step": 1160
	},
	{
	"epoch": 20.000350877192982,
	"grad_norm": 0.44547587633132935,
	"learning_rate": 2.0526315789473685e-05,
	"loss": 0.1078,
	"step": 1170
	},
	{
	"epoch": 20.000701754385965,
	"grad_norm": 76.07775115966797,
	"learning_rate": 2.0701754385964914e-05,
	"loss": 0.4915,
	"step": 1180
	},
	{
	"epoch": 20.001052631578947,
	"grad_norm": 0.349282830953598,
	"learning_rate": 2.0877192982456143e-05,
	"loss": 0.2929,
	"step": 1190
	},
	{
	"epoch": 20.00140350877193,
	"grad_norm": 8.304322242736816,
	"learning_rate": 2.105263157894737e-05,
	"loss": 0.219,
	"step": 1200
	},
	{
	"epoch": 20.00175438596491,
	"grad_norm": 0.08941491693258286,
	"learning_rate": 2.1228070175438598e-05,
	"loss": 0.2382,
	"step": 1210
	},
	{
	"epoch": 20.0020350877193,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.3155660927295685,
	"eval_runtime": 82.6296,
	"eval_samples_per_second": 0.581,
	"eval_steps_per_second": 0.145,
	"step": 1218
	},
	{
	"epoch": 21.000070175438598,
	"grad_norm": 6.294134140014648,
	"learning_rate": 2.1403508771929827e-05,
	"loss": 0.2611,
	"step": 1220
	},
	{
	"epoch": 21.00042105263158,
	"grad_norm": 0.11261521279811859,
	"learning_rate": 2.1578947368421053e-05,
	"loss": 0.1969,
	"step": 1230
	},
	{
	"epoch": 21.000771929824563,
	"grad_norm": 0.2796896696090698,
	"learning_rate": 2.175438596491228e-05,
	"loss": 0.2955,
	"step": 1240
	},
	{
	"epoch": 21.001122807017545,
	"grad_norm": 0.07930008322000504,
	"learning_rate": 2.1929824561403507e-05,
	"loss": 0.013,
	"step": 1250
	},
	{
	"epoch": 21.001473684210527,
	"grad_norm": 5.909428119659424,
	"learning_rate": 2.2105263157894736e-05,
	"loss": 0.3568,
	"step": 1260
	},
	{
	"epoch": 21.00182456140351,
	"grad_norm": 168.33380126953125,
	"learning_rate": 2.2280701754385965e-05,
	"loss": 0.6751,
	"step": 1270
	},
	{
	"epoch": 21.0020350877193,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.259630411863327,
	"eval_runtime": 82.1271,
	"eval_samples_per_second": 0.584,
	"eval_steps_per_second": 0.146,
	"step": 1276
	},
	{
	"epoch": 22.000140350877192,
	"grad_norm": 0.22503353655338287,
	"learning_rate": 2.2456140350877194e-05,
	"loss": 0.3249,
	"step": 1280
	},
	{
	"epoch": 22.000491228070175,
	"grad_norm": 0.2562604248523712,
	"learning_rate": 2.2631578947368423e-05,
	"loss": 0.2267,
	"step": 1290
	},
	{
	"epoch": 22.000842105263157,
	"grad_norm": 0.6118970513343811,
	"learning_rate": 2.280701754385965e-05,
	"loss": 0.7495,
	"step": 1300
	},
	{
	"epoch": 22.00119298245614,
	"grad_norm": 0.2397994101047516,
	"learning_rate": 2.2982456140350878e-05,
	"loss": 0.0388,
	"step": 1310
	},
	{
	"epoch": 22.00154385964912,
	"grad_norm": 0.10384727269411087,
	"learning_rate": 2.3157894736842107e-05,
	"loss": 0.3285,
	"step": 1320
	},
	{
	"epoch": 22.001894736842104,
	"grad_norm": 0.0419117733836174,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.2848,
	"step": 1330
	},
	{
	"epoch": 22.0020350877193,
	"eval_accuracy": 0.8125,
	"eval_loss": 0.822706937789917,
	"eval_runtime": 83.5818,
	"eval_samples_per_second": 0.574,
	"eval_steps_per_second": 0.144,
	"step": 1334
	},
	{
	"epoch": 23.00021052631579,
	"grad_norm": 121.5499038696289,
	"learning_rate": 2.3508771929824565e-05,
	"loss": 0.5364,
	"step": 1340
	},
	{
	"epoch": 23.000561403508772,
	"grad_norm": 0.10266309231519699,
	"learning_rate": 2.368421052631579e-05,
	"loss": 0.8097,
	"step": 1350
	},
	{
	"epoch": 23.000912280701755,
	"grad_norm": 9.736127853393555,
	"learning_rate": 2.385964912280702e-05,
	"loss": 0.6052,
	"step": 1360
	},
	{
	"epoch": 23.001263157894737,
	"grad_norm": 4.3637471199035645,
	"learning_rate": 2.4035087719298245e-05,
	"loss": 0.3504,
	"step": 1370
	},
	{
	"epoch": 23.00161403508772,
	"grad_norm": 0.19882246851921082,
	"learning_rate": 2.4210526315789474e-05,
	"loss": 0.3784,
	"step": 1380
	},
	{
	"epoch": 23.0019649122807,
	"grad_norm": 0.27082210779190063,
	"learning_rate": 2.4385964912280703e-05,
	"loss": 0.1225,
	"step": 1390
	},
	{
	"epoch": 23.0020350877193,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.2921377420425415,
	"eval_runtime": 82.9556,
	"eval_samples_per_second": 0.579,
	"eval_steps_per_second": 0.145,
	"step": 1392
	},
	{
	"epoch": 24.000280701754384,
	"grad_norm": 0.2171986997127533,
	"learning_rate": 2.456140350877193e-05,
	"loss": 0.1094,
	"step": 1400
	},
	{
	"epoch": 24.000631578947367,
	"grad_norm": 0.21692253649234772,
	"learning_rate": 2.4736842105263158e-05,
	"loss": 0.3332,
	"step": 1410
	},
	{
	"epoch": 24.000982456140353,
	"grad_norm": 0.3834693729877472,
	"learning_rate": 2.4912280701754387e-05,
	"loss": 0.2847,
	"step": 1420
	},
	{
	"epoch": 24.001333333333335,
	"grad_norm": 0.08816500753164291,
	"learning_rate": 2.5087719298245616e-05,
	"loss": 0.1147,
	"step": 1430
	},
	{
	"epoch": 24.001684210526317,
	"grad_norm": 0.21103212237358093,
	"learning_rate": 2.5263157894736845e-05,
	"loss": 0.4283,
	"step": 1440
	},
	{
	"epoch": 24.0020350877193,
	"grad_norm": 0.27631059288978577,
	"learning_rate": 2.5438596491228074e-05,
	"loss": 0.616,
	"step": 1450
	},
	{
	"epoch": 24.0020350877193,
	"eval_accuracy": 0.9375,
	"eval_loss": 0.2928893566131592,
	"eval_runtime": 81.6066,
	"eval_samples_per_second": 0.588,
	"eval_steps_per_second": 0.147,
	"step": 1450
	},
	{
	"epoch": 24.0020350877193,
	"eval_accuracy": 0.9411764705882353,
	"eval_loss": 0.2618250548839569,
	"eval_runtime": 88.9045,
	"eval_samples_per_second": 0.574,
	"eval_steps_per_second": 0.146,
	"step": 1450
	},
	{
	"epoch": 24.0020350877193,
	"eval_accuracy": 0.9411764705882353,
	"eval_loss": 0.2618250548839569,
	"eval_runtime": 89.4759,
	"eval_samples_per_second": 0.57,
	"eval_steps_per_second": 0.145,
	"step": 1450
	}
	],
	"logging_steps": 10,
	"max_steps": 28500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.164871389462528e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}