Upload folder using huggingface_hub

3ea3464 verified about 1 month ago

19 kB

	{
	"best_metric": 2.225323438644409,
	"best_model_checkpoint": "autotrain-x906d-mvlef/checkpoint-2460",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 2460,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03048780487804878,
	"grad_norm": 135.88742065429688,
	"learning_rate": 1.016260162601626e-05,
	"loss": 30.3396,
	"step": 25
	},
	{
	"epoch": 0.06097560975609756,
	"grad_norm": 93.93063354492188,
	"learning_rate": 2.032520325203252e-05,
	"loss": 24.435,
	"step": 50
	},
	{
	"epoch": 0.09146341463414634,
	"grad_norm": 104.44407653808594,
	"learning_rate": 3.048780487804878e-05,
	"loss": 14.4152,
	"step": 75
	},
	{
	"epoch": 0.12195121951219512,
	"grad_norm": 15.064167976379395,
	"learning_rate": 4.065040650406504e-05,
	"loss": 8.6678,
	"step": 100
	},
	{
	"epoch": 0.1524390243902439,
	"grad_norm": 8.59422492980957,
	"learning_rate": 5.081300813008131e-05,
	"loss": 6.2719,
	"step": 125
	},
	{
	"epoch": 0.18292682926829268,
	"grad_norm": 6.402270793914795,
	"learning_rate": 6.097560975609756e-05,
	"loss": 5.391,
	"step": 150
	},
	{
	"epoch": 0.21341463414634146,
	"grad_norm": 7.405852794647217,
	"learning_rate": 7.113821138211383e-05,
	"loss": 4.9132,
	"step": 175
	},
	{
	"epoch": 0.24390243902439024,
	"grad_norm": 6.045359134674072,
	"learning_rate": 8.130081300813008e-05,
	"loss": 4.4981,
	"step": 200
	},
	{
	"epoch": 0.27439024390243905,
	"grad_norm": 4.673328876495361,
	"learning_rate": 9.146341463414635e-05,
	"loss": 4.267,
	"step": 225
	},
	{
	"epoch": 0.3048780487804878,
	"grad_norm": 5.1413774490356445,
	"learning_rate": 9.981933152664861e-05,
	"loss": 4.0875,
	"step": 250
	},
	{
	"epoch": 0.3353658536585366,
	"grad_norm": 4.102631092071533,
	"learning_rate": 9.869015356820235e-05,
	"loss": 3.9819,
	"step": 275
	},
	{
	"epoch": 0.36585365853658536,
	"grad_norm": 3.946659803390503,
	"learning_rate": 9.75609756097561e-05,
	"loss": 4.0086,
	"step": 300
	},
	{
	"epoch": 0.39634146341463417,
	"grad_norm": 5.377846717834473,
	"learning_rate": 9.643179765130986e-05,
	"loss": 3.7839,
	"step": 325
	},
	{
	"epoch": 0.4268292682926829,
	"grad_norm": 3.9124577045440674,
	"learning_rate": 9.530261969286361e-05,
	"loss": 3.6614,
	"step": 350
	},
	{
	"epoch": 0.4573170731707317,
	"grad_norm": 3.9939420223236084,
	"learning_rate": 9.417344173441735e-05,
	"loss": 3.7353,
	"step": 375
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 4.000846862792969,
	"learning_rate": 9.30442637759711e-05,
	"loss": 3.6826,
	"step": 400
	},
	{
	"epoch": 0.5182926829268293,
	"grad_norm": 4.859684944152832,
	"learning_rate": 9.191508581752484e-05,
	"loss": 3.5672,
	"step": 425
	},
	{
	"epoch": 0.5487804878048781,
	"grad_norm": 3.8994104862213135,
	"learning_rate": 9.07859078590786e-05,
	"loss": 3.4385,
	"step": 450
	},
	{
	"epoch": 0.5792682926829268,
	"grad_norm": 5.588184356689453,
	"learning_rate": 8.965672990063234e-05,
	"loss": 3.4864,
	"step": 475
	},
	{
	"epoch": 0.6097560975609756,
	"grad_norm": 4.631311416625977,
	"learning_rate": 8.852755194218609e-05,
	"loss": 3.4949,
	"step": 500
	},
	{
	"epoch": 0.6402439024390244,
	"grad_norm": 4.662644386291504,
	"learning_rate": 8.739837398373984e-05,
	"loss": 3.4993,
	"step": 525
	},
	{
	"epoch": 0.6707317073170732,
	"grad_norm": 4.6329874992370605,
	"learning_rate": 8.626919602529358e-05,
	"loss": 3.4153,
	"step": 550
	},
	{
	"epoch": 0.7012195121951219,
	"grad_norm": 5.302168846130371,
	"learning_rate": 8.514001806684734e-05,
	"loss": 3.4356,
	"step": 575
	},
	{
	"epoch": 0.7317073170731707,
	"grad_norm": 4.273636341094971,
	"learning_rate": 8.401084010840109e-05,
	"loss": 3.479,
	"step": 600
	},
	{
	"epoch": 0.7621951219512195,
	"grad_norm": 3.5382657051086426,
	"learning_rate": 8.288166214995484e-05,
	"loss": 3.4343,
	"step": 625
	},
	{
	"epoch": 0.7926829268292683,
	"grad_norm": 3.272901773452759,
	"learning_rate": 8.175248419150858e-05,
	"loss": 3.3167,
	"step": 650
	},
	{
	"epoch": 0.823170731707317,
	"grad_norm": 3.156431198120117,
	"learning_rate": 8.062330623306234e-05,
	"loss": 3.2939,
	"step": 675
	},
	{
	"epoch": 0.8536585365853658,
	"grad_norm": 4.288792610168457,
	"learning_rate": 7.949412827461609e-05,
	"loss": 3.2499,
	"step": 700
	},
	{
	"epoch": 0.8841463414634146,
	"grad_norm": 3.8503577709198,
	"learning_rate": 7.836495031616983e-05,
	"loss": 3.3326,
	"step": 725
	},
	{
	"epoch": 0.9146341463414634,
	"grad_norm": 3.282243251800537,
	"learning_rate": 7.723577235772358e-05,
	"loss": 3.3124,
	"step": 750
	},
	{
	"epoch": 0.9451219512195121,
	"grad_norm": 3.938842296600342,
	"learning_rate": 7.610659439927734e-05,
	"loss": 3.2749,
	"step": 775
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 4.175856590270996,
	"learning_rate": 7.497741644083109e-05,
	"loss": 3.2124,
	"step": 800
	},
	{
	"epoch": 1.0,
	"eval_gen_len": 19.0,
	"eval_loss": 2.420257329940796,
	"eval_rouge1": 25.1635,
	"eval_rouge2": 23.2382,
	"eval_rougeL": 24.6426,
	"eval_rougeLsum": 25.0666,
	"eval_runtime": 54.8826,
	"eval_samples_per_second": 7.47,
	"eval_steps_per_second": 1.877,
	"step": 820
	},
	{
	"epoch": 1.0060975609756098,
	"grad_norm": 3.5674939155578613,
	"learning_rate": 7.384823848238483e-05,
	"loss": 3.2418,
	"step": 825
	},
	{
	"epoch": 1.0365853658536586,
	"grad_norm": 4.070037841796875,
	"learning_rate": 7.271906052393858e-05,
	"loss": 3.2318,
	"step": 850
	},
	{
	"epoch": 1.0670731707317074,
	"grad_norm": 4.293022632598877,
	"learning_rate": 7.158988256549232e-05,
	"loss": 3.1837,
	"step": 875
	},
	{
	"epoch": 1.0975609756097562,
	"grad_norm": 3.463479995727539,
	"learning_rate": 7.046070460704606e-05,
	"loss": 3.228,
	"step": 900
	},
	{
	"epoch": 1.1280487804878048,
	"grad_norm": 7.417110443115234,
	"learning_rate": 6.933152664859982e-05,
	"loss": 3.1462,
	"step": 925
	},
	{
	"epoch": 1.1585365853658536,
	"grad_norm": 5.171451091766357,
	"learning_rate": 6.820234869015357e-05,
	"loss": 3.0788,
	"step": 950
	},
	{
	"epoch": 1.1890243902439024,
	"grad_norm": 3.9318175315856934,
	"learning_rate": 6.707317073170732e-05,
	"loss": 3.207,
	"step": 975
	},
	{
	"epoch": 1.2195121951219512,
	"grad_norm": 5.252470016479492,
	"learning_rate": 6.594399277326106e-05,
	"loss": 3.0539,
	"step": 1000
	},
	{
	"epoch": 1.25,
	"grad_norm": 3.6664767265319824,
	"learning_rate": 6.481481481481482e-05,
	"loss": 3.1699,
	"step": 1025
	},
	{
	"epoch": 1.2804878048780488,
	"grad_norm": 2.665335178375244,
	"learning_rate": 6.368563685636857e-05,
	"loss": 3.0474,
	"step": 1050
	},
	{
	"epoch": 1.3109756097560976,
	"grad_norm": 3.2224156856536865,
	"learning_rate": 6.255645889792232e-05,
	"loss": 3.1378,
	"step": 1075
	},
	{
	"epoch": 1.3414634146341464,
	"grad_norm": 3.4332261085510254,
	"learning_rate": 6.142728093947606e-05,
	"loss": 3.1683,
	"step": 1100
	},
	{
	"epoch": 1.3719512195121952,
	"grad_norm": 4.648336887359619,
	"learning_rate": 6.0298102981029816e-05,
	"loss": 3.1224,
	"step": 1125
	},
	{
	"epoch": 1.4024390243902438,
	"grad_norm": 3.557978391647339,
	"learning_rate": 5.916892502258356e-05,
	"loss": 3.1106,
	"step": 1150
	},
	{
	"epoch": 1.4329268292682926,
	"grad_norm": 3.8348541259765625,
	"learning_rate": 5.803974706413731e-05,
	"loss": 3.1733,
	"step": 1175
	},
	{
	"epoch": 1.4634146341463414,
	"grad_norm": 4.132476329803467,
	"learning_rate": 5.6910569105691056e-05,
	"loss": 3.0671,
	"step": 1200
	},
	{
	"epoch": 1.4939024390243902,
	"grad_norm": 3.8571975231170654,
	"learning_rate": 5.578139114724481e-05,
	"loss": 3.1065,
	"step": 1225
	},
	{
	"epoch": 1.524390243902439,
	"grad_norm": 3.408566951751709,
	"learning_rate": 5.465221318879856e-05,
	"loss": 3.1613,
	"step": 1250
	},
	{
	"epoch": 1.5548780487804879,
	"grad_norm": 3.7324483394622803,
	"learning_rate": 5.35230352303523e-05,
	"loss": 2.9743,
	"step": 1275
	},
	{
	"epoch": 1.5853658536585367,
	"grad_norm": 3.1098973751068115,
	"learning_rate": 5.2393857271906056e-05,
	"loss": 3.1296,
	"step": 1300
	},
	{
	"epoch": 1.6158536585365852,
	"grad_norm": 5.050591468811035,
	"learning_rate": 5.126467931345981e-05,
	"loss": 2.9844,
	"step": 1325
	},
	{
	"epoch": 1.6463414634146343,
	"grad_norm": 3.30641508102417,
	"learning_rate": 5.013550135501355e-05,
	"loss": 3.0301,
	"step": 1350
	},
	{
	"epoch": 1.6768292682926829,
	"grad_norm": 4.2086358070373535,
	"learning_rate": 4.90063233965673e-05,
	"loss": 3.0881,
	"step": 1375
	},
	{
	"epoch": 1.7073170731707317,
	"grad_norm": 4.049353122711182,
	"learning_rate": 4.787714543812105e-05,
	"loss": 3.0382,
	"step": 1400
	},
	{
	"epoch": 1.7378048780487805,
	"grad_norm": 3.4281935691833496,
	"learning_rate": 4.6747967479674795e-05,
	"loss": 3.0105,
	"step": 1425
	},
	{
	"epoch": 1.7682926829268293,
	"grad_norm": 3.7564141750335693,
	"learning_rate": 4.561878952122855e-05,
	"loss": 3.0319,
	"step": 1450
	},
	{
	"epoch": 1.798780487804878,
	"grad_norm": 4.241165637969971,
	"learning_rate": 4.4489611562782295e-05,
	"loss": 3.0275,
	"step": 1475
	},
	{
	"epoch": 1.8292682926829267,
	"grad_norm": 3.024312734603882,
	"learning_rate": 4.336043360433605e-05,
	"loss": 3.004,
	"step": 1500
	},
	{
	"epoch": 1.8597560975609757,
	"grad_norm": 3.0586462020874023,
	"learning_rate": 4.2231255645889795e-05,
	"loss": 2.8741,
	"step": 1525
	},
	{
	"epoch": 1.8902439024390243,
	"grad_norm": 3.032233953475952,
	"learning_rate": 4.110207768744354e-05,
	"loss": 3.0305,
	"step": 1550
	},
	{
	"epoch": 1.9207317073170733,
	"grad_norm": 3.4631378650665283,
	"learning_rate": 3.9972899728997295e-05,
	"loss": 2.9829,
	"step": 1575
	},
	{
	"epoch": 1.951219512195122,
	"grad_norm": 3.462908983230591,
	"learning_rate": 3.884372177055104e-05,
	"loss": 2.9073,
	"step": 1600
	},
	{
	"epoch": 1.9817073170731707,
	"grad_norm": 3.844022512435913,
	"learning_rate": 3.771454381210479e-05,
	"loss": 2.943,
	"step": 1625
	},
	{
	"epoch": 2.0,
	"eval_gen_len": 17.9268,
	"eval_loss": 2.2693333625793457,
	"eval_rouge1": 24.8213,
	"eval_rouge2": 22.8064,
	"eval_rougeL": 24.126,
	"eval_rougeLsum": 24.7561,
	"eval_runtime": 54.0619,
	"eval_samples_per_second": 7.584,
	"eval_steps_per_second": 1.905,
	"step": 1640
	},
	{
	"epoch": 2.0121951219512195,
	"grad_norm": 3.2110657691955566,
	"learning_rate": 3.6585365853658535e-05,
	"loss": 2.9109,
	"step": 1650
	},
	{
	"epoch": 2.042682926829268,
	"grad_norm": 5.20732307434082,
	"learning_rate": 3.545618789521229e-05,
	"loss": 2.907,
	"step": 1675
	},
	{
	"epoch": 2.073170731707317,
	"grad_norm": 3.6366891860961914,
	"learning_rate": 3.4327009936766035e-05,
	"loss": 2.7614,
	"step": 1700
	},
	{
	"epoch": 2.1036585365853657,
	"grad_norm": 3.012146472930908,
	"learning_rate": 3.319783197831978e-05,
	"loss": 2.8866,
	"step": 1725
	},
	{
	"epoch": 2.1341463414634148,
	"grad_norm": 5.310023307800293,
	"learning_rate": 3.2068654019873535e-05,
	"loss": 2.9738,
	"step": 1750
	},
	{
	"epoch": 2.1646341463414633,
	"grad_norm": 3.908693313598633,
	"learning_rate": 3.093947606142728e-05,
	"loss": 2.989,
	"step": 1775
	},
	{
	"epoch": 2.1951219512195124,
	"grad_norm": 3.6812493801116943,
	"learning_rate": 2.9810298102981032e-05,
	"loss": 2.9844,
	"step": 1800
	},
	{
	"epoch": 2.225609756097561,
	"grad_norm": 3.1762988567352295,
	"learning_rate": 2.868112014453478e-05,
	"loss": 2.9518,
	"step": 1825
	},
	{
	"epoch": 2.2560975609756095,
	"grad_norm": 3.526785373687744,
	"learning_rate": 2.7551942186088532e-05,
	"loss": 3.0312,
	"step": 1850
	},
	{
	"epoch": 2.2865853658536586,
	"grad_norm": 3.4673197269439697,
	"learning_rate": 2.642276422764228e-05,
	"loss": 2.9413,
	"step": 1875
	},
	{
	"epoch": 2.317073170731707,
	"grad_norm": 3.7603211402893066,
	"learning_rate": 2.529358626919603e-05,
	"loss": 2.8524,
	"step": 1900
	},
	{
	"epoch": 2.347560975609756,
	"grad_norm": 3.039940357208252,
	"learning_rate": 2.4164408310749775e-05,
	"loss": 2.9403,
	"step": 1925
	},
	{
	"epoch": 2.3780487804878048,
	"grad_norm": 4.610980987548828,
	"learning_rate": 2.3035230352303525e-05,
	"loss": 2.892,
	"step": 1950
	},
	{
	"epoch": 2.408536585365854,
	"grad_norm": 3.3454501628875732,
	"learning_rate": 2.1906052393857275e-05,
	"loss": 2.905,
	"step": 1975
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 2.9850571155548096,
	"learning_rate": 2.077687443541102e-05,
	"loss": 2.9325,
	"step": 2000
	},
	{
	"epoch": 2.4695121951219514,
	"grad_norm": 4.394461631774902,
	"learning_rate": 1.9647696476964768e-05,
	"loss": 2.9112,
	"step": 2025
	},
	{
	"epoch": 2.5,
	"grad_norm": 4.401582717895508,
	"learning_rate": 1.8518518518518518e-05,
	"loss": 2.8956,
	"step": 2050
	},
	{
	"epoch": 2.5304878048780486,
	"grad_norm": 3.5677547454833984,
	"learning_rate": 1.7389340560072268e-05,
	"loss": 2.9706,
	"step": 2075
	},
	{
	"epoch": 2.5609756097560976,
	"grad_norm": 3.1517820358276367,
	"learning_rate": 1.6260162601626018e-05,
	"loss": 2.896,
	"step": 2100
	},
	{
	"epoch": 2.591463414634146,
	"grad_norm": 5.237459182739258,
	"learning_rate": 1.5130984643179767e-05,
	"loss": 2.9137,
	"step": 2125
	},
	{
	"epoch": 2.6219512195121952,
	"grad_norm": 3.8501670360565186,
	"learning_rate": 1.4001806684733515e-05,
	"loss": 2.9322,
	"step": 2150
	},
	{
	"epoch": 2.652439024390244,
	"grad_norm": 6.259314060211182,
	"learning_rate": 1.2872628726287265e-05,
	"loss": 2.8803,
	"step": 2175
	},
	{
	"epoch": 2.682926829268293,
	"grad_norm": 3.369128942489624,
	"learning_rate": 1.1743450767841012e-05,
	"loss": 2.9141,
	"step": 2200
	},
	{
	"epoch": 2.7134146341463414,
	"grad_norm": 3.4941694736480713,
	"learning_rate": 1.0614272809394762e-05,
	"loss": 2.9613,
	"step": 2225
	},
	{
	"epoch": 2.7439024390243905,
	"grad_norm": 4.332786560058594,
	"learning_rate": 9.48509485094851e-06,
	"loss": 2.9518,
	"step": 2250
	},
	{
	"epoch": 2.774390243902439,
	"grad_norm": 3.981058359146118,
	"learning_rate": 8.35591689250226e-06,
	"loss": 2.8848,
	"step": 2275
	},
	{
	"epoch": 2.8048780487804876,
	"grad_norm": 3.464871644973755,
	"learning_rate": 7.226738934056007e-06,
	"loss": 2.9663,
	"step": 2300
	},
	{
	"epoch": 2.8353658536585367,
	"grad_norm": 3.324209690093994,
	"learning_rate": 6.0975609756097564e-06,
	"loss": 2.8891,
	"step": 2325
	},
	{
	"epoch": 2.8658536585365852,
	"grad_norm": 3.896878480911255,
	"learning_rate": 4.968383017163506e-06,
	"loss": 2.952,
	"step": 2350
	},
	{
	"epoch": 2.8963414634146343,
	"grad_norm": 3.644209384918213,
	"learning_rate": 3.839205058717254e-06,
	"loss": 2.8857,
	"step": 2375
	},
	{
	"epoch": 2.926829268292683,
	"grad_norm": 3.039807081222534,
	"learning_rate": 2.710027100271003e-06,
	"loss": 2.8308,
	"step": 2400
	},
	{
	"epoch": 2.9573170731707314,
	"grad_norm": 3.2632334232330322,
	"learning_rate": 1.5808491418247518e-06,
	"loss": 2.9224,
	"step": 2425
	},
	{
	"epoch": 2.9878048780487805,
	"grad_norm": 4.359528064727783,
	"learning_rate": 4.5167118337850045e-07,
	"loss": 2.901,
	"step": 2450
	},
	{
	"epoch": 3.0,
	"eval_gen_len": 18.8,
	"eval_loss": 2.225323438644409,
	"eval_rouge1": 26.024,
	"eval_rouge2": 24.1663,
	"eval_rougeL": 25.432,
	"eval_rougeLsum": 25.9929,
	"eval_runtime": 55.2175,
	"eval_samples_per_second": 7.425,
	"eval_steps_per_second": 1.865,
	"step": 2460
	}
	],
	"logging_steps": 25,
	"max_steps": 2460,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.01
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 27756032163840.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}