{ "best_metric": null, "best_model_checkpoint": null, "epoch": 25.0, "global_step": 94375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 5e-09, "loss": 10.521, "step": 1 }, { "epoch": 0.13, "learning_rate": 2.5e-06, "loss": 9.5586, "step": 500 }, { "epoch": 0.26, "learning_rate": 5e-06, "loss": 7.9673, "step": 1000 }, { "epoch": 0.4, "learning_rate": 7.5e-06, "loss": 6.9267, "step": 1500 }, { "epoch": 0.53, "learning_rate": 1e-05, "loss": 6.6261, "step": 2000 }, { "epoch": 0.66, "learning_rate": 1.25e-05, "loss": 6.4609, "step": 2500 }, { "epoch": 0.79, "learning_rate": 1.5e-05, "loss": 6.348, "step": 3000 }, { "epoch": 0.93, "learning_rate": 1.75e-05, "loss": 6.2548, "step": 3500 }, { "epoch": 1.06, "learning_rate": 2e-05, "loss": 6.184, "step": 4000 }, { "epoch": 1.19, "learning_rate": 2.25e-05, "loss": 6.1235, "step": 4500 }, { "epoch": 1.32, "learning_rate": 2.5e-05, "loss": 6.0675, "step": 5000 }, { "epoch": 1.46, "learning_rate": 2.7500000000000004e-05, "loss": 6.0239, "step": 5500 }, { "epoch": 1.59, "learning_rate": 3e-05, "loss": 5.9851, "step": 6000 }, { "epoch": 1.72, "learning_rate": 3.2500000000000004e-05, "loss": 5.946, "step": 6500 }, { "epoch": 1.85, "learning_rate": 3.5e-05, "loss": 5.9148, "step": 7000 }, { "epoch": 1.99, "learning_rate": 3.7500000000000003e-05, "loss": 5.8876, "step": 7500 }, { "epoch": 2.12, "learning_rate": 3.9995000000000006e-05, "loss": 5.8606, "step": 8000 }, { "epoch": 2.25, "learning_rate": 4.2495e-05, "loss": 5.8384, "step": 8500 }, { "epoch": 2.38, "learning_rate": 4.4995000000000005e-05, "loss": 5.8196, "step": 9000 }, { "epoch": 2.52, "learning_rate": 4.7495e-05, "loss": 5.7986, "step": 9500 }, { "epoch": 2.65, "learning_rate": 4.9995000000000005e-05, "loss": 5.784, "step": 10000 }, { "epoch": 2.78, "learning_rate": 4.998336666666667e-05, "loss": 5.7669, "step": 10500 }, { "epoch": 2.91, "learning_rate": 4.99667e-05, "loss": 5.7503, "step": 11000 }, { "epoch": 3.05, "learning_rate": 4.995006666666667e-05, "loss": 5.7376, "step": 11500 }, { "epoch": 3.18, "learning_rate": 4.9933400000000005e-05, "loss": 5.7264, "step": 12000 }, { "epoch": 3.31, "learning_rate": 4.9916733333333336e-05, "loss": 5.713, "step": 12500 }, { "epoch": 3.44, "learning_rate": 4.990006666666667e-05, "loss": 5.7022, "step": 13000 }, { "epoch": 3.58, "learning_rate": 4.9883400000000004e-05, "loss": 5.6969, "step": 13500 }, { "epoch": 3.71, "learning_rate": 4.9866733333333335e-05, "loss": 5.6838, "step": 14000 }, { "epoch": 3.84, "learning_rate": 4.9850066666666666e-05, "loss": 5.6765, "step": 14500 }, { "epoch": 3.97, "learning_rate": 4.98334e-05, "loss": 5.6707, "step": 15000 }, { "epoch": 4.11, "learning_rate": 4.981676666666667e-05, "loss": 5.6607, "step": 15500 }, { "epoch": 4.24, "learning_rate": 4.9800100000000005e-05, "loss": 5.6535, "step": 16000 }, { "epoch": 4.37, "learning_rate": 4.9783433333333335e-05, "loss": 5.6476, "step": 16500 }, { "epoch": 4.5, "learning_rate": 4.976676666666667e-05, "loss": 5.6409, "step": 17000 }, { "epoch": 4.64, "learning_rate": 4.97501e-05, "loss": 5.6365, "step": 17500 }, { "epoch": 4.77, "learning_rate": 4.973346666666667e-05, "loss": 5.6273, "step": 18000 }, { "epoch": 4.9, "learning_rate": 4.9716800000000005e-05, "loss": 5.6247, "step": 18500 }, { "epoch": 5.03, "learning_rate": 4.970016666666667e-05, "loss": 5.6217, "step": 19000 }, { "epoch": 5.17, "learning_rate": 4.9683500000000006e-05, "loss": 5.6159, "step": 19500 }, { "epoch": 5.3, "learning_rate": 4.966683333333334e-05, "loss": 5.609, "step": 20000 }, { "epoch": 5.43, "learning_rate": 4.965016666666667e-05, "loss": 5.6066, "step": 20500 }, { "epoch": 5.56, "learning_rate": 4.9633500000000005e-05, "loss": 5.6022, "step": 21000 }, { "epoch": 5.7, "learning_rate": 4.9616833333333336e-05, "loss": 5.596, "step": 21500 }, { "epoch": 5.83, "learning_rate": 4.9600166666666666e-05, "loss": 5.5916, "step": 22000 }, { "epoch": 5.96, "learning_rate": 4.9583500000000004e-05, "loss": 5.5868, "step": 22500 }, { "epoch": 6.09, "learning_rate": 4.956686666666667e-05, "loss": 5.5814, "step": 23000 }, { "epoch": 6.23, "learning_rate": 4.9550200000000005e-05, "loss": 5.5785, "step": 23500 }, { "epoch": 6.36, "learning_rate": 4.9533533333333336e-05, "loss": 5.5769, "step": 24000 }, { "epoch": 6.49, "learning_rate": 4.951686666666667e-05, "loss": 5.5725, "step": 24500 }, { "epoch": 6.62, "learning_rate": 4.9500200000000004e-05, "loss": 5.572, "step": 25000 }, { "epoch": 6.75, "learning_rate": 4.9483533333333335e-05, "loss": 5.5661, "step": 25500 }, { "epoch": 6.89, "learning_rate": 4.9466866666666666e-05, "loss": 5.5659, "step": 26000 }, { "epoch": 7.02, "learning_rate": 4.9450233333333336e-05, "loss": 5.5605, "step": 26500 }, { "epoch": 7.15, "learning_rate": 4.943356666666667e-05, "loss": 5.5572, "step": 27000 }, { "epoch": 7.28, "learning_rate": 4.9416900000000005e-05, "loss": 5.5525, "step": 27500 }, { "epoch": 7.42, "learning_rate": 4.9400233333333335e-05, "loss": 5.5517, "step": 28000 }, { "epoch": 7.55, "learning_rate": 4.938356666666667e-05, "loss": 5.5477, "step": 28500 }, { "epoch": 7.68, "learning_rate": 4.93669e-05, "loss": 5.5431, "step": 29000 }, { "epoch": 7.81, "learning_rate": 4.9350233333333334e-05, "loss": 5.5412, "step": 29500 }, { "epoch": 7.95, "learning_rate": 4.933356666666667e-05, "loss": 5.538, "step": 30000 }, { "epoch": 8.08, "learning_rate": 4.93169e-05, "loss": 5.5347, "step": 30500 }, { "epoch": 8.21, "learning_rate": 4.930023333333333e-05, "loss": 5.5302, "step": 31000 }, { "epoch": 8.34, "learning_rate": 4.928356666666667e-05, "loss": 5.5291, "step": 31500 }, { "epoch": 8.48, "learning_rate": 4.926690000000001e-05, "loss": 5.5277, "step": 32000 }, { "epoch": 8.61, "learning_rate": 4.9250266666666665e-05, "loss": 5.525, "step": 32500 }, { "epoch": 8.74, "learning_rate": 4.92336e-05, "loss": 5.519, "step": 33000 }, { "epoch": 8.87, "learning_rate": 4.921693333333334e-05, "loss": 5.5216, "step": 33500 }, { "epoch": 9.01, "learning_rate": 4.920033333333334e-05, "loss": 5.5153, "step": 34000 }, { "epoch": 9.14, "learning_rate": 4.918366666666667e-05, "loss": 5.513, "step": 34500 }, { "epoch": 9.27, "learning_rate": 4.9167e-05, "loss": 5.5123, "step": 35000 }, { "epoch": 9.4, "learning_rate": 4.9150333333333336e-05, "loss": 5.5077, "step": 35500 }, { "epoch": 9.54, "learning_rate": 4.913366666666667e-05, "loss": 5.5034, "step": 36000 }, { "epoch": 9.67, "learning_rate": 4.9117000000000004e-05, "loss": 5.5053, "step": 36500 }, { "epoch": 9.8, "learning_rate": 4.9100333333333335e-05, "loss": 5.5026, "step": 37000 }, { "epoch": 9.93, "learning_rate": 4.9083666666666666e-05, "loss": 5.4711, "step": 37500 }, { "epoch": 10.07, "learning_rate": 4.9067033333333336e-05, "loss": 5.1945, "step": 38000 }, { "epoch": 10.2, "learning_rate": 4.905036666666667e-05, "loss": 4.9767, "step": 38500 }, { "epoch": 10.33, "learning_rate": 4.9033700000000005e-05, "loss": 4.7965, "step": 39000 }, { "epoch": 10.46, "learning_rate": 4.9017033333333335e-05, "loss": 4.6281, "step": 39500 }, { "epoch": 10.6, "learning_rate": 4.900036666666667e-05, "loss": 4.4679, "step": 40000 }, { "epoch": 10.73, "learning_rate": 4.89837e-05, "loss": 4.3017, "step": 40500 }, { "epoch": 10.86, "learning_rate": 4.8967033333333334e-05, "loss": 4.1427, "step": 41000 }, { "epoch": 10.99, "learning_rate": 4.895036666666667e-05, "loss": 3.9857, "step": 41500 }, { "epoch": 11.13, "learning_rate": 4.8933733333333336e-05, "loss": 3.8272, "step": 42000 }, { "epoch": 11.26, "learning_rate": 4.8917066666666666e-05, "loss": 3.6712, "step": 42500 }, { "epoch": 11.39, "learning_rate": 4.8900400000000004e-05, "loss": 3.4158, "step": 43000 }, { "epoch": 11.52, "learning_rate": 4.8883733333333334e-05, "loss": 2.7896, "step": 43500 }, { "epoch": 11.66, "learning_rate": 4.8867066666666665e-05, "loss": 2.3599, "step": 44000 }, { "epoch": 11.79, "learning_rate": 4.88504e-05, "loss": 2.149, "step": 44500 }, { "epoch": 11.92, "learning_rate": 4.883373333333334e-05, "loss": 2.0239, "step": 45000 }, { "epoch": 12.05, "learning_rate": 4.8817100000000004e-05, "loss": 1.9323, "step": 45500 }, { "epoch": 12.19, "learning_rate": 4.8800433333333335e-05, "loss": 1.8612, "step": 46000 }, { "epoch": 12.32, "learning_rate": 4.878376666666667e-05, "loss": 1.8034, "step": 46500 }, { "epoch": 12.45, "learning_rate": 4.87671e-05, "loss": 1.7511, "step": 47000 }, { "epoch": 12.58, "learning_rate": 4.8750433333333333e-05, "loss": 1.7082, "step": 47500 }, { "epoch": 12.72, "learning_rate": 4.873376666666667e-05, "loss": 1.6691, "step": 48000 }, { "epoch": 12.85, "learning_rate": 4.87171e-05, "loss": 1.6354, "step": 48500 }, { "epoch": 12.98, "learning_rate": 4.8700466666666666e-05, "loss": 1.6044, "step": 49000 }, { "epoch": 13.11, "learning_rate": 4.86838e-05, "loss": 1.5762, "step": 49500 }, { "epoch": 13.25, "learning_rate": 4.8667133333333334e-05, "loss": 1.552, "step": 50000 }, { "epoch": 13.38, "learning_rate": 4.8650466666666664e-05, "loss": 1.5254, "step": 50500 }, { "epoch": 13.51, "learning_rate": 4.86338e-05, "loss": 1.5016, "step": 51000 }, { "epoch": 13.64, "learning_rate": 4.861713333333334e-05, "loss": 1.4854, "step": 51500 }, { "epoch": 13.77, "learning_rate": 4.860046666666666e-05, "loss": 1.4639, "step": 52000 }, { "epoch": 13.91, "learning_rate": 4.85838e-05, "loss": 1.4464, "step": 52500 }, { "epoch": 14.04, "learning_rate": 4.856716666666667e-05, "loss": 1.428, "step": 53000 }, { "epoch": 14.17, "learning_rate": 4.85505e-05, "loss": 1.4108, "step": 53500 }, { "epoch": 14.3, "learning_rate": 4.853383333333333e-05, "loss": 1.394, "step": 54000 }, { "epoch": 14.44, "learning_rate": 4.851716666666667e-05, "loss": 1.381, "step": 54500 }, { "epoch": 14.57, "learning_rate": 4.85005e-05, "loss": 1.3665, "step": 55000 }, { "epoch": 14.7, "learning_rate": 4.848383333333333e-05, "loss": 1.3524, "step": 55500 }, { "epoch": 14.83, "learning_rate": 4.846716666666667e-05, "loss": 1.3421, "step": 56000 }, { "epoch": 14.97, "learning_rate": 4.8450500000000006e-05, "loss": 1.3328, "step": 56500 }, { "epoch": 15.1, "learning_rate": 4.8433866666666664e-05, "loss": 1.3186, "step": 57000 }, { "epoch": 15.23, "learning_rate": 4.84172e-05, "loss": 1.3081, "step": 57500 }, { "epoch": 15.36, "learning_rate": 4.840053333333334e-05, "loss": 1.2977, "step": 58000 }, { "epoch": 15.5, "learning_rate": 4.838386666666667e-05, "loss": 1.2858, "step": 58500 }, { "epoch": 15.63, "learning_rate": 4.83672e-05, "loss": 1.2789, "step": 59000 }, { "epoch": 15.76, "learning_rate": 4.835053333333334e-05, "loss": 1.2705, "step": 59500 }, { "epoch": 15.89, "learning_rate": 4.8333866666666675e-05, "loss": 1.2606, "step": 60000 }, { "epoch": 16.03, "learning_rate": 4.831723333333333e-05, "loss": 1.2506, "step": 60500 }, { "epoch": 16.16, "learning_rate": 4.830056666666667e-05, "loss": 1.2413, "step": 61000 }, { "epoch": 16.29, "learning_rate": 4.828390000000001e-05, "loss": 1.234, "step": 61500 }, { "epoch": 16.42, "learning_rate": 4.826723333333333e-05, "loss": 1.2269, "step": 62000 }, { "epoch": 16.56, "learning_rate": 4.825056666666667e-05, "loss": 1.2201, "step": 62500 }, { "epoch": 16.69, "learning_rate": 4.823393333333334e-05, "loss": 1.2118, "step": 63000 }, { "epoch": 16.82, "learning_rate": 4.821726666666667e-05, "loss": 1.206, "step": 63500 }, { "epoch": 16.95, "learning_rate": 4.82006e-05, "loss": 1.1987, "step": 64000 }, { "epoch": 17.09, "learning_rate": 4.818396666666667e-05, "loss": 1.1924, "step": 64500 }, { "epoch": 17.22, "learning_rate": 4.81673e-05, "loss": 1.1856, "step": 65000 }, { "epoch": 17.35, "learning_rate": 4.815063333333333e-05, "loss": 1.1776, "step": 65500 }, { "epoch": 17.48, "learning_rate": 4.813396666666667e-05, "loss": 1.1722, "step": 66000 }, { "epoch": 17.62, "learning_rate": 4.8117333333333334e-05, "loss": 1.1657, "step": 66500 }, { "epoch": 17.75, "learning_rate": 4.810066666666667e-05, "loss": 1.1609, "step": 67000 }, { "epoch": 17.88, "learning_rate": 4.8084e-05, "loss": 1.1547, "step": 67500 }, { "epoch": 18.01, "learning_rate": 4.806733333333333e-05, "loss": 1.1505, "step": 68000 }, { "epoch": 18.15, "learning_rate": 4.805066666666667e-05, "loss": 1.1429, "step": 68500 }, { "epoch": 18.28, "learning_rate": 4.8034033333333335e-05, "loss": 1.1364, "step": 69000 }, { "epoch": 18.41, "learning_rate": 4.801736666666667e-05, "loss": 1.132, "step": 69500 }, { "epoch": 18.54, "learning_rate": 4.80007e-05, "loss": 1.1247, "step": 70000 }, { "epoch": 18.68, "learning_rate": 4.7984033333333333e-05, "loss": 1.1205, "step": 70500 }, { "epoch": 18.81, "learning_rate": 4.796736666666667e-05, "loss": 1.1149, "step": 71000 }, { "epoch": 18.94, "learning_rate": 4.79507e-05, "loss": 1.1095, "step": 71500 }, { "epoch": 19.07, "learning_rate": 4.793403333333333e-05, "loss": 1.107, "step": 72000 }, { "epoch": 19.21, "learning_rate": 4.79174e-05, "loss": 1.1018, "step": 72500 }, { "epoch": 19.34, "learning_rate": 4.7900733333333334e-05, "loss": 1.0968, "step": 73000 }, { "epoch": 19.47, "learning_rate": 4.788406666666667e-05, "loss": 1.0896, "step": 73500 }, { "epoch": 19.6, "learning_rate": 4.78674e-05, "loss": 1.0893, "step": 74000 }, { "epoch": 19.74, "learning_rate": 4.785073333333334e-05, "loss": 1.0843, "step": 74500 }, { "epoch": 19.87, "learning_rate": 4.783406666666667e-05, "loss": 1.0809, "step": 75000 }, { "epoch": 20.0, "learning_rate": 4.7817433333333334e-05, "loss": 1.0753, "step": 75500 }, { "epoch": 20.13, "learning_rate": 4.780076666666667e-05, "loss": 1.0712, "step": 76000 }, { "epoch": 20.26, "learning_rate": 4.77841e-05, "loss": 1.0647, "step": 76500 }, { "epoch": 20.4, "learning_rate": 4.776743333333333e-05, "loss": 1.0644, "step": 77000 }, { "epoch": 20.53, "learning_rate": 4.775076666666667e-05, "loss": 1.0597, "step": 77500 }, { "epoch": 20.66, "learning_rate": 4.7734133333333334e-05, "loss": 1.0567, "step": 78000 }, { "epoch": 20.79, "learning_rate": 4.771746666666667e-05, "loss": 1.0532, "step": 78500 }, { "epoch": 20.93, "learning_rate": 4.77008e-05, "loss": 1.0511, "step": 79000 }, { "epoch": 21.06, "learning_rate": 4.768413333333333e-05, "loss": 1.0451, "step": 79500 }, { "epoch": 21.19, "learning_rate": 4.7667500000000004e-05, "loss": 1.0436, "step": 80000 }, { "epoch": 21.32, "learning_rate": 4.7650833333333335e-05, "loss": 1.0398, "step": 80500 }, { "epoch": 21.46, "learning_rate": 4.7634166666666665e-05, "loss": 1.0375, "step": 81000 }, { "epoch": 21.59, "learning_rate": 4.76175e-05, "loss": 1.0348, "step": 81500 }, { "epoch": 21.72, "learning_rate": 4.7600833333333333e-05, "loss": 1.0292, "step": 82000 }, { "epoch": 21.85, "learning_rate": 4.7584200000000004e-05, "loss": 1.0275, "step": 82500 }, { "epoch": 21.99, "learning_rate": 4.7567533333333335e-05, "loss": 1.0226, "step": 83000 }, { "epoch": 22.12, "learning_rate": 4.755086666666667e-05, "loss": 1.0204, "step": 83500 }, { "epoch": 22.25, "learning_rate": 4.75342e-05, "loss": 1.0165, "step": 84000 }, { "epoch": 22.38, "learning_rate": 4.7517533333333334e-05, "loss": 1.0138, "step": 84500 }, { "epoch": 22.52, "learning_rate": 4.7500900000000005e-05, "loss": 1.0138, "step": 85000 }, { "epoch": 22.65, "learning_rate": 4.7484233333333335e-05, "loss": 1.0097, "step": 85500 }, { "epoch": 22.78, "learning_rate": 4.7467566666666666e-05, "loss": 1.0066, "step": 86000 }, { "epoch": 22.91, "learning_rate": 4.74509e-05, "loss": 1.0057, "step": 86500 }, { "epoch": 23.05, "learning_rate": 4.7434266666666674e-05, "loss": 1.0003, "step": 87000 }, { "epoch": 23.18, "learning_rate": 4.74176e-05, "loss": 0.9995, "step": 87500 }, { "epoch": 23.31, "learning_rate": 4.7400933333333336e-05, "loss": 0.997, "step": 88000 }, { "epoch": 23.44, "learning_rate": 4.738426666666667e-05, "loss": 0.9945, "step": 88500 }, { "epoch": 23.58, "learning_rate": 4.7367600000000004e-05, "loss": 0.9905, "step": 89000 }, { "epoch": 23.71, "learning_rate": 4.735096666666667e-05, "loss": 0.9884, "step": 89500 }, { "epoch": 23.84, "learning_rate": 4.7334300000000005e-05, "loss": 0.9881, "step": 90000 }, { "epoch": 23.97, "learning_rate": 4.7317633333333336e-05, "loss": 0.9845, "step": 90500 }, { "epoch": 24.11, "learning_rate": 4.7300966666666667e-05, "loss": 0.982, "step": 91000 }, { "epoch": 24.24, "learning_rate": 4.7284300000000004e-05, "loss": 0.9799, "step": 91500 }, { "epoch": 24.37, "learning_rate": 4.7267633333333335e-05, "loss": 0.9751, "step": 92000 }, { "epoch": 24.5, "learning_rate": 4.7251e-05, "loss": 0.9743, "step": 92500 }, { "epoch": 24.64, "learning_rate": 4.7234333333333336e-05, "loss": 0.9752, "step": 93000 }, { "epoch": 24.77, "learning_rate": 4.7217666666666674e-05, "loss": 0.9711, "step": 93500 }, { "epoch": 24.9, "learning_rate": 4.7201e-05, "loss": 0.971, "step": 94000 } ], "max_steps": 1510000, "num_train_epochs": 400, "total_flos": 2.5430025926080463e+19, "trial_name": null, "trial_params": null }