{ "best_metric": null, "best_model_checkpoint": null, "epoch": 42.10526315789474, "eval_steps": 500, "global_step": 200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.63, "learning_rate": 0.0003, "loss": 1.3677, "step": 3 }, { "epoch": 1.26, "learning_rate": 0.0006, "loss": 1.0177, "step": 6 }, { "epoch": 1.89, "learning_rate": 0.0008, "loss": 0.8893, "step": 9 }, { "epoch": 2.53, "learning_rate": 0.001, "loss": 1.0625, "step": 12 }, { "epoch": 3.16, "learning_rate": 0.0013000000000000002, "loss": 0.7547, "step": 15 }, { "epoch": 3.79, "learning_rate": 0.0016, "loss": 0.4742, "step": 18 }, { "epoch": 4.42, "learning_rate": 0.0019, "loss": 0.3748, "step": 21 }, { "epoch": 5.05, "learning_rate": 0.001977777777777778, "loss": 0.4516, "step": 24 }, { "epoch": 5.68, "learning_rate": 0.0019555555555555554, "loss": 0.3278, "step": 27 }, { "epoch": 6.32, "learning_rate": 0.0019222222222222223, "loss": 0.421, "step": 30 }, { "epoch": 6.95, "learning_rate": 0.001888888888888889, "loss": 0.2738, "step": 33 }, { "epoch": 7.58, "learning_rate": 0.0018555555555555556, "loss": 0.2307, "step": 36 }, { "epoch": 8.21, "learning_rate": 0.0018222222222222223, "loss": 0.2955, "step": 39 }, { "epoch": 8.84, "learning_rate": 0.0018000000000000002, "loss": 0.399, "step": 42 }, { "epoch": 9.47, "learning_rate": 0.001788888888888889, "loss": 0.6656, "step": 45 }, { "epoch": 10.11, "learning_rate": 0.0017666666666666666, "loss": 0.7389, "step": 48 }, { "epoch": 10.74, "learning_rate": 0.0017333333333333335, "loss": 0.1417, "step": 51 }, { "epoch": 11.37, "learning_rate": 0.0017, "loss": 0.2441, "step": 54 }, { "epoch": 12.0, "learning_rate": 0.0016666666666666668, "loss": 0.1786, "step": 57 }, { "epoch": 12.63, "learning_rate": 0.0016333333333333334, "loss": 0.0805, "step": 60 }, { "epoch": 13.26, "learning_rate": 0.0016, "loss": 0.1806, "step": 63 }, { "epoch": 13.89, "learning_rate": 0.0015666666666666667, "loss": 0.1011, "step": 66 }, { "epoch": 14.53, "learning_rate": 0.0015333333333333334, "loss": 0.08, "step": 69 }, { "epoch": 15.16, "learning_rate": 0.0015, "loss": 0.0982, "step": 72 }, { "epoch": 15.79, "learning_rate": 0.0014666666666666667, "loss": 0.1105, "step": 75 }, { "epoch": 16.42, "learning_rate": 0.0014333333333333333, "loss": 0.1103, "step": 78 }, { "epoch": 17.05, "learning_rate": 0.0014, "loss": 0.086, "step": 81 }, { "epoch": 17.68, "learning_rate": 0.0013666666666666666, "loss": 0.0764, "step": 84 }, { "epoch": 18.32, "learning_rate": 0.0013333333333333333, "loss": 0.0748, "step": 87 }, { "epoch": 18.95, "learning_rate": 0.0013000000000000002, "loss": 0.1183, "step": 90 }, { "epoch": 19.58, "learning_rate": 0.0012666666666666666, "loss": 0.059, "step": 93 }, { "epoch": 20.21, "learning_rate": 0.0012333333333333335, "loss": 0.0706, "step": 96 }, { "epoch": 20.84, "learning_rate": 0.0012, "loss": 0.0499, "step": 99 }, { "epoch": 21.47, "learning_rate": 0.0011666666666666668, "loss": 0.0406, "step": 102 }, { "epoch": 22.11, "learning_rate": 0.0011333333333333334, "loss": 0.0569, "step": 105 }, { "epoch": 22.74, "learning_rate": 0.0011, "loss": 0.0354, "step": 108 }, { "epoch": 23.37, "learning_rate": 0.0010666666666666667, "loss": 0.0362, "step": 111 }, { "epoch": 24.0, "learning_rate": 0.0010333333333333334, "loss": 0.0752, "step": 114 }, { "epoch": 24.63, "learning_rate": 0.001, "loss": 0.026, "step": 117 }, { "epoch": 25.26, "learning_rate": 0.0009666666666666667, "loss": 0.0418, "step": 120 }, { "epoch": 25.89, "learning_rate": 0.0009333333333333333, "loss": 0.0332, "step": 123 }, { "epoch": 26.53, "learning_rate": 0.0009000000000000001, "loss": 0.0245, "step": 126 }, { "epoch": 27.16, "learning_rate": 0.0008666666666666667, "loss": 0.036, "step": 129 }, { "epoch": 27.79, "learning_rate": 0.0008333333333333334, "loss": 0.0233, "step": 132 }, { "epoch": 28.42, "learning_rate": 0.0008, "loss": 0.0246, "step": 135 }, { "epoch": 29.05, "learning_rate": 0.0007666666666666667, "loss": 0.0249, "step": 138 }, { "epoch": 29.68, "learning_rate": 0.0007333333333333333, "loss": 0.0217, "step": 141 }, { "epoch": 30.32, "learning_rate": 0.0007, "loss": 0.0157, "step": 144 }, { "epoch": 30.95, "learning_rate": 0.0006666666666666666, "loss": 0.0185, "step": 147 }, { "epoch": 31.58, "learning_rate": 0.0006333333333333333, "loss": 0.0122, "step": 150 }, { "epoch": 32.21, "learning_rate": 0.0006, "loss": 0.0106, "step": 153 }, { "epoch": 32.84, "learning_rate": 0.0005666666666666667, "loss": 0.0143, "step": 156 }, { "epoch": 33.47, "learning_rate": 0.0005333333333333334, "loss": 0.0085, "step": 159 }, { "epoch": 34.11, "learning_rate": 0.0005, "loss": 0.011, "step": 162 }, { "epoch": 34.74, "learning_rate": 0.00046666666666666666, "loss": 0.0077, "step": 165 }, { "epoch": 35.37, "learning_rate": 0.00043333333333333337, "loss": 0.0075, "step": 168 }, { "epoch": 36.0, "learning_rate": 0.0004, "loss": 0.0062, "step": 171 }, { "epoch": 36.63, "learning_rate": 0.00036666666666666667, "loss": 0.0049, "step": 174 }, { "epoch": 37.26, "learning_rate": 0.0003333333333333333, "loss": 0.0057, "step": 177 }, { "epoch": 37.89, "learning_rate": 0.0003, "loss": 0.0068, "step": 180 }, { "epoch": 38.53, "learning_rate": 0.0002666666666666667, "loss": 0.0055, "step": 183 }, { "epoch": 39.16, "learning_rate": 0.00023333333333333333, "loss": 0.0046, "step": 186 }, { "epoch": 39.79, "learning_rate": 0.0002, "loss": 0.0053, "step": 189 }, { "epoch": 40.42, "learning_rate": 0.00016666666666666666, "loss": 0.004, "step": 192 }, { "epoch": 41.05, "learning_rate": 0.00013333333333333334, "loss": 0.005, "step": 195 }, { "epoch": 41.68, "learning_rate": 0.0001, "loss": 0.004, "step": 198 } ], "logging_steps": 3, "max_steps": 200, "num_train_epochs": 50, "save_steps": 500, "total_flos": 3.4983817248768e+16, "trial_name": null, "trial_params": null }