File size: 3,029 Bytes

93307fd
 
 
9b4afcd
93307fd
9b4afcd
93307fd
 
 
 
 
 
9b4afcd
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
 
 
93307fd
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
 
9b4afcd
 
 
 
 
93307fd
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
93307fd
 
 
9b4afcd
 
 
 
 
93307fd
 
9b4afcd
 
 
 
 
 
 
 
 
 
 
 
 
 
 
93307fd
 
 
9b4afcd
93307fd
 
 
9b4afcd
93307fd

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 51,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06,
      "grad_norm": 7.433030029804606,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.9486,
      "step": 1
    },
    {
      "epoch": 0.29,
      "grad_norm": 132.09106671695386,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 1.1703,
      "step": 5
    },
    {
      "epoch": 0.59,
      "grad_norm": 9.251568558996158,
      "learning_rate": 1.961261695938319e-05,
      "loss": 1.0685,
      "step": 10
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.328676411784069,
      "learning_rate": 1.8090169943749477e-05,
      "loss": 1.0423,
      "step": 15
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.2217166423797607,
      "eval_runtime": 4.1499,
      "eval_samples_per_second": 10.121,
      "eval_steps_per_second": 0.723,
      "step": 17
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.5643197557582407,
      "learning_rate": 1.5591929034707468e-05,
      "loss": 0.8385,
      "step": 20
    },
    {
      "epoch": 1.47,
      "grad_norm": 2.778059481053355,
      "learning_rate": 1.2419218955996677e-05,
      "loss": 0.7726,
      "step": 25
    },
    {
      "epoch": 1.76,
      "grad_norm": 2.439799240539835,
      "learning_rate": 8.954715367323468e-06,
      "loss": 0.8111,
      "step": 30
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.184422492980957,
      "eval_runtime": 3.96,
      "eval_samples_per_second": 10.606,
      "eval_steps_per_second": 0.758,
      "step": 34
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.1823488644464084,
      "learning_rate": 5.616288532109225e-06,
      "loss": 0.7542,
      "step": 35
    },
    {
      "epoch": 2.35,
      "grad_norm": 2.5658011548139052,
      "learning_rate": 2.8066019966134907e-06,
      "loss": 0.6539,
      "step": 40
    },
    {
      "epoch": 2.65,
      "grad_norm": 2.532024165395188,
      "learning_rate": 8.645454235739903e-07,
      "loss": 0.6478,
      "step": 45
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.036766400192092,
      "learning_rate": 2.4359497401758026e-08,
      "loss": 0.6164,
      "step": 50
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.198138952255249,
      "eval_runtime": 3.9851,
      "eval_samples_per_second": 10.539,
      "eval_steps_per_second": 0.753,
      "step": 51
    },
    {
      "epoch": 3.0,
      "step": 51,
      "total_flos": 10626017525760.0,
      "train_loss": 0.8299297000847611,
      "train_runtime": 879.3584,
      "train_samples_per_second": 3.708,
      "train_steps_per_second": 0.058
    }
  ],
  "logging_steps": 5,
  "max_steps": 51,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 10626017525760.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}